官報データ テキスト入力仕様

Version 1.63
Last Update:2000/2/24

イースト株式会社 コミュニケーション事業部
渋谷 誠


変更履歴

Version 1.0
初出
Version 1.1
入力例を例を追加。
行末の空白を入力するケースを追加
単純な記述ミスを修正
Version 1.2
さらに記述ミスを修正。「@$」→「@#」
表を罫線あり「.tb」と罫線なし「.tn」に区別
「4.」で大柱、中柱、項目名の入力を明記
「4.」 「省令」「府令」の省庁名の入力について明記
Version 1.3
「4.」の順番を整理
「4. E) 複数行に併記された省庁名」に偶数行のケースを明記
「4. F) 目次でのページ番号」を追加
Version 1.4
「5. 入力チェッカー」を追加
Version 1.5
重要:「強調」の入れ子を禁止し、代わりに「@eU」(ゴシック+傍線・下線)を追加
「3. G) 複雑な数式や化学式」で終了記号の誤記を訂正
「4. A)」に、重複した範囲指定での終端記号についての例を追加
「2.」に、終端指定の必要なものか単独記号かを明記
表中の改行を挟むような範囲指定を禁止
丸付き数字の「@c」には終端記号が不要であることを明記
「1. ファイル形式」に資料版などの種別を追加
表内のイメージ「@i」の終了記号に関する誤りを訂正
重要:複数文字の丸付き文字の為に「@C」(大文字)を追加。従来の「@c」(小文字)も使用可。
重要:「3. J) 表」に、「セル内改行の特別ルール」を追加。
Version 1.6
重要:表中の「複雑なセル」についての入力方法を定義(「.x」と「@x???#」の追加)
重要:「飾り文字」の記号「@z????@#」を追加
重要:「資料版」専用の見出し記号「.mk?」「.mn?」を追加
Version 1.61
「複雑なセルの入力方式」の「例」の誤りの訂正のみ
Version 1.62
「3. (M)官報分行」、「3. (N)「をに」文」で、記述を明確にしました
Version 1.63
「3. A) 文字の入力規定」に16進数でのUnicode文字の記述方法を追加
「3. I) イメージ、帳票、グラフ」にロゴマークの入力方法を追加
「3. O) 枠囲いの記事」に「その他宣伝」の入力方法を追加
「4. A) 範囲を持つ入力記号」にタブをまたがる範囲記号の禁止を追加
「4. B) ページをまたがる要素」に見開きや数ページ渡る表(イメージ)についての例外を追加

1. ファイル形式

官報1ページにつき1ファイルのShift-JISのテキストファイルとする。

ファイル名は、「官報データ入力作業 入力規約書」(以下「官報仕様書」)の「1.2.2 作成するXMLファイル」に書かれた命名規約にならって以下のようにする。

yyyymmddXXnnnnnzz-ppp.txt

yyyymmdd: 発行日(西暦)
XX: 種別  (kh:本紙, kg:号外, kt:特別号外, kb:物価号外, ks:政府調達,)
        km:官報目録, hs:資料版, mb:物価号外目録, ms:資料版目録)
nnnnn: 号数(ない場合は00000)
zz: 枝番(号数のない時代の同日に出た複数の号外の連番、それ以外は00)
ppp: ページ番号(001から始める)

拡張子は .txt (小文字)とする。


2. 入力記号の概要

自動タグ付けのために特別な入力記号を使用する。記号は全て半角文字で、英字については原則として全て小文字である。(例外:「@eU」と「@C」)

「.」(半角ピリオド)で始まる行は特別な意味を持った行である。

行内では「@」(半角)で始まるインラインの入力記号を使用する。

入力記号の全リストは以下の通り。(詳細は次章)


3. 入力規則

A) 文字の入力規定

基本的には「官報仕様書」の「2.3.3 文字入力各論」に従うものとするが、以下の点が異なる。

B) 改行と空白の規則

改行は論理行で行う。つまり、文章が続いているにも関わらず行末で強制改行されている場合には改行を入れずに一行として入力する。

上記以外でタブは一切使用しないこと。また上記に従えば、通常の行中に複数のタブが現れることもない筈である。複数ある場合は、後述の「名前組み」か「正誤表」と判断されるので注意。

以下の例では、タブを[TAB]で、改行を[CR]で表している。順に、

  1. 通常行

  2. 尻揃え

  3. 尻揃え

  4. 中央揃え

  5. 通常行

  6. 通常行

  7. 両端揃え

 平成十一年十月五日[CR]
.r内閣総理大臣 小渕 恵三 [CR]
.r大蔵大臣 宮澤 喜一 [CR]
[TAB]省    令[CR]
○郵政省令第七十二号[CR]
  放送法(昭和二十五年法律第百三十二号)の規定に基づき、及び同法を実施するため・・・・・・・・・・[CR]
  平成十一年十月五日[TAB]郵政大臣 野田 聖子  [CR]

C) 文字修飾

これらの文字修飾を「入れ子」にすることはできないので注意。(Version 1.5 からの変更)

@eg(負債の部)@#
@edへき@#地教育推進法
@eu多摩丸@# @euベンガル丸@#

D) ルビ

ルビ付文字は全体を「@r」と「@#」で囲み、親文字、ルビの順に、間を「@/」で区切って入力する。

@r株式会社@/かぶしきがいしゃ@#

E) 添字

上付の添字は「@su」と「@#」で囲んで、下付の添字は「@sb」と「@#」で囲んで入力する。

H@sb2@#O
E=MC@su2@#

F) 分数

分数は全体を「@b」と「@#」で囲み、分子、分母の順に、間を「@/」で区切って入力する。

添字付の分数は、添字の記述を分子や分母の記述の中に入れ子にして構わない。

F = @b273.3@/760@# X @b1@/T@# X P

G) 複雑な数式・化学式

分数や添字を使っただけでは表現できないような複雑な数式や化学式については、「原文の意味がなるべく解るような書き方で」「可能な限り入力」する。(「官報仕様書 2.2.8」参照)

その上で、その範囲全体を数式なら「.s」のみの行と「.#」のみの行で囲み、化学式なら「.k」のみの行と「.#」のみの行で囲む。

.s
fL<f<fu において
S(f)=(1/2)
(1+cos(f-fL)/(fu-fL)π)
.#

H) 仕切り罫線行

罫線のみが引かれている行については、「.h」ではじまり、罫線の長さを表す数値だけを続けた行を入力。この数値は、段の高さに対して罫線がどれくらいを占めているかをパーセントで表したおおよその数値とする。範囲を指定するのではなく、一行だけで完結する記号である。

.h50

I) イメージ、帳票、グラフ

イメージ、帳票、グラフについては、「.i」で始まり、「タイトル」をその後に続けた行を入力。(タイトルの探し方については「官報仕様書 2.2.9」参照)範囲を指定するのではなく、一行だけで完結する記号である。

.i第1図

(1.63 からの追記)
会社のロゴマークなどが、行の途中などにある場合も、イメージとして入力する。ただし、「.i」は「行頭記号」なので行の途中には入力できないないため。ロゴマークの前後で改行する。この場合は、論理行がロゴマークによって分断されても構わない。
また、ロゴマークにはタイトルなどはないので、「.i」だけの行として入力する。

J) 表

罫線ありの表は、表の範囲全体を「.tb」のみの行と「.#」のみの行で囲む。
罫線なしの表の範囲全体を「.tn」のみの行と「.#」のみの行で囲む。

中の表データは、行を改行で区切り、セルを「,」(半角のカンマ)で区切ったCSV形式で記述する。縦組みの表では、右から左に「行」が進み、上から下に「セル」が進むと考える。

複数のセルが結合されているような場合でも、仮想的にセルを分割して考え、行数と列数が揃ったCSVにする。行数と列数は「官報仕様書 2.2.3」をよく理解して最終的な表の形を判断した上で決定する。特に、括弧を含む表(2.2.3.4 と 2.2.3.5)についてはよく理解する必要がある。

.tb
周波数@$(MHz),水平偏波,,垂直偏波,
,h1=1m,h1=2m,h1=1m,h1=1.5m
,h2=1〜4m,h2=1〜4m,h2=1〜4m,h2=1〜4m
,理論値(dB),,,
30,15.8,13.4,11.3, 9.4
40,7.8,8.8, 7.0, 5.5
50,8.2, 6.9, 5.8, 4.9
.#

 

セル内改行の特別ルール(Version 1.52からの変更)

セル内に非常に多くのセル内改行が含まれる場合、ひとつの行が非常に長くなってしまい、入力しにくくなる場合が多い。このため、特別ルールを設けて「@$」の直後にだけは特別に改行を入れてもよいようにした。 つまり、「@$」の直後の改行だけは、特別に「表の行の区切り」とは見なさずに無視されるものとする。
例えば、以下の例は4x4の表で、「(資産の部)」の行から最後のひとつ前の「4@,134@,782@,571」の行までは、表内のひとつの行であるとして解釈される。
金額の桁の印である「,」をすべて「@,」で入力しなくてはならないことにも注目。
ただし、セル内改行が非常に多い場合は、Version 1.6 から追加された「複雑なセルの分離記述方法」で記述するほうが容易である。

.tb
資産の部,,負債及び資本の部,
科  目,金 額,科  目,金 額
 (資産の部)@$
  流動資産@$
  現金及び預金@$
  受取手形@$
  売掛金@$
,円@$
3@,359@,471@,808@$
612@,846@,491@$
561@,523@,395@$
599@,959@,190@$
,(負債の部)@$
  流動負債@$
  買掛金@$
  短期借入金@$
  未払金@$
,円@$
2@,896@,071@,203@$
691@,538@,220@$
50@,000@,000@$
4@,134@,782@,571
 資産合計, 13@,855@,705@,960, 負債及び資本合計, 13@,855@,705@,690
.#

 

複雑なセルの分離記述方法(Version 1.6 からの追加)

セル内に「非常に多くの改行」「数式」「化学式」「イメージ」「入れ子の表」などが含まれていて、入力が困難だったり不可能であったりする場合は、そのセルに目印となる記号だけを入力しておき、表の直後にそのセルに入るべきデータを通常の(表中でない)入力形式で入力することができる。
まず、表中のセルには「@x????#」の記号だけを入力する。「????」には任意の数字を入力する。このセルには「@x????#」記号以外の文字や記号を一切入れてはならないので注意。
そのセルに対応する内容は、「.t?」〜「.#」の表ブロックの直後に「.x????」と「.#」で囲まれたブロックとして入力する。複数のセルをこの方法で分離させる場合には、「.x????」と「.#」で囲まれたブロックがいくつも続くことになる。
このとき、「.x」の後に続く「????」は、先にセル内で「@x????#」で入力した数字と一致するようにする。複数のセルを分離させる場合に、この数字によってどれとどれが対応するかを決定するので、この数字は同一の表の中で重複しないように付けなくてはならない。付け方は任意の方法で決めて構わないが、「2行目3列目のセル」なら「@x23#」のようにつけるとよいであろう。
「.x????」と「.#」で囲まれたブロックには、この入力規約で許されているいろいろな記号のうち、「.f」と「.x」を除いた全てが使用できる。したがって、「表」「イメージ」「数式」「化学式」なども記述できる。「セル内改行(@$)」や「セル内カンマ(@,)」の記号を使用する必要もない。先の「決算公告」の例も以下のようになる。

.tb
資産の部,,負債及び資本の部,
科  目,金 額,科  目,金 額
@x31#,@x32#,@x33#,@x34#
資産合計,@x42#,負債及び資本合計,@x44#
.#
.x31
 (資産の部)
  流動資産
  現金及び預金
  受取手形
  売掛金
.#
.x32
円
3,359,471,808
612,846,491
561,523,395
599,959,190
.#
.x33
(負債の部)
  流動負債
  買掛金
  短期借入金
  未払金
.#
.x34
円
2,896,071,203
691,538,220
50,000,000
4,134,782,571
.#
.x42
13,855,705,960
.#
.x44
13,855,705,690
.#

K) 両端揃え表

両端揃えの行が連続して、表のように組まれている場合も、通常の両端揃えと同様に行中の分かれ目の部分の空白部分をタブひとつに置き換えて入力ればよい。

ただし、リーダーの付いた両端揃えの表については、その範囲全体を「.l」で始まる行と「.#」のみの行で囲む。「.l」で始まる行には、続けてリーダーの種類を表す文字列を入力する。2点リーダーは「2ten」、3点リーダーは「3ten」とするが、これ以外の種類については自由に入力してよい。(「官報仕様書 2.2.4」にも厳密な規定はない)

.l2ten
金 地 金[TAB]25,521,505
現   金[TAB]6,303,192
割引 手形[TAB]23,456,737
貸 付 金[TAB]234,677
.#

L) 名前組み

名前などの一覧が表のように組まれたもの(「官報仕様書 2.2.4.2」)については、表の境目の部分にタブを入力する。例えば、4段組の表ならタブは3つになる。行内に複数のタブが入るのはこれと「正誤表」のケースだけである。

ひとつの名前組みの中では、段数(つまり行内のタブの数)は揃っていなくてはならない。途中の特定の行だけ要素がないような場合は、ダミーの要素があるものとしてタブの数を合わせる。

二二八一八[TAB]田原 正[TAB]二八五〇二[TAB]阿部 欽一
五九八四三[TAB]横山 信太郎[TAB]九八六三二[TAB]田村 知章
七七七六五[TAB]吉見 隆[TAB]五七九一三[TAB]平田 真夫

M) 官報分行

分行の範囲全体を「.b」のみの行と「.#」のみの行で囲み、この間に分行の各行を改行で区切って並べる。
「泣き別れ」のケースや「をに」文中に現れる場合など、「官報仕様書 2.2.5」をよく理解して判断する必要がある。

「をに」文中に現れる場合の、基本方針と入力例は以下のとおり。

.b
「PM96 まつうら
 PM97 くなしり
 PM98 みなべ 」
.#

「省令」「府令」などのタイトルとして省庁名が複数行に分かれて書かれているケースについては、分行ではないので注意。詳しくは、「4. その他の注意事項」参照。

N) 「をに」文

「をに」文には特別な記号は必要ないが、「表」や「官報分行」を含むケースなど、「官報仕様書 2.2.5」をよく理解する必要がある。

以下は、表を含んだ「をに」文の入力例である。分行による「をに」文と異なり、括弧は表記号の中には入れずに外側に入力する。このふたつを混同しないよう注意が必要である。

「
.tb
青森地方法務局,弘前支局
.#
」を「
.tb
青森地方法務局,弘前支局
青森地方法務局,八戸支局
.#
」に改める。

O) 枠囲いの記事

「表付の決算公告」「その他宣伝」「お知らせ」などの枠で特別に囲まれた記事については、その範囲が明確になるように全体を「.f」のみの行と「.#」のみの行で囲む。

決算公告などでは表がよく使われているが、「.tb」「.#」のブロックを「.f」「.#」の内側に書いて構わない。

.f
[TAB]@eg第 19 期 決 算 公 告@#
 平成元年1月8日[TAB]東京都港区虎ノ門2−3−13
.r@eg株式会社  日本空港コンサルタンツ@#
.r代表取締役社長 松本  操
	・
	(略)
	・
.tb
	・
	(表のCSVデータ・略)
	・
.#
	(略)
	・
.#

(1.63 からの追加)
以下の「官報仕様書」(p.73)の「その他宣伝」に相当するものは、特別に「空の枠囲い記事」として入力する。

以下のような2行だけの入力となる。

.f
.#

P) 正誤表

正誤表の中の、「ページ|段|行|誤|正」の表形式で書かれている部分については、名前組みと同様に項目の境目にタブを入力する。

   正  誤
ページ[TAB]段[TAB]行[TAB]誤[TAB]正
 平成十一年九月二十九日(号外第百九十号)公布政令第三百五号(沖縄振興開発金融公庫法施行令の一部を改正する政令)
(印刷誤り)
二〇[TAB]二[TAB]終りから 七[TAB]小渕 恵二[TAB]小渕 恵三
 平成十一年九月十日公布農林水産省・通商産業省令第六号(商品取引員受託業務保証金規則の一部を改正する省令)
(原稿誤り)
三[TAB]上[TAB]終りから八[TAB]商品取引員受託業務保証金規則[TAB]受託業務保証金規則
三[TAB]上[TAB]終りから四[TAB]商品取引員受託業務保証金規則[TAB]受託業務保証金規則
三[TAB]上[TAB]終りから三[TAB]商品取引員受託業務保証金規則[TAB]受託業務保証金規則
 平成十一年八月二十三日建設省告示第千六百十七号(住宅地区改良法の規定により事業計画の変更を認可した件)
(原稿誤り)

Q) 「資料版」での見出し記号

「資料版」と「資料版目録」では見出しを自動識別できないため、見出しについても記号を付けて入力する。
「資料版」と「資料版目録」の入力方法については専用の入力仕様書を参照。ここでは追加される入力記号の紹介のみを行う。

記号は以下の6種類で、全て一行だけで完結する単独行の記号である。記号の直後から見出しとなる文字列を入力する。

これらの記号は「資料版」専用であり、「本紙系」の入力では使用してはならないので注意。


4. その他の注意事項

A) 範囲を持つ入力記号

範囲の始まりを示す入力記号は、必ず範囲の終了記号とペアになっていなくてはならない。ふたつの指定範囲が重なっていて、同じ箇所で終了する場合でも、必ずふたつの終了記号を入力しなくてはならない。(ただし、「強調」の「@e?」を入れ子にすることはできないので注意)

以下は、ゴシックとルビの重なったケースの例

@eg@r大蔵省@/おおくらしょう@#@#

行範囲を指定するものはそのページ内に「.#」の終了行が現れなくてはならないし、インラインの要素については、その行内に終了の記号「@#」が現れなくてはならない。また、表のセル内が「@$」によって複数行に分けられている場合、この改行記号を挟むようにして範囲指定をしてはならない。

(1.63 から追加)
「タブ組み」「両端揃え」「目次」「正誤」などのタブを使った入力では、タブを挟むような範囲指定をしてはならない。

行範囲を持つ「表」「分行」「枠囲い記事」が入れ子になるケースは、「枠囲い記事」中の「表」だけである。(「表」中の「表」は別表として入力)

B) ページをまたがる要素

ページの最後の行は論理行として次のページにつながっていることもあるが、その場合もページの終わりで切れているところまで入力すればよい。

分行や表はページをまたがることもあるが、構わずにページの最後で終わっているものと見なして入する。力し、「行頭記号」で指定する「行範囲」も必ずページ内で範囲を終わらせる(「.#」を入力する)ようにする。

(1.63から追加)
上記の原則の例外として、「見開きページを使った大きな表(イメージ)」や「数ページに渡って継続するひとつの表」については、一つの表やイメージとして入力する。
その場合、前のページの続きとなって何も入力するものがなくなってしまうページが発生するが、そのようなページもファイルとしては必要なので、空のファイルを作り、必ず連番で抜けのない一連のファイルを作成する。

C) ページ内の入力範囲

欄外柱の部分の文字や、「官報」の題字は入力しない。各号の先頭ページは「目次」から始まるはずである。

D) 大柱、中柱、項目名

大きなセクションのタイトルとして中央揃えとなっているもの(大柱、中柱、項目名など)は、最終的にはタグに置き変わるものであるが、このテキスト入力の段階では文字としてそのまま入力する。

通常のの行と同じように、行頭にタブひとつだけ入れることによって「中央揃え」に設定し、文字と文字のの間に空白がある場合はその分だけの空白も正しく入力する。

E) 複数行に併記された省庁名

「省令」「府令」などのタイトルとして省庁名が複数行に分かれて書かれているケースは、分行ではなく普通の行が並んでいるように入力する。例えば、「官報仕様書 2.1.1.3 (21)」の例については以下のようになる。

{TAB]省   令
 大 蔵 省、厚 生 省、
○農林水産省、通商産業省、令第一号
 運 輸 省
 特定工場に於ける公害防止組織の整備に関する・・・・・・・・・

上記は省名の列挙部分が3行であるため、行頭の「○」や「令第一号」の部分は中央の行に入力すればよい。
列挙部分が2行で半行分ずらして組んである場合には、1行目の方に「○」や「令第一号」のような共通部分を入力する。
一般に、省名列挙部分が奇数の場合は中央の行に、偶数の場合は前の半分の最後の行に、「列挙部分以外」を入力する。

F) 目次でのページ番号

「目次」で行末にページ番号が書かれている行は、「両端揃え」として入力する。つまり、目次の項目名の最後とページ番号の間には大量の全角空白を入れる必要はなく、タブをひとつ入れるだけでよい。


5. 入力チェッカー

正しい入力が行われているかの最低限のチェックするための、入力チェックプログラムを用意する予定である。このプログラムはWindows上で動作し、エラーの発見された行の情報が解るようなものである。

そのプログラムでチェックする内容は以下の通りで、最低限度の文法的なチェックを行うのみである。決してこの仕様書に書かれたこと全てをチェックできるものではなく、これを通ったからといって仕様を満足していることを保証するものではない。

1) 文字コードのチェック

JIS第1水準、第2水準の文字以外が使われていないか? ただし、Windowsで使用可能なJIS外の記号のうち、以下のものについてはエラーとはしない。(自動タグ付け工程でJIS内文字に置き換えた形式に自動変換可能なため)

2) 入力記号の文法チェック

「@」(半角)のあとにつづく文字が、すべてこの仕様書でインライン入力記号として定義されているものであるか?
(通常の「@」文字が正しく「@@」で入力されていないとこれでエラーになる。)

「@?nnnnn#」の形式の入力記号で、最後の「#」が同一行内に正しく現れるか?

「@?」と「@#」で範囲指定する形式の入力記号で、最後の「@#」が同一行内に正しく現れるか?

「@?」と「@/」と「@#」でふたつの範囲指定する形式の入力記号で、「@/」と「@#」が同一行内に正しく現れるか?

「.」(半角ピリオド)で始まる行が、この仕様書で入力記号として定義されているものであるか?

「.?」で始まり、「.#」で終わる範囲指定の入力記号で、「.#」の行がファイル内に正しく現れるか?

「.?」〜「.#」の範囲が入れ子になっていないか?(ただし、「.f」範囲に「.f」以外の入れ子はOK、「.x」範囲に「.f」「.x」以外の入れ子はOK)

3) 表内のCSVのセル数一致チェック

「.tb」「.tn」の表範囲の中のCSVデータで、「,」(カンマ)で区切られたセルの数が全ての行で一致しているか?