電子書籍ケーススタディ 付録
 官報XML化プロジェクト
イースト株式会社 下川 和男

プロジェクト概要

大蔵省では、1999年度に官報のXML化プロジェクトを実施した。

1999年12月に入札が行われ、印刷会社を中心に10社が落札した。イーストは、数社の落札業者から、今回のプロジェクトに関するシステム開発およびXML化(タグの設定部分)を受注し、非常に効率良く仕事を進めることができた。

官報XML化プロジェクトは、昭和22年以降のすべての官報を紙からテキストデータを作成し、それにXMLタグをつけるというものである。官報は1冊32ページの構成で、1ページは4段組で2000から3000文字が印刷されている。今回のプロジェクトでは、全体で88万ページのXML化が進められた。

1999年12月に発注され、納期は当初年度内の2000年3月の予定であった。しかし、分量が非常に多く、落札業者の仕事の状況からみてもかなり厳しいプロジェクトとなり、非常の多くの労力を使った仕事となった。

官報には様々なジャンルがあり、ジャンルごとに本誌や目録、政府調達、資料編などが作成されている。官報は、調達の資料や土地の地価などが公示されたり、省令や法律なども掲載される。上場企業などは、決算書を官報で公開するなど、さまざまな情報が印刷されている。

官報DTD

官報のXMLスキーマとして、大蔵省印刷局では約1000種類のタグを用意した。この仕様書は6分冊、厚さ 10cmほどにもなる。この官報DTDをベースにXML化が進められた。

XML化においては、官報を忠実に表現することが要求された。文字の右寄せや左寄せ、決算書などの表もきちんと作りこまなくてはならない。図に関してはテキスト化が難しいため、すでに用意されているTIFF画像を参照することが決められていた。

実は、XML化プロジェクトの以前に、戦後すべての官報88万ページを画像データ(TIFFファイル)にするというプロジェクトが実施された。今回のXML化プロジェクトでは、官報に図がでてきた場合は、このTIFFデータを参照する。例えば、図版があるページには図版の場所に該当ページの参照タグを挿入する。大蔵省のサイトでこれらのデータが公開されれば、クリックすると該当する図が含まれたページが表示される仕組みになるのであろう。

完璧なXML化を実現するため、タグ部分が完璧であるとともに、文字についても99.95%の精度が要求された。しかし、OCRでテキスト化した会社はかなり苦労したようである。

外字は文字鏡

官報のXMLで、外字は文字鏡番号で記述することが決められている。ここでは、パッケージソフトの今昔文字鏡(2万8千円)を利用した。今昔文字鏡は9万文字を検索できる。9万文字すべてがTrueTypeフォントで公開されており、無料でダウンロードできる。

この外字検索の作業はとても手間がかかった。今昔文字鏡では、部首などから漢字を検索すると、該当する漢字は文字鏡の何番かということがわかる。もし、ユニコードに存在すればユニコードの番号、JISにも存在すればJISの番号を知ることができる。

イーストでは現在、Web版の文字鏡を開発中である。将来的には有償でWebから文字鏡が検索できるサービスを提供する予定である。また、インターネットに接続されたパソコンにリアルタイムで必要な外字を送り込む、「フォントサーバ」も計画している。 【2000年4月完成

1999年の夏ごろ、JepaXのプロジェクトで日本の外字について議論をした結果、JepaXで文字鏡を採用することになった。今回、大蔵省の仕様書をみると、そのJepaXの仕様書を一部、参考にしたことがわかる。

テキスト化

官報のXML化では、元請け会社がテキスト入力と文字の校正を行い、イーストでは主にXMLタグ付けの部分を担当した。

OCRを中心に文字をテキストデータにした会社は作業が非常に遅れた。OCRの読み取り精度が不充分であり、また、古い官報は印刷の質が悪いなどの問題があり、修正に時間がかかったためである。プロジェクトの受注業者は、官報を一度コピーしたものからデータ化するため、コピーの質や、活字の汚れなどが問題となった。

イーストが加わったプロジェクトでは、文字のデータ化は、一部メディアドライブの活字OCRソフト「Win Reader PRO」を利用したものの、基本的にはキーボード入力を行い、作業が順調に進んだ。

テキストを入力した後は「今昔文字鏡」を使って外字のコードを入力する。ここでは、外字になる文字が決まっている場合はパターン化するという工夫をした。例えば、特定の年代では愛媛の「媛」や葛飾の「葛」などは外字を使うことが決められている。大臣の名前で外字を使うケースも多い。イーストではこれらをパターン化し、後ですべて変換できるようなエディタやコンバータを開発した。

証券番号などのような変体仮名が多いものは、文字鏡でチェックするだけでなく、ある程度パターン化して、一覧表を作り、一覧表を見ながら番号を入力した。

テキストデータの確認

テキスト入力では、イースト側で事前にテキスト入力仕様書を作成し、入力業者がそれにもとづいてOCR または手入力でテキストデータを作成した。

ソフトウエア会社として、なるべくコンピュータを使い、人間が作業を行わないという方向で仕事を進めた。特に1000種類もあるXMLのタグは、機械間でデータ交換を行うために定義された言語なので、なるべく自動化しようと考えた。

官報のXML化の作業やツールなどについては、詳細をイーストのホームページで公開している。

入力業者の仕事は、簡易タグを入力することまでを範囲とした。簡易タグとは、テキストデータにするとわからなくなる部分を、ゴシック体は「@EG」、傍点は「@ED」、数式は「.S」、化学式は「.K」のように表現したものである。簡易タグの入力を依頼したとき、入力業者に嫌がられた。しかし、簡易タグをつけることにより、単に文字列としてのテキストデータを作成するのではなく、後の処理でかなりの部分が自動化できるので、簡易タグを含めたテキスト作成を依頼することにした。

しかし、作成されたデータは、必ずしも入力仕様書どおりに簡易タグが入力されているとは限らないという問題が発生した。そこで、限定した項目になるが、イーストでは入力仕様書に合致しているかどうか確認できるチェックソフトを開発した。入力業者はそれで確認して、OKになったものだけをイーストへ納品するというルールにした。

入力を受注した業者は、このソフトをダウンロードして、データをチェックする。データ作成後、そのソフトを使うと、入力仕様書どおりにデータが作られているかどうかを確認ができる。

テキストができあがると、イーストで自動タグ付け、手動タグ付けが行われる。

自動タグ付けでは、ページ単位に簡易タグ付けされたテキストを読みこみ、仕様書にしたがってXML文書を生成した。1ページ単位で入力したテキストデータを、自動タグ付けツールで32ページの官報につなぎ合わせる。

また、手動タグ付けのために、イーストでは官報エディタを開発した。一部、東芝アドバンスドシステムのXMLSpyも利用したが、大部分は官報エディタを利用して作業が進められた。1000種類もあるタグを覚えるのは難しい。最初になるべく自動でタグを付け、それ以外のものについては、官報エディタを利用し、新米のアルバイトでも、タグを理解する必要がないシステムを構築した。

必要なツールは開発

イーストでは必要に応じて、プログラムを次々に開発していった。

進捗状況やファイル管理を行うコンテンツサーバを開発し、専任の開発担当者を置き、常に改良していった。官報エディタも独自に開発した。通常のエディタは文字単位でカーソルを動かすが、官報エディタには行単位で編集するモードがあるので、行単位にセンタリングや右寄せ/左寄せを指定できる。このように、ユーザの要望に合わせてプログラムを改良しながらプロジェクトを遂行した。

入力した文字をチェックするチェックツールも開発した。テキストデータにはOCRの読み取りミスも多かった。「月」と「日」、アルファベットの「O」や数字の「0」、漢数字の「二」やカタカナの「ニ」などは、目でみてもなかなかわからない。チェックツールでは、カタカナが単独(1文字)で記述されることはほとんどないので、単独のカタカナが出てきた場合には警告を出すといった機能がついている。

バーチャルカンパニー

作業には、テキスト入力に8社、外字入力に3社、自動変換に3社、手動編集に5社が関わった。昭和30年代から60年代までの官報、約12万ページのXML化を行ったが、関係した会社は19社だが、さらに外注しているケースもあるので、全体的にかかわった人数は300人くらいだろう。

複数の会社が一連のプロジェクトを進めるため、バーチャルカンパニーを実現できるように、インターネットで作業を管理した。今回のプロジェクトで12万ページのXML化が成功した最大の理由はこの考え方があったからだと思う。インターネットですべてを管理してノウハウの共有化をはかることができた。

Webを通じて、コンテンツサーバからメンバーの作業状況がわかる。作業分担や責任範囲についても明確化し、テキスト入力8社の作業範囲などがWeb上に書かれている。また、官報の本誌向けの入力仕様書や、官報目録の入力仕様書などの情報も共有することができるので、簡易タグから自動タグ付けへの生成方法や、ファイルの結合などについても紹介した。

問題点を共有化するためにFAQのページや掲示板も作成した。テキスト入力やタグ付けにおける問題点や、困ったときの連絡先として、メールや担当者名、FAX番号なども書かれている。

ただし、入力業者8社のうち、1社はインターネットに接続したパソコンがなかったため、その会社はこのような形での参加はできなかった。

インターネットを利用したデータの流れ

データの流れは、テキスト入力会社から元請け会社に提供され、元請け会社からイーストに入る。外注先へもデータが流れていく。

テキスト入力会社がテキスト化してファイルの登録を行うと、デジタルデータがコンテンツサーバに登録される。各社はそこからデータを取りだすだけなので、インターネット接続したパソコンにIDとパスワードを入力すれば、どこからでも作業を進められる。ただし割り当てられたIDとパスワードによって、アクセスできる権限のレベルは決まっている。

私は管理者の権限があるので、全工程の状況が見れるが、入力会社の担当者は、テキスト入力された原稿を登録することしかできないし。メニューも権限にあわせたものしか表れない。

最初に、入力業者がテキストデータのファイルを作成したら、サーバにアクセスしてIDとパスワードを入れ、FTPで入稿する。これにより、誰がいつ作業をしたかがわかる。登録したデータは、コンテンツサーバに入り、管理される。FTP入稿は、初心者には難しい場合もある。そこで、ブラウザーをInternet Explorer 5.0に限定し、ドラッグ&ドロップでデータの転送が可能になるという仕組みを開発した。

データが登録されると、サーバの進捗管理機能が、次のステップの担当者へ自動的に「仕事をしてください」というメールを送る。メールでプッシュされるので、次の担当者はそれを見て仕事を開始することができる。また、自分で手空きになったとき、自分の担当しているフェーズの仕事がサーバに存在すれば、サーバから取り出して仕事をすることもできる。

このようなコンテンツサーバを使ったデータのやりとりは、とてもうまくいった。

ただし、官報を見ながらしか作業できないという問題があった。デジタルデータはインターネットでやり取りできるが、現物の紙を見ないと仕事ができないフェーズが何箇所も発生する。そのため、原紙は誰に、どのような形で返却するかなども細かく規定した。つまり、元請け会社にある原紙がイーストにきて、イーストから外注会社に渡すなど、原紙をキャッチボールする作業が発生した。一部、原紙をスキャンして画像データとして閲覧してもらったが、データサイズと外注会社の回線速度の問題で、広くは使われなかった。これは官報など印刷物のデジタル化をバーチャルカンパニー方式で行う場合、仕方がないと考えている。

今回はバーチャルカンパニーとして、多数の会社が協力して進めたプロジェクトなので、最終結果もコンテンツサーバに入れて共有した。本誌や目録などのDTD以外に、官報XMLファイルも登録して、Webから最終結果も見ることができる。最終結果をプロジェクト内で公開することにより、バーチャルカンパニーとしての目標が明確になる。

Internet Explorer 5.0で表示すると、縦書きの官報が横書きになるので読みにくい部分もある。Internet Explorer 5.5を使えばUS版でも縦書きをサポートしている。将来的にXML化された官報は公開されるだろう。そのとき、Internet Explorer 5.5で縦書きで見ることができる。

コンテンツ・サーバ

イーストに設置したコンテンツ・サーバは、テキスト化したすべてのデータをサーバに蓄積している。サーバの中には、10工程のデータがすべて蓄積された。どの工程で誰が問題だったかということを、いつでも調べることができる。例えば、1つの工程で何回もNGになって入れ直すということがあるとする。これは、ファイルの世代管理をチェックすると把握できるので、注意をすることができる。また、A会社が担当した作業が非常に遅れていれば、他の会社に変えることも簡単にできる。

仕組み自体も柔軟に変更することが可能である。例えば、文字鏡を使った外字入力に時間がかかりそうだったので、その工程をとばして数年分のデータについては先に自動タグ付けの処理をした。その後、元請け会社に外字の入力をしてもらう、という工程の組み替えも簡単に対応できた。

プロジェクト全体で、約300人が関係したが、実際にIDとパスワードを発行したのは50人くらいである。その50人は管理者としてサーバにアクセスし、いろいろな作業を行った。

このシステムは、日米の時差を利用した翻訳のプロジェクトなどで活用できるのではないか。日本で英訳したものを、アメリカ人がチェックして元に戻すとなどの作業が簡単にできるだろう。

コンテンツサーバは、かなり優れたシステムになったので、『ブイフォルダ』という名前でパッケージ化を検討している。

イーストの作業実績

実際にイーストで担当した内容は次のとおりである。昭和30年代から60年代の12万ページを元請け会社から受注し、イーストではタグ付けと最終確認作業を行った。

基本的な責任範囲として、イーストはタグ付けを担当した。大蔵省からタグでNGになった場合は、イーストのリスクで全部直すが、文字については各元請け会社で責任を持ってもらう、という方向で作業を行った。

他の受注業者は、官報に落札業者一覧として公示されている。

成功の要因

作業が順調に進んだ大きな理由は「コンピュータの活用」と「バーチャルカンパニー」である。

イーストは作業を極力コンピュータで処理をさせるような仕組み作りに取り組んだ。常時、3名ほどの技術者が開発を担当していた。何かトラブルがあると、人手ではなく、なるべくコンピュータに処理をさせた。コンテンツサーバは専任の技術者が常に機能の改良を続け、自動タグ付けツールや官報エディタなども独自に開発し、作業の効率化がはかられた。

今回のプロジェクトは印刷会社が主体で受注したが、多くの印刷会社は、単に紙をデジタルにすればよいだろうという軽い気持ちが多かったように感じた。XMLのタグ付け作業を甘く見ていた。

イーストは元請け会社とうまく作業を分担することができた。テキスト入力はプロの会社に責任をもって行ってもらい、あとはイーストですべて責任を持ちます、ということで仕事をした。

特に、イーストでは今回XMLの特性をよく検討した。XMLの特性に合わせて、使える市販ツールは利用した。外字については大蔵省のスタイルシートを修正して、より作業をしやすくした。鴎外の「鴎」のような外字の場合、大蔵省が提供した標準のスタイルシートでは、正しい外字は表示されないが、イーストではそれを実際に表示できるよう修正した。文字鏡URLフォントを表示するようにしたのである。そうすると、画面を見ながら外字のチェックができる。

さらに、成功に結びついたの最大の要因は、バーチャルカンパニーを実現したことにある。

プロジェクトに関わった19社をインターネットでつなぎ、すべてネット上で作業の管理が行われた。プロジェクトの管理者は、コンテンツサーバで作業状況をリアルタイムで知ることができ、何かトラブルがあった時には、すぐに担当者や作業の順番を変更するといったことにも柔軟に対応した。また、Webによりさまざまな作業のノウハウを共有することで、非常にスムーズに作業が進められた。

パートナーとの共同作業に、インターネットは今後も欠かせない技術となるだろう。

Q&A

Q:ホームページに公開されている簡易タグの数は、官報のDTDタグが1000とすると非常に少ないようだが。

A:簡易タグとは、「ここはルビである」とか「ここは傍点がついている」という表現を表していることが多い。つまり、テキスト入力したときに抜けてしまうような表現の部分について簡易タグを入れた。簡易タグは、約20種類くらいしかない。20種類から1000種類のタグに変換されるわけではない。

官報DTDで一番多いのは、見出しタグである。例えば、ここからは省令である、とか辞令であるなどの見出しに対しては、それぞれ見出しのタグがついている。それが約500ある。これらは、最初に正しくテキスト入力されていば、自動的にタグ付けが行える。

Q:官報をXML化した理由は。

A:このプロジェクトが始まる1年以上前だと思うが、もう1つデジタル化プロジェクトが発注された。それは約70万ページの国会議事録のデジタル化である。これは、テキストで進めていた。

国会の議事録については、テキストになっていれば、いつ、どの会期で、誰が何を発言したか、というパターンでデータベースが作れてしまう。ある人はこの大臣に対する対応でしゃべったという関連付けをしておけばよいし、検索もできる。

しかし、官報の場合はテキストデータのままではデータベースにできない。いろいろなパターンのデータ入っているからである。例えば、何年に通産省の関係でどういう法令を作ったか、という検索をしたい場合、単にgooYahoo!のように、テキストデータだけで検索すると、一定のパターンの文字列しか検索できない。

それに対して、XMLのタグがついていれば、条件で検索できる。名前は誰、場所はどこ、省令なのか法令なのか、という形で検索が行える。論理構造としてXMLが採用されたと思っている。

ただ、今回の官報では、氏名や地名、省名といったとこまで詳細な部分を検索できるまでにはいたっていない。期間的なことを考えると仕方がないだろう。できれば、再度受注して、もっと細かい決め事をして、検索性を高めてみたいと思う。

・イースト ホームページ http://www.est.co.jp/
・官報XML化について http://www.est.co.jp/ks/xml/
・進捗管理+デジタル・コンテンツ開発支援サービス http://www.est.co.jp/vfolder

JAGAT日本印刷技術協会 2000年5月23日通信&メディア研究会拡大ミーティング「XML ツールと利用事例」より


Kazuo Shimokawa [EAST Co., Ltd.]