イースト株式会社

 スマートXML化のご提案 官報のXML化
v5 2000.02.21 / 1999.12.08


 ここは一般公開ページです。リンクは自由に行っていただいて構いませんが、記載内容は断り無く変更する場合があります。

 XML化作業を以下の3工程に分け、2.で自動タグ付けを行います。テキスト入力を昨年中は開始されたと思いますが、テキスト入力仕様書に沿ってテキストを作成していただければ、自動変換が行えます
 プレーンテキストの場合も、入力記号の設定作業からの受託も可能です。

 3.は専用エディタをご提供しますので、表や複雑な「をに文」を除けば、比較的容易に作業が行えます。また、2.3.をセットにして、最終確認済みのテキストをご提供することも可能です。このお見積りについては、個別にお問い合わせください。



官報DTD向けに開発したツール群

自動タグ付けツール[AutoTag]・ページ単位で、簡易タグ付けしたテキストファイルを読み込み、官報仕様書に従って well-formed なXML 文書を生成する。
・「目次」「大柱」「項目」「正誤」など、大きなブロックのタグは文字列比較で自動生成する。
・面倒なローマ字タグの入力はほとんどこれで解決。
・簡易タグ付けに従って、段落単位で<p>や<ktab>や<table>なども生成。
・段落の「右」「中央」「両端」揃えなども設定。
・コマンドラインツールだが、「Step2 ツール」から呼び出し可能。
・「本紙系」と「資料版」に対応。
官報エディタ・官報XML文書専用のエディタ。IE5.0 が必要。
・全体のツリー表示。
・官報と同じ一行全角22文字の記事内容表示。
・段落単位での「右」「中央」「両端」揃え設定。
・ボールドなどの文字修飾設定。
・記事の分割。
・注目ブロックだけのタグ直接編集。
・よく発生した誤りの自動修正機能。
・「本紙系」と「資料版」に対応。
入力書式チェックソフト以下の通り、公開中
Step2 ツール・AutoTagの実行。
・省令、告示、号数などの成形(かなりの部分は確認のみ)。
・記事細分化が必要な項目の記事区切り(半自動)。
外字設定支援ツール・入稿テキストに外字を付けていく作業を支援する。
・必須の十数文字に付いては確認作業のみ。
・外字コードを見つける事、以外の作業を省力化する。
・頻繁に使用する文字に付いては登録して簡単に引き出せる。
入力書式設定ツール・プレーンテキストに対し入力書式で使用する簡易タグを付ける。
・付けるべき範囲を選択し、ボタンを押す。
・違法なネスト等をある程度チェック。




チェック・ソフト
 0.Windows上で稼動します。IE5.0は不要です。
 1.ダウンロードして、インストールを実行して下さい。
 2.「スタート」メニューの「プログラム」、「官報XML化」、「入力書式チェッカー」を起動してください。
 3.開かれたウィンドウに、タグ付きテキストをドロップすると、チェックしてくれます。

テキスト入力仕様

自動タグ付け仕様

2.の 見積書

落札業者一覧(官報より転載)


1.テキスト化 テキスト化、文字校正を行います 【ページ単位】
1.1 テキスト化
 OCRまたは手入力でテキストを作成します。Win Reader PRO(約15万円)を使えば1行づつ、画像の横にテキストが表示されますので、文字校正が容易です。古い号や汚れた号は、手入力する必要があります。
 図、表、複雑な「をに文」については、タグで囲んでください。ルビのタグ付けも行ってください。詳細はテキスト入力仕様書をご参照ください。
1.2 外字のコード化
 外字については、今昔文字鏡(Windowsソフト、28000円)を使って漢字を検索し、コード化します。文字鏡にない文字は、その旨、タグを付けます。
※書籍のXML化JepaXでも同じご提案をしています。
1.3 表のCSV化
 表をCSVファイルに変換します。
 複雑な表が多数ありますが、テキスト入力仕様に従って作っていただければ、簡単な表タグを2.で埋め込みます。
1.4 テキスト化の確認 New
 チェックツール(Windowsパソコンで稼動)をご提供しますので、タグの開始/終了、文字コード、外字、CSVなどのシンタックス・チェックを行ってください。
 タグが付いていない、一行が正しく入っていない、などの重要な論理チェックは行えません。限定した項目のチェックとなります。

↓ ↓ ↓ ↓ ↓
2.自動タグ付け 詳細は、仕様書を参照してください

・1号分のページ単位に処理を行い、ページを結合して、1号1ファイルで出力します。この際、ページタグも設定します
・すべての行に行タグを付けます。
・大見出し、見出し(柱)を元にして、該当するタグで記事を囲みます。
・官報をXML化作業のカテゴリーで分類すると、目次、表、をに文、図、条文、告示、公告 に分かれますが、この内、目次、図(ページタグ)、公告、パターン化された告示 について、タグを設定します。
・@、鰍ネどのWindows特殊文字があれば、該当するタグに変換します。


↓ ↓ ↓ ↓ ↓
3.手動タグ付け タグ付けと最終確認 【号単位】
3.1 手動タグ付け
 KXML専用エディタ(Windowsソフト、IE5が必要)を使って、左ウィンドウに表示される階層化された目次を+、−で見ながら、手動タグ付けを行います。
 タグは、判りやすい日本語で表示され、メニュー選択方式で登録できます。タグメニューを選択して、行単位で、字下げ、右寄せなどを設定します。ボールドなどは、文字を選択して設定します。
 専用エディタは、2.の自動タグ付けとセットでしか使えません。専用エディタは、無償でご提供します。
3.2 表などのタグ付け
 CSVからHTMLに変換するツールを使ってHTML化し、表を作ります。
 複雑な「をに文」のタグ付けもここで行います。
3.3 最終確認
 完成したXMLをIE5で表示し、原本と照合して最終確認を行います。
 机上で確認するための、縦書き表示/印刷ツール(Windowsソフト)もご提供します。
 インターネットに接続されたパソコンの場合、外字も表示します。

来訪者カウンター
Kazuo Shimokawa [EAST Co., Ltd.]