スマートXML化のご提案 官報のXML化 v5 2000.02.21 / 1999.12.08
ここは一般公開ページです。リンクは自由に行っていただいて構いませんが、記載内容は断り無く変更する場合があります。
XML化作業を以下の3工程に分け、2.で自動タグ付けを行います。テキスト入力を昨年中は開始されたと思いますが、テキスト入力仕様書に沿ってテキストを作成していただければ、自動変換が行えます。
プレーンテキストの場合も、入力記号の設定作業からの受託も可能です。
3.は専用エディタをご提供しますので、表や複雑な「をに文」を除けば、比較的容易に作業が行えます。また、2.3.をセットにして、最終確認済みのテキストをご提供することも可能です。このお見積りについては、個別にお問い合わせください。
官報DTD向けに開発したツール群
自動タグ付けツール[AutoTag] ・ページ単位で、簡易タグ付けしたテキストファイルを読み込み、官報仕様書に従って well-formed なXML 文書を生成する。
・「目次」「大柱」「項目」「正誤」など、大きなブロックのタグは文字列比較で自動生成する。
・面倒なローマ字タグの入力はほとんどこれで解決。
・簡易タグ付けに従って、段落単位で<p>や<ktab>や<table>なども生成。
・段落の「右」「中央」「両端」揃えなども設定。
・コマンドラインツールだが、「Step2 ツール」から呼び出し可能。
・「本紙系」と「資料版」に対応。
官報エディタ ・官報XML文書専用のエディタ。IE5.0 が必要。
・全体のツリー表示。
・官報と同じ一行全角22文字の記事内容表示。
・段落単位での「右」「中央」「両端」揃え設定。
・ボールドなどの文字修飾設定。
・記事の分割。
・注目ブロックだけのタグ直接編集。
・よく発生した誤りの自動修正機能。
・「本紙系」と「資料版」に対応。
入力書式チェックソフト 以下の通り、公開中 Step2 ツール ・AutoTagの実行。
・省令、告示、号数などの成形(かなりの部分は確認のみ)。
・記事細分化が必要な項目の記事区切り(半自動)。
外字設定支援ツール ・入稿テキストに外字を付けていく作業を支援する。
・必須の十数文字に付いては確認作業のみ。
・外字コードを見つける事、以外の作業を省力化する。
・頻繁に使用する文字に付いては登録して簡単に引き出せる。
入力書式設定ツール ・プレーンテキストに対し入力書式で使用する簡易タグを付ける。
・付けるべき範囲を選択し、ボタンを押す。
・違法なネスト等をある程度チェック。
チェック・ソフト
0.Windows上で稼動します。IE5.0は不要です。
1.ダウンロードして、インストールを実行して下さい。
2.「スタート」メニューの「プログラム」、「官報XML化」、「入力書式チェッカー」を起動してください。
3.開かれたウィンドウに、タグ付きテキストをドロップすると、チェックしてくれます。
テキスト入力仕様2.の 見積書
落札業者一覧(官報より転載)
1.テキスト化 テキスト化、文字校正を行います 【ページ単位】
1.1 テキスト化
OCRまたは手入力でテキストを作成します。Win Reader PRO(約15万円)を使えば1行づつ、画像の横にテキストが表示されますので、文字校正が容易です。古い号や汚れた号は、手入力する必要があります。
図、表、複雑な「をに文」については、タグで囲んでください。ルビのタグ付けも行ってください。詳細はテキスト入力仕様書をご参照ください。
1.2 外字のコード化
外字については、今昔文字鏡(Windowsソフト、28000円)を使って漢字を検索し、コード化します。文字鏡にない文字は、その旨、タグを付けます。
※書籍のXML化JepaXでも同じご提案をしています。
1.3 表のCSV化
表をCSVファイルに変換します。
複雑な表が多数ありますが、テキスト入力仕様に従って作っていただければ、簡単な表タグを2.で埋め込みます。
1.4 テキスト化の確認 New
チェックツール(Windowsパソコンで稼動)をご提供しますので、タグの開始/終了、文字コード、外字、CSVなどのシンタックス・チェックを行ってください。
タグが付いていない、一行が正しく入っていない、などの重要な論理チェックは行えません。限定した項目のチェックとなります。
↓ ↓ ↓ ↓ ↓
2.自動タグ付け 詳細は、仕様書を参照してください ・1号分のページ単位に処理を行い、ページを結合して、1号1ファイルで出力します。この際、ページタグも設定します
・すべての行に行タグを付けます。
・大見出し、見出し(柱)を元にして、該当するタグで記事を囲みます。
・官報をXML化作業のカテゴリーで分類すると、目次、表、をに文、図、条文、告示、公告 に分かれますが、この内、目次、図(ページタグ)、公告、パターン化された告示 について、タグを設定します。
・@、鰍ネどのWindows特殊文字があれば、該当するタグに変換します。
↓ ↓ ↓ ↓ ↓
3.手動タグ付け タグ付けと最終確認 【号単位】
3.1 手動タグ付け
KXML専用エディタ(Windowsソフト、IE5が必要)を使って、左ウィンドウに表示される階層化された目次を+、−で見ながら、手動タグ付けを行います。
タグは、判りやすい日本語で表示され、メニュー選択方式で登録できます。タグメニューを選択して、行単位で、字下げ、右寄せなどを設定します。ボールドなどは、文字を選択して設定します。
専用エディタは、2.の自動タグ付けとセットでしか使えません。専用エディタは、無償でご提供します。
3.2 表などのタグ付け
CSVからHTMLに変換するツールを使ってHTML化し、表を作ります。
複雑な「をに文」のタグ付けもここで行います。
3.3 最終確認
完成したXMLをIE5で表示し、原本と照合して最終確認を行います。
机上で確認するための、縦書き表示/印刷ツール(Windowsソフト)もご提供します。
インターネットに接続されたパソコンの場合、外字も表示します。
Kazuo Shimokawa [EAST Co., Ltd.]