電子書籍ケーススタディ 12
 外字をどうする =XKPとJepaX= 
イースト株式会社 下川 和男

 出版社や印刷会社の方々と一緒に、書籍や辞書のデジタル化を推進しているが、テキスト化の際、常に問題になるのが外字である。
 世界中で外字が使われているのは日本だけ、という特殊事情の中で、インターネット出版やXMLでの外字の取り扱いや、公共システムでの人名外字処理についてご紹介する。

なぜ外字なのか
 外字問題のキーワードは二つある。「日本」と「インターネット」である。
 パソコンやインターネットの仕組みは、そのほとんどを米国のマイクロソフトオラクルアドビそして、W3CUnicode.orgなどの標準化団体が策定している。彼らの世界戦略の勝手な都合で、ユニコードという世界の文字のミニマムセットのようなコード系が策定され、JavaもXMLもWindows XPもWindows CEもユニコードをベースにしたシステムとなっている。
 ユニコードには、日本、韓国、中国、台湾としてベトナムの漢字が含まれているが、日本以外の国では、外字問題が深刻にはなっていない。
 韓国はハングル全盛で、ハングルでしか自分の名前を書けない、日本でいえば「しもかわ かずお」とひらがなでしか書けない、中学生が出現するという事態に直面し、漢字への回帰がおこっているが、まだ外字問題にまでは、至っていない。
 台湾は、Big-5というコード系をACERMITACなど、5社のコンピュータ・メーカで策定し、12000文字以上を揃えたので、外字の議論はそれほど発生していない。
 漢字の故郷である中国は、国家が決めた標準を遵守する体制が確立しており、しかも、GBKという新しいコード系はユニコードの2万文字以上の漢字を含んでいるので、個々のユーザが外字を希望する状況ではない。
 日本は、先祖代々の姓や、親がつけてくれた名前を尊重しており、戸籍のデジタル化でも、正しい表記を重視する国会決議がなされた。文学においても、様々な文字が使われており、JIS第一、第二水準の6,879文字では足りない、との声が現代の作家からもあがっている。
 このように、外字は日本固有の問題なので、米国の巨大コンピュータ関連企業は無関心である。

 外字を、書籍に印刷するためには、外字フォントを作成すれば、どんな文字でも印刷が可能であった。しかし、書籍をテキスト化する際には、JIS文字以外には、何がしかの外字番号を入れる必要がある。
 外字番号は、文字鏡研究会が策定した文字鏡番号が主流になりつつあるが、番号を決めても、実際のシステムで、外字を表示しなければならない。
 インターネット時代の今、外字のブラウザー画面での表示は、非常に厄介な問題をたくさん抱えている。
 パソコンを中心に据えて、プリンターやモデムを周辺装置(デバイス)と呼んでいたが、最近はインターネットを中心として、パソコンを「インターネット・デバイス」と呼ぶメーカーが出現している。インターネット・デバイスには、Mac、Windows、LinuxなどのOSが入ったパソコンから、ザウルスポケットPCなどの携帯端末、そしてiモードなどの携帯電話など、様々な機器が存在する。しかも、その標準文字セットや、文字のデザイン、文字の位置を揃えるベースラインなどが、OSやメーカー、機種ごとに異なっている。
 混沌としたインターネット標準漢字環境の中で、外字を表示させる方法は、「そこだけ、画像にして送信する」のが一般的だが、表示されている書体もサイズもわからないブラウザー画面に、勝手なビットマップ・データを送りつけることになるので、一目で外字とわかる文字が表示されることになる。

人名外字のXKP
 このように、問題だらけの外字の世界に、イーストは古くから取り組んでいた。
 1995年に、官庁や地方自治体、そして金融、証券などの人名外字を処理するために、Windows NT漢字処理技術協議会(http://www.xkp.or.jp)という団体を、マイクロソフト社やコンピュータ・メーカーと共に設立した。当時は、メインフレームやオフコンの時代から、クライアント・サーバ型のコンピュータへの転換期で、Windows NTの販売を後方から支援するために組織された団体である。
 Windows NTはユニコード・ベースのOSなので、2万文字以上の漢字が扱え、外字領域も、DOSやWindowsの1880文字から、6400文字に拡張されている。そのユニコードでも不足する文字を、クライアント・サーバ型の企業内システムに実装する仕組みや、TrueType形式の外字フォントデータの開発と販売を担当した。

JepaXでの外字表現
 その次に、外字関連で取り組んだのが、文庫や新書などの交換用フォーマットJepaX (http://x.jepa.or.jp/jepax)である。
 JepaXは、1998年に日本電子出版協会の出版データフォーマット標準化研究委員会で討議された、「出版社が、今後のインターネット時代に自社のコンテンツをどのような形式で蓄積すべきか」という命題に対して、「そりゃーXMLでしょう」ということで策定したスキーマである。
 当時、電子出版界を賑わせていた、電子書籍コンソーシアムが、外字問題やコミック対応で、画像化の方針を打ち出したので、その対抗として、テキストでも外字を自由に扱える仕様を目指した。
 gi要素というのが、外字部分で、Glyph Imageの略である。具体的には、外字を
森 <gi set="mojikyo" name="58562" alt="鴎" />外
<gi set="mojikyo" name="39630" alt="鄧" />小平
深<gi set="mojikyo" name="04894" alt="(土川)" />経済特区
<gi set="mojikyo" name="50021" alt="ボク(さんずいに墨)" />東奇<gi set="mojikyo" name="35978" alt="譚" />
 と表記する。 set=は外字番号セットの名称、name=はセット内での番号である。
 この方式は官報XML化プロジェクトでも採用され、一般化しつつある。また、この方式をベースとして、ニュースの標準化であるNewsML(http://www.pressnet.or.jp/newsml/newsml.htm)や住所、氏名の標準化であるContact XML(http://www.contactxml.org/method.html)、辞書データの標準化DicX(http://www.dicx.org)など、様々なXMLボキャブラリへの適用も、検討が開始されている。


目次へ
Kazuo Shimokawa [EAST Co., Ltd.]