電子書籍ケーススタディ 2
 120万語辞書検索 三省堂 e辞林
イースト株式会社 下川 和男

 電子書籍ケーススタディの第1回は、創業3年目のベンチャー企業、ネットラーニング社のWBT(ウェッブ・ベース・トレーニング)システムをご紹介したが、今回は、創業120年の三省堂の辞書検索システムをご紹介する。
 イーストは、ベンチャー企業のインターネット・サービス部分を一括受注して、サーバ・システムの企画から設計、開発、そして運用までを担当することが多いが、最近、「e辞林」のように、長い歴史を持つ会社の企業内ベンチャーの技術部門を丸ごと担当する仕事も増えつつある。

e辞林の概要
 e辞林は、三省堂が創業120年記念事業として立ち上げた、巨大な辞書検索サイトである。大辞林、新明解国語、デイリーコンサイス英和・和英、独和、仏和、地名事典など16点の辞書を引くことができ、辞書を横断的に見る「串刺し検索」や、本文中の任意の文字列を探し出す「全文検索」なども可能である。
 漢字検索のデータベースも持っており、画数や読みから漢字を検索できる。その上、その漢字が使われている大辞林の見出し語まで即座に表示される。このあたりは、電子辞書の面目躍如といった機能である。

開発方法
 このプロジェクトは2000年7月にスタートした。開発チームは辞書系とシステム系に分かれ、辞書データのXML化と、そのXMLデータを使った検索エンジンやサーバ・システムの構築を同時並行で行った。
 辞書チームは、三省堂さんから提供されたデジタルデータを、2000年春、設計に着手した、DicX(ディック・エックス)という辞書用XMLに変換する作業を行った。提供されたデジタルデータは、印刷会社やデータ加工会社により、4、5種類に大別されたが、これを各種のデータ変換ツールを駆使して、DicX化する作業を行った。
 出版コンテンツのXML化は、インターネット時代の出版社の急務だが、16点の辞書がXML化できたことは、大きな成果だと思う。三省堂さんは、ご存知の通り、DocomogooYahoo!と提携され、そこで辞書引きが可能となっているが、三社にXML形式でのデータ提供が可能となった。
 システムチームは、EXI(EAST XML Index)、LaBamba(ラバンバ)という核になる検索エンジンの改良と、ユーザインタフェースであるBTONIC(ビートニック)、そして管理システムの開発を行った。EXI、LaBamba、BTONICについては後述するが、管理システムの開発が難航した。
 e辞林は、個人ユーザと法人ユーザで管理方法が異なっている。個人は、ID、パスワードを一年間の期間限定で発行する。法人は複数ID発行方式と、固定IP方式の二種類を使っている。固定IP方式は、法人が社内LANを使っている場合、そのIPアドレス(インターネット上の番地)からの検索を無条件に受け付ける方式で、特定IPからの同時ログイン数を使った課金方法が、法人売りでは一般的になりつつある。
 このような多種のユーザ管理以外に、「誰が、何時、どのような言葉で、どの辞書を検索したか」というアクセスログのデータベース管理、サイバーキャッシュを使ったクレジットカード決裁など、多くのサブシステムを開発した。
 運用も、図のように5台のサーバを使い、3台の検索サーバを並列に置いて、CPUネックにならないよう心がけた。EXIが高速検索を行うので、目標値500万アクセス/月にも耐えるシステムが構築できた。

辞書検索三代目
 イーストでは、10数年前から各種の辞書検索システムを開発している。初代がViewIng、二代目がDTONIC、三代目がこのDicX+EXIである。
 ViewIngは、10数年前に策定されたEPWING電子ブック(EBXA)というCD-ROM上の辞書フォーマットに対応したパソコン・ビュアーソフトで、Windows版とMac版を開発した。出版社から販売される多くの辞書CD-ROMや、多数のWindowsパソコンにバンドルされた。
 DTONICは、Windowsの思想に合った新しいデータ構造や操作方法を実現したビュアーソフトで、三省堂「ハードディスクで使うシリーズ」朝日新聞社「知恵蔵」日経BP社「デジタル大事典」、小学館「データパル」などのCD-ROMに採用していただいた。
 DicX+EXIは、インターネット時代に即した辞書検索システムとして、最新のXML技術やインターネット技術を使って設計を行った。三代目の特長は、以下のようなものである。
  1. サーバ上でもパソコン上でも、データの在り処を問わない
  2. XML(DicX)を使用しているので、データの転用や保管が行いやすい
  3. 辞書に限らず、事典、新聞や雑誌記事など幅広く対応
  4. データの更新が出版社で行える
  5. 全文検索が可能
 1.は、検索エンジン(EXI)とユーザ・インタフェース(BTONIC)が完全に分離しているので、EXIがXMLから生成されたインデックスを高速検索し、サーバ用BTONICがインターネットの先にあるブラウザーに対してHTMLを排出する。EXIは移植性が高いので、パソコン用EXIやゲームマシン用EXIを作り、その上に、各クライアント用のBTONICを作れば、同じXMLデータを、個別のマシンで検索できる。
 2は、XSLを使った強力な変換ができるし、徐々に編集ソフトも揃いつつある。
 3は、EXIは大量ドキュメントの高速検索手法として開発したので、辞書である必要はない。試作時には、社内で2年分の官報を丸ごと検索したり、音楽事典を検索してみた。XMLデータであれば、何でも検索対象とすることができる。
 4.も、出版社にとって有用な機能である。辞書サーバ方式は、「コンテンツが世界中で一ヶ所にしかない」ので、ここを更新すれば、すべてのユーザに最新のデータが即座に提供されることになる。DicXデータを編集し、LaBambaで全文インデックスを作り、次にインデックス生成ツール操作して、パソコンで手軽にEXI用のデータを作ることができる。DicXで記述された本体部分とインデックス部分が一緒に圧縮された一つのファイルが生成されるので、これをftp(ファイル転送プログラム)で、サーバに置けば、辞書更新が完了する。新規辞書の追加も、同じ方法で可能である。
 5.には、LaBambaと名づけた全文インデックス生成ツールを使用する。その威力は、実際にe辞林のサイトで、全文検索を行って確かめていただきたい。大辞林で「青森 温泉」のアンド検索を行うと、瞬時に浅虫温泉、酸ヶ湯温泉、蔦温泉などが画面に表示される。


 1998年11月、MicrosoftのBill Gatesが「辞書は既に画面で読まれている」と発言したが、インターネットにつながったパソコンから手軽に引ける「e辞林」は、年間使用料2000円という低価格も手伝って、インターネット上の標準辞書の地位を得つつある。

目次へ
Kazuo Shimokawa [EAST Co., Ltd.]