電子書籍ケーススタディ 15
 辞書サーバをXMLでつなぐ =JapanKnowledge.com=
イースト株式会社 下川 和男

 先月号では、Webサービスと外字を組み合わせた海外向け日本語配信システムJiBOOKSご紹介したが、今回は、昨年12月号の「Webサービスとは何か」と、昨年3月号の「三省堂 e辞林」と同じXML辞書検索エンジンBTONICを組み合わせた、JapanKnowledge.com向けのSOAPとXMLを使用した辞書データ配信システムをご紹介する。

JapanKnowledge.comとは
 「日本の知識ドットコム」という立派なドメイン名を持つこのサイトは、小学館さんが50%を出資した、ネットアドバンス社が運営する辞書検索サイトである。
 「ナレッジピープルのための知識発見サイト」というキャッチフレーズで、ビジネスマンの机をイメージしたサイトで、知識のナビゲーションを行ってくれる。ここでは、以下の辞書が引ける。

日本大百科全書(ニッポニカ)
Multimedia Internet 事典
JKN Who's Who
現代用語の基礎知識
日経BPデジタル大事典

大辞泉
プログレッシブ英和中辞典
プログレッシブ和英中辞典
新語探検2002
Internet New Words
Encyclopedia of Japan

NNA:アジア&EU経済情報
猪瀬直樹 新・日本国の研究
田中 宇 ワールド・クロニクル
山根一眞 IT書斎術百科

60万冊の書誌データ bk1
世界の書籍 amazon.co.jp
ニッポニカURLセレクト

 百科辞典として一世を風靡したニッポニカは13万項目、画像も豊富で、「君が代」をパソコンで聞くこともできる。ニッポニカ以下の6点が事典(ことてん)で、事柄を調べるものである。大辞泉は、22万項目の百科+国語辞典で、簡単明瞭な解説が表示される。大辞泉以下の6点が辞典である。その中には、Encyclopedia of Japanという、日本を英文で紹介する辞書も入っている。既知の事柄を英文で読めるので、英語の勉強に最適である。
 NNA:アジア経済情報以下の4点が、ニュースや論説などで、現代用語の基礎知識や新語探検も含めて、「今」を意識した品揃えとなっている。
 bk1はオンライン書店で、関連した書籍を検索し、その場で、購入することも可能である。最後のURL集も重要で、関連したWebサイトのアドレスを表示してくれる。Googleなどのサーチエンジンで検索しても、どれが適切なサイトなのかは、自分で一つずつ開いて確かめなければならないが、このURL集は編集者の目で確認されたものなので、適切なホームページを案内してくれる。
 しかも、ワンルックという機能があり、検索語に該当する見出し項目が一覧表示されるので、壮観である。ここまでは、一般の方々も操作できるので、是非、試していただきたい。
画面は、「インターネット」ということばを検索した場合のワンルック画面である。4903項目がヒットし、その中から、日経BPデジタル大事典の「インターネット」をクリックすると、画面左の解説が、別ウィンドウで表示される。
 価格は毎月1500円、百科辞典ニッポニカだけをとっても、非常に安い金額である。法人向けには、社内のLAN環境で使い放題となる、IP固定方式での販売も行われている。

Webサービスを利用した辞書の配信
 JapanKnowledge.comのサーバは、ネットアドバンス社に出資している富士通さんが開発したもので、Unixを使い、C言語で作られている。大半の辞書データは、富士通のサーバに入っており、その検索ロジックを使っているが、bk1はブックワン社の書籍データベース・サーバをhttpで呼び出して、使っている。
 事典の最後の二つ、「現代用語の基礎知識」と「デジタル大事典」は、辞書データ自体が、代々木のイーストに設置されたサーバから配信されている。JapanKnowledgeサイトのことだけを考えれば、富士通のサーバにこの二つの辞書データも同居させた方が、検索ロジックも統一できるし、扱いやすい。
それなのに、別のサーバを使っている理由は、「コンテンツの一元管理」のためである。データを提供した場合、辞書を更新する度に、データの再提供が必要になる。コンテンツの提供元である、自由国民社としては、複数の辞書引きサイトへの提供や自社サイトでの辞書検索サービス、iモード対応など、まさしくワンソース・マルチユースを計画されており、一ヶ所のデータを更新すれば、すべての辞書引きサービスが最新データになる仕組みを希望された。

 これを実現するために、イーストでは、XMLを使ったWebサービス方式で、辞書検索サイトを構築した。
 作業手順は以下のようなものである。
1.DicX仕様を使った、辞書データのXML化
2.XMLドキュメント全文検索エンジンBTONICでの稼動
3.BTONICの上位に、マイクロソフト社の.NETフレームワークを組み込み、Webサービスの実現
 開発は、昨年の8月から12月まで、5ヶ月で行った。1と2はほぼ完成していたので、3が主な作業であった。以下の三種類のメソッドと呼ばれる、インターネット上のサーバ呼び出し関数の実装である。

GetDicList使用可能な辞書一覧の取得
SearchDicItem辞書項目の検索(取得)
GetDicItem辞書項目の取得

 GetDicListで、「あなたに対してサービスするのは、現代用語とデジタル大事典ですよ」という応答を返す。
 SearchDicItemがいちばん重要なメソッドで、検索方法(前方一致、後方一致、完全一致)、検索対象(見出し語、本文、キーワード)、そして検索語などをパラメータとしてもらい、検索結果の項目一覧を返す。
 次に、GetDicItemで、指定された項目の本文を返す。というものである。
 この一連のサーバ間通信には、SOAP(Simple Object Access Protocol)というIBMやマイクロソフトが推進している仕組みを使い、実際に応答するデータは、XML形式となっている。
 UnixとWindowsという異なるアーキテクチャのサーバをSOAPで結合し実用で使用した、日本で最初の事例だと思う。
 画面の通り、テキストだけではなく画像の配信も行えるし、セキュリティー関連の機能も入っている。以下の、辞書サービス(V05)で、具体的なインタフェースを公開しているので、参考にしていただきたい。

参考URL
BTONIChttp://www.est.co.jp/btonic
DicX仕様サイトhttp://www.dicx.org
辞書Webサービス(V05)http://btonic.est.co.jp/NetDic/NetDicv05.asmx
辞書Webサービス(V05)のWSDLhttp://btonic.est.co.jp/NetDic/NetDicv05.asmx?WSDL
サービス動作検証用検索サイトhttp://btonic.est.co.jp/NetDicTest/TestV05.aspx

目次へ
Kazuo Shimokawa [EAST Co., Ltd.]