2019年07月18日

イースト、 PDFからの構造化テキスト抽出に成功、岩波新書をEPUB化

イースト株式会社(本社:東京都渋谷区代々木、代表:熊野哲也)は、テキストPDFからの構造化テキストの取り出しに成功し、この技術を使った岩波新書EPUB化を開始しました。
「EPUBpack(イーパブパック)」というクラウドストレージを使ったトータルサービスとして販売します。


抽出アプリは、PDFに目次頁、大見出し、小見出しなど若干のマークを付け、構造化されたマークダウン(簡易HTML)形式のテキストを出力します。その際、画像、表、グラフなどの図版はキャプション文字を組み込んだ画像ファイルが生成され、ルビ、窓見出し、頁単位の縦組み/横組み混在なども正しく抽出されます。
このマークダウンファイルを独自のCMS(コンテンツ管理クラウド)に入れ、電書協ガイドに沿った正確なEPUBを制作、「EPUB 3.2」にも対応します。CMSなので書籍の改訂が容易で、コンテンツの履歴管理にはGitを使用しています。



イーストは2004年にAdobe本社と契約しAdobe PDFライブラリの販売を開始。15年間蓄積したPDFドキュメント技術で抽出アプリを開発しました。日本語で複雑に組版されたPDFからの正確な構造化テキスト抽出は世界初と思われ、新書、文庫、一般書、学術書などの出版物、学術論文、そして深層学習(AI)に投入する社内ドキュメントの構造化など、様々な分野への応用を期待しています。


岩波書店様はこの技術にいち早く着目され、支援していただき、EPUB化に活用されています。


7月31日に日本電子出版協会が主催するセミナーでこの技術を初公開し、8月8日午後イースト社内で90分の個別セミナーを開催します。


EPUBpack https://www.epubpack.com/
8/8 イースト説明会 https://kokucheese.com/event/index/573173/
7/31 JEPAセミナー https://kokucheese.com/event/index/568003/
電書協ガイド http://ebpaj.jp/counsel/guide
イースト株式会社 https://www.est.co.jp

お問合せ先

デジタルドキュメント推進室

メールアドレス:ddinfo@est.co.jp

お問い合わせフォーム: