PDF Textractorとは?
PDF Textractorとは、PDFからPDF Libraryを使用してテキストを抽出する実装を手助けする、.NET Framework 4.6.1以降に対応したクラスライブラリです。PDF Textractorは文字列ではなく文字単位でUnicodeテキスト、フォント名、PDF上での座標位置などの情報を持つ構造化データに変換する機能を提供します。
PDF Textractorを使うことで、PDFの文書をページごとに構造化したデータを手に入れることができます。ページには、前述の一文字ずつの文字データとその属性データが含まれており、BasicFormatterを利用すると、これを行・段落と推測される範囲ごとにグループ化したデータも取得できます。また、これらの構造化データはJSON形式にシリアライズする事もできます。これらのデータをPDFの内容、全文検索するためのテキストデータの抽出に利用したり、HTMLにして検索時に特定のキーワードをハイライトするといった事に使えます。
弊社ではPDF Textractorを取り扱い以前より「PDFから構造化テキストを抽出する」という案件に対応しており、代表的な例として電子書籍、新聞、航空券のセール情報のPDFデータからテキスト抽出を行った実績がございます。現在PDF Textractorを実際に採用している製品としては、「EPUBpack」となっております。PDFからのテキスト抽出について、ご質問やご相談をお待ちしております。