システム開発
イーストは日本で最初のWindowsアプリケーション専業ソフトウェアベンダーとして設立された企業です。Windowsテクノロジーをベースに、クラウド×スマートデバイスを活用したシステム開発を行います。Microsoft社の.NET Frameworkで稼働するC#言語の得意なエンジニアが多く在籍しており、Windowsテクノロジーをベースとしたシステム開発を多く請け負っております。
  • PDF Textractor

    pdftext

    ■PDF Textractor

    PDF Textractorとは、PDFからPDF Libraryを使用してテキストを抽出する実装を手助けする、.NET Framework 4.6.1以降に対応したクラスライブラリです。 PDF Textractorは文字列ではなく文字単位でUnicodeテキスト、フォント名、PDF上での座標位置などの情報を持つ構造化データに変換する機能を提供します。

    ■PDF Textractorを使うとできること

    PDF Textractorを使う事で、PDFの文書をページごとに構造化したデータを手に入れる事ができます。 ページには、前述の一文字ずつの文字データとその属性データが含まれておりBasicFormatterを利用すると これを更に行・段落と推測される範囲をグループ化したデータも手に入れる事ができます。 また、これらの構造化データはJSON形式にシリアライズする事もできます。これらのデータをPDFの内容を 全文検索するためのテキストデータの抽出に利用したり、HTMLにして検索時に特定のキーワードを ハイライトするといった事に使えます。

    ■採用事例

    弊社ではPDFTextractorを取り扱い以前より「PDFから構造化テキストを抽出する」という案件に 対応しており、代表的な例として電子書籍、新聞、航空券のセール情報のPDFデータからテキスト抽出を 行った実績がございます。現在PDF Textractorを実際に採用している製品としては「EPUBpack」となっております。 PDFからのテキスト抽出について、ご質問やご相談をお待ちしております。

    ⇒EPUBpackのご紹介はこちら

X
Cookie を利用することで ウェブサイト上の体験が改善されます。
当社のウェブサイトを使用することにより、お客様はCookieの使用に同意するものとします。
確認