こんにちは、PDFソリューションの技術担当うめはらです。

2019年5月下旬リリースのAdobe PDF Library version 15.0.4P5fにおいて、かねてよりお客様より要望の多かった日本語のOCR(光学式文字認識)が、Javaおよび.NETインターフェースにおいて使用可能となりました。
OCRのエンジンとしてはオープンソースの Tesseract が採用されています。

今までサードパーティー製のOCRソフトを使用する場合、一旦PDFを画像データに変換する必要がありましたが、PDF LibraryのOCRサポートによりそのような手間から解放されます。

サンプルコードは製品、及びGitHubリポジトリにJavaと.NET用の OpticalCharacterRecognition が用意されています。

是非、評価版にてお試しください。

参考:Datalogicsブログ

なお、PDF Libraryをベースとしたイースト製テキスト抽出ツールPDF Textractorへの当該機能追加も予定しており、
より一層、日本語テキスト抽出の精度、及び網羅性を高めてまいります。