リンク: [ホーム] [自己紹介] [リンク集] [アルバム] [ソフトウェア] [発表文献] [その他]

まさおのChangeLogメモ / 2006-02-12

01 02 03 04 05 06 07 08 09 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28

2006-02-12 Sun

* Copy&Paste禁止のPDFのテキストを抽出する方法

PDFファイルで[印刷...]で[Microsoft Document Image Writer]に書き込
み、mdi形式で保存する。そこから再度、[PDF Writer]で書き出すと、OCR
機能で自動的にコピー可能なテキストが抽出できる。

電気情報通信学会の提供しているpdfではまったので、メモ。

もしくは、Acrobat内蔵のOCR機能単体を使うには、[文書]メニューから、
[OCRを使用してテキストとして認識]→[全てのページ]を起動して、言語
設定が英語になっているのを確認して、実行する。ただし、この場合、
pdfの一部にテキストが入っていて、全部が画像でないものについては、
OCRをかけてくれないので、やはり一旦画像を経由する必要がある。