文字を検索・コピペできないPDFをテキスト化する方法4選
紙を画像としてスキャンしただけの、テキスト化(OCR化/光学式文字認識)されていないPDFファイル。
開いても
・文言が検索できない
・文字部分が選択できずコピペができない→マジかよ手打ち入力かよ!
と絶望しかけたことありませんか。
しかし、それを回避する方法がいくつかあります。
1.Acrobat Pro DCをつかう
「Adobe Creative Cloud」利用中の方ならこれ一択。
Acrobat Pro DCをインストール後、該当ファイルを開き、ツール→「PDFを書き出し
」でwordなどに変換するだけ。これでテキスト化できます。
デザイン関係の人はけっこうな確率でAdobe Creative Cloudを利用しているので、単発ならそういう人に頼むのが手かもしれませんね。
このアプリケーション、単体でも売られています↓
★2015.11.24追記
Acrobat Pro DC上の「ツール」→「PDFを編集」でも同様にテキスト化されます。いちいちWordに書きだすと、開くファイルが増えて煩雑なので、こちらのほうがいいかもしれません。
2.Adobe Export PDFをつかう
Adobe Creative Cloudがない環境の人で、費用は最小限に抑えたい、という人はこれがおススメ。
Creative Cloudは59,760円/年とけっこうなお値段ですが、このAdobe Export PDFは200円/月でAcrobat Pro DCと同等の変換ができます。
デメリットは、オンライン経由で変換されるため、Acrobat Pro DCよりはやや変換がおそいということ。
といってもおそらく10秒くらい(?)の差なので許容範囲だと思います。
3.いっそ外注する
上記1,2だと自動変換なので、どうしても精度が100%にはならず、誤変換があります。
たとえばこんな感じ↓
そんな時はプロに頼む。
たとえば「ぺパレス スキャニングサービス」というものがあり、手修正もやってくれるそうです。私はまだ利用したことがありませんが、あまりに大量だったり納期と予算が合えばこれが確実ですね。
その他、ランサーズなどクラウドソーシングで文字起こしの人に依頼するという手段も。
4.フリーソフトを使う
「pdf OCR化 フリーソフト」でググるとRenee PDF Aide などいくつも候補が出てきます。ただし、上記1,2のAdobe純正のソフトと比べると(あくまで私の経験上)変換精度が悪いようでした。
結局、目視&手打ちで修正箇所が多数出ると意味がありませんよね。そういう理由でこれは4択目としました。
ウェブ関連の仕事をしていると、こういうちょっと困ったPDFで原稿が届くこともあるのですが、だいたい上記1,2で対応できています。もう少しスマートな方法がないか、ひきつづき試行錯誤したいとおもいます。
=
記載されている金額は記事作成時点の情報を基としています。