伊東制作所ブログ

ハッとしたものごとを書き残したい衝動


文字を検索・コピペできないPDFをテキスト化する方法4選

紙を画像としてスキャンしただけの、テキスト化(OCR化/光学式文字認識)されていないPDFファイル。
開いても
・文言が検索できない
・文字部分が選択できずコピペができない→マジかよ手打ち入力かよ!
と絶望しかけたことありませんか。
しかし、それを回避する方法がいくつかあります。

1.Acrobat Pro DCをつかう
Adobe Creative Cloud‎」利用中の方ならこれ一択。
Acrobat Pro DCをインストール後、該当ファイルを開き、ツール→「PDFを書き出し
」でwordなどに変換するだけ。これでテキスト化できます。
dc
デザイン関係の人はけっこうな確率でAdobe Creative Cloud‎を利用しているので、単発ならそういう人に頼むのが手かもしれませんね。
このアプリケーション、単体でも売られています↓

★2015.11.24追記
Acrobat Pro DC上の「ツール」→「PDFを編集」でも同様にテキスト化されます。いちいちWordに書きだすと、開くファイルが増えて煩雑なので、こちらのほうがいいかもしれません。
pdfを編集

2.Adobe Export PDFをつかう
Adobe Creative Cloud‎がない環境の人で、費用は最小限に抑えたい、という人はこれがおススメ。
Creative Cloudは59,760円/年とけっこうなお値段ですが、このAdobe Export PDFは200円/月でAcrobat Pro DCと同等の変換ができます。
デメリットは、オンライン経由で変換されるため、Acrobat Pro DCよりはやや変換がおそいということ。
といってもおそらく10秒くらい(?)の差なので許容範囲だと思います。

3.いっそ外注する
上記1,2だと自動変換なので、どうしても精度が100%にはならず、誤変換があります。
たとえばこんな感じ↓
gohenkan
そんな時はプロに頼む。
たとえば「ぺパレス スキャニングサービス」というものがあり、手修正もやってくれるそうです。私はまだ利用したことがありませんが、あまりに大量だったり納期と予算が合えばこれが確実ですね。
その他、ランサーズなどクラウドソーシングで文字起こしの人に依頼するという手段も。

4.フリーソフトを使う
「pdf OCR化 フリーソフト」でググるとRenee PDF Aide などいくつも候補が出てきます。ただし、上記1,2のAdobe純正のソフトと比べると(あくまで私の経験上)変換精度が悪いようでした。
結局、目視&手打ちで修正箇所が多数出ると意味がありませんよね。そういう理由でこれは4択目としました。

ウェブ関連の仕事をしていると、こういうちょっと困ったPDFで原稿が届くこともあるのですが、だいたい上記1,2で対応できています。もう少しスマートな方法がないか、ひきつづき試行錯誤したいとおもいます。


記載されている金額は記事作成時点の情報を基としています。

AUTHOR

ちょっとした調べごとや、それによって解決したことのメモ、備忘録が中心。
それがもし同じようなことで困って検索した方のお役に立てれば嬉しいです。
なお、このサイトはアドセンスなどの広告の検証もしており、ときおりバナー等がウザいくらい増えるかもしれません。
すみません。

RECENT POSTS

CATEGORY

ARCHIVE

SEARCH