伊東制作所ブログ

ハッとしたものごとを書き残したい衝動


文字を検索・コピペできないPDFをテキスト化する方法4選

紙を画像としてスキャンしただけの、テキスト化(OCR化)されていないPDFファイル。
開いても
・文言が検索できない
・文字部分が選択できずコピペができない→マジかよ手打ち入力かよ!
と絶望しかけたことありませんか。
しかし、それを回避する方法がいくつかあります。

1.Acrobat Pro DCをつかう
Adobe Creative Cloud‎」利用中の方ならこれ一択。
Acrobat Pro DCをインストール後、該当ファイルを開き、ツール→「PDFを書き出し
」でwordなどに変換するだけ。これでテキスト化できます。
dc
デザイン関係の人はけっこうな確率でAdobe Creative Cloud‎を利用しているので、単発ならそういう人に頼むのが手かもしれませんね。
このアプリケーション、単体でも売られています↓

★2015.11.24追記
Acrobat Pro DC上の「ツール」→「PDFを編集」でも同様にテキスト化されます。いちいちWordに書きだすと、開くファイルが増えて煩雑なので、こちらのほうがいいかもしれません。
pdfを編集

2.Adobe Export PDFをつかう
Adobe Creative Cloud‎がない環境の人で、費用は最小限に抑えたい、という人はこれがおススメ。
Creative Cloudは59,760円/年とけっこうなお値段ですが、このAdobe Export PDFは200円/月でAcrobat Pro DCと同等の変換ができます。
デメリットは、オンライン経由で変換されるため、Acrobat Pro DCよりはやや変換がおそいということ。
といってもおそらく10秒くらい(?)の差なので許容範囲だと思います。

3.いっそ外注する
上記1,2だと自動変換なので、どうしても精度が100%にはならず、誤変換があります。
たとえばこんな感じ↓
gohenkan
そんな時はプロに頼む。
たとえば「ぺパレス スキャニングサービス」というものがあり、手修正もやってくれるそうです。私はまだ利用したことがありませんが、あまりに大量だったり納期と予算が合えばこれが確実ですね。
その他、ランサーズなどクラウドソーシングで文字起こしの人に依頼するという手段も。

4.フリーソフトを使う
「pdf OCR化 フリーソフト」でググるとRenee PDF Aide などいくつも候補が出てきます。ただし、上記1,2のAdobe純正のソフトと比べると(あくまで私の経験上)変換精度が悪いようでした。
結局、目視&手打ちで修正箇所が多数出ると意味がありませんよね。そういう理由でこれは4択目としました。

ウェブ関連の仕事をしていると、こういうちょっと困ったPDFで原稿が届くこともあるのですが、だいたい上記1,2で対応できています。もう少しスマートな方法がないか、ひきつづき試行錯誤したいとおもいます。


記載されている金額は記事作成時点の情報を基としています。


PROFILE

Hiroyuki Ito

ウェブディレクター/サウンドクリエイター。個人事業としての伊東制作所(当サイト)を経てシララ株式会社を設立。

RECENT POSTS

Facebook

Twitter

CATEGORY

ARCHIVE

SEARCH