「読んde!!ココVer.11」活用のススメ〜データ再利用にはPDFテキスト化がベスト〜(2/3 ページ)

» 2005年06月07日 00時00分 公開
[小川夏樹,ITmedia]

 ところで、紙に印刷された文書をScanSnapで読み取ってPDF化するという使い方は、ペーパーレスを実現する上で非常に有効である。しかし、ScanSnapでPDF化したデータを再利用する場合、1枚の画像としてPDF化(ここでは便宜上PDF画像と呼ぶ)されているため、PDFビューアの選択ツールではテキストを選択することはできない。

ScanSnapでPDF化したデータ。PDF画像として記録されるため、このままではテキストを選択して利用することはできない

 しかし、読んde!!ココがインストールされていれば話は違ってくる。ScanSnapに付属の「Acrobat 7.0 Standard日本語版」を起動してScanSnapでPDF化したデータを開き、画像(PDF画像)を選択すると右クリックメニューに「OCRを使用してテキストとして認識」という項目が表示される。これを選択すると、読んde!!ココのエンジンによりOCR処理が実行され、PDF画像からテキストを抽出できる。抽出されたテキストは、標準では「透明テキスト」としてPDFに埋め込まれるのだが、そのまま利用できる精度とは言い難い。

読んde!!ココの認識エンジンを利用して、PDF画像からテキストを抽出できる
抽出したテキストは「透明テキスト」としてPDF画像に埋め込まれるため、PDF画像からテキストを選択できるようになる
ただし、認識結果をテキストエディタなどにコピー&ペーストしてみると、そのまま利用できる状態ではないことが分かる

データの再利用にはPDFテキスト化がおすすめ

 つまり、ScanSnapで直接PDF化したデータは、紙の文書の電子保存/閲覧用と考えた方がよい。データの再利用を考えているのであれば、手間を惜しまずに読んde!!ココを利用してPDF化した方がよいだろう。読んde!!ココでOCR処理をかけ、誤認識を修正してからPDF化したデータは、そのままテキストを選択して再利用することが可能だからだ(便宜上、これをPDFテキストと呼ぶ)。

読んde!!ココを利用してOCR処理を行い、誤認識を修正してからPDF化したデータ
上のPDFデータからテキストをテキストエディタにコピー&ペーストしたところ。データを再利用できるメリットは大きい

また、ScanSnapでPDF画像化してからOCR処理をかけるのと、読んde!!ココでOCR処理してからPDFテキスト化するのとでは、手順が異なってくる点にも注目したい。


 このように、手順も1つ減っている。もちろん、元データのレイアウト等は変わってしまうため、PDF画像化しておくことも重要あろう。しかし、印刷された文書をPDF画像化して保存するのは当然として、時間のあるときに読んde!!ココでPDFテキスト化しておけば、いざというときに役に立つはずだ。

OCRソフトの認識精度を鍛えろ!

Copyright © ITmedia, Inc. All Rights Reserved.

最新トピックスPR

過去記事カレンダー