ところで、紙に印刷された文書をScanSnapで読み取ってPDF化するという使い方は、ペーパーレスを実現する上で非常に有効である。しかし、ScanSnapでPDF化したデータを再利用する場合、1枚の画像としてPDF化(ここでは便宜上PDF画像と呼ぶ)されているため、PDFビューアの選択ツールではテキストを選択することはできない。
しかし、読んde!!ココがインストールされていれば話は違ってくる。ScanSnapに付属の「Acrobat 7.0 Standard日本語版」を起動してScanSnapでPDF化したデータを開き、画像(PDF画像)を選択すると右クリックメニューに「OCRを使用してテキストとして認識」という項目が表示される。これを選択すると、読んde!!ココのエンジンによりOCR処理が実行され、PDF画像からテキストを抽出できる。抽出されたテキストは、標準では「透明テキスト」としてPDFに埋め込まれるのだが、そのまま利用できる精度とは言い難い。
つまり、ScanSnapで直接PDF化したデータは、紙の文書の電子保存/閲覧用と考えた方がよい。データの再利用を考えているのであれば、手間を惜しまずに読んde!!ココを利用してPDF化した方がよいだろう。読んde!!ココでOCR処理をかけ、誤認識を修正してからPDF化したデータは、そのままテキストを選択して再利用することが可能だからだ(便宜上、これをPDFテキストと呼ぶ)。
また、ScanSnapでPDF画像化してからOCR処理をかけるのと、読んde!!ココでOCR処理してからPDFテキスト化するのとでは、手順が異なってくる点にも注目したい。
このように、手順も1つ減っている。もちろん、元データのレイアウト等は変わってしまうため、PDF画像化しておくことも重要あろう。しかし、印刷された文書をPDF画像化して保存するのは当然として、時間のあるときに読んde!!ココでPDFテキスト化しておけば、いざというときに役に立つはずだ。
Copyright © ITmedia, Inc. All Rights Reserved.