「読んde!!ココVer.11」活用のススメ〜データ再利用にはPDFテキスト化がベスト〜(3/3 ページ)

» 2005年06月07日 00時00分 公開
[小川夏樹,ITmedia]
前のページへ 1|2|3       

OCRソフトの認識精度を鍛えろ!

 ところで、インストール直後の読んde!!ココの認識精度は、まだまだであることは否定できない。だからといって、その結果を見て落胆してしまうのは早計だ。なぜなら認識精度は、使い続けることによって向上していくからである。

 日本語OCRソフトの歴史は、認識率との戦いと言っても過言ではない。英語のようにアルファベット26文字の大文字/小文字と記号というシンプルな組み合わせではなく、50音の平仮名、片仮名と漢字という複雑な組み合わせを認識させるのは非常に難しいのだ。そのため、日本語OCRソフトに「使えない」というレッテルを貼ったまま、見向きもしないユーザーも少なからずいる。

 だがこれは、OCRソフトに限ったことではない。程度の差こそあれ、日本語IMEや翻訳ソフトなどにも当てはまる。例えば、優秀な変換精度で知られる日本語IMEでさえ誤変換することがある。手書きパッドによる文字認識機能などを見れば、OCRソフトのように複数の文字を認識する難しさが分かっていただけるだろう。

 ちなみに読んde!!ココは、30種類にもなる専門辞書を持っており、標準では全ての辞書がOCR処理時に使用される。まず、これらの専門辞書のうち、自分が利用しない分野の専門辞書のチェックを外してしまうとよい。

標準では30種類の専門辞書の全てにチェックが付いている。このままでも問題はないが、専門辞書のために誤認識が発生する可能性もある。

使わない分野の専門辞書を外すのも認識率向上には有効だ

 また、専門辞書以外にも、ユーザー用の辞書として、誤認識を修正した正しい文字を覚えさせる「認識辞書」が用意されている。この機能は、誤認識された文字を選択し、右クリックメニューから「認識辞書の保守」を選択することで呼び出せる。認識精度を向上させるには、この作業が重要なのだ。この辞書に誤認識された文字を追加していくことにより、認識精度が高くなる。

誤認識された文字を右クリックし、右クリックメニューから「認識辞書の保守」を選択する
「文字」欄に正しい文字を入力して「追加」をクリックすることで、誤認識された文字が正しく認識されるようになる
文字認識フィルタという外部ツールを利用して、普段利用されない文字をフィルタリングすることでも誤認識を減らすことが可能だ

 スキャナで読み取ったデータを繰り返し認識させるだけでは、この辞書は鍛えられない。誤認識された文字を積極的に覚えさせることで、認識精度を向上させていくことができるようになるのである。

 読んde!!ココには、Office(Word、Excel、PowerPoint)やAcrobat 7.0 Standard日本語版、電子メールソフトなどとの連携機能があるが、これらは読んde!!ココが十分な認識精度を持つようになってから利用すべき機能であり、インストール直後から便利に使えるわけではない。

 ユーザーが辞書を鍛えるという作業が必須であり、その手間を惜しんではいけない。手間をかけてソフトを育てた結果、他人が持っていない非常に強力なツールへと変貌するのだから。

辞書が鍛えられていない認識精度の低い状態でWordに認識結果を転送すると、かなりの修正作業が必要になる
認識精度を高くしてから転送すると、修正箇所も少なく、非常に満足できる結果が得られる

 また、ユーザー数が増えればソフトウェアベンダーへのフィードバックが増え、ソフト自体も進化していく。日本語OCRソフトの認識精度がもっと向上すれば、非常に強力なビジネスツールとなり、使い道は限りなく広がる。ScanSnapをより有効に活用したいのであれば、読んde!!ココの製品版を購入し、手間を惜しまずに辞書を鍛えてScanSnapを“さらに使えるツール”へと育て上げるのはいかがだろうか。

前のページへ 1|2|3       

Copyright © ITmedia, Inc. All Rights Reserved.

最新トピックスPR

過去記事カレンダー