ところで、インストール直後の読んde!!ココの認識精度は、まだまだであることは否定できない。だからといって、その結果を見て落胆してしまうのは早計だ。なぜなら認識精度は、使い続けることによって向上していくからである。
日本語OCRソフトの歴史は、認識率との戦いと言っても過言ではない。英語のようにアルファベット26文字の大文字/小文字と記号というシンプルな組み合わせではなく、50音の平仮名、片仮名と漢字という複雑な組み合わせを認識させるのは非常に難しいのだ。そのため、日本語OCRソフトに「使えない」というレッテルを貼ったまま、見向きもしないユーザーも少なからずいる。
だがこれは、OCRソフトに限ったことではない。程度の差こそあれ、日本語IMEや翻訳ソフトなどにも当てはまる。例えば、優秀な変換精度で知られる日本語IMEでさえ誤変換することがある。手書きパッドによる文字認識機能などを見れば、OCRソフトのように複数の文字を認識する難しさが分かっていただけるだろう。
ちなみに読んde!!ココは、30種類にもなる専門辞書を持っており、標準では全ての辞書がOCR処理時に使用される。まず、これらの専門辞書のうち、自分が利用しない分野の専門辞書のチェックを外してしまうとよい。
使わない分野の専門辞書を外すのも認識率向上には有効だ
また、専門辞書以外にも、ユーザー用の辞書として、誤認識を修正した正しい文字を覚えさせる「認識辞書」が用意されている。この機能は、誤認識された文字を選択し、右クリックメニューから「認識辞書の保守」を選択することで呼び出せる。認識精度を向上させるには、この作業が重要なのだ。この辞書に誤認識された文字を追加していくことにより、認識精度が高くなる。
スキャナで読み取ったデータを繰り返し認識させるだけでは、この辞書は鍛えられない。誤認識された文字を積極的に覚えさせることで、認識精度を向上させていくことができるようになるのである。
読んde!!ココには、Office(Word、Excel、PowerPoint)やAcrobat 7.0 Standard日本語版、電子メールソフトなどとの連携機能があるが、これらは読んde!!ココが十分な認識精度を持つようになってから利用すべき機能であり、インストール直後から便利に使えるわけではない。
ユーザーが辞書を鍛えるという作業が必須であり、その手間を惜しんではいけない。手間をかけてソフトを育てた結果、他人が持っていない非常に強力なツールへと変貌するのだから。
また、ユーザー数が増えればソフトウェアベンダーへのフィードバックが増え、ソフト自体も進化していく。日本語OCRソフトの認識精度がもっと向上すれば、非常に強力なビジネスツールとなり、使い道は限りなく広がる。ScanSnapをより有効に活用したいのであれば、読んde!!ココの製品版を購入し、手間を惜しまずに辞書を鍛えてScanSnapを“さらに使えるツール”へと育て上げるのはいかがだろうか。
Copyright © ITmedia, Inc. All Rights Reserved.