日本語OCRソフトの歴史は、認識率との戦いと言っても過言ではない。英語のようにアルファベット26文字の大文字／小文字と記号というシンプルな組み合わせではなく、50音の平仮名、片仮名と漢字という複雑な組み合わせを認識させるのは非常に難しいのだ。そのため、日本語OCRソフトに「使えない」というレッテルを貼ったまま、見向きもしないユーザーも少なからずいる。

　だがこれは、OCRソフトに限ったことではない。程度の差こそあれ、日本語IMEや翻訳ソフトなどにも当てはまる。例えば、優秀な変換精度で知られる日本語IMEでさえ誤変換することがある。手書きパッドによる文字認識機能などを見れば、OCRソフトのように複数の文字を認識する難しさが分かっていただけるだろう。

　ちなみに読んde!!ココは、30種類にもなる専門辞書を持っており、標準では全ての辞書がOCR処理時に使用される。まず、これらの専門辞書のうち、自分が利用しない分野の専門辞書のチェックを外してしまうとよい。

標準では30種類の専門辞書の全てにチェックが付いている。このままでも問題はないが、専門辞書のために誤認識が発生する可能性もある。

使わない分野の専門辞書を外すのも認識率向上には有効だ

　また、専門辞書以外にも、ユーザー用の辞書として、誤認識を修正した正しい文字を覚えさせる「認識辞書」が用意されている。この機能は、誤認識された文字を選択し、右クリックメニューから「認識辞書の保守」を選択することで呼び出せる。認識精度を向上させるには、この作業が重要なのだ。この辞書に誤認識された文字を追加していくことにより、認識精度が高くなる。

誤認識された文字を右クリックし、右クリックメニューから「認識辞書の保守」を選択する

「文字」欄に正しい文字を入力して「追加」をクリックすることで、誤認識された文字が正しく認識されるようになる

文字認識フィルタという外部ツールを利用して、普段利用されない文字をフィルタリングすることでも誤認識を減らすことが可能だ

　スキャナで読み取ったデータを繰り返し認識させるだけでは、この辞書は鍛えられない。誤認識された文字を積極的に覚えさせることで、認識精度を向上させていくことができるようになるのである。

　読んde!!ココには、Office（Word、Excel、PowerPoint）やAcrobat 7.0 Standard日本語版、電子メールソフトなどとの連携機能があるが、これらは読んde!!ココが十分な認識精度を持つようになってから利用すべき機能であり、インストール直後から便利に使えるわけではない。

　ユーザーが辞書を鍛えるという作業が必須であり、その手間を惜しんではいけない。手間をかけてソフトを育てた結果、他人が持っていない非常に強力なツールへと変貌するのだから。

辞書が鍛えられていない認識精度の低い状態でWordに認識結果を転送すると、かなりの修正作業が必要になる

認識精度を高くしてから転送すると、修正箇所も少なく、非常に満足できる結果が得られる

　また、ユーザー数が増えればソフトウェアベンダーへのフィードバックが増え、ソフト自体も進化していく。日本語OCRソフトの認識精度がもっと向上すれば、非常に強力なビジネスツールとなり、使い道は限りなく広がる。ScanSnapをより有効に活用したいのであれば、読んde!!ココの製品版を購入し、手間を惜しまずに辞書を鍛えてScanSnapを“さらに使えるツール”へと育て上げるのはいかがだろうか。

アクセストップ10

2024年05月06日更新

WindowsデバイスでVPN接続ができない不具合／NVIDIAのローカルAI「ChatRTX」にAIモデルを追加（2024年05月05日）
AIに予算20万円以下でピラーレスケースのビジネスPCを組んでもらって分かったこと（2024年05月04日）
サンワ、ペンを持つように操作できるペン型マウス（2024年05月01日）
あなたのPCのWindows 10／11の「ライセンス」はどうなっている？　調べる方法をチェック！（2023年10月20日）
Core i9搭載のミニPC「Minisforum NAB9」は最大4画面出力に対応　ワンタッチでカバーも取れる　その実力をチェックした（2024年05月01日）
レノボ「Legion Go」の“強さ”はどれだけ変わる？　電源モードごとにパフォーマンスをチェック！【レビュー後編】（2024年05月03日）
「Windows 11 Home」をおトクに「Windows 11 Pro」へアップグレードする方法（2022年04月15日）
Intel N100搭載のChromebookは本当に重たくない？　Lenovo IdeaPad Flex 3i Gen 8で動作をチェック！（2024年05月02日）
Steamで「農業フェス」開催中！　ポイントショップでは無料アイテムも（2024年05月03日）
万が一の備えに！　Windows PCのリカバリーメディアを用意する方法【Windows 10／11編】（2023年08月12日）

ランキングトップ30

最新トピックスPR

過去記事カレンダー

2024年

2023年

2022年

2021年

2020年

2019年

2018年

2017年

2016年

2015年

2014年

2013年

2012年

2011年

2010年

2009年

2008年

2007年

2006年

2005年

2004年

2003年

Feed Back

利用規約

ITmediaはアイティメディア株式会社の登録商標です。

「読んde!!ココVer.11」活用のススメ～データ再利用にはPDFテキスト化がベスト～（3/3 ページ）

OCRソフトの認識精度を鍛えろ！

関連記事

関連リンク