書類の電子化などに便利なOCR
書類や図面をスキャンして電子化した場合、TIFFやJPEG等の画像データとして保存されます。
画像データは、そのまま印刷したり閲覧する時は特に問題ないのですが、データの一部を書き換えたい場合は非常に困難になります。
スキャンして電子化した書類を書き換える場合は、ワードなどで書類を作成しなおす必要も出てくる場合があります。
一度スキャンした画像を見ながらワードなどにタイピングするのは非常に手間が掛かります。
そこでOCRという技術があります。
スキャンした画像データを解析してテキストデータに変換する技術です。
OCRを使えば、文章のみの書類をワード形式にする時や、書類の目次をPDFのしおりにしたい時などに非常に作業性がよくなります。
スキャナーを買うと簡易なOCRソフトが付属してくることもあり、自動的にPDFに透明テキストを貼り付けてくれる物もあるようです。
このように便利なOCRですが、手書きの書類の認識率が極めて低い事、あらかじめ高い解像度でスキャンする必要がある事、Iやl等の誤認識が多い事など、課題も多いのが現状です。
フォントの種類によっても認識率に差があるようです。
一般的に、認識する文字を限定したり、辞書機能やパターン認識機能を使うことで認識率を上げることが可能ですが、OCRソフトの精度は各社一長一短で、単純な比較が出来ません。
今後のOCRの発達に期待したいと思います。
OCRについては下記の記事もご覧下さい