精美堂ホームページ > 紙媒体のデジタル化 > OCR処理による透明テキスト付きPDF

OCR処理による透明テキスト付きPDF

図面や書類をスキャンしてPDF形式で電子化した際、問題になってくるのは検索の問題です。
ファイル名を工夫することで、ある程度は把握できるとしても、書類の内容はファイルを開いて見なければわかりません。
数十ページに及ぶPDF書類であれば全てを確認するのは困難になりますし、データベースを利用してもスキャンしたデータの内容までは検索できません。

この問題を解決するために、OCRで処理されたテキストデータをPDFに透明なタッチアップテキストとして貼り付ける「透明テキスト付きPDF」という手法があります。

書類をスキャンした後にOCR処理し、透明なテキストをスキャンした画像に埋め込んだPDFファイルを作成します。
単純にスキャンしたPDFと違い、OCR処理をする事で、アクロバットリーダーの基本的な機能を使い中身を検索することができるようになります。
それまでの紙媒体の電子化では実現できなかった検索の機能をデータベースなどの特別なソフトを使用せずに利用することができるようになります。

問題点としては、OCRの認識率にはバラつきがあり、形の似た文字が誤認識されたり、原稿の汚れや手書きの部分があると正確に読み取れないという事があります。また、実際にOCR処理を行ってみないと、どの程度認識できるか判断がつき難い事も問題です。
しかし、綺麗な原稿でパソコン等で作成された原稿であれば細かい誤字はあるものの、比較的正確に認識されるようです。

原稿の状態によって精度は変わってきますが、OCR処理による透明テキスト付きPDFは、PDFの利便性にくわえ、OCR処理による検索性の向上が期待できます。

OCR処理については下記の記事もご覧下さい

« XEROX DocuWide 6055MF 大型スキャナー/プロッタ | メイン | 紙の電子化と温暖化や温室効果ガスの削減 »

カテゴリ

アーカイブ

更新履歴 5件

お問い合わせ

平塚店
神奈川県平塚市東八幡4-6-5
電話:0463-21-0094

品川店
必ずお電話でご連絡ください。
電話:03-6675-9708

メールでのお問い合わせ
info@ds-seibido.co.jp

お問い合わせフォーム