画像処理と活字 OCR の専門家集団スマートリーディング
 

 



 OCRソフトウェアの理想とは、どのような原稿を与えても、文章・表・絵・グラフ・罫線などのレイアウト要素を正確に抽出して人間が読む順序で並び替え、文字部分を文字コードとして正確に出力することです。

 性能評価の第1の問題点は、評価原稿の選択です。
対象となる原稿の種類は無数にあります。文庫本だけを評価しても良い評価にはならないでしょう。
そこで、世の中で良く目にする原稿として「新聞」「一般雑誌」「一般書籍」「文庫本」「教科書」「学術論文」の中から、文字が多く字体が異なるものを不作為に選び評価用原稿として準備しました。

 以下のテスト中、市販のOCRソフトを使い込みましたが強く感じたことは、レイアウトが単純な原稿の認識精度が高くても、ある程度複雑なレイアウトが正 確にできないOCRは修正に手間がかかるためストレスがたまることでした。また、レイアウトの修正の効率はそれぞれのOCRソフトで大きな差がありまし た。

(市販の有名OCRソフトは2005年9月15日時点で最新のバージョンを使用しました)

  • レイアウトが比較的単純な60枚の原稿認識テスト・比較
  • 白黒反転文字を含む10原稿の認識テスト・比較
  • カラー原稿の認識テスト・比較
  • よくあるレイアウトパターンのテスト・比較
  • 連続処理の処理時間比較
  • 傾き自動補正比較
  • 用紙方向自動補正比較
  • 住所認識テスト・比較
  • つぶれとかすれ原稿の認識テスト・比較
  • 数字認識テスト・比較 工事中



(C) 2005 スマートリーディング