スマートリーディング / SmartOCR 1.0 ヘルプ

 

 

レイアウト解析と認識とスマートリーディング


[表示ーの配置ー規定値](デフォルト)のウインドウ配置で説明を行います。
以下「レイアウト解析」と「文字認識」の使い方を説明しますが、処理速度の速いパソコンを使用している場合は「文字認識」を行った方が便利で良い結果が得られます。

スマートリーディングは「スマートレイアウト」と「スマート認識」の総称です。


レイアウト解析


文書画像中の文字、表、絵、罫線領域を抽出することをレイアウト解析と呼びます。

レイアウト解析の方法は大きく分けて2通りあります。
一般には方法1、特殊なレイアウトには方法2がおすすめです。
どちらも直感的かつ簡単な操作でレイアウト解析を行えます。

方法1

全面レイアウトを行い「スマートレイアウト」で修正する。

ツールバー上の[レイアウト]を実行し(全面レイアウトと呼びます)、画像ウインドウ上に表示されたレイアウト解析結果を見ながら修正が必要な領域をマウスで選択(スマートレイアウトと呼びます)します。
領域のレイアウト解析は認識設定ウインドウの設定に従いますから、マウスで選択する前に希望する設定を行います。
最初に行うツールバー上の[レイアウト]の実行もまた認識設定ウインドウの設定に従いますが文書画像全体のレイアウト解析を行います。
レイアウト解析に関係する設定は認識設定ウインドウの「レイアウト・表・認識・出力」タブに全て含まれています。「スマートリーディング」タブの設定項目 は「レイアウト・表・認識・出力」タブ内の項目と重複していますが、スマートリーディング時に特に役立つものが選ばれています。同じ設定項目のオンオフは 連動しているためどちらを設定してもかまいません。
設定の詳細については(認識設定ウインドウ)をご覧ください。

ツールバー上の[レイアウト]の実行の時すでに抽出されたレイアウト領域があると何も行いません。全体をレイアウト解析したい場合は画像ウインドウ上でマ ウス右クリックを行い[レイアウト領域の全削除]を選びレイアウト領域をすべて消去した後でツールバー上の[レイアウト]を実行してください。(レイアウ ト領域の全削除は[認識ーレイアウト領域と認識結果の全削除(Shift+Del)]で行うこともできます)
また、全面レイアウトは領域種別が「見出し・絵・罫線・削除」の時は「自動判別」で行われます。

方法2

全面レイアウトを行わずに「スマートレイアウト」を繰り返し行う。

スマートレイアウトでは次のような処理を行うことができます。

  • 領域を削除する(複数の領域を同時に削除します。指定した削除領域と交差する部分だけを削除します。)

  • 領域を分割する(文字の領域を区切り線で分割します)

  • 領域を結合する(複数の領域を1つの領域に結合します。交差する領域のみを結合し交差しない部分は新しい領域となります。つまり複数領域の結合と分割が同時に行えます)

  • 領域の順序を変更する(区切り線を引くことで直感的に領域の順序変更が可能です)

  • 領域の種類を変更する(文章を表に、表を絵に)

  • 表に罫線を入れてセルを分割する

  • 表の罫線を削除してセルを統合する

  • 横書きを縦書きに変更する

  • 領域の属性を変更する(レイアウト・表・認識・出力の設定項目すべてが反映されます)

スマートレイアウトが終了して納得できる領域設定ができたらツールバー上の[文字認識]を実行してください。
文字と表領域の文字認識が実行されエディタに結果が表示されます。
画像ウインドウのモードを「スマート認識」に切替えても同様の結果が得られます。「スマートレイアウト」と「スマート認識」のモード切り替えはどのタイミ ングで行ってもかまいません。ある程度の修正は「スマートレイアウト」で行い「スマート認識」で文字認識結果を見ながら細かな修正を行うことができます。



[文字認識]


文書画像中の文字、表、絵、罫線領域を抽出し(レイアウト解析)、文字と表の領域内の文字を認識します。

操作方法はレイアウト解析とほぼ同じでツールバー上の[レイアウト]の代わりに[文字認識]を実行することとモードを「スマート認識」に切替えることで す。([レイアウト]をクリックするとモードは自動的に「スマートレイアウト」に切り替わります。[文字認識]をクリックするとモードは自動的に「スマー ト認識」に切り替わります。)
レイアウト解析を実行した後に文字認識を実行します。

大きな違いは文字認識を実行すると、「認識設定−スマートリーディング−認識による自動行削除」または「認識設定−認識−認識信頼度低い行の処理−再認識 する」が選択されている場合、絵の中の不要な行や認識率が低い行を自動で削除するためより早く修正が行えます。
また、常時エディタで結果を確認して修正するのは楽しいものです。