スマートリーディング / SmartOCR 1.0 ヘルプ

 

 

 

[スマートリーディング] タブ


使い方の参照

画像ウインドウ上で領域を設定すると自動的にレイアウト・認識が行われエディタ上に結果が表示されます。
 領域の設定は処理モードがスマートリーディングの時にマウスで行います。
 すでに認識が行われている場合でも、全体のレイアウトの整合性を考慮するので、認識したいあるいは修正したい領域をマウスで設定するだけの簡単操作で文字認識誤りの修正以外のほとんど全てが行えます。
設定する領域はすでにある複数の領域と交差したり重複してもかまいません。
すでにある領域と新しく設定した領域は最適な状態で融合されます。

(例)
領域を認識する、領域を削除する、領域を分割する、領域を結合する、領域の順序を変更する、領域の種類を変更する(文章を表に、表を絵に)、表に罫線を入 れてセルを分割する、表の罫線を削除してセルを統合する、横書きを縦書きに変更する、文章の特定の文字だけを削除する、


「認識種別」
設定する領域の種類を選択します

[自動判別]
設定する領域内を自動で文章、表、絵、罫線に分割してレイアウトします。
文章、表、絵、罫線が結果として出力されます。
設定する領域に複数の種類の領域が混在していても問題ありません。
見出しは自動的には検出できません。

[文章]
設定する領域内が文章であると仮定してレイアウトを行います。
文章が結果として出力され表や絵は出力されません。

[文章+絵]
設定する領域内が文章と絵であると仮定してレイアウトを行います。
文章と絵が結果として出力され表は出力されません。

[見出し]
設定する領域内が複雑な背景を含む見出しであると仮定してレイアウトを行います。
文字成分だけを認識して文章として出力されます。

[表]
設定する領域内が表であると仮定してレイアウトを行います。
表が結果として出力され文章や絵は出力されません。
表の部分領域を異なった属性で(あるセルの文字方向を変える、複数のセルの認識文字種を変更する、複数のセルを削除するなど)レイアウトあるいは認識する 場合は、「認識種別」は「自動判別・文章・文章+絵・表」のどれでもかまいません。表のセルとしてレイアウト認識され結果として表の要素になります。

[絵]
設定する領域内が絵であると仮定してレイアウトを行います。
絵が結果として出力され文章や絵は出力されません。
設定領域と交差する罫線は削除されます。

[区切り線]
文章のブロックと交差すると、この文章ブロックを縦区切りの場合は縦に横区切りの場合は横に分割します。
表と交差すると、表の中に仮想的に罫線を入れた状態になり、セルを分割することが可能です。
上記以外の区切り線は、ブロックの順序を制御する場合に利用します。

[削除]
文章のブロックと交差する場合、交差する文字を削除します。
表と交差する場合、交差する文字を削除します。表全体を削除する場合は表全体を囲むか、画像表示画面で削除したい表の上でマウスを右クリックして「この領 域の結果を削除」を選択してください。表のブロック番号を選択し「再処理」を行っても削除可能です。
絵と交差する場合、絵の中に領域を設定するときは絵の内部の文字や罫線が削除され絵は削除されません。外からの交差では絵が削除されます。
表の罫線でない罫線と交差すると、交差する罫線を全て削除しブロックの順序を再計算します。
表の罫線と交差すると、交差する罫線がないものとして(罫線を削除して)表を再レイアウトします。
ユーザーが設定した区切り線あるいは表のレイアウト時に自動的に作成されたセルの区切り線と交差すると、区切り線がないものとして再レイアウトを行い、上下あるいは左右のセルが結合します。
お互いに交差する領域で特定の1つの領域を削除したい場合は「認識設定−ブロック」のプルダウンメニューからブロック番号を選択し「再処理」を行ってください。



[文字方向]
設定する領域の行の文字方向を指定します。

[自動判別]
設定する領域内の文章と表の行の文字方向を自動で設定します。
設定領域内に縦書き横書きが混在してもかまいませんが、複雑なレイアウトでレイアウトが失敗するときは「横書き」「縦書き」を指定してください。

[横書き]
設定する領域内の文章と表の行の文字方向を横書きに設定します。

[縦書き]
設定する領域内の文章と表の行の文字方向を縦書きに設定します。

[主に横書き]
設定する領域内の文章と表で横書きの文字行が多い場合に設定するとより正確にレイアウトできます。

[主に縦書き]
設定する領域内の文章と表で縦書きの文字行が多い場合に設定するとより正確にレイアウトできます。



[領域順序]
すでにある認識結果にこれから設定する領域の結果をどのような順序で追加するかを指定します。

[自動判別]
設定する領域の結果とすでにある認識結果を最適な順序に並び替えます。

[追加]
設定する領域の結果をすでにある認識結果の後に追加します。

[横書き領域優先]
文書を横書き文書と見なして左上から右下の順序になるように最適な順序に並び替えます。

[縦書き領域優先]
文書を縦書き文書と見なして右上から左下の順序になるように最適な順序に並び替えます。



「ブロックの強制結合」
設定する領域内の行を強制的に結合します。
文字方向が横の場合は横方向に重なる行は全て1行に結合されます。
文字方向が縦の場合は縦方向に重なる行は全て1行に結合されます。
離れている複数行を結合したり、段落に分かれてしまったブロックを結合するときに使用します。



「罫線によるセル区切りを自動判別」
表のセルを自動で出力します。
表には、罫線でセルを分けてある場合と、文字を離すことでセルを区別する場合があります。それぞれのセルを罫線で分けるのか、文字間で分けるのかを自動判別します。



「横罫線でセル区切り」
横罫線をセルの区切り情報として使用します。隣り合う横罫線間は1つのセルになります。このスイッチをオフにすると文字間でセルを分けます。
「罫線によるセル区切りを自動判別」がオフの時に選択可能になります。



「縦罫線でセル区切り」
縦罫線をセルの区切り情報として使用します。隣り合う縦罫線間は1つのセルになります。このスイッチをオフにすると文字間でセルを分けます。
「罫線によるセル区切りを自動判別」がオフの時に選択可能になります。



「セルを自動的に結合する」
表のセルで隣り合うセル間に罫線がない場合にセルを結合します。
表計算ソフトのセル結合に相当する機能です。表の再現性を高めたいときに利用します。



「認識による自動行削除」
このスイッチをオフにすると、絵の中の意味がない部分を認識結果として出力したり、レイアウトを失敗して行の取得ができなかったときに文章として意味のない結果を出力します。「認識ー認識信頼度が低い行の処理ー削除しない」と連動しています。
このスイッチをオンにすると、認識結果に文章として意味がなかったり画像の品質が悪く認識結果を出力しても修正の手間のほうが多いと判断した場合に、自動的に行を削除します。「認識ー認識信頼度が低い行の処理ー再認識する」と連動しています。
結果が悪くても認識してほしい場合にオフにしてください。



「指定領域だけを再2値化」
カラー画像と多値(グレー)画像を処理する場合に、設定する領域を2値化するとほとんどの場合良い結果が得られます。ただし、設定する領域が用紙全面になるような広い場合と設定領域内で文字の背景色が異なるような場合にはオフにしてください。