文通鉴 TH-OCR使用手册——扫描获取图像

发布日期:2007-10-9 20:31:00点击数:490
1、扫描
(1)使用TWAIN扫描界面
  这是使用扫描仪自己的界面扫描图像,详细操作可参考扫描仪的操作说明。此时对话框下部的选项无效。


(2)直接终扫
  这是使用TH-OCR特有的扫描模式扫描图像。此时需要同时设定对话框下部所示的各扫描参数:

  直接扫描中的相关设置:
  打开文件菜单,单击扫描设置。弹出扫描设置对话框。文通鉴-TH-OCR提供两种扫描模式以供您选择:

2、反转图像
  用于TH-OCR的图像,有时是黑白二值图像 (Black and White Drawing)。但是,扫描得到的黑白二值图像,因扫描仪型号的不同而各有差异,即有的图像可能是白底黑字,而有的则可能是黑底白字。在TH-OCR中,能识别的图像应是白底黑字的图像。如果扫描后,在系统中看到黑底白字的图像,请将反转图像设置为有效,即 
            
3、删除空白边界
  绝大多数文件材料的边界都有很多空白,而没有任何内容。为了便于识别处理,提高系统的处理效率,可以将这项设置为有效,扫描时,系统会自动滤除图像边缘的空白。
  如果亮度(B)选择“收东调整(M)”还可以使用下面的弹出界面调整扫描图像的亮度和对比度。


4、扫描注意事项
  亮度
  亮度参数是扫描仪的最重要的参数之一,也是影响TH-OCR文字识别效果的极为重要的因素。在TH-OCR中,提供了亮度的三种方式: 如果选固定,可在 中直接输入亮度数值或用鼠标按其右边的箭头,以获得所需的亮度数值。系统中亮度数值的调节范围是 -128 ~ 128。如果选自动选择,则亮度参数完全由TH-OCR在扫描过程中自动确定。如果选手动调整,则亮度参数由您在扫描过程中根据具体情况调整确定。有一定经验的操作者,使用手动调整可以获得比较理想的扫描识别效果。
  有关亮度选择的几点建议:
  (1)扫描较浅的文件或底色白、纸张发亮以及文字笔划细的文件时,亮度参数应选低  些,即加黑、加暗;
  (2)书刊、杂志的底色较白,宋体字、仿宋体字的笔划粗细适中,在识别这类文件时, 可选用中等亮度。
  (3)识别较小的文字时,亮度参数应高些,以不出现太多的断笔为限。
注意:
  亮度参数的确定决定了扫描图像的明暗程度,亮度太高,文字笔划断裂而残缺不全; 亮度太低,文字笔划相互粘连而黑成一团。两种情况都会影响识别结果。因此,认真细致地选择好亮度是获得较高的识别率的基本保证。

5、分辨率
  分辨率是扫描仪也是TH-OCR的另一个重要参数。它决定了扫描图像的清晰程度,也决定了所能扫描的图像细节。文本识别正确率的高低与扫描分辨率的设定有很大关系。扫描仪分辨率的单位是DPI (Dots Per Inch,每英寸点数) 。可以在 中直接输入分辨率数值或用鼠标点按其右边的箭头,改变分辨率数值。
  在TH-OCR中,分辨率选择的有效范围是100~600 DPI。常用材料的最小字号是小5号(9磅)或5号字(10.5磅),选择400DPI或300DPI的分辨率,可以适合大多数情况。分辨率的精细设定请参考下表。

  分辨率选择对照表
 

6、页长
  平板扫描仪的扫描幅面一般是A4或长度为14英寸。有许多时候,扫描的材料可能幅面很小,为了节约扫描时间,提高工作效率,可以预先设定这一参数。在TH-OCR中页长有效值是6英寸、9英寸和12英寸。
返回顶部