文通鉴 TH-OCR使用手册——版面分析

发布日期:2007-10-9 20:31:00点击数:479
版面分析是将扫描得到的图像,划分出每一个区域块。对于各个不同的区域块,不仅给出其自身的属性(如横排的文字、竖排的文字、图形图像以及表格等等)和区域字体类型(简体、繁体、纯英文等类型),而且标明不同区域块之间的顺序,以便系统进行识别处理。

自动版面分析
  如下图“工具条”中的“自动版面分析”可以智能地对图像排版作出分析。另外你还可以手动画框对图像排版作人工分析,对更复杂版面的图像进行人工分析,以达到更高识别要求。实际上版面分析前还可以对图像作纠偏、旋转、去污点等图像编辑操作。另外,选中右侧的区域框,还可以更改识别的字体。

    
手动版面分析
1.划分区域
  在未被选定的区域,按住鼠标左键从鼠标所在的位置(图中“+”符号处)拖画出一个矩形框将需要的区域覆盖处。
2.设置区域属性
  TH-OCR系统的版面区域共有四种类型,即横排正文、竖排正文、表格和图形图像。在进行识别前必须正确定义图像中各区域的区域类型。
  设置版面区域类型的方法是:对于所划分的每一个当前区域,在图象菜单中选定相应的项目(【横排正文】、【竖排正文】、【表格】或【图形图像】);或直接用鼠标按工具条中的类型按键


3.选择区域字体
  用鼠标打开工具条上的字体选择键,TH-OCR系统能识别的字体呈现在屏幕上,请用户根据被识别图像的具体情况选择字体:
  简体多体(印刷体)── 常见的宋体、仿宋体、黑体、楷体、圆体和魏碑等等。
  繁体多体(印刷体)── 常见的宋体、仿宋体、黑体、楷体、圆体和魏碑等等
  纯 英 文(印刷体)── 常见的多体纯英文。
  日    文(印刷体)── 常见的日文。
  手     写     体 ── 比较标准的手写体。
  简  体 全 字  集 ── 国标一二级全部字符集,魏碑、隶书等更多的字体。
  繁  体 全 字  集 ── 繁体一二级全部字符集。
  韩            文 ── 常见的韩文。
返回顶部