SDK性能特点
一、识别字符类型丰富。系统能识别的字符包括印刷中文(简体)、印刷中文(繁体)、手写中文(简体)、手写中文(繁体)、印刷英文、印刷数字、手写英文、手写数字、条码、CheckBox等;
二、识别速度快,一般说来,系统识别一张表格的速度在1.5秒钟左右;
三、识别率高,对版面整洁的印刷字符的识别,正确率达99.96%,对于规范手写数字的识别,正确率在98.5%以上,对于规范手写汉字的识别,正确率在95%左右;
四、提供功能灵活的模板制作工具(模板编辑器),通过模板编辑器,用户在很短的时间内就能够定制完成自己的识别模板;
五、提供先进的校对工具(纵向校对器),纵向校对的引入,极大地提高了校对的速度和准确性;
六、多种表格自动分类(基于分类码的分类、基于表格特征的分类)及定位机制(基于四框线的定位、基于十字线的定位);
七、具有自动倾斜校正、自动判断表格是否颠倒并进行正转等功能。
八、丰富的编程接口,用户可以根据自己的实际情况,将核心灵活地嵌入到自己的应用程序中。
1.1 SDK运行环境
本SDK可在以下操作系统中调用:Microsoft Windows Nt4.0、Microsoft Windows98、Microsoft Windows2000、Microsoft WindowsXP。
使用本SDK要求计算机不得低于以下配置:PII(CPU)、64M(内存)。
1.2 SDK主要组成
本SDK主要由模板编辑器、图像扫描Twain驱动、表格识别核心、纵向校对器等四个主要功能模块组成。
光盘中各目录下的内容分别如下:
FormTemplateEditor—模板编辑器安装程序;
Document—电子版开发手册;
Samples—VC++、VB、DELPHI调用核心的例子程序;
Dll—图像扫描Twain驱动、表格识别核心;
TestTif—用于演示的图像文件;
SingLockDriver—单机加密狗驱动;
1.3 SDK使用流程简述
一般说来,使用SDK的大致流程如下:
NetLockDriver—网络加密狗驱动。
2.1表格样式设计
在实际中使用的很多表格,由于其样式设计并末考虑表格识别的特点,所以在我们决定要采用批量表格识别之前,有必要对表格样式重新进行设计,这样的话,可以极大地提高表格识别的效果。当然,我们根据实际情况,也可以对已存在的表格不进行样式调整。
2.2格需重新设计样式
在以下情况下,我们有必要对表格样式重新进行设计:
(1)在决定采用表格识别之前,表格的样式并没有固定下来,也就是说,不存在正在使用的表格;
(2)表格中涉及手写字体(如手写中文、手写英文、手写数字等)的识别,为了提高识别效果,我们需要对表格样式重新进行设计;
(3)表格中既没有可用于定位的框线,也没有可用于定位的“十”字线。
表格样式一:采用框线定位的表格样式范例
表格样式二:采用“十”字线定位的表格样式范例
3.1模板及模板编辑器
要对一张表格进行识别,我们需要向识别系统提供必要的指导信息和先验信息,告诉识别系统需要识别表格中的哪些内容,及对这些待识别内容如何进行识别。在表格识别系统中,我们把提供这些信息的文件叫做模板文件。
为了方便用户操作,我们提供了生成模板文件的工具,即模板编辑器。
所畏通用表格,关键就在于此,用户可自行的把自己的表格制成模板文件,并对相应的表单进行识别。
标准模板
4.1纵向校对器工作机理
纵向校对是文通表格识别系统所特有的校对方式,纵向校对是将一个或若干个识别成同一个识别结果的文字图像排列在一起显示,以便于用户发现错误,并进行修改。
传统的校错方法是人工逐字逐句比较识别结果与原始图象,找到错误的地方并修改。这种方法既费时费力,又容易疏忽而漏掉错误。为了解决这一难题,我们提出纵向校对系统。其特点如下:
i.查错率高。纵向校对软件把识别结果相同的文字对应的图象显示在在一起。由于少数错误的字与大量正确的字有差别,可以比较容易地发现错字,不易漏掉错误。
ii.纵向校对软件重新组织文字顺序,不会使校对人员陷入到识别文字的故事情节中。
iii.校错效率高,不易疲劳。
校对界面如下图所示:
A区为此时正在校对图像的识别结果;
B区为识别结果所对应的原始图像块;
C区为识别结果列表;
D区为可进行修改的识别结果区域
E区为原始图像
校对步骤:
(1).开始校对,用户可以根据识别结果列表逐字进行校对,也可以挑字进行校对;
挑字:直接在识别结果列表区域双击所要校对的字,或在“跳到”区域输入所要校对的字的列数。
(2).校对的过程就是要校对A区的识别结果与B区的原始图像是否一致;
(3).若识别出错,如上图所示,右边“原始图像”区域“0”被错误的识别为“2”,选中识别出错的图像方块,则在D区光标覆盖处进行修改。E区为原始图像,用户可以选择显示原始图像,也可以不显示,对原始图像可以进行放大与缩小显示。
(4).校对完一页,点击“下一字(页)”按钮,校对下一页或下一字。
(5).校对完毕,点击“文件”菜单下“保存”命令,对校对结果进行保存。
通过以上介绍,可以看出文通通用表格识别SDK是与实际业务结合很紧密的一套系统,可以应用于各个领域,很好的应用它,可以减少大量的录入工作,能高效、快捷、准确的获得数据和处理数据,为管理者提供决策的依据。欢迎感兴趣的单位或部门与我们联系,我们随时准备为您提供充分满足需求的个性化服务!
|