如何让海量数据自动进电脑

发布日期:2007-11-13 9:16:00点击数:790

作者:伊礼俊    yinlj@wintone.com.cn

助力考评工作

我们的工作量面临不断增加的挑战,每天都有大量的表格文件需要工作人员去录入。很多行业的日常办公都离不开大量的表格文档,并且要对大量数据进行保存、分析、处理。这些数据如果像过去那样保存在纸介质中,不仅占据了大量的办公空间,而且在查找利用时非常费时费力;同时,传统的表格处理方式采用人工进行录入、校对,不仅费时费力,而且经常会出现错行、小数点错位等现象,很难保证所得数据的准确度;校验数据时,必须对照原始文档进行校对,但经常的翻阅查询不利于原始数据的保存,且校验工作量很大。以上种种问题一直让许多企事业单位头痛不已。

TH-OCR文字识别技术可以将需要采集的数据进行分析后,按照结构数据与非结构数据的分类,将所需要采集的信息设计成方便计算机识别的表格信息。这样,被调查人只需要按照调查表的要求填写内容,然后用扫描仪将调查信息直接输入电脑,经TH-OCR识别,即可将识别后的信息按照对应的表格录入指定数据库,从而提高了海量调查数据的分析计算速度。文通公司的表格识别系统能极大地提高普查、调研等工作的效率。

填表、唱票、画“正”字几乎是考评、选举工作的“老三篇”。时至今日,一些地方政府由于缺乏经费,在诸如人大代表选举、干部作风考评等工作中,仍然沿用传统的统计手段。这些统计手段不仅效率低,还难以保证评选结果的公正性。

宜宾市统计局利用自身已有的硬件资源,结合清华TH-OCR技术,在年度机关工作作风考评中,在两个小时内就完成了4000份问卷的统计工作,并及时宣布了考评工作结果。这不但节约了大量的人力物力,还杜绝了统计过程中的舞弊行为。

“几千张调查表,当天统计、当天就要出结果,对我们来说太困难了”,当宜宾市统计局局长接到任务时心里还真是没底—毕竟时间紧、任务急,更为重要的是,这次调查结果直接关系到宜宾各个政府部门的命运。这可容不得半点差错,必须做到万无一失。

文通公司根据宜宾市统计局的实际需求,通过TH-OCR技术,用表格识别系统为其定制了一个整体的解决方案。

按照系统流程,测评表格收集上来之后,通过虹光高速扫描仪进行扫描、识别。系统将自动按顺序为扫描生成的图像命名。如果识别有误,系统会将识别错误的图像放到指定的目录中。识别正确的选票,系统按照用户事先设定的规则自动判断表格的填写是否合乎要求,以及所填选票是否有效,并直接将结果导入数据库中;而对识别失败的选票,系统不将其导入数据库,留待用户手工补录。

然后,系统将自动处理测评数据,计算出不满意率和各机关的得分。在查询测评结果的时候,系统可以给出全部结果查看和分类结果查看两种方式。查看全部结果指的是,各个被测评单位全部代表的不满意率情况,并可按不满意率的高低分成合格、限期整改、诫勉、免职四种结果,用于现场公布;查看分类结果指的是各个单位按代表构成分类的不满意率情况。

在宜宾市级机关工作作风群众满意度测评大会上,人大代表、政协委员、国企代表、民企代表、个体工商户代表和机关代表等6类群众开始了现场投票。

市统计局计算中心的工作人员在现场立刻对选票进行了统计。由于前期准备充分,统计工作井然有序,在短短的两个小时内处理了有效选票3549张,并按会议要求按时、准确地统计出测评结果,圆满完成了市委布置的测评统计任务。

“扫”出高效准确

表格数据自动录入系统流程图

为了更好地为残疾人提供服务,残疾人的信息化建设工作变得越来越重要。其中,建立数据库和信息网络则是最基础的工作。青岛市残疾人联合会通过与当地统计局密切合作,应用表格数据自动录入系统对青岛市持证残疾人进行了一次普查,为残疾事业的信息化建设“扫”出了一条新路。

在青岛市持证残疾人普查工作动员会上,青岛残联理事长王树呈提出:“这次普查是我们为残疾人谋利益,不能出现任何差错。”承担数据处理工作的青岛市统计局相关负责人深感责任重大。

本次持证残疾人情况统计是青岛市近几年来规模最大的一次残疾人普查工作,统计结果直接导入数据库,并以此为依据为残疾人制定福利保障,提供相关服务。因此,本次统计的信息非常全面,共有5种不同的统计表格,内容涉及残疾人的基本信息、残疾信息、康复信息、家庭信息等,数据量非常庞大。为此,统计局经过多方咨询,选择了表格数据自动录入系统。

表格数据自动录入系统主要由表格准备、表格学习、表格识别三部分组成。在表格准备阶段,系统的主要工作就是对表格进行重新设计,并通过手写识别系统将表格转化为可识别的表格。

表格学习的过程,其实是一个建立模板的过程。所谓模板,就是针对大量格式相同的表格,对需要填写不同内容的部分分别做出不同区域的识别特征。青岛残联的统计数据表共有5种,这就需要建立5个相应的模板,系统还要生成相应的表格特征文件。表格的学习、模板的制定和特征的提取,不仅可以极大地提高识别速度及识别率,还可以约定识别后形成文本的字段顺序,为识别后的文本转入数据库提供了极大的方便。

建立模板后,青岛持证残疾人统计的工作就进入了最为关键的表格识别阶段。其基本步骤是,先将利用高速扫描仪获取的表格图像传入计算机,然后通过文通的表格识别系统将图像调入,自动匹配模板,并依据模板提供的条件进行识别,最后形成文本文件转入数据库中。由于以上几个步骤主要由计算机完成,所以在实际操作过程中,只须按一个按钮,就完成了从扫描到识别的全过程,保证了表格统计的速度。

当然,在保证速度的同时,数据的准确性也非常重要,特别是后期的校对工作直接影响到最终的识别效果。传统的校对方法是人工逐字逐句地进行比较识别,在找到错误时就进行修改,既费时费力,又容易因为人为的疏忽而遗漏错误。为此,表格识别系统为青岛残联的统计工作提供了一套更为先进的纵向校对技术。

在解决了表格识别速度和识别效果问题后,青岛持证残疾人情况统计工作进行得非常顺利。在最终的统计阶段,几十万张调查表格仅用了一个多星期就完成了从识别、校对到导入数据库的过程。

返回顶部