邮政外信批译分拣的一次革命
——上海研究院开发国内外首创的外信批译分拣自动化设备纪实2010-03-20来源:
3月16日,一批从香港寄达上海的银行对账单和证券交易单,很快就通过了上海邮政速递物流公司沪清平处理中心的分拣分发环节,开始了邮件投递工作。据统计,今年1~2月,上海邮政速递物流公司月均处理的25万余件外译信件,均以较短的时限完成了内部分拣分发处理,其奥妙何在?改革开放以来,随着我国对外交往日益扩大,国际信函业务呈逐年增长的态势。国际进口信函完全由人工批译分拣,劳动强度非常大。2008年,中国邮政集团公司上海研究院(以下简称上海研究院)走产学研结合的道路,联合上海邮政速递物流公司、华东师范大学,在国内首创了具有完全自主知识产权的高速外信批译分拣机,将批译功能和分拣功能集成于一体,实现了外信批译的自动化和智能化,地址批译率达到80%以上,处理速度达到每小时7000封以上,将批译人员从烦琐枯燥的记忆和手工劳动中解脱出来,称得上是邮政外信批译分拣的一次革命。国际电子电气工程学会和国际模式识别学会院士唐远炎教授到上海研究院参观了高速外信批译分拣机后,大加赞赏,称之为识别技术与自然语言理解相结合的应用领域的一个新突破。
直面挑战
在2006年保持共产党员先进性教育主题实践活动中,上海研究院与上海邮政速递物流公司于同年5月开展了“科技与企业携手”结对活动:上海研究院为企业做好技术支撑,根据企业生产需求开发新的适用设备;邮政企业则成为科研实验基地,根据生产实际对上海研究院设备提出改进意见,为产品开发提供支持。科研与邮政企业更紧密地结合,实现联合互动、优势互补、资源共享。上海研究院多次到上海邮政速递物流公司进行实地调研,发现国际进口信函完全由人工批译分拣,劳动强度非常大。上海邮政速递物流公司的国际信函进口处理量每年以超过20%的速度增长,每日处理的进口信函量达到4万封以上。这些信函以英语书写地址为主,为了便于投递,上海邮政速递物流公司花费大量的人力进行手工地址批译,即根据信封上的收信人英文地址翻译成对应的中文地址,并批注在信封上。由于批译人员需要记忆大量地址的中英文名称而且工作重复枯燥,批译人员多年来强烈渴望能实现外信批译的自动化和智能化,利用现代高科技手段将他们从烦琐枯燥的记忆和手工劳动中解脱出来。
当时,国内外尚没有将批译功能和分拣功能集成于一体的自动化设备,上海研究院本着“想邮政所想,急邮政所急”的宗旨,利用自身在图像处理、高速分离、自动分拣等领域掌握的核心技术,于2006年10月提出研制能自动识别信封上收信人地址并翻译成对应的中文地址、能智能选择打印位置、高速打印地址并配有自动分拣入格功能的外信批译分拣系统的目标。2006年10月,从新加坡留学归来、文本识别和图像处理领域的国际知名教授吕岳博士亲自担任项目组组长,抽调了上海研究院图像识别、软件设计、机械、电控等方面的青年技术骨干,同时充分利用与华东师范大学共同组建的“图像分析与智能系统联合实验室”的优势,将华东师大博士生和硕士生也吸收进来共同组成项目组。项目组多次到上海邮政速递物流公司进行实地调研,了解业务流程和用户需求,发现外信自动批译分拣机的研制是一项极富挑战性的工作,存在不少技术难点:一是如何有效解决英文地址识读过程中可能产生的错误;二是如何对识别的地址进行理解和提取信息,实现由英文地址到中文地址的实时自动翻译;三是如何有效解决同一中文地址对应不同英文表达方式的问题;四是如何对批译功能和分拣功能实现有机集成。
敢于突破
外信批译分拣系统没有先例可循,上海研究院必须靠自己来突破批译软件的核心技术。项目组首先利用在杭州邮区中心局运行的理分合一分拣机采集了两千多幅外信信封图像,对信封图像进行版面分析,定位出收信人地址块,再利用识别程序获取ocr识别结果。实验表明,地址定位程序是有效的,但ocr识别差错或多或少难以避免。为了解决由ocr错误引起的翻译困难,吕岳博士在网上查阅了大量的国际学术论文,整日苦思冥想,难以入睡。当回想起自己2004年曾经在国际顶尖学术杂志ieee(国际电子电气工程学会)会刊ieeetransationsonknowledgeanddataengineering上发表的文章《informationretrievalindocumentimagedatabase》时,吕岳博士豁然开朗,为什么不能用模糊非精确匹配的算法呢?经过深入细致的研究,吕岳博士提出了具有容错能力的地址批译技术。同时针对同一中文地址对应不同英文写法的难题,“图像分析与智能系统联合实验室”的华东师大博士提出应用有限状态下自动机的推理办法来解决,比如将“northzhongshanroad”、“zhongshannorthroad”、“zhongshanbeiroad”等不规范书写都翻译成“中山北路”。
在批译软件核心技术找到解决办法的前提下,项目组提出了机器的总体方案,主要处理的对象定位于英文打印体地址的账单类信函。2007年8月项目组首先设计了一台具有信件、图像采集和批译功能的低速批译原型样机。首先由项目组将上海市中英文路名基本数据输入,每次机器在把英文地址翻译成中文地址后,由批译人员进行确认后才能储存到地址库。对因地址库没有数据或者地址书写不规范而无法自动批译的,由批译人员下班后将地址库导出来带回家进行补充录入,这样地址库数据不断丰富,批译效率不断提高。原型样机在上海邮政速递物流公司利用真实信函进行了3个月的试验,证实了批译软件的有效性,原型样机的处理速度达到了每小时1000封左右。
开拓进取
2008年年初,项目组在总结功能样机优缺点的基础上,确定要研制一台适合邮政实际需求的批译分拣一体化的高速批译分拣机,对机器的各个模块采用何种方案进行了认真讨论,确定了由单封分离模块、图像采集模块、识别翻译模块、名址打印模块和分拣模块组成的最后方案,着手实用型机器的设计和生产,实现从单封分离、信封名址识读和翻译、中文地址打印到入格分拣一次处理完成。其中识别软件是系统的核心和要解决的关键问题,通过对信封图像的分析实现名址区域的定位、分割和识别,通过中英文名址库驱动实现由英文地址到中文地址的自动翻译,同时将名址库融合到识别系统的各个阶段以提高识别效率。考虑到系统的实时性要求,识别翻译子系统的硬件采用并行处理方式,实现了对图像的高速采集和对图像的实时处理及地址批译。地址批译后根据地址信息将信件直接分拣到相应格口。
在随后的模块设计和生产加工、装配调试过程中,经过半年多的辛勤工作,项目组于2008年6月基本完成了整台机器的装配,于2008年7月顺利完成了调试工作并在上海邮政速递物流公司进行中试。与此同时,项目组进一步进行批译软件的开发和效能提高,不断完善中英文地址库,专门编制了地址库录入和校验程序,华东师大的博士生和硕士生在批译现场与批译人员一起工作,对地址进行逐条检查,确保地址库准确可靠。随着地址库的逐步完善以及批译程序的不断改进,有效批译率稳步提升,科研人员与批译人员为此兴奋不已。在准确地址库的支持下,地址批译率达到80%以上,达到实用效果。目前,利用批译分拣机进行外信自动批译和分拣已经成为上海邮政速递物流公司外信处理生产的重要环节,大大减轻了批译员工的劳动强度,受到他们的一致好评,让批译人员真正感受到“科技是第一生产力”。