殷绪成教授团队在国际文档分析与识别大会技术竞赛中再次夺冠

17.11.2017  15:14

近日,第十四届国际文档分析与识别大会在日本京都闭幕,本届国际文档分析与识别技术竞赛结果揭晓,我校计算机与通信工程学院殷绪成教授团队,获得最受关注的“鲁棒阅读竞赛”大规模真实场景文本识别技术竞赛冠军。国际文档分析与识别大会(ICDAR)是国际模式识别协会(IAPR)举办的文档分析与识别、模式识别领域世界上最重要的国际学术会议之一,每两年举办一次,从1991年第一届开始,到今年已成功举办十四届。

图1. 第十四届国际文档分析与识别大会大会现场

自从2003年国际文档分析与识别大会设立“鲁棒阅读竞赛”以来,该项竞赛就成为了评测和检验自然场景/网络图片/复杂视频文本自动提取与智能识别最新技术研究进展的重要国际赛事与标准,在国际模式识别、文档分析与识别(文字识别)等领域具有非常重要的影响力,多年来一直都是科研院校、科技公司关注竞逐的焦点。据不完全统计,近5年来(2013-2017),共有80多个国家3500多支队伍在“鲁棒阅读竞赛”及技术评测平台参加过竞赛或评测,包括美国加州大学、麻省大学、新加坡国立大学、中国科学院、清华大学、北京科技大学等科研院校,及Google、微软、腾讯、阿里巴巴、百度、三星、商汤、海康等科技公司。

图2.杨春博士接受第十四届国际文档分析与识别大会程序委员会主席Dimothenis Karatzas博士颁奖

殷绪成2008年加入北京科技大学计算机系,近10年来(2008-2017),以模式识别、计算机视觉、图像识别、人工智能等多领域共同关注的重要应用技术挑战课题——大规模、强复杂自然场景/网络图片/多媒体视频文本检测、识别与检索——为中心,开展系统的方法研究与深入的技术创新,取得了一系列方法与技术突破性研究成果。特别的,殷绪成教授团队“十年磨三剑”,连续三届(2013、2015、2017年)荣获国际文档分析与识别大会技术竞赛“鲁棒阅读竞赛”冠军。2013年,在美国华盛顿召开的第十二届国际文档分析与识别大会上获得“网络图片文本检测”和“自然场景文本检测”冠军,是中国研究机构首次问鼎该项冠军;2015年,在法国南锡召开的第十三届国际文档分析与识别大会上再次蝉联“网络图片端到端文本识别”和“自然场景端到端文本识别”冠军,也是本届赛事夺冠的唯一中国团队。今年(2017年),在日本京都召开的第十四届国际文档分析与识别大会上,以杨春博士为技术组长的殷绪成教授团队,联合腾讯科技TEG技术小组,荣获“大规模真实场景端到端文本识别”冠军(Challenge on COCO-Text),识别精度比第二名提高了60%。COCO-Text竞赛数据集是目前本领域内最大的真实场景文本识别评测数据集,包括4.4万张训练图像样本、1万张验证图像和1万张测试图像;其中,端到端文本识别全面体现了文本检测、文字识别和技术系统等一系列相关的综合研究能力和应用技术水平。

图3.获奖证书

自然场景/网络图片/复杂视频文本识别是利用人工智能技术,使计算机、智能手机等能够像人一样认识自然界和互联网图片视频中普遍存在的文字,在数字移动服务、智能信息检索、智慧城市与智能交通、互联网内容安全、图像视频大数据等方向和行业中具有重要的应用价值。近年来,该领域一直都是国内外学术界和工业界关注的重点方向;目前,世界上几乎所有的互联网和IT巨头都进行相关的技术研究及应用,包括了腾讯、阿里巴巴、百度、科大讯飞、汉王、Google、Microsoft、Amazon、Samsung等。

殷绪成表示,学术研究和技术创新的重要目标就是要“顶天立地”,其团队下一步的重心就是继续脚踏实地,加强与合作伙伴的共同技术攻关,培育并推进技术的重大应用。目前,殷绪成教授团队已经与亿智集团、科大讯飞、腾讯科技、国家计算机网络与信息安全管理中心等合作伙伴在智能交通、智慧教育、网络广告、互联网安全等重大应用方面进行技术创新与产品推进。

(摄影:计通学院)

(责编:邢华超)