我校殷绪成教授团队在场景图像文本检测与识别研究中取得重要进展
近期,我校计算机科学与技术系殷绪成教授团队,针对复杂场景环境下的图像与视频文本检测与识别,创新性地引入深度学习新框架,提出了多方向文本检测新模型与新方法,解决了任意形状文本检测中文本关系难以挖掘的核心技术问题,在领域内最具代表性的任意形状文本数据库(Total-Text)上取得了88.72%的性能(f-score)。该项成果在国际计算机视觉与模式识别顶级会议(IEEE Conference on Computer Vision and Pattern Recognition,CVPR 2020)发表了Oral论文(“Deep Relational Reasoning Graph Network for Arbitrary Shape Text Detection”),并在国际图像处理和图像识别顶级期刊(IEEE Transactions on Image Processing,IEEE T-IP)在线发表了长文(“HAM: Hidden Anchor Mechanism for Scene Text Detection”),阐述了这些创新方法和研究进展。
科研成果简介
场景图像视频中文本检测与识别广泛应用于在线教育、产品搜索、即时翻译、图像视频大数据理解和网络内容安全等领域,是模式识别、文字识别、计算机视觉中一个重要的研究方向。由于图像视频中文本布局分布的复杂性和文本表示形式的局限性,任意形状文本检测成为了文本检测与识别中一个技术难点和研究热点。殷绪成教授团队提出的创新方法,利用深度图卷积神经网络来进行文本组件之间的深度关系推理,有效地学习、推理与挖掘文字、文本组件之间的连接及语义关系,高精度地检测复杂场景图像视频中的任意形状文本。
复杂场景环境下的文字识别效果
复杂场景环境下的图像与视频文本检测与识别一直都是国内外学术界和工业界关注的重点方向。目前,世界上几乎所有的互联网和IT巨头都进行相关的技术研究,包括了阿里巴巴、腾讯、百度、Google、Microsoft、Facebook等。我校殷绪成教授团队在文本检测、文本识别、图像识别技术领域进行了长期的探索与研究,取得了世界先进的创新技术和国内瞩目的应用成果,主持的项目获2019年度北京市科技进步一等奖和2018年度教育部科技进步二等奖。
CVPR 2020 Oral论文和IEEE T-IP论文的第一作者分别为硕士生张世学同学和博士生侯杰波同学。二人均为我校计算机与通信工程学院本科毕业生,推免到模式识别与人工智能技术创新实验室殷绪成教授团队攻读硕士研究生和博士研究生(硕博连读)。自大四进入实验室学习以来,他们在场景文本检测与识别方面进行了较深入的研究,取得了令人印象深刻的成绩,在IEEE T-IP、IEEE T-ITS、CVPR、ICDAR等国际知名期刊和会议上发表了多篇高水平学术论文。
论文链接:
https://ieeexplore.ieee.org/document/9143459 (IEEE T-IP论文)。
(图片:计通学院)
(责编:杜嘉庆、邢华超)