CSIG文档图像分析与识别专业委员会学术微沙龙(简称:文档图像微沙龙)在线学术报告会第二十二期于2023年12月12日成功举行。本沙龙由拉斯维加斯手机娱乐网站
主办,文档图像分析与识别专委会发起承办,中国图象图形学报协办。本场活动邀请科大讯飞研究院吴浩,结合其ICPR 2022和ACM MM 2023两项成果,分享报告:面向教育场景的手写公式识别—结构化序列解码器新思路。微沙龙活动在B站、蔻享学术,中国图像图形学报视频号进行了同步直播。
次活动介绍了科大讯飞研究院OCR团队在手写公式识别方面的研究工作。报告的主持人是科大讯飞研究院高级AI研究员陈明军,具体内容由同部门的吴浩介绍。报告主题为“基于教育场景的手写公式识别-结构化序列解码器新思路”。报告一开始,通过背景介绍,解释了本场主题的几个关键字“教育”、“手写”和“结构化”,即在教育的应用场景下,如何做好手写模态下2D结构化文字的识别。随后详细介绍了两篇工作。
第一篇工作研究的是数学公式识别问题。报告指出了手写数学公式识别存在书写歧义、结构复杂的两个难点,而已有方案如序列解码器SD、树解码器TD等都只能解决好单个难点。因此团队基于SD提出结构化序列解码器SSD,通过条件引导机制巧妙建模结构嵌套,实验表明SSD同时具备了优秀的语义建模和结构建模能力,能够同时克服两个难点。
第二篇工作研究的是化学结构式识别问题。报告首先分析了基于规则、端到端SMILES、端到端Graph三类现有方案的利弊。随后结合团队自身“教育+手写”的需求,依次介绍了选用的表达方式chemfig、构建的EDU-CHEMC数据集、适合模型训练的结构特定标记语言SSML以及针对复杂结构式提出的随机条件图解码器RCGD。实验结果表明:(1)使用SSML训练模型,不论在识别率、信息完备程度还是图文相关性上,都显著优于SMILES;(2)RCGD模型在序列解码器SD的基础上,通过引入条件引导注意力、Memory分类和路径选择三个机制,很好地解决了Graph遍历过程的路径歧义、回连等难点,从而使复杂结构式的识别效果更上一个台阶。
报告论文:
[1] Wu J, Hu J, Chen M, et al. Structural String Decoder for Handwritten Mathematical Expression Recognition[C]//2022 26th International Conference on Pattern Recognition (ICPR). IEEE, 2022: 3246-3251.
[2] Hu J, Wu H, Chen M, et al. Handwritten Chemical Structure Image to Structure-Specific Markup Using Random Conditional Guided Decoder[C]//Proceedings of the 31st ACM International Conference on Multimedia. 2023: 8114-8124.
本次报告会获得了良好效果,我们期待更多优秀青年学子在文档图像领域取得研究进展,并在后续的沙龙报告会中踊跃参与、共同进步!
错过直播的同学可以前往B站观看回放视频,链接:
https://www.bilibili.com/video/BV1NN4y1a7Nx/
扫描二维码观看
Copyright © 2025 拉斯维加斯手机娱乐网站 京公网安备 11010802035643号 京ICP备12009057号-1
地址:北京市海淀区中关村东路95号 邮编:100190