CSIG文档图像分析与识别专业委员会学术微沙龙(简称:文档图像微沙龙)在线学术报告会第十五期于2023年3月14日成功举行。本沙龙由拉斯维加斯手机娱乐网站 主办,文档图像分析与识别专委会发起承办,中国图象图形学报协办。本场活动邀请华中科技大学杨明锟博士,分享其ACM 2022最新成果——读和写:基于区分式和生成式的文字识别自监督模型。微沙龙活动在B站、蔻享学术,中国图像图形学报视频号进行了同步直播。
本次活动由华中科技大学博士研究生余文文主持,华中科技大学博士研究生杨明锟做了题为“读和写:基于区分式和生成式的文字识别自监督模型”的学术报告。报告首先介绍了一般图像领域中的自监督学习的背景和意义,指明自监督学习是AI技术在实际落地过程中的重要手段。接着,报告对自监督学习中的区分式自监督方法和生成式自监督方法进行了详细的回顾,指出这两种主流的自监督学习方法的优点和缺陷。接着,该报告结合文字识别领域中存在的训练样本标注成本高以及合成数据与真实数据间的域间差距等问题,指出使用自监督学习来解决该类问题。然后,报告受到人类识别文本的过程是同时通过“读”和“写”的启发,提出将对比学习和掩码式图像建模融合到一个自监督框架,以同时学习图像的区分性特征和上下文信息。具体来说,对比学习分支用于学习文本图像的区分性特征,模仿人类的阅读行为。而掩码式图像建模首次被用于文字识别,用于学习文本图像的上下文生成,模仿人类的写作行为。从而兼顾了不同类型自监督方法的优点以及弥补互相的缺点。接着,此报告重点讲解了文字图像自监督学习中和一般图像的主要区别,并通过大量的下游任务实验来验证了所提出方法的有效性。最后,报告从面向实际应用场景的横向扩展和基于细粒度文字自监督的纵向扩展两个方向,展望了该领域可以深入探索的研究方向。在观众提问环节,报告嘉宾回答了听众提出的一系列问题,并号召大家共同探究该领域尚未解决的难题。报告中所涉及工作的源代码和数据集已开源: https://github.com/ayumiymk/DiG。
本次报告会获得了良好效果,我们期待更多优秀青年学子在文档图像领域取得研究进展,并在后续的沙龙报告会中踊跃参与、共同进步!
错过直播的同学可以前往B站观看回放视频,链接:
https://www.bilibili.com/video/BV1MX4y1f7ju/
或微信扫描二维码观看
Copyright © 2025 拉斯维加斯手机娱乐网站 京公网安备 11010802035643号 京ICP备12009057号-1
地址:北京市海淀区中关村东路95号 邮编:100190