第四期CSIG文档图像分析与识别专业委员会学术微沙龙成功举办

学会动态

第四期CSIG文档图像分析与识别专业委员会学术微沙龙成功举办

发布时间：2021-12-17 来源：拉斯维加斯手机娱乐网站分享：

CSIG文档图像分析与识别专业委员会学术微沙龙（简称：文档图像微沙龙）在线学术报告会第四期于2021年12月7日成功举行。本沙龙由拉斯维加斯手机娱乐网站主办，文档图像分析与识别专委会发起承办，中国图象图形学报协办。本期活动邀请现任百度视觉技术部资深研发工程师章成全分享报告: StrucTexT：一种字段级多模态特征增强的OCR结构化预训练模型。微沙龙活动在B站、蔻享学术，中国图像图形学报视频号进行了同步直播，人气峰值3000+。

本次活动由百度视觉技术部杰出研发架构师刘经拓主持，百度视觉技术部资深研发工程师章成全做了题为“StrucTexT: 一种字段级多模态特征增强的OCR结构化预训练模型”的学术报告。报告从OCR行业发展和挑战升级作为切入点，展示了IPA时代下百度OCR结构化丰富的应用矩阵，介绍了OCR结构化的核心任务和对应的标准化解决方案组成要素。通过总结和分析业界主流的OCR结构化各系列方案特点和当前瓶颈，引出StrucTexT设计的出发点和动机。紧接着，对StrucTexT的结构设计、自监督预训练任务和下游任务建模方式展开详细的介绍。通过丰富的比对实验，展示StrucTexT在支持三种OCR结构化类型任务的优势。此外，通过更多的预训练数据和模型参数加持，StrucTexT在6项公开数据集或榜单任务刷新SOTA，也在百度多项实际业务数据中取得30%以上的相对错误率下降。值得兴奋的是，StrucTexT通过github平台(https://github.com/PaddlePaddle/VIMER/tree/main/StrucTexT)正式启动对外开放。最后，报告针对该领域在学术研究和落地应用遇到的瓶颈性问题，列举了OCR结构化相关的多个潜在可探索方向，并诚挚邀请广大研究者共同破局。

报告的论文:

Li, Y.*, Qian, Y.*, Yu, Y.*, Qin, X., Zhang, C.+, Yao, K., … & Ding, E. “StrucTexT: Structured Text Understanding with Multi-Modal Transformers”. Accepted to ACM Multimedia 2021.

错过直播的同学可以前往B站观看回放视频，链接：

https://www.bilibili.com/video/BV13F411z7st?share_source=copy_web