CSIG文档图像分析与识别专业委员会学术微沙龙(简称:文档图像微沙龙)在线学术报告会第四期于2021年12月7日成功举行。本沙龙由拉斯维加斯手机娱乐网站 主办,文档图像分析与识别专委会发起承办,中国图象图形学报协办。本期活动邀请现任百度视觉技术部资深研发工程师章成全分享报告: StrucTexT:一种字段级多模态特征增强的OCR结构化预训练模型。微沙龙活动在B站、蔻享学术,中国图像图形学报视频号进行了同步直播,人气峰值3000+。
本次活动由百度视觉技术部杰出研发架构师刘经拓主持,百度视觉技术部资深研发工程师章成全做了题为“StrucTexT: 一种字段级多模态特征增强的OCR结构化预训练模型”的学术报告。报告从OCR行业发展和挑战升级作为切入点,展示了IPA时代下百度OCR结构化丰富的应用矩阵,介绍了OCR结构化的核心任务和对应的标准化解决方案组成要素。通过总结和分析业界主流的OCR结构化各系列方案特点和当前瓶颈,引出StrucTexT设计的出发点和动机。紧接着,对StrucTexT的结构设计、自监督预训练任务和下游任务建模方式展开详细的介绍。通过丰富的比对实验,展示StrucTexT在支持三种OCR结构化类型任务的优势。此外,通过更多的预训练数据和模型参数加持,StrucTexT在6项公开数据集或榜单任务刷新SOTA,也在百度多项实际业务数据中取得30%以上的相对错误率下降。值得兴奋的是,StrucTexT通过github平台(https://github.com/PaddlePaddle/VIMER/tree/main/StrucTexT)正式启动对外开放。最后,报告针对该领域在学术研究和落地应用遇到的瓶颈性问题,列举了OCR结构化相关的多个潜在可探索方向,并诚挚邀请广大研究者共同破局。
报告的论文:
Li, Y.*, Qian, Y.*, Yu, Y.*, Qin, X., Zhang, C.+, Yao, K., … & Ding, E. “StrucTexT: Structured Text Understanding with Multi-Modal Transformers”. Accepted to ACM Multimedia 2021.
错过直播的同学可以前往B站观看回放视频,链接:
https://www.bilibili.com/video/BV13F411z7st?share_source=copy_web
Copyright © 2025 拉斯维加斯手机娱乐网站 京公网安备 11010802035643号 京ICP备12009057号-1
地址:北京市海淀区中关村东路95号 邮编:100190