CSIG文档图像分析与识别专业委员会学术微沙龙(简称:文档图像微沙龙)在线学术报告会第十六期于2023年4月4日成功举行。本沙龙由拉斯维加斯手机娱乐网站 主办,文档图像分析与识别专委会发起承办,中国图象图形学报协办。本场活动为阿里巴巴达摩院OCR专场,邀请2位算法专家:罗楚威、龙如蛟,分享CVPR 2023最新成果——1. 用于视觉信息抽取的几何关系预训练模型,2. 自然场景视觉信息抽取。微沙龙活动在B站、蔻享学术,中国图像图形学报视频号进行了同步直播,听众达到约5500人。
本次活动由阿里巴巴高级算法专家,达摩院文本视觉理解团队云业务方向负责人杨志博主持, 阿里巴巴达摩院自然语言智能-文本视觉理解团队的罗楚威做了题为“GeoLayoutLM:一种用于视觉信息抽取的几何关系预训练模型”的学术报告。报告从视觉信息抽取 (VIE)任务的现状和目前方法面临的问题作为切入点,以观察到实验现象和针对性的实验验证,展示了现有文档预训练模型的方法在处理VIE关系抽取任务时,过度依赖语义、对版式几何关系理解不足的问题,引出了GeoLayoutLM的设计动机。紧接着对GeoLayoutLM的结构设计、针对三种不同维度的版式几何关系所设计的几何关系自监督预训练任务以及全新提出的关系建模头开展了详细的介绍。通过丰富的下游任务实验、针对性的消融实验以及可解释性的实验,展示了GeoLayoutLM在文档理解下游任务VIE中,特别是VIE的子任务关系抽取上的显著优势。GeoLayoutLM在VIE代表性的数据集FUNSD和CORD上,构成VIE的两个子任务——语义实体识别和关系抽取任务中,均刷新了业界SOTA。未来GeoLayoutLM会通过github (https://github.com/AlibabaResearch/AdvancedLiterateMachinery/tree/main/DocumentUnderstanding)平台对外开放。最后,报告中还介绍了融合了GeoLayoutLM关键技术的中英文文档预训练模型VLDoc,该模型已在modelscope (https://www.modelscope.cn/models/damo/multi-modal_convnext-roberta-base_vldoc-embedding/summary)中开放下载。
报告论文:
Chuwei Luo*, Changxu Cheng*, Qi Zheng, Cong Yao. " GeoLayoutLM: Geometric Pre-training for Visual Information Extraction." In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2023.
阿里巴巴达摩院自然语言智能-文本视觉理解团队的龙如蛟做了题为“ESP:自然场景视觉信息抽取”的学术报告。报告首先整理了视觉信息抽取的发展脉络,然后基于当前不同范式存在的问题为出发点,引出了ESP的设计动机——设计一个模型,使得模型输入为整图、识别粒度为实体、不依赖文字,从而解决现有方案依赖OCR引擎抽OCR信息和见过的语种、受限于token的数目、链路长难优化等问题,从而推出了ESP——一种将实体建模为带有语义的点的方法。ESP用少量的参数、少量预训练数据,即可获得SOTA结果。在多语言任务上的实验证明,ESP在不理解的语言上依然获得很好的效果。最后,介绍了ESP的通用性,表明其在通用票证信息抽取、长尾票证信息抽取上具备鲁棒性。报告还介绍了新的自然场景视觉信息抽取数据集SIBR,数据集已经开源: https://www.modelscope. cn/datasets/damo/SIBR/summary。
报告论文:Zhibo Yang*, Rujiao Long*†, Pengfei Wang*, Sibo Song, Humen Zhong, Wenqing Cheng, Xiang Bai, Cong Yao. "Modeling Entities as Semantic Points for Visual Information Extraction in the Wild." In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2023.
本次报告会获得了良好效果,我们期待更多优秀青年学子在文档图像领域取得研究进展,并在后续的沙龙报告会中踊跃参与、共同进步!
错过直播的同学可以前往B站观看回放视频,链接:
https://www.bilibili.com/video/BV1T84y1M7r2
或微信扫描二维码观看
Copyright © 2025 拉斯维加斯手机娱乐网站 京公网安备 11010802035643号 京ICP备12009057号-1
地址:北京市海淀区中关村东路95号 邮编:100190