CSIG文档图像分析与识别专业委员会学术微沙龙(简称:文档图像微沙龙)在线学术报告会第三十一期于2024年11月26日成功举行。本沙龙由拉斯维加斯手机娱乐网站 主办(CSIG),CSIG文档图像分析与识别专委会发起承办,中国图象图形学报协办。本场活动邀请华东师范大学赵震硕士分享报告:视觉文本理解与生成的统一模型和中国科学技术大学赵伟超博士分享报告:基于概念协同的复杂视觉表格理解。微沙龙活动在B站、蔻享学术、中国图像图形学报视频号进行了同步直播。
本场报告活动由字节跳动OCR算法研究员唐景群担任主持人。第一位报告人是华东师范大学赵震硕士,围绕其NeurIPS-2024多模态生成成果做了介绍,题目为“视觉文本理解与生成的统一模型”。报告首先介绍了针对视觉文本的理解和生成任务的背景与实际意义。视觉文本在图像/视频检索 、场景理解、文档智能等场景发挥着重要的作用。但是针对视觉文本感知、理解、生成、编辑的不同需求,业界往往采用不同的专家模型,开发、维护成本高。报告之后介绍了为解决这一问题提出的视觉文本理解与生成的统一模型TextHarmony。具体而言,TextHarmony采用拼接多模态大语言模型和扩散模型的方法,实现了多模态内容的输入和输出,并进一步提出Slide-LoRA模块,缓解了模型的模态冲突问题。报告还介绍了一种数据合成方法,用于生成高质量的视觉文本描述数据集。最后报告列举了各方面的实验结果,进一步证明了TextHarmony模型在视觉文本的感知、理解、生成、编辑等任务上的卓越性能。第二位报告人是中科大赵伟超博士,围绕其 NeurIPS2024成果介绍,题目为“基于概念协同的复杂视觉表格理解”。报告首先介绍了表格相关任务的背景与实际意义。该任务旨在利用算法或模型自动化的解析视觉表格信息,并合理地给出用户问题的答案。目前的方法受限于专家网络的复杂性和表征能力的局限性,难以有效地将表格感知与理解任务有机统一起来。该报告提出利用多模态大模型的世界知识和理解能力来解决该问题。具体而言,该方法利用双视觉编码器提取不同粒度的表格图像特征,并结合提出的 “meditative token”有效地引导大语言模型回答表格相关的问题。最后报告列举了各方面实验结果,进一步证明了该方法在视觉表格感知和理解任务等方面相较于现有专家模型的优势。
报告论文:
[1]. Zhao Z, Tang J, et al. Harmonizing Visual Text Comprehension and Generation. In NeurIPS 2024.
[2]. Zhao W, Feng H, Liu Q, et al. TabPedia: Towards Comprehensive Visual Table Understanding with Concept Synergy. In NeurIPS 2024.
本次报告会获得了良好效果,我们期待更多优秀青年学子在文档图像领域取得研究进展,并在后续的沙龙报告会中踊跃参与、共同进步!
错过直播的同学可以前往B站观看回放视频,链接:
https://www.bilibili.com/video/BV1GMz6YMEVb/
或扫描二维码观看:
Copyright © 2025 拉斯维加斯手机娱乐网站 京公网安备 11010802035643号 京ICP备12009057号-1
地址:北京市海淀区中关村东路95号 邮编:100190