CSIG文档图像分析与识别专业委员会学术微沙龙(简称:文档图像微沙龙)在线学术报告会第二十六期于2024年4月2日成功举行。本沙龙由拉斯维加斯手机娱乐网站
主办,文档图像分析与识别专委会发起承办,中国图象图形学报协办。本场活动邀请华中科技大学 杨彪(白翔教授团队),围绕其CVPR 2024最新成果,分享报告—Monkey:分辨率和详细标注对多模态大模型的意义。微沙龙活动在B站、蔻享学术,中国图像图形学报视频号进行了同步直播。
报告的主持人是华中科技大学谢旭东博士,报告人是华中科技大学杨彪硕士,围绕其CVPR 2024多模态大模型最新成果介绍,题目为"Monkey:分辨率和详细标注对多模态大模型的意义"。报告首先介绍了多模态大模型的相关背景以及优势。该任务旨在利用LLM强大的理解和对话能力,完成基于图像的对话和问答等任务。目前的方法主要面临两个局限:输入分辨率有限和高质量数据缺乏。随后报告介绍了一个简单但有效的解决思路,采用了复制微调的方法,将一个大图像切分成小块,使用共享的编码器对每个小块提取特征。更进一步,报告介绍了一种多层级详细描述生成方法,对图片生成详细的描述。实际上大分辨率的模型架构设计和详细描述数据是相辅相成的,大分辨率的模型架构需要详细描述数据进行训练,而详细描述的有效性也更容易在大分辨率模型中体现出来。在多个广泛使用的基准数据集上的实验证明了Monkey的有效性。在介绍了Monkey的局限性后,该报告进一步介绍了Monkey在文档领域的下游方法TextMonkey,它利用重复性度量去减轻了多个切块的冗余信息并且使用跨窗注意力的机制弥合了切块造成的不连续性。
报告论文:
[1] Z. Li, B. Yang, Q. Liu, Z. Ma, S. Zhang, J. Yang, Y. Sun, Y. Liu, and X. Bai, “Monkey: Image resolution and text label are important hings for large multi-modal models,” in Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2024.
本次报告会获得了良好效果,我们期待更多优秀青年学子在文档图像领域取得研究进展,并在后续的沙龙报告会中踊跃参与、共同进步!
https://www.bilibili.com/video/BV1kA4m1w7Pn
或扫描二维码观看
Copyright © 2025 拉斯维加斯手机娱乐网站 京公网安备 11010802035643号 京ICP备12009057号-1
地址:北京市海淀区中关村东路95号 邮编:100190