CSIG-广东省CVPR2022论文在线学术报告会于2022年5月7日成功召开,本次学术报告会由拉斯维加斯手机娱乐网站
(CSIG)和广东省图象图形学会(GDISG)承办,由CSIG文档图像分析与识别专委会、CSIG机器视觉专委会、华南理工大学电子与信息学院和中山大学计算机学院联合承办,18位广东省图像图形领域的优秀青年学子介绍了他们CVPR 2022录用论文的最新研究成果,报告会在拉斯维加斯手机娱乐网站
官方视频号、极市平台和蔻享学术三个平台进行了同步直播,累计观看直播6300余人次,反响热烈!
会议由中山大学郑伟诗教授、谢晓华教授和华南理工大学张鑫副教授共同主持,拉斯维加斯手机娱乐网站
副理事长、中山大学赖剑煌教授致开幕词。赖教授指出,作为计算机视觉及人工智能领域的顶级学术会议之一,CVPR论文的申请量逐年增长,被录用的难度也日渐升高。本次报告会非常高兴看到来自广东省的18位优秀的青年学子介绍共同介绍他们的研究成果,通过线上云会议方式,收益的观众面更多更广,也期待未来有更多这样的学术交流活动。
报告1:来自中山大学的张权同学做了题为“基于3D布局建模的群组行人重识别方法”的学术报告,介绍了一种基于3D布局建模的群组行人重识别方法。群组行人重识别(GReID)可以正确地将群组与不同相机下的相同成员关联。他们通过三维布局建模来克服现有方法所带来的布局模糊性问题,提出了一种新型的3D转换器(3DT),该转换器重建成员之间的相对3D布局关系,然后通过采样和量化的方法沿三维预设一系列布局标记,并选择相应的标记作为每个成员的布局特征。此外,他们还构建了一个合成的GReID数据集City1M,以缓解数据不足和标注不良的问题。实验表明,在CSG、DukeGroup和RoadGroup上的结果均体现了他们方法的优越性。
报告2:来自华南理工大学的黄明鑫做了题为“SwinTextSpotter:发挥文本检测和文本识别之间更好的协同作用”的学术报告,提出了一个新的端到端场景文本定位框架称为SwinTextSpotter。目前最先进的场景文本检测和识别方法通常仅通过共享主干来实现,而没有直接利用两者之间的特征交互。他们提出的SwinTextSpotter使用带有动态头部的变压器编码器作为检测器,通过一种新的识别转换机制将这两个任务结合起来,在识别丢失的情况下明确指导文本定位。其简单的设计产生了一个简洁的框架,它既不需要额外的纠正模块,也不需要对任意形状的文本使用字符级注释。在多导向数据集RoIC13和ICDAR 2015,任意形状数据集Total-Text和CTW1500,以及多语言数据集ReCTS(中文)和VinText(越南文)上的定性和定量实验表明,SwinTextSpotter明显优于现有的方法。
报告3 :来自中山大学的杨斌斌做了题为“基于任务原型关系引导门控机制的连续目标检测”的学术报告,提出了一个简单灵活的框架,通过pRotOtypical taSk corrElaTion guided gaTing mechAnism (ROSETTA)实现连续对象检测。所有任务共享一个统一的框架,同时引入任务感知门来自动选择特定任务的子模型。这样就可以在系统中存储各种知识对应的子模型权重,从而实现对各种知识的连续记忆。为了使ROSETTA自动判断哪些经验是可用的和有用的,引入了一个典型的任务相关导向的门控分集控制器(GDC),基于类的原型自适应地调整新任务门的分集。GDC模块通过计算类到类的相关矩阵来描述跨任务的相关,并在观察到明显的域间隙时,对新任务激活更多的排他门。综合实验表明,ROSETTA在基于任务和基于类的连续对象检测方面都具有最先进的性能。
报告4:来自华南理工大学的林鑫做了题为“RU-Net:基于正则化展开的场景图生成”的学术报告,提出了一种正则化展开网络(RU-Net)。作者首先从展开技术的角度研究了GMP与图拉普拉斯去噪(GLD)之间的关系,确定了GMP可以作为GLD的求解器。基于此观察提出了一个展开的消息传递模块,并引入了一个基于$\ell_p$的图正则化来抑制节点之间的虚假连接。其次,还提出了一个群体多样性增强模块,通过秩最大化来提高关系的预测多样性。系统实验表明,RU-Net在各种设置和指标下都是有效的。此外,RU-Net在三个流行的数据库上实现了最新的技术水平:VG、VRD和OI。
报告5:来自深圳大学的吴昊谦做了题为“基于场景一致性表征学习的视频场景分割法”的学术报告,提出了一个有效的自我监督学习(SSL)框架,以从未标记的长期视频中学习更好的镜头表示。在最先进的算法中,他们没有明确地学习场景边界特征,而是引入了一个诱导偏差较小的香草时态模型,以验证提取的特征的质量,即提出了一个自我监督的表示学习方案来实现场景一致性,同时探索了大量的数据增强和洗牌方法来提高模型的泛化能力。该方法在当前视频场景分割任务的基准上达到了最先进的性能。
报告6:来自中山大学的张鹏泽做了题为“基于双任务相关性的人物图像生成”的学术报告,提出了一种新的双任务位姿转换器网络(DPTN),该网络引入了一个辅助任务(即源到源任务),并利用双任务相关性来提高PGPIG的性能。解决了现有的方法大多只针对源到目标的病态任务,未能捕获到合理的纹理映射的问题。DPTN是一个连体结构,包含一个源到源的自重构分支,以及一个用于源到目标生成的转换分支。通过在它们之间共享部分权值,源到源任务学习到的知识可以有效地辅助源到目标的学习。此外,还提出了一种姿态变换模块(PTM)来连接两个分支,自适应地探索来自双重任务的特征之间的相关性。这种关联可以建立源图像与目标图像之间所有像素的细粒度映射,促进源纹理传输,增强所生成目标图像的细节。
报告7:来自华南理工大学的邓圣衡同学做了题为“VISTA:通过双跨视角空间注意力机制提高3D物体检测”的报告。论文提出了一种基于双跨视图空间注意(VISTA)的全局空间背景下自适应融合多视图特征的方法。VISTA是一种新颖的即插即用融合模块,其中多层感知器被广泛采用的标准注意模块替换为卷积的一个。由于学习注意机制,VISTA可以产生高质量的融合特征。我们对VISTA中的分类和回归任务进行了解耦,并应用了一个额外的注意方差约束,使注意模块能够专注于特定的目标而不是一般的点。我们在nuScenes和Waymo的基准上进行了实验,结果证实了我们设计的有效性。
报告8:来自深圳大学的谢金衡做了题为“用于弱监督对象定位和语义分割的类无关激活映射对比学习”的报告。论文提出了一种对比学习方法,用于生成类无关的激活映射(C2AM),只使用未标记的图像数据,而不涉及图像级的监督。其核心思想来自于对前景物体的语义信息与其背景不同的观察;外观相似或背景颜色/纹理相似的前景物体在特征空间中具有相似的表征。该方法在上述关系的基础上形成正负对,并利用一种新的对比损失,利用类无关激活映射迫使网络分离前景和背景。在引导网络识别跨图像前景-背景的同时,学习到的类无关激活映射生成了更完整的目标区域,成功地从C2AM类无关的对象边界框中提取目标定位和背景线索,对分类网络生成的CAM进行语义分割。在CUB-200-2011、ImageNet-1K和PASCAL VOC2012数据集上的大量实验表明,WSOL和WSSS都可以受益于提出的C2AM。
报告9:来自中山大学的汤裕明同学做了题为“学会想象:增量学习背景下利用无监督数据增加记忆多样性”的报告,论文提出了一个可学习的特征生成器,通过自适应地根据样本的语义信息和未标记数据的语义无关信息生成不同的样本副本,从而使样本多样化,引入语义对比学习来加强生成的样本与范例的语义一致性,并执行语义解耦对比学习来鼓励生成样本的多样性。生成样本的多样性可以有效地防止DNN在学习新任务时的遗忘。该方法没有带来任何额外的推断成本,并且在两个基准测试CIFAR-100和ImageNet-Subset上的性能明显优于最先进的方法。
报告10:来自华南理工大学的孔宇昕同学做了题为“基于组件级鉴别器的少样本字体合成”的报告,论文提出了一种新的组件感知模块(CAM),它监督生成器在更细粒度的级别(即组件级别)解耦内容和样式。与之前努力增加生成器复杂性的研究不同,他们的目标是对相对简单的生成器进行更有效的监督,以充分发挥其潜力,这是字体生成的一个全新视角。整个框架通过将组件级监控与对抗式学习相结合,取得了显著的效果,这种方法能够通过模仿人类学习机制来增强生成器的特征表达能力,她提出的CAM模块能够在更细粒度的级别为生成器提供监督信息,她提出的CG-GAN可以灵活扩展到英文手写体合成任务和图像编辑任务上。
报告11:来自中国科学院深圳先进技术研究院的韩鸣飞同学做了题为“Dual-AI: 基于对偶交互学习的群体行为识别”的报告,论文提出了一个独特的双路径参与者交互(Dual AI)框架,该框架以两个互补的顺序灵活地安排空间和时间转换器,通过整合不同时空路径的优点来增强参与者关系,此外他们还提出了在双人工智能的两条交互路径之间引入了一种新的多尺度参与者对比损失(MAC损失)。通过在帧和视频级别的自我监督演员一致性,MAC Loss可以有效区分各个演员的表现,以减少不同演员之间的动作混淆,可以通过融合不同参与者的这些区别性特征来提高群体活动识别能力,上述方法可以帮助我们更好地理解体育团体竞赛时的团体行为,此外还能帮助教练员在制定战略时做出更优的决策。
报告12:来自中山大学的董晓同学做了题为“M5Product:电商多模态预训练的自协调对比学习”的报告,提出了一种用于电子商务多模态预训练的自和谐对比学习方法,他们团队提出了具有5个模态的电商数据集M5Product以及一种新颖的SCALE多模态预训练框架,通过自和谐对比学习的方法,这种框架能够有效地建模和开发模态之间的关系,在M5Product的多模态检索、分类和聚类任务上都表现得比之前的方法好。
报告13:来自深圳大学的谢金衡同学做了题为“CLIMS: 用于弱监督语义分割的跨语言-图像匹配方法”的报告,论文介绍了一种能够通过语言与图像之间的匹配来提升半监督语义分割性能的方法,他们的方法分为3个步骤:1.从多标签分类模型中提取类别激活图;2.运用类别未知的提取方法,从1中的激活图中获取伪语义标签;3.通过这些伪监督来训练一个语义分割网络。他们方法的核心思想来自这样一个观察:i)前景对象的语义信息通常与背景不同;ii)具有相似外观的前景对象或具有相似颜色/纹理的背景在特征空间中具有相似的表示。他们基于上述关系形成正负对,并使用一种新的对比损失,迫使网络使用一个类不可知激活图来分离前景和背景。通过这种方法能够对与前景无关的激活进行抑制,从而获得更加准确的分割边界。
报告14:来自华南理工大学的林鑫同学做了题为“HL-Net: 基于异质性学习的场景图生成”的报告,论文提出了一种新的异质性学习网络(HL-Net),以全面探索场景图中对象/关系之间的同质性和异质性。更具体地说,HL网络包括以下1)自适应权重变换模块,该模块自适应地集成来自不同层的信息,以利用对象中的异质性和同质性;2) 关系特征传播模块,该模块通过考虑异性来有效地探索关系之间的联系,以优化关系表示;3) 一种具有异质性的消息传递方案,用于进一步区分对象/关系之间的异质性和同质性,从而有助于改进图中的消息传递。
报告15:来自北京大学的牟冲同学做了题为“求解动态线性复矩阵方程及其应用的改进ZND模型”的报告,论文提出了一种用于图像恢复的深度广义展开网络(DGUNet)。在不损失可解释性的情况下,他们将梯度估计策略集成到最近梯度下降(PGD)算法的梯度下降步骤中,驱动它处理复杂和真实世界的图像退化。此外,他们在不同的PGD迭代中设计了跨越近端映射的阶段间信息路径,以通过多尺度和空间自适应的方式纠正最深展开网络(DUN)中固有的信息丢失。通过集成灵活的梯度下降和信息近邻映射,他们将迭代PGD算法展开为可训练的DNN。
报告16:来自华南理工大学的屈贤同学做了题为“用Oracle Queries进行知识蒸馏的基于Transformer的人与物体关系检测算法”的报告,论文提出了一个高效的知识提取模型,名为使用Oracle查询的提取(DOQ),该模型在教师和学生网络之间共享参数。教师网络采用语义清晰的oracle查询,并生成高质量的解码器嵌入。通过模仿教师网络的注意图和解码器嵌入,学生网络的表征学习能力得到显著提升。为了解决transformer的集合预测能力因大多数图像在人-对象对标注非常有限而受限的问题,他们引入了一种高效的数据增强方法,称为上下文一致拼接(CCS),它可以在线生成复杂的图像。每幅新图像都是通过拼接从多幅训练图像中裁剪出来的带标签的人体对象对来获得的。通过选择具有相似背景的源图像,新的合成图像在视觉上变得逼真。
报告17:来自华南理工大学的任苏成同学做了题为“基于多尺度token融合的分流自注意力机制”的报告,论文提出了一种分流自注意力机制(SSA)来解决Vision-Transformer每个自注意力层捕捉多尺度特征的能力因指定每一层内每个标记特征的相似感受野而受限的问题,该策略允许VIT在每个注意力层的混合尺度上对注意力进行建模。SSA的关键思想是将异构的感受野大小注入标记中:在计算自注意力矩阵之前,它选择性地合并标记以表示更大的对象特征,同时保留某些标记以保留细粒度特征。这种新的合并方案使自注意力能够学习不同大小对象之间的关系,同时减少了标记数和计算成本。
报告18:来自华南理工大学的钟智炫同学做了题为“通过生成先验结合可逆表示实现的可靠极端放缩”的报告,论文通过生成先验结合可逆表示实现的可靠极端放缩提出了一种生成性先验交互可逆重缩放网络(GRIN),用于从具有极端放大因子(64×)的低分辨率(LR)可逆图像生成忠实的高分辨率(HR)图像。他们通过引入往复可逆图像重缩放过程来解决预训练GAN模型由于极端映射过程的高度模糊性而无法产生像素精度的结果的问题,在这个过程中,高分辨率信息可以微妙地嵌入到可逆低分辨率图像中,并生成用于可靠HR重建的先验信息。特别是,可逆LR特征不仅具有重要的HR语义,而且经过训练可以预测特定于尺度的潜在代码,从而更好地利用生成特征。另一方面,增强的生成先验被重新注入到重缩放过程中,以补偿可逆重缩放丢失的细节。
大会在拉斯维加斯手机娱乐网站
理事、CSIG文档图像分析与识别专委会主任、华南理工大学金连文教授的致辞中闭幕。金教授指出这次线上报告的形式特别好,吸引了很多学者、研究生、企业研发人员及开发者前来观看和交流,希望以后这种学术报告交流会的形式可以继续。进一步,金教授介绍了拉斯维加斯手机娱乐网站
的基本情况,以及2022年中国图象图形大会,欢迎大家加入学会并参加学术大会。金教授对这次参与活动的老师、同学、听众、讲者和组织者表达了感谢。
我们期待更多优秀青年学子在计算机视觉领域取得研究进展,并在未来的报告会中踊跃参与、共同进步!
大会演讲视频进行适当整理后对广大学者提供开放录播服务:
极市平台B站回放链接:https://space.bilibili.com/85300886
寇享学术回放链接:https://www.koushare.com/lives/room/333717
Copyright © 2025 拉斯维加斯手机娱乐网站 京公网安备 11010802035643号 京ICP备12009057号-1
地址:北京市海淀区中关村东路95号 邮编:100190