CSIG图像图形学科前沿讲习班—“图像感知与交互理解”

学会活动

CSIG图像图形学科前沿讲习班—“图像感知与交互理解”

发布时间：2023-02-28 来源：拉斯维加斯手机娱乐网站分享：

2023年2月26日，由拉斯维加斯手机娱乐网站（CSIG）主办、CSIG成像探测与感知专业委员会承办的第20期CSIG图像图形学科前沿讲习班（IGAL20）在线上圆满闭幕。本期讲习班主题为“图像感知与交互理解”，由大连理工大学卢湖川教授、中山大学郑伟诗教授担任学术主任，来自全国各地的教师、学生以及企业工程师参加，讲习班由中山大学郑伟诗教授主持，会场气氛活跃。

图 1 罗斌副主任致辞

2月25日上午举行的开班仪式上，成像探测与感知专委会副主任罗斌教授致辞，罗教授对拉斯维加斯手机娱乐网站以及成像探测与感知专委会进行了介绍，并对学术主任及报告嘉宾为大家带来领域内前沿观点和技术，以及来自全国各地的参会者对活动的支持表示衷心感谢。他希望借此机会联络更多的科技工作者，与大家共同学习与提高，并欢迎各位参会者加入拉斯维加斯手机娱乐网站。

图 2 卢湖川教授致辞

本期讲习班学术主任卢湖川教授致辞，对本期讲习班的主题及报告嘉宾进行了介绍，代表学会向专委会表示感谢，同时希望大家能够借助本次讲习班的学习契机，充分交流与学习，推动图像感知与交互理解的发展，也欢迎广大图像图形领域研究者积极参与学会开展的各项活动。

图 3 刘越教授作报告

第一场，北京理工大学刘越教授作了题为“面向新一代沉浸式互联网的高逼真数字人构建”的报告。刘越教授首先介绍了虚拟现实的背景情况、现实应用及发展趋势；其次介绍了元宇宙的概念和元宇宙中的核心要素；然后介绍了高逼真数字人的产生，同时分析了其构建的技术瓶颈和所面临的挑战；最后介绍了面向新一代沉浸式互联网数字人构建相关的研究成果，并对未来的研究方向进行展望。

图 4 叶茫教授作报告

接下来，武汉大学计算机学院叶茫教授作题为“复杂场景下的目标重识别”的报告。跨视角目标（如行人、车辆等）重识别在智慧城市、智慧社区等领域有重要应用。但是现有方法在实际复杂多变场景下仍面临诸多挑战。叶茫教授在报告中首先简单回顾目标重识别近期进展，然后分享课题组利用前沿Transformer在虚拟到真实的跨域目标识别、无人机场景下的目标识别和素描场景下的目标识别等领域下的工作。最后对复杂场景下目标重识别的未来研究方向做简要讨论。

图 5 杨易教授作报告

25日下午，浙江大学求是讲席教授杨易作了题为“多模态感知技术现状及其应用”的报告。杨易教授首先讨论了目前多场景视觉分析技术面临的瓶颈，概述智能视觉系统在物体和动作感知上的进展与挑战，介绍了高效视觉感知模型设计策略和视觉感知算法在实际场景下应用实例。其次，进一步讨论了视频时序建模的方法，结合视频分类、定位、分割等任务，介绍高效视频分析的前沿技术。最后，基于多模态数据的联合训练方法，讨论如何使多模态算法具备更强的匹配、融合和推理能力，从生物计算的角度研究人工智能给出研究思路，以期推动人工智能的发展。

图 6 朱霞天博士作报告

接下来，萨里大学高级讲师朱霞天博士作了题为“Efficient Learning with Foundation Models”的报告。在报告中，朱霞天博士介绍了两个挑战。第一个是关于跨模态迁移学习。由于不断增长的模型规模，标准的基于微调的任务适应策略在模型训练和存储方面代价较大。这导致了参数有效迁移学习的一个新的研究方向。在这种情况下，我们研究有效参数的图像-视频迁移学习。第二个是关于参数有效的多模态学习。少样本(FS)和零样本(ZS)学习是扩展到新类型的两种主要方法。

图 7 金连文教授报告

2月26日上午，华南理工大学金连文教授作了题为“深度学习时代的手写文字识别与分析：数据、方法与应用”的分享。金连文教授从如何利用领域知识来更好的进行文字识别、如何解决超大类别情况下的无约束联机手写识别问题、如何解决数据稀缺下的手写签名认证和书写者识别、如何更好的利用大规模无标注或弱标注数据进行自监督/弱监督学习等几个问题入手，介绍近年来手写体文字识别和笔迹分析研究领域的一些新方法与新进展。本报告介绍了手写文本数据合成和增广、基于Path Signature的手写识别及笔迹鉴别、弱监督自对齐手写识别以及自监督表征学习文本识别方法等，并对未来发展趋势进行探讨。

图 8 张辉教授作报告

接下来，湖南大学张辉教授作了题为“面向工业场景的高光谱图像异常检测关键技术研究”的分享。智能机器人在高端制造过程中面临许多挑战，无法满足机器人智能化的自主作业与高速高精度的制造需求，因此亟需提升机器人多模态信息获取感知与智能检测分析能力。张辉教授介绍了针对目前的高光谱成像系统的问题，研究基于快照式压缩感知的光谱计算成像技术；针对缺陷检测中的挑战，研究基于生成式模型的分类异常检测方法；针对实际应用场景中，检测算法面临的问题，研究基于聚类与特征归一化的领域泛化方法。

图 9 彭宇新教授作报告

2月26日下午，北京大学彭宇新教授围绕“数据-知识协同驱动的跨媒体分析与推理”的主题作了分享。彭宇新教授分享了图像、视频、文本等跨媒体数据在人类社会、物理空间和信息空间中交叉融合，全面形象地表达综合性知识并反映个体和群体行为。跨媒体分析与推理对于提高计算机对客观世界概念、规则及其演化的深层感知、认知与综合归纳的能力至关重要。彭宇新教授分析了其中关键的科学问题即如何将数据驱动与知识驱动相结合，提高计算机对客观世界规律的综合归纳与分析推理的能力，接着介绍了数据-知识协同驱动的跨媒体分析与推理的近期工作进展，最后对未来发展方向及趋势进行简要讨论与展望。

图 10 卢策吾教授报告

最后一场，上海交通大学卢策吾教授作了题为“行为理解与具身智能”的分享。报告围绕智能体行为理解问题展开讨论。卢教授从机器认知角度，介绍了人类行为知识引擎与庞加莱空间下的行为语义统一等工作；从神经认知角度，介绍了如何阐释视觉行为理解与其脑神经的内在关联，并建立稳定映射模型；从具身认知角度，介绍了提出的PIE（perception- imagination-execution）方案，其中代表工作graspNet首次在未知物体抓取问题上达到人类水平。

图 11 赖剑煌副理事长闭幕式致辞

拉斯维加斯手机娱乐网站（CSIG）副理事长赖剑煌教授在闭幕式上致辞，总结了八位报告专家的前沿研究内容，阐明了本次讲习班的目标，一是展示图像感知与交互理解领域的新进展和突出成果，二是希望广大研究者们能够充分交流讨论、拓宽视野和思维。同时向所有参会人员的支持表示感谢，期待和大家在学会活动中再次相聚。

本次讲习班专家报告精彩、内容丰富，学员们线上积极互动、踊跃提问、收获颇丰，不仅加深了对专业领域的认知，还拓宽了视野和思维，更促进了同行之间的交流与合作。第20期“图像感知与交互理解”前沿讲习班在各位报告嘉宾、广大同行以及学会的各级领导的大力支持下，取得了圆满成功。

学会活动

CSIG图像图形学科前沿讲习班—“图像感知与交互理解”

微信扫一扫：分享