CSIG图像图形学科前沿讲习班—“三维场景感知与理解”

学会活动

CSIG图像图形学科前沿讲习班—“三维场景感知与理解”

发布时间：2020-01-01 来源：拉斯维加斯手机娱乐网站分享：

2019年12月29日，CSIG图像图形学科前沿讲习班第15期（IGAL 15）在中国科学院自动化研究所圆满闭幕。本期讲习班主题为“三维场景感知与理解”，由拉斯维加斯手机娱乐网站（CSIG）主办，深蓝学院支持。共有来自全国各地的老师、学生以及企业工程师近100人参加会议，讲习班现场气氛热烈。

讲习班现场

28日上午，CSIG副理事长兼秘书长、北京科技大学马惠敏教授代表主办方主持开班仪式并致辞。马老师感谢学术主任卢策吾研究员以及报告嘉宾，同时也感谢来自全国各地的参会者对活动的支持。马老师在致辞中指出，讲习班与其他学术会议的区别在于，讲习班报告在总结观点的同时，涵盖了前沿的思路或未发表的成果，是参会者了解学科前沿非常难得的机会。

马惠敏教授致辞

讲习班学术主任、上海交通大学的卢策吾研究员在开班仪式上致辞。卢老师在致辞中概述了三维感知当下的发展和应用。比起二维感知，三维感知的细节和信息更加的丰富，也被广泛用到智能驾驶和机器人、增强学习等各个方面，因此三维感知是一个非常重要的研究方向。

卢策吾研究员致辞

接下来，上海交通大学卢策吾研究员作了题为《三维场景感知与理解》的报告。卢老师首先介绍了PointSIFT的工作（PointNet++的升级版本），讨论了面对三维视觉中的旋转不确定性这一问题；最后讲述了基于三维视觉和主动学习（active learning）的数据集ShapeNet, GraspNet，GraspNet可以在无需真实机械臂实验情况下，评价各种抓取算法。

卢策吾研究员作报告

随后，北京大学施柏鑫研究员围绕《数据驱动的光度法三维建模》这一主题作分享。施老师在报告中指出，以多视角几何为代表的三维视觉方法可以通过一组图片恢复物体的三维模型，然而在特征点匹配不可靠的平滑区域，重建效果往往不尽如人意；以光度立体视觉为代表的光度三维建模方法可以通过输入固定视角下光源变化的一组图像，来获取精度更高的三维信息，表现为与主流二维图像分辨率等同（千万像素级别）的法线图。报告介绍了光度立体视觉的基本概念与最新进展。通过系统地对经典方法进行分类讲解，引入光度立体视觉的基准评测数据集，最后介绍近些年利用深度学习求解光度立体视觉的最新成果。

施柏鑫研究员作报告

下午，西北工业大学戴玉超教授分享了题为《深度学习与多视角几何模型融合的三维感知》的报告。计算机视觉中的几何视觉利用相机获取的多视角图像重建所观测场景的三维几何结构，在SLAM、无人系统、自动驾驶、机器人、虚拟现实/增强现实和场景分析等方面有重要应用。深度学习特别是深度卷积网络在特征学习与语义信息提取上有巨大优势，如何将数据驱动模型与多视角几何模型相结合成为研究热点。戴玉超教授分享了针对此问题的一系列最新工作，包括如何在监督学习框架下进行单目深度估计、双目深度估计、多目深度估计，如何构建自监督学习框架以实现连续视频帧双目深度估计、具有几何约束的单目光流估计和双目-激光雷达数据的有效融合等。最后对于本领域的进一步发展进行讨论。

戴玉超教授作报告

浙江大学周晓巍研究员的报告《 Learning Correspondences for 3D Reconstruction and Pose Estimation》同样引起了大家极大的兴趣。在本次报告中，周老师主要介绍了如何利用基于学习的方法来解决3D重建和姿态估计中的对应问题以及相关的最新成果。他首先介绍了是基于CNN组的变换不变密集描述符，并在SfM和视觉定位中得到应用。其次是用于对象姿态估计的逐个像素的投票网络，它对于重度遮挡和截断具有鲁棒性。最后包括一个相对姿势估计方法，该方法可以通过场景完成将RGBD扫描对齐很少甚至没有重叠，以及基于学习的姿势同步方法。

周晓巍研究员作报告

29日上午，中国科学院自动化研究所吴毅红研究员以《多视几何SLAM与融入深度学习的SLAM》为主题，给大家带来了精彩的报告。视觉SLAM在虚拟现实，增强现实，人机交互，无人驾驶，机器人导航等领域有着广泛的应用。报告介绍了视觉SLAM的最近工作进展，包括基于点到二次曲线几何距离捆绑调整的圆形marker SLAM，多特征融合的SLAM新框架，深度哈希相似分层的闭环检测，动态目标SLAM中的深度学习分割与运动模糊的抠图工作，大场景中深度哈希学习描述子与随机森林结合的视觉定位等。最后对视觉SLAM进行了展望和趋势分析。

吴毅红研究员作报告

清华大学刘烨斌副教授作了题为《实时便捷人体三维重建技术前沿与应用》的报告。人体对象是视觉场景信息中最重要的部分，其具有复杂的纹理外观特性、非刚性形变和高动态特性。人体对象的动态三维重建可应用于全息三维影像通信、3D人体试衣、增强现实、安防视频人体行为分析、各类智能机器三维视觉分析、影视娱乐游戏等。近年随着三维视觉技术和深度学习网络技术的发展，IphoneX等智能手机新增加实时深度成像模组，HoloLens/Magic Leap One等AR设备的出现，5G网络的启动，人体动态三维重建的应用变得越发清晰。报告回顾了近20年动态人体三维重建技术的发展，总结多条技术脉络，包括基于多相机、基于单深度相机、基于单图像或单视频的人体重建方法，同时围绕重建的目标需求：精准、实时、便捷、大范围、语义化等5大目标进行技术阐述。

刘烨斌副教授作报告

马惠敏教授作报告

最后，中国科学院自动化研究所申抒含副研究员作了题为《基于图像的大规模场景三维建模——从几何重建到语义矢量重建》的报告。在理论和应用层面，基于图像的三维重建这一经典问题都日益成为计算机视觉研究者的关注热点。报告介绍了在基于图像的大规模场景三维建模方面的系统性研究工作，包括在稀疏重建、稠密重建、语义建模、矢量建模、视觉定位等领域的最新研究进展，以及在文化遗产数字化、智慧城市、高精地图、视觉重定位等多个领域的系统应用。

申抒含副研究员作报告

8场专家的报告，拓展了学员的视野，激发了大家的研究兴趣和热情，同时通过相互交流，认识了新的同行，碰撞出诸多合作点，更加坚定了与会者从事三维感知领域研究的信心。第15期CSIG图像图形学科前沿讲习班“三维场景感知与理解”，在CSIG各级领导、各位报告嘉宾和广大同行的大力支持下，取得了圆满成功。