ECCV 2018 论文宣讲研讨会全情回顾_拉斯维加斯手机娱乐网站

学会动态

ECCV 2018 论文宣讲研讨会全情回顾

发布时间：2018-08-03 来源：拉斯维加斯手机娱乐网站分享：

由拉斯维加斯手机娱乐网站和腾讯高校合作主办、拉斯维加斯手机娱乐网站视觉大数据专委会承办的“ECCV 2018 China Pre-Conference论文宣讲研讨会”于7月30日在深圳腾讯大厦顺利举办。150余位来自学界、工业界的研究人员参与了本次研讨会。会议日程包含12篇论文口头报告，20篇论文海报展示，并邀请到多位业界专家开展题为“计算机视觉的今天与明天，城内与城外”的圆桌论坛，分享各自在计算机视觉领域的最新研究结果和相关技术观点。

大会伊始，上海交通大学研究员严骏驰主持了开幕仪式。腾讯高校合作副总监黄婷婷代表腾讯向与会嘉宾致欢迎辞。

▲ 上海交通大学特别研究员严骏驰

▲ 腾讯高校合作副总监黄婷婷

观点：计算机视觉的今天与明天，城内与城外

上午，上海交通大学严骏驰研究员主持了题为“计算机视觉的今天与明天，城内与城外”的圆桌讨论，6位担任顶级学术会议领域主席的专家学者就计算机视觉领域研究中的热门问题给出了各自的见解，并分享写作经验和rebuttal技巧。

▲ （左起）严骏驰（上海交通大学）；郑伟诗（中山大学）；于仕琪（深圳大学）；徐雪妙（华南理工大学）；戴宇荣（腾讯）；张兆翔（中科院自动化所）；王乃岩（图森未来）

6位计算机视觉领域资深专家分别对：在做研究过程中，学术界与工业界有何差异？中国企业的研究和国外企业的研究有什么区别？近年很多成果来自于深度学习，应该如何看待其他技术路线？深度学习推动的很多应用，下一个会比较热门的领域是哪个？针对顶级会议和期刊的论文投稿Tips以及rebuttal 有何注意事项等焦点问题进行了精彩分享。

Q&A

问题一：在做研究过程中，学术界与工业界有什么差异？

王乃岩认为学术界主要考虑的是如何提高Performance和速度，而工业界主要考虑的是如何通过产品实现业务的盈利，工业界较学术界的优势是可以多途径获取较多的数据。

徐雪妙和郑伟诗补充到，学界的研究过程主要是问题的提出、问题的探索、技术的成长以及行业的探索。如果研究进入技术成熟期的话，则更多的由工业界主导，二者互相促进共同发展。

张兆翔提到学术界与工业界各自的定位不同。工业界会寻求最大市场价值，而学术界最重要的是培养学生，构建更好的人才生态，推动技术的进步。

问题二：关于中国企业的研究和国外企业的研究有什么区别？

几位专家指出，国外的企业相较而言愿意投更多的资源去布局更加长线的研究课题，也更看重学术论文的质量，评价体系与指标因其发展时间较长，所以相较国内更成熟。国内的企业由于所处的经济发展阶段不同，成立时间较短，在底层核心技术方面积累比较欠缺，更多是在产品应用层面的快速创新与迭代，在基础研究的投入和水平与国外还是存在一定的距离，还需更多的努力。但不可否认国内富有一些创新性的企业成长速度很快。

问题三：近年很多成果来自于深度学习，应该如何看待其他技术路线？

张兆翔和郑伟诗提到，深度学习取得了很大的突破，不可否认，确实是目前最好的技术手段，但无论工业界还是学术界，基础理论都没有取得突破和创新，未来的研究和应用还需要其他技术路线支撑。

戴宇荣分析到深度学习是基于数据驱动，对世界场景的先验认识，无法加入到数据中。是否能够借鉴传统，结合到深度学习中，达到一个新的台阶，是一个值得大家思考的问题。现在大部分学生就只会深度学习，而忽视了传统的方法。因为最难研究的不是深度学习，而是一些传统的算法，传统技术与深度学习结合的是一个好的思路。

问题四：深度学习推动的很多应用，下一个会比较热门的领域是哪个？

戴宇荣和徐雪妙认为深度学习现在应用于很多场景，例如自动驾驶、安防、智能家居、图像搜索、医疗等，能不能成为热门领域，主要还取决于应用是否和人产生联系。

于仕琪与徐雪妙则认为其实传统行业发展潜力很大，国内生产过程自动化还未成熟，比如现在生产的最后一步质量检测，基本是人来检测，如何利用人工智能技术来实现传统行业的升级，还是有很大的空间可以做，同时也有很多困难需要突破，更需要深入了解行业的特点与需求。

问题五：针对顶级会议和期刊的论文投稿Tips以及rebuttal 有何注意事项？

总结各位专家的观点与建议如下：

※ 投刊时需要注重实验，有自己的创新点，比较自己的工作和已发表最好的结果相比较有何创新？有何提升？有何改进。

※ 在论文中抽象概念用图生动表示，数据用图表表示，最好有figure、table等。

※ 在rebuttal时做到有理有据，针对不同类型的reviewer，也考验学者的灵活应变能力。reviewer批评中肯的话大胆承认，补充实验来解释。

海报与交流环节

本次论文预宣讲会共邀请到20篇论文以海报形式展示：

▲ 与会嘉宾海报展示与交流

▲ 嘉宾在腾讯大厦展厅参观

论文口头报告-12篇

哈尔滨工业大学（深圳）张正博士带来题为“Highly-Economized Multi-View Binary Compression for Scalable Image Clustering”的报告，张正博士针对大规模图像聚类问题进行阐述。先前的MVIC算法存在计算复杂度高，存储开销大等缺陷，为解决这些问题，本文提出binary code learning 方法。使用汉明距离取代传统的欧式距离，能够有效降低算法时间复杂度。同时通过将实数值转换为二进制码，能够有效节约内存开销。

▲ 张正博士

接着，中山大学胡建芳教授演讲题目为“ Deep Bilinear Learning for RGB-D Action Recognition”，主要介绍了RGB-D动作识别领域，报告挖掘了模态与时间之间复杂的结构信息，提出了一个新的立方体特征，用于表征不同进度水平和模态的动作。同时提出了一个深度双线性网络用于学习立方体特征块的模态-时间的互信息。

▲ 胡建芳教授

中科院自动化所的李成龙教授论述的“Cross-Modal Ranking with Soft-Consistency and Noisy Labels for Robust RGB-T Tracking ”的报告关注于针对RGB-T 图像的单目标跟踪问题。为了有效融合可见光和热红外两种视觉模态信息实现稳健地目标跟踪，论文提出一种新的跨模态排序算法，联合多模态信息构建鲁棒的目标特征。提出的排序算法具有以下优势：第一，针对不同视觉模态的异质性质，提出一种鲁棒的跨模态一致性约束，能够有效利用模态之间的协同性和异质性。第二，针对排序种子点噪声问题，提出一种基于l1范数稀疏学习的种子点优化方法。最后，使用一个统一的优化框架联合求解上述问题。

▲ 李成龙教授（由博士生王逍代讲）

腾讯优图2018年ECCV共入选11篇论文。腾讯优图专家研究员戴宇荣博士主要介绍了其中3篇文章。第一篇为“Pairwise Body-Part Attention for Recognizing Human-Object Interactions”。该文章关注人-物体交互领域的识别问题，针对以往的工作将人看做整体，平等对待各个身体部位问题，本文引入注意力机制，区别对待人体不同区域对识别结果的影响，同时考虑了不同人体区域之间的相互关系。第二篇为“Deep High Dynamic Range Imaging with Large Foreground Motions”。该论文针对具有大尺度前景运动的动态场景的高动态范围（HDR）成像问题，提出了第一个非基于流的深度模型。通过将HDR成像问题定义为无光流的图像转换问题，文章提出的图像转换网络能够在存在完全遮挡，饱和和曝光不足的情况下，自动修复HDR成像细节信息。第三篇为“Deep Video Generation, Prediction and Completion of Human Action Sequences”。本位针对人体动作序列，提出了一个通用的，两阶段的深度网络用于生成没有约束或任意数量约束的人类动作视频。该网络能够统一处理视频生成，视频预测（给定第一帧），视频补齐（给定首尾视频帧）问题。

▲ 戴宇荣研究员

腾讯 AI Lab高级研究员凌永根进行了“Modeling Varying Camera-IMU Time Offset in Optimizatin-based Visual-Inertial Odometry”的介绍。腾讯AI Lab此次ECCV，共有19篇文章入选。由于相机和IMU（惯导测量单元）这两种传感器提供的信息对于运动估计具有很强的互补性，所以把这两种传感器信息融合在一起用于运动估计被学界证实是很有效的。然而，过去大部分的相机和IMU融合方法都是假设使用了全局快门相机和同步的传感器测量。这个假设在现实情况下往往是不成立的。因为在大部分的消费电子产品里，装配的往往是卷帘快门相机和非同步的传感器测量。为了解决这个问题，本文提出了一种基于非线性优化的单目视觉惯导融合方法。这种方法对相机和IMU之间的延时进行建模，并把其当作一个可动态变化的量。本文提出的这种方法可以统一处理使用卷帘快门相机带来的图像失真问题和非同步的传感器测量问题。同时，为了加速优化过程中所需要的可变长度IMU测量积分，本文提出了一种基于动态规划和红黑树的高效计算方法。

▲ 凌永根研究员

University of Rochester/腾讯 AI Lab实习生冯洋分析了“Video Re-localization”的发展与现状。本文提出了计算机视觉领域新的研究方向，视频重定位并提出了相应的数据集。研究动机是给出查询视频，如何精确地在参考视频中定位和查询视频语义相似的视频片段。区别于已有研究领域，特别是视频拷贝检测，视频重定位侧重于定位语义相似的视频片段。

▲ 冯洋博士生

中山大学龚科博士则阐明了“Instance-level human parsing via part grouping network”主题。本文关注于实例人体解析领域。通过像素分组实现人体模块的解析，以及人体模块分组实现单个人体实例的解析。

▲ 龚科博士

图森未来的王乃岩研究员介绍了“Data Driven Sparse Structure Selection for Deep Neural Networks”。本文侧重于解决深度模型实际部署的大小和运算速度问题，设计了一种新的简单有效的模型裁剪端对端网络。本文通过引入新的可学习参数——比例因子，缩放神经元，残差模块等网络子模块的输出。通过使用稀疏正则化和修正的随机加速近端梯度优化方法优化目标函数。通过裁剪比例因子为0的网络模块，实现网络的剪枝和压缩。

▲ 王乃岩博士

奈良先端科学技术大学院大学伍洋教授提出“Pose-Normalized Image Generation for Person Re-identification”。本文中通过提出一种新的基于生成对抗网络的深度图像生成模型来处理行人重识别领域中常见的两个问题：行人重识别领域缺乏跨角度的训练数据对和如何在大量姿态变化情况下，学习有辨别的身份敏感和角度不变的特征。该网络以姿势为条件的合成真实的人像图片，用于行人重识别中的姿势规范化。通过合成图像和真实图像，学习一种新的深度行人重识别特征类型，以此摆脱姿势变化的影响。

▲ 伍洋教授

接着，南京理工大学张姗姗报告到“Person search via a mask-guided two-stream model”内容。行人检索包括行人检测和行人重识别两个子任务。本文考虑这两个任务之间相互关系，将这关系中的先验信息融入到模型中去。行人检测关注的是行人的共性，行人重识别关注的行人的个性。本文通过独立训练两个子模块，利用行人的分割掩膜信息，提取行人前景，并结合部分背景信息，进行特征融合。

▲ 张姗姗教授

随后，中国科学院大学王树徽教授详解“Less is More: Picking Informative Frames for Video Captioning”。为解决视频描述领域内已有方法提取的视频帧存在大量冗余信息的问题，本文提出一个即插即用的网络PickNet，融合强化学习的方法提取视频中最有用的信息。强化学习最大化挑选的视频帧的视觉多样性以及最小化视频帧间的文本差异。

▲ 王树徽教授

最后，大连理工大学王栋副教授集中在“Real-time ‘Actor-Critic’ Tracking”的主题分享。本文将强化学习的方法利用到单目标跟踪领域。区别于已有的利用强化学习进行单目标跟踪，需要进行多步迭代的方法，本文提出直接回归下一帧目标位置偏移量和尺度变化量的方法，一步解决单目标跟踪问题。同时Critic网络融合重确认机制，能够有效解决长时跟踪易出现的目标丢失现象。

▲ 王栋副教授

此次ECCV 2018论文宣讲研讨会已经落幕，ECCV 涵盖了计算机视觉领域等多方面应用，即重视基础研究，也重视实际应用，因此也越来越具影响力，为计算机视觉领域及的专家学者们提供了一个绝佳的交流平台，我们也将持续关注ECCV 2018，为大家带来最新分享。