拉斯维加斯手机娱乐网站 博士学位论文激励计划旨在推动中国图像图形学领域的科技进步,鼓励创新性研究,促进青年人才成长。
为宣传科技工作者积极进取的工作精神,分享激励计划入选者的科研故事,学会近日对入选2023年度CSIG博士学位论文激励计划的入选者陈绍祥进行了专访,以对话的形式,为读者们提供一次了解他的机会。
下面就跟着我们的脚步,走近今天的受访者吧。
问题一:首先非常感谢您接受我们的采访,请先向大家介绍一下自己:
大家好,我是陈绍祥,是复旦大学计算机应用技术专业2022年毕业的博士,导师是姜育刚教授。我的研究方向是计算机视觉及视频理解,并聚焦于视觉与语言结合的视频内容理解,在视频描述生成和视频事件定位两个具体问题上进行深入研究。博士期间以第一作者身份,在CVPR,ICCV,ECCV和AAAI等计算机视觉和人工智能领域国际会议上发表6篇文章,并在ActivityNet视频描述生成竞赛、谷歌视频识别挑战赛等多个国际竞赛中获得优异名次。我曾获得博士生国家奖学金,上海市优秀毕业生,上海市计算机学会优秀博士学位论文等多项荣誉。
问题二:请问您在科研过程中,有没有什么好的方法可以推荐给大家?
我博士期间对一个问题展开研究之前会优先做到两点:充分的领域调研和尽快地上手实验。领域调研的目的是了解领域内目前为止对该问题的研究思路(和历史发展)、所取得的成果,以及仍存在的问题。调研过程中就对这三个方面进行梳理,不仅可以帮助自己找到合适的研究切入点,也为后续的论文撰写提前打了草稿。在这个过程中,还可以借助学术搜索工具展开更广泛的调研。比如以视频描述生成为主题的顶会论文可能在200篇左右,每年新增的数量也并不多,但其中涉及的模块结构、损失函数可能在其他方向的大量论文中有更加深入的研究,那也是非常值得学习的。我也偶尔会对自己感兴趣的方向抽空进行一次调研,以扩展自己的知识广度。
当大致确定了对一个问题的研究思路之后,上手实验其实是更加重要的。这个也分两个方面,一是去运行现有研究公开的代码,实际体验他们方法的效果,才能对现存问题有更深刻的认识,并在文章中给出更令人信服的证据。二是自己所设计的方法效果如何最终要靠不断地迭代实验去验证并在文章中呈现,这个过程大概率还可以帮助我们发现在纸上设计方法时没有考虑到的问题。我还记得本科时候第一次配好环境成功运行Caffe、Theano、Tensorflow等等框架时候的兴奋感,也感叹随着深度学习框架的演进和社区开源氛围的浓厚,实现自己所设计的方法也变得更方便了。
问题三:请对您的论文进行简要介绍
当今社会有大量的应用在产生和利用视频数据,包括视频监控、视频直播、 视频网站、移动视频应用等等。在这些应用中,对视频内容进行分析和理解是必要的处理流程,而海量的视频数据就要求以智能化和自动化的方式提升其处理效率。因此,研究更加高效准确的视频理解技术是十分有必要的。
本文中视频理解具体指利用机器学习、计算机视觉、自然语言处理等方法从高度冗余的视频数据中提取一系列关键元素,建模其随时间空间的变化以及相互间关联,最终得到符合特定目标的输出。例如,视频动作识别需分析理解视频中人物本身的姿势随时间的变化模式,输出动作类别的判断。事实上,单纯从视觉出发的视频理解问题已经受到大量学者的长期关注,例如视频动作识别与定位、视频语义分割、视频物体检测与跟踪等,近年来已取得了显著的研究成果。但纯视觉的方式也存在一定的局限性。举例来说,目前主流的视频动作识别方法仅能够输出存在于预定义列表中的动作类别,所以往往无法刻画多个动作组合而成的复杂事件。视觉与语言结合的视频理解正是为了解决此问题,我们使用自然语言刻画复杂事件作为算法的输入或输出,通过让算法输出自然语言来表达其对视频内容的处理结果(如描述其中发生的事件、基于其中发生的事件展开 问答),或者让算法接受自然语言输入来传递使用者的对视频的分析需求(如定位符合描述的片段),相关的新方法可以处理和理解视频中的复杂事件,这是视觉与语言结合的视频理解与纯视觉的视频理解之间最大的区别。
本文所研究的视频描述生成和视频事件定位就是视觉与语言结合的两个代表性视频理解问题。相比于单纯的动作类别识别,视频描述生成考虑的内容范围更广(不仅限于人参与的事件)、描 述的模态更多(如对声音的形容),且能够进一步输出描述多个动作组成的复杂事件。视频事件定位则需要在长视频中定位指定事件发生的起止时间甚至空间区域,其同样以复杂事件为目标,用自然语言刻画复杂事件。二者分别为“从视频到语言” 的正向问题和 “从语言到视频” 的反向问题,在一定程度上可视为一组对偶问题。为了进一步探索二者间作为对偶问题的关联,本文也对弱监督密集视频描述生成问题进行研究。
本文聚焦充分利用视觉与语言的交互进行视频理解,在视频描述生成和事件定位上开展了深入研究,针对视觉信息粒度粗、视觉与文本交互弱、视频特征表示能力不足等现有的关键问题,提出了一系列创新的视频描述生成和视频事件定位方法及通用的视频多模态特征编码方法,有效提升了描述生成质量和事件定位精度。此外,本文还在弱监督的密集视频描述生成中首次统一了描述生成与事件定位两个任务,进一步深入挖掘了视觉与语言的关联。
问题四:在您论文筹备过程中遇到的最大的挑战是什么?是怎样克服的呢?
最大的挑战其实是博士初期时在一个研究问题上卡了比较长一段时间。当时选题时对深度学习方法的期望过高,认为它在一个现在看来都相对复杂的问题上能够取得比较好的效果,结果就是反复调整模型、数据都不能得到一个比较满意的结果。后来和导师讨论后觉得可以同步开始做另外一个比较有把握的任务,并且挺快做出了一些结果,虽然也碰到一些小问题,但成果顺利发表。现在看来,当时这样的规划及时地缓解了我在难题上受到的挫败感,并且在之后的研究中我对于深度学习的能力边界有了更清晰的认识,对于我后续的选题和实验都有一些指导作用。
问题五:获奖感言(/对导师说的话):
在此衷心感谢姜育刚老师从本科开始对我多年的培养,我在大二的时候怀着对科研的好奇和兴趣,加入了姜老师的实验室,耳濡目染学长学姐们的科研生活,在比较早的时候就接受了姜老师的科研指导和训练,对科研所涉及的方方面面都有了一些认识,同时姜老师积极且认真负责的工作态度深深影响了我。当时我作为一个本科生不成熟的科研想法,姜老师也会主动约时间和我讨论,并且我的第一篇workshop投稿,姜老师也认真地帮忙审阅把关。后来当我真正成为博士生的时候,已经能够相对独立地在感兴趣的问题上开展研究了,并且姜老师一直以来对我的科研探索都非常鼓励和支持,使我度过了一个比较顺利的博士生涯。
同时,我也要感谢实验室吴祖煊和陈静静老师对我的帮助,以及实验室各位同伴,愉快的实验室氛围也是博士期间美好的回忆,我会永远怀念这段奋斗的时光。
Copyright © 2025 拉斯维加斯手机娱乐网站 京公网安备 11010802035643号 京ICP备12009057号-1
地址:北京市海淀区中关村东路95号 邮编:100190