登录会员系统  |  联系我们  |  加入学会  
奖励与推荐
2023年度CSIG自然科学奖一等奖“异构媒体的协同计算与泛化推理”团队
发布时间:2024-04-01      来源:拉斯维加斯手机娱乐网站       分享:

CSIG自然科学奖授予在我国图像图形领域基础研究和应用基础研究中阐明自然现象、特征和规律,做出重大科学发现的个人和团队。

为宣传科技工作者积极进取的工作精神,聚焦获奖团队背后的故事,学会近日对荣获2023年度CSIG自然科学奖一等奖“异构媒体的协同计算与泛化推理”的项目团队进行了专访,以对话的形式,为读者们提供一次了解他们的机会。

下面就跟着我们的脚步,走近今天的受访团队吧。

问题一:首先非常感谢各位老师接受我们的采访,请先介绍一下团队成员:

本项目团队成员包括许倩倩研究员、黄庆明教授、任文琦副教授、郭晓杰副教授、杨智勇助理教授。

许倩倩,中国科学院计算技术研究所,研究员,博士生导师,基金委优秀青年基金获得者。CCF杰出会员,IEEE/CSIG/高级会员,担任CSIG青工委副秘书长、CSIG多媒体专委会副秘书长、CAAI深度学习专委会副秘书长。研究领域为数据挖掘和机器学习,共发表CCF-A类论文80余篇(其中TPAMI 17篇)。先后获得:吴文俊人工智能自然科学一等奖、吴文俊人工智能科技进步二等奖、茅以升北京青年科技奖、拉斯维加斯手机娱乐网站 石青云女科学家奖、吴文俊人工智能优秀青年奖、中国人工智能学会最佳青年科技成果奖、ACM中国SIGMM新星奖等奖励,并入选首份AI华人女性青年学者榜单。担任国际期刊TMM、TCSVT、ACM TOMM和Multimedia Systems编委。

黄庆明,中国科学院大学,讲席教授,IEEE Fellow,中国计算机学会会士,国家杰出青年基金获得者。研究方向为:多媒体分析、知识图谱、机器学习、计算机视觉。已在国内外权威期刊和重要国际会议上发表学术论文500余篇,其中IEEE/ACM 汇刊论文和中国计算机学会(CCF)认定的A类国际会议论文200余篇,申请和授权国内外发明专利50余项,荣获吴文俊人工智能自然科学一等奖等多项科技奖励。作为项目负责人主持了科技创新2030-“新一代人工智能”重大项目、国家自然科学基金重点项目和重点国际合作项目、国家973计划课题、863课题、中国科学院前沿科学研究重点计划等国家和省部级项目的研究。

任文琦,中山大学“百人计划” 副教授,主持国家自然科学优秀青年基金,广东省重大人才工程青年拔尖人才,长期以来从事多媒体信息理解、目标增强与感知、图像视频处理等方面的研究,主要包括低质量图像/视频复原、目标检测与识别、轻量化网络模型构建、行为预测分析等相关领域的研究工作,并在相关研究内容方面取得了大量的研究成果。在人工智能和计算机视觉领域发表70余篇中科院一区和CCF-A类期刊和国际顶级会议论文,包括5篇TPAMI、6篇IJCV、国际顶级会议(如CVPR、ICCV、ECCV等)文章。截至目前,据Google Scholar 统计,申请人成果被引用10000余次,第一作者单篇最高被引1600余次,单篇引用超过100次的论文12篇(其中第一作者6篇),ESI高被引论文6篇(其中3篇第一作者,1篇通讯作者)。

郭晓杰,天津大学智能与计算学部研究员/长聘副教授、博导,IET Fellow、IEEE/CCF Senior Member,国家级青年人才、吴文俊人工智能优秀青年、爱思唯尔中国高被引学者、斯坦福全球前2%顶尖科学家(终身榜)、AMiner多媒体领域全球最具影响力学者Top 100。迄今发表CCF A类/中科院一区论60余篇,谷歌学术引用万余次。相关成果获国际模式识别协会Piero Zamperoni Best Student Paper奖,多媒体旗舰会议ICME Best Student Paper Runner-up奖2项,中国模式识别计算机视觉大会PRCV Best Student Paper Runner-up奖,被跨平台程序库OpenCV技术集成1项。他担任多个顶级期刊会议的AE/AC,如Information Fusion和CVPR。此外,他主持国家级/省部级/校企合作项目10余项,指导团队获2023年昇腾AI创新大赛全国赛金奖1项(冠军)、铜奖1项,ICCV 2023 Raw Object Detection Challenge 亚军。

杨智勇,中国科学院大学长聘助理教授,博士生导师,入选博新计划及中科院特别研究助理计划。研究方向是机器学习,在CCF-A类期刊及会议共发表论文50余篇,其中TPAMI/ICML/NeurIPS 20余篇(TPAMI 一作 5篇)。先后获得:CSIG自然科学奖一等奖、吴文俊人工智能科技进步二等奖、CCF优秀博士学位论文激励计划(原CCF优博)、中国科学院百篇优博论文、首届百度AI全球华人新星百强(机器学习领域 top25)、百度奖学金全球20强、中科院院长特别奖、NeurIPS Top-10%审稿人等荣誉。担任IJCAI/ICML/NeurIPS/ICLR等顶级会议的SPC/reviewer及expert reviewer,担任TPAMI/IJCV/TIP/TMLR 等期刊审稿人。

问题二:了解完了团队内的各位老师,请为大家简单的介绍一下项目的情况:

1.png

在科技创新2030-“新一代人工智能”重大项目和国家自然科学基金项目的支持下,项目组(许倩倩、黄庆明、任文琦、郭晓杰、杨智勇)遵循视觉工作记忆理论,从感知增强、异构表征、泛化推理三方面,构建了异构媒体的协同计算与泛化推理框架,取得了如下创新性研究成果:

1. 提出了多层次多尺度渐进感知机制。在底层感知方面,建立了“重构-生成”感知增强框架,通过特征重构及内容生成机制使局部强化的底层语义信息在全局范围内延拓;在高层感知方面,建立了全局内容流与局部内容流的渐进交互机制,在多个层次上对感知内容进行了强化。

2. 揭示了多空间多数域异构表征机制。受心物同型论启发,通过表征和子空间拓扑关系的协同学习,探索模态内数据的关联表征,纯化模态间的不变表征;在此基础上,通过异构几何空间及数域的动态交互,建立稳态知识表征与各个异构源内容的同构语义映射,克服了局部、浅层异构表征的局限性。

3. 发现了决策不变量优化引导的可迁移可聚焦泛化推理机制。根据心理物理学中基于AUC消除阈值响应偏差的基本思想,构建了AUC优化范式,通过决策不变量引导模型学习,使推理泛化到不同决策条件对应的场景中,突破了单一阈值的技术瓶颈,建立了多分类、局部性能约束及多任务学习三个复杂场景中的AUC优化理论。

本项目共发表CCF-A类论文150余篇,其中国际期刊TPAMI(影响因子:23.6)22篇。截至2023年9月,8篇代表性论文Google Scholar引用2000余次,项目成果获得了包括15位中/欧/澳/加等国院士和50余位ACM/IEEE Fellow等国际同行的引用和正面评价。

在项目核心技术支持下,项目组成员参与制定了基于人工智能的图像识别鲁棒性测试与评价国际标准(IEEE 3129-2023),并搭建了11亿节点、63亿事实的社会媒体和风险知识图谱,相关算法和图谱已成功部署在中央网信办安全中心、百度和阿里巴巴,服务于涉黄、涉爆、涉政等真实业务场景。

问题三:请问各位老师在科研过程中,有没有什么好的方法可以推荐给大家?

2.png

(1)不盲目跟风,在解决实际问题的过程中追求学术“个性”:人工智能这个领域很火,每年新工作有很多,可以说是百花齐放,那么怎么样去选择有价值的研究问题,就成了一个很关键的问题。短期来看,跟进比较火的方向可能比较容易成果,但是这种尝试往往陷入“修修补补”的局限之中,让我们很难抓住现有算法的真正痛点,被欧美的主流学术思想“牵着走”。我们在完成这个项目过程中并没有盲目确定研究内容,而是和中央网信办安全中心、阿里巴巴安全部等深耕网络空间安全的单位深度交流,去寻找现在的算法为什么不能在这个领域做好的原因,我们真正需要解决的问题是什么。然后再根据我们所具备的机器学习以及认知方面的理论和技术储备去设计算法解决问题,最终形成了XCurve框架。

(2)尝试理论和实践“两条腿”走路:现在深度学习、大模型可以说席卷了整个人工智能学术圈,“跑网络、刷性能”成为了学术研究的主流。追求性能本身并没有什么问题,毕竟我们所设计的算法最终都是要落地的。但是纵观整个科学发展的历程尤其是物理学的发展,突破性的成果往往诞生于坚实的理论基础之上,理论研究往往可以帮我们更加的清晰的定位出现有技术中存在的本质问题,更好地定位具体技术攻关的方向。因此,在我们的项目组中,我们一直采用的是理论与实践相结合的方式,好的理论可以启发我们有针对性的优化算法设计,同时从理论上分析好的算法也可以帮助我们更好地理解算法内部的机理。

3.png

问题四:在项目的研究过程中有遇到什么困难吗?大家是如何解决的?

4.png

我们的项目主要针对网络空间安全领域,这是一个相对复杂、特殊的任务,项目执行期间确实遇到了不少的困难。

首先是数据方面,为规避现有风险监测技术,谐音、双关、借代、隐喻等技巧往往用于构造难以察觉但足以改变社会潜在认知的词汇概念、视觉符号乃至音视频作品,且借助短信邮箱、网络群组、社会媒体等网络媒介隐匿传播,最终形成仅有特定群体才能理解的网络黑话,其理解分析因此极度依赖小众专业的领域知识。面向内容繁杂、语义隐蔽的互联网风险内容,一方面,我们面向社会媒体领域,通过构建分布式多源跨媒体数据采集系统,爬取以IMDB为代表的数据库平台、以哔哩哔哩为代表的在线视频平台、以微博和豆瓣为代表的社交媒体平台、以Amazon为代表的电商平台等互联网主流平台的中、英文跨媒体数据;另一方面,针对内容安全领域,通过解析维基百科风险相关词条页面中结构化、半结构化信息,爬取搜索引擎与视频平台检索结果,获取专业完备的跨媒体风险数据。最终,通过充分挖掘已有关联信息,设计高效合理的图谱结构,我们构建了包含11亿节点、63亿事实的跨媒体社会媒体与风险知识图谱,并通过设计多数域多空间多模态知识图谱嵌入方法,为内容检索、知识问答、信息推荐、涉黄、涉爆、涉政、检测等下游任务提供了良好的数据支撑与知识注入。

其次就是方法层面的,内容安全是个非常敏感的任务,对于模型的漏检率有非常严苛的约束,约束程度也一般会根据垂直领域、监管力度的不同动态调整。从机器学习理论的视角,这就要求我们的模型能够适应不同的决策条件(比如分类问题中的阈值、top-K 排序中的k值等等)。而现有的方法主要只能针对单一的条件进行优化,很容易产生决策层面的偏差。所以就需要寻找一种新的范式来解决这个问题。这个时候我们正好注意到,其实人类的决策偏差早就被心理学家注意到了。早在上世纪60年代,心理物理学诞生了一个新的分支——信号检测论,这个领域专门研究人类信号感知的量化过程,并且意识到了决策偏差的存在。他们设计了ROC曲线及其夹面积AUROC来解决这个问题,AUROC是所有分类阈值的积分,自然不会受到的阈值的影响。这个思路对我们有很大的启发,AUROC不就是个决策不变量吗,为什么不去设计一个优化决策不变量的一般化框架呢?在这个思路的启发下,我们构建了XCurve框架。其实,这里我们解决问题的途径是去寻求认知科学和心理学的指导,毕竟人脑就是高度智能的,可以为我们提供一个很好的“参考答案”,那么如果能够量化一些人脑的认知、感知机理一般会对我们的研究产生很大的帮助。

问题五:最后,大家有什么获奖感言想说呢?

首先,非常感谢拉斯维加斯手机娱乐网站 颁发自然科学奖,感谢奖励评审委员会对我们团队研究成果的认可。学会作为图像图形学领域国内公认的卓越平台,为我们的研究成果的展示提供了宽广的舞台。

其次,感谢团队的每一位成员,在这个过程中都付出了艰辛的努力。毕竟,没有完美的个人,但可能存在完美的团队。

最后,路虽远,行将必至;事虽难,做则必成。路漫漫其修远兮,吾将上下而求索!



Copyright © 2025 拉斯维加斯手机娱乐网站  京公网安备 11010802035643号   京ICP备12009057号-1

地址:北京市海淀区中关村东路95号 邮编:100190

技术支持:中科服

Baidu
map