登录会员系统  |  联系我们  |  加入学会  
学会动态
Visual Intelligence国际学者学术前沿研讨会将于 9 月 21 日举办
发布时间:2024-09-19      来源:拉斯维加斯手机娱乐网站       分享:

为了促进视觉智能领域的前沿方向研究,推动相关技术进步与发展,Visual Intelligence期刊将于9月21日举办国际学者学术前沿研讨会,为专家学者、研究人员提供一个相互学习与交流的平台,共同促进视觉智能领域的研究进步和技术发展。


一、会议时间和举办方式

1. 会议时间

2024 年 9 月 21 日 9:00-16:30

2. 会议举办方式

在线会议

#腾讯会议:831-208-391

会议密码:无


二、会议日程

23.JPG

捕获.JPG


三、报告人

图片25.jpg 

赵恒爽 香港大学助理教授

报告题目:Vision Foundation Models in 2.5D and 3D

报告摘要:With the enhancement of deep learning model capabilities and the efficient acquisition and utilization of massive amounts of data, the construction of large-scale vision foundation models has garnered widespread attention. These vision foundation models exhibit strong generalization capabilities in handling multiple tasks within complex visual scene tasks across different domains. These models usually focus on images and videos, ignoring the ability to understand high-dimensional visual scenarios with essential geometry properties. To address the limitations, we alternatively explore vision foundation models in higher dimensions like 2.5D and 3D. In this talk, I will present Point Transformer V3, an advanced point cloud understanding architecture with a simpler design, faster speed, and stronger performance on various benchmarks and tasks. Then, I will demonstrate Depth Anything, a powerful foundational monocular depth estimation framework developed via the data-centric perspective and shows exceptional generalization ability across various scenarios. Last, I will discuss several existing challenges and future frontiers for vision foundation models.

个人简介:赵恒爽,香港大学计算机科学系助理教授,国家自然科学基金优秀青年基金获得者。此前,他曾在麻省理工学院和牛津大学担任博士后研究员。他的研究兴趣涵盖计算机视觉、机器学习和人工智能等广泛领域,特别着重于构建智能视觉系统。他在CVPR、NeurIPS和TPAMI等顶级会议和期刊上发表论文60余篇,研究成果被引超过30,000次,其中单篇一作论文被引超15,000次。他曾获得过多次国际学术竞赛的冠军,世界人工智能大会明日之星奖和青年优秀论文奖,CVPR最佳演示荣誉奖,被AI 2000评为计算机视觉领域最具影响力的学者之一,被斯坦福大学列为世界前2%终身影响力科学家。此外,他曾担任CVPR、ECCV、NeurIPS和ICLR的领域主席,以及Pattern Recognition的编委和IEEE TCSVT的客座编辑。

 

图片31.jpg 

张健 北京大学深圳研究生院助理教授

报告题目:可控视觉内容生成

报告摘要:扩散模型在图像和视频生成领域展现非凡的能力,其生成视觉效果令人瞩目。尽管如此,如何精确控制扩散模型以生成符合用户给定特定条件的视觉内容,仍然是一个充满挑战的技术难题。这涉及到可控视觉内容生成,包括细粒度控制和交互式编辑等多方面。本报告将展示团队在可控视觉内容生成这一前沿领域的一系列研究成果,进行不同维度归纳总结,涵盖零值域分解约束(DDNM)、能量函数引导(FreeDoM)、拖拽式编辑(DragonDiffusion)、适配器控制(T2I-Adapter)、运动内容控制(ReVideo)等。此外,还将分享团队在面向AIGC内容安全方面的探索和实践,涉及版权保护和数字取证,包括多功能水印(EditGuard)等。

个人简介:张健,北京大学深圳研究生院信息工程学院助理教授/研究员、博士生导师,视觉信息智能学习实验室(VILLA)负责人。主要研究方向为底层视觉与计算成像、图像视频可控生成,在TPAMI、IJCV、TIP、CVPR、NeurIPS、ICCV等CCF-A类期刊和会议和IEEE汇刊上发表论文80余篇(其中第一/通讯作者60余篇),谷歌学术引用超过8800次,h-index值为46,连续四年入选斯坦福全球前2%顶尖科学家榜单,获得北京大学青年教师教学比赛一等奖、CAAI—华为MindSpore学术奖励基金项目优秀奖、国际期刊/会议最佳论文奖五次、NTIRE全球挑战赛冠军。致力于产学研相结合,成果应用于Stability Al、Hugging Face、免展等知名公司AIGC产品中。担任深圳市人工智能学会青年工作委员会主任、广东省图象图形学会理事、CSIG青年工作委员会委员、VALSE执行委员、JVCIR等国际期刊编委等。个人主页:https://jianzhang.tech/。


图片32.jpg 

于昕 澳大利亚昆士兰大学高级讲师

报告题目Effective exploration of historical states for learning an efficient object-goal navigation policy

报告摘要:Object-goal visual navigation aims at steering an agent toward an object via a series of moving steps. Previous works mainly focus on learning informative visual representations for navigation, but overlook the impacts of navigation states on the effectiveness and efficiency of navigation. We observe that high relevance among navigation states will cause navigation inefficiency or failure for existing methods. In this talk, we present a History-inspired Navigation Policy Learning (HiNL) framework to estimate navigation states effectively by exploring relationships among historical navigation states. In this work, we propose History-aware State Estimation (HaSE) to alleviate the impacts of dominant historical states on the current state estimation. Meanwhile, HaSE also encourages an agent to be alert to the current observation changes, thus enabling the agent to make valid actions. Through designing a History-based State Regularization (HbSR), we explicitly suppress the correlation among navigation states in training, leading to an efficient visual navigation policy network.

个人简介:于昕,澳大利亚昆士兰大学高级讲师。曾任澳大利亚国立大学(ANU)研究员。获得清华大学博士学位和澳大利亚国立大学博士学位(ANU导师是Richard Hartley教授)。研究兴趣涵盖计算机视觉和机器学习。曾获得WACV 2020最佳论文荣誉奖,CVPR 2020最佳论文提名。于2021年获得谷歌研究学者奖(全球机器感知领域的五位获奖者之一)。曾在CVPR、ACCV等研讨会上多次获得了挑战赛冠军。

 

图片33.jpg 

陈浩 香港科技大学助理教授

报告题目: 多模态计算病理基准模型:挑战和未来

报告摘要:人工智能基准模型极大地提高了视觉计算和自然语言处理等诸多领域的识别性能。尽管在上述领域取得了突破,其在多模态计算病理中的分析与应用仍有待探索,尤其针对计算病理基准模型构建和多模态异构数据融合等。本次报告将分享我们在面向癌症精准诊疗的计算病理基准模型研发和多模态数据融合方面的最新进展,以及在癌症诊断、疗效预测和预后等方面的应用和挑战。

个人简介:陈浩,香港科技大学计算机科学与工程系和化学与生物工程系助理教授,香港科技大学医工交叉联合创新中心主任,研究兴趣包括计算病理、多模态数据融合、医学图像分析、可解释深度学习等。在MICCAI、IEEE-TMI、MIA、CVPR、ICCV、Nature Communications、Lancet Digital Health、Nature Machine Intelligence、JAMA等顶级期刊和会议发表论文200余篇(谷歌学术引用超过27000次,h-index 65),连续入选斯坦福大学全球排名前2%科学家名单。曾获得2023年亚洲青年科学家、国家教育部优秀成果二等奖、北京市科技进步一等奖、2019年人工智能医学影像顶级会议MICCAI青年科学家影响力奖等奖项,担任包括IEEE TMI、TNNLS、J-BHI和CMIG等期刊编委,担任ICLR、CVPR、ACM MM、MICCAI等多个国际会议的领域主席和程序委员,曾带领团队获得超过15项国际医学图像分析的挑战赛冠军。个人主页:https://cse.hkust.edu.hk/~jhc/。

 

图片34.jpg  

杨巨峰 南开大学教授

报告题目:情智兼备数字人与机器人关键技术初探

报告摘要:情智兼备数字人与机器人研究”入选2024年中国科协十大前沿科学问题第1位。本报告介绍该科学问题提出的过程和背景、国内外相关机构的研究进展、面临的关键难题及挑战。汇报课题组在多模态情智融合解译、可交互情绪化内容生成调控等方面开展的研究工作及取得的初步成果。

个人简介:杨巨峰,南开大学教授,数据与智能系统安全教育部重点实验室副主任,国家“万人计划”青年拔尖人才、天津杰青。任CCF计算机视觉专委会副秘书长,CSIG情感计算与理解专委会常务委员,CIPS情感计算专委会常务委员,IEEE TAC编委,CVPR 2024/2025领域主席。

 

图片35.jpg 

刘邦 加拿大蒙特利尔大学助理教授

报告题目:多环境下的LLM Agents:应用与增强

报告摘要:基于Large Language Models (LLM) 的Agent系统获得了越来越多的关注,并在不同领域发挥着关键作用。本次报告将深入分析和对比不同环境和任务对 LLM Agent 感知、行动能力及认知推理的独特要求,并探讨如何通过技术创新解决这些挑战。具体而言,我们将首先介绍大模型与智能体的关系,接下来,我们将针对多模态具身智能体,推理密集型智能体,以及科学领域智能体展开讨论,简要概述不同领域内智能体的挑战以及如何提高它们的各项能力。

个人简介:刘邦,加拿大蒙特利尔大学和Mila研究所助理教授,CIFAR人工智能主席教授。研究领域为自然语言处理、多模态具身学习和AI for Science。曾获蒙特利尔大学研究卓越奖,WWW 2023最佳论文提名,WAIC 2024 云帆奖·明日之星, George Walker PhD Thesis Award。他在高水平会议和期刊上发表70余篇论文及教程,提出首个材料科学大模型,推动基于图学习的NLP研究,成果被广泛部署到QQ Browser等应用。

图片36.jpg 

陈使明 阿联酋人工智能大学研究科学家

报告题目Zero-Shot Learning in Vision

报告摘要Zero-shot learning (ZSL) aims to tackle the unseen class recognition problem by transferring semantic knowledge from seen classes to unseen ones, enabling the machine learning system to learn novel knowledge incrementally. Targeting on how to conduct the visual-semantic interactions for effective semantic knowledge transferring of ZSL in vision, we conduct a series of research projects in ZSL.

个人简介:陈使明,阿联酋人工智能大学(MBZUAI)研究科学家。曾任CMU和MBZUAI的博士后研究员,导师是Kun Zhang教授。他于2022年在华中科技大学获得博士学位,导师是尤新革教授。目前的研究兴趣包括零样本学习、视觉-语言学习。作为第一/通讯作者,在TPAMI、NeurIPS、ICML、CVPR、ICCV等顶级会议和期刊上发表了17篇论文。任权威期刊和会议的审稿人,如TPAMI、IJCV、ICLR、NeurIPS、ICML、ICCV、CVPR。他也是VALSE和PRCV'23的领域主席。个人网页:https://shiming-chen.github.io/ 。

图片37.jpg

郑银强 日本东京大学教授

报告题目:Physical Adversarial Attack on Visual AI beyond RGB Domain

报告摘要:AI algorithms for computer-based visual understanding have advanced significantly, due to the prevalence of deep learning and large-scale visual datasets in the RGB domain, which have also been proven vulnerable to digital and physical adversarial attacks. To deal with complex scenarios, many other imaging modalities beyond the visibility scope of human eyes, such as near infrared (NIR), thermal infrared (TIR), and polarization, have been introduced, yet the vulnerabilities of visual AI based on these non-RGB modalities have not received due attention. In this talk, we will show that typical AI algorithms, like object detection and segmentation, can be more fragile than in the RGB domain. We showcase two physical attackers onto the YOLO-based human detector in the NIR and TIR domain, and one projection-based attacker onto the glass segmentation algorithm in the polarization-color domain, all of which are sufficiently concealing to human eyes.

个人简介:郑银强教授,博士毕业于东京工业大学,现任东京大学人工智能研究中心正教授,Optical Sensing and Camera System (OSCARS)实验室负责人。郑银强教授将人工智能和光学成像有机融合,提出了“Optics for Better AI”和“AI for Best Optics”等跨学科协同创新的崭新学术理念,已在与本领域相关的重要国际期刊和国际会议上发表论文100余篇。他长期担任ICLR、NeurIPS、CVPR、ICCV、MM等重要国际会议的领域主席,具有广泛的国际声望。鉴于其在学术创新、学生培养和产业应用等方面的杰出贡献,郑银强教授荣获Konica Minolta画像科学奖,船井学术奖等学术奖项。

 

图片38.jpg 

郭青 新加坡科技研究局高级研究员

报告题目:面向安全基础模型的跨模态攻击和基于视觉重采样的防御机制

报告摘要:近两年,我们见证了在基础模型(Foundation model,FMs)与新商业模式相结合的推动下,在实际应用中实施AI技术带来的巨大变化。一般来说,FM指的是在大量数据上训练的模型,这些模型可以针对各种下游任务进行微调,包括CLIP、SAM、ChatGPT、BLIP和扩散模型。普通人可以利用这些工具生成带有定制提示的个性化内容,这不可避免地会引起重大的安全问题。为了确保基础模型的安全性,我们关注两个关键方向:探索针对FM的对抗性攻击,以发现先进模型中的漏洞,并开发有效的防御机制以增强模型性能。在本报告中,我们将从可转移性和效率等不同角度介绍我们最近在攻击FM方面的研究成果,包括视觉语言模型和扩散模型。此外,我们最近的工作利用视觉重采样原理来防御潜在的攻击,从而在不改变模型权重的情况下提高FM的可靠性。

个人简介:郭青,新加坡科技研究局(A*STAR)前沿人工智能研究中心高级研究员,新加坡国立大学兼职助理教授,独立PI。2019年加入新加坡南洋理工大学聘为博士后研究员,2020年获聘瓦伦堡-NTU校长博士后。2018年获得ICME最佳铂金论文奖,2020年获得ACM(天津)优秀博士论文,2022年获得AISG全球可信媒体挑战赛第三名,2022年获得ECCV AROW最佳论文奖,2023年-2024年获得新加坡关于可信AI的国家研究基金超过240万新币。主要从事计算机视觉及可信AI相关方向的研究,包括对抗样本攻击与防御、AI模型公平性评估及提升等,在ICML、NeurIPS、ICLR、CVPR、ICCV、ECCV、IJCV、TIP、TIFS等会议及期刊上发表论文50余篇。任ICLR 2025会议领域主席, AAAI 2023-2025高级程序主席,VALSE 2023-2025执行领域主席,IEEE Conference on Artificial Intelligence (CAI) 2024 联合主席。

 

图片42.jpg 

罗山 英国伦敦国王大学副教授

报告题目:Robot Visuo-Tactile Intelligence

报告摘要:This talk explores the important role of visuo-tactile intelligence in shaping robot embodiment, enabling their interactions with the physical world. By integrating visual and tactile sensory modalities, robots attain a deeper understanding of their surroundings, facilitating perception for agile grasping and manipulation. Drawing upon recent advancements in tactile sensor development including GelTip, TouchRoller and GelFinger, multimodal integration, and simulation techniques, I will delve into the foundations of visuo-tactile learning and its implications for robotics. Through case studies and experimental insights, I will share how this paradigm shift in robotic perception enhances adaptability, dexterity, and autonomy.

个人简介:罗山,英国伦敦国王学院机器人与人工智能专业副教授。他于2016年获得伦敦国王学院机器人学博士学位,于同年访问了麻省理工学院计算机与人工智能实验室(CSAIL)。曾任利兹大学和哈佛大学博士后研究员。他于2018年加入利物浦大学担任讲师,并在2018年至2021年期间担任计算机科学系smARTLab主任。他的研究成果发表在高影响力的机器人学期刊和国际会议上,包括Autonomous Robots、IEEE/ASME Transactions on Mechatronics、ICRA、IROS、RSS、ECCV、ICML和AAMAS。他曾担任IEEE Transactions on Robotics和Robotics and Automation期刊的客座编辑,以及期刊ICRA和IROS的编委。他的研究得到了著名资助机构和行业支持的资助,包括EPSRC、AHRC、Innovate UK、皇家学会和联合利华,他作为PI获得了超过130万英镑的资助。他获得了EPSRC新研究员奖、BCS学院新任命资助计划奖、UK-RAS早期职业奖、教师学习与教学以及学生体验奖。

 

图片39.jpg 

刘弘 日本大阪大学助理教授

报告题目:视觉语言模型的鲁棒性评测

报告摘要:近年来,大规模视觉语言模型在响应来自用户的视觉指令方面取得了重大突破,备受学术界与工业界的广泛瞩目。然而,此类包含图片和文本的指令却容易引发诸多安全风险。为此,针对当前的视觉语言模型,我们构建了两个评测基准库。其一旨在剖析模型在应对各类对抗性视觉指令(AVI)时的鲁棒性,涵盖四种基于图像的AVI、十种基于文本的AVI以及九种内容偏见AVI(诸如性别、暴力、文化和种族偏见等)。其二则对主流的T2I模型(如 DALL-E)在隐式提示下的表现展开了细致的调查与评估。我们着重强调了增强视觉语言模型鲁棒性、安全性与公平性的重要意义,同时也呼吁社区关注大模型所带来的安全风险及伦理等问题。

个人简介:刘弘,日本大阪大学助理教授。曾任日本学术振兴会外国人特任研究员,日本国立情报学研究所博士后。研究方向为计算机视觉、机器学习、多媒体分析与计算等。在TPAMI、IJCV、CVPR等国际期刊和会议上发表多篇学术论文。获得JSPS International Fellowships、拉斯维加斯手机娱乐网站 优秀博士学位论文奖,福建省优秀博士学位论文奖,ICLR最佳审稿人奖等,入选2021百度全球AI华人新星百强榜。担任ACM MM等会议领域主席,IJCV等期刊客座编委,Visual Intelligence编委。

 

图片40.jpg 

曹虎 德国慕尼黑工业大学博士后研究员

报告题目:基于注意力机制的机器人感知

报告摘要:深度表征学习在从数据中学习特征表征方面表现出了卓越的能力。最近,注意力机制被引入深度表征学习,以模仿人类视觉系统的工作原理。基于注意力的方法可以根据输入特征自适应地调整权重,让模型专注于对象特征,同时抑制噪声特征。本报告将讨论在分类、检测、分割和抓取、姿势估计等机器人感知应用中如何利用注意力机制提高深度表示模型的性能。

个人简介:曹虎,德国慕尼黑工业大学机器人人工智能与实时系统研究所博士后研究员。兼任中美硅谷发展促进会副秘书长,德国慕尼黑代表处首席代表,中国留德学者计算机学会智能机器人青年专委会成员。博士毕业于德国慕尼黑工业大学,导师是欧盟人脑计划副主席、IEEE Fellow、德国慕尼黑工业大学讲席教授Alois Knoll。曾于瑞士苏黎世联邦理工学院以及香港大学进行访问交流。主要研究方向为机器人感知与场景理解。从事人工智能与机器人、医疗交叉领域研究多年,发表多篇顶级学术论文,谷歌引用超过3500次,担任多个AI与机器人领域顶级期刊与会议审稿人,受邀为SCI期刊Frontiers in Neuroscience 和Frontiers in Robotics and AI 组织专刊,被医疗领域期刊IEEE TMI 评为2022-2023年最佳审稿人。


图片41.jpg 

秦浩桐 瑞士苏黎世联邦理工学院博士后研究员

报告题目:准确高效的低比特生成模型

报告摘要:低比特量化作为一种通用的模型压缩技术,已广泛应用于深度学习领域,特别是在资源受限设备上部署神经网络。通过将浮点权重和激活压缩至1至8位,量化模型能够显著减少计算量和内存开销。然而在图像和文本生成等场景中,应用量化压缩技术仍面临诸多挑战。在此次分享中,我们将介绍针对生成模型的神经网络量化技术的最新进展,包括大语言模型和扩散模型的多比特量化与二值量化等方法。我们的研究表明,尽管仍存在挑战,量化技术广泛的应用前景和逐步提升的精度,使其成为实现高效生成模型的重要方式。

个人简介:秦浩桐,瑞士苏黎世联邦理工学院博士后研究员。2024年博士毕业于北京航空航天大学复杂关键软件环境全国重点实验室,师从李未院士和刘祥龙教授。主要研究方向为高效深度学习等,在IEEE TPAMI、IJCV、ICML、NeurIPS等国际会议和期刊上发表论文30余篇,多次获评Oral、Spotlight、ESI高被引论文,谷歌引用超过1600次。曾获世界人工智能大会WAIC云帆奖明日之星(全球15人)、Electronics Best PhD Thesis Award(全球2人)、百度奖学金(全球10人)、字节跳动奖学金(全国10人)等荣誉奖励。多次在AAAI、CVPR等国际顶会举办研讨会。

主持人

(按照主持顺序)

图片27.jpg 

王冰 香港理工大学助理教授

个人简介:王冰,香港理工大学工程学院助理教授、无人自主系统研究中心副主任,国际数字地球学会激光雷达专委会委员,光学工程学会空间信息技术专委会委员。2022年获牛津大学计算机科学博士学位,后入选华为“天才少年”。致力于三维测量和多模态学习领域的前沿研究,成果被广泛应用于英国及美国消防救援、自动驾驶和智慧城市等场景,获得英国“罗素学者奖”和英中协会“中国学生奖”。长期担任三维视觉领域国际顶级会议和期刊CVPR、ICLR、TPAMI、TMM等审稿人。任Visual Intelligence编委。


图片28.jpg 

丁恒辉 复旦大学青年研究员

个人简介:丁恒辉,复旦大学青年研究员、博士生导师。入选国家高层次青年人才计划,入选上海市高层次人才计划。2020年于新加坡南洋理工大学获博士学位。主要从事计算机视觉、多模态大模型、视觉大数据分析、深度学习与人工智能等研究。过去6年内共发表论文70多篇,包括50多篇CCF-A类国际顶级期刊和会议论文,如IEEE TPAMI、CVPR、ICCV、NeurIPS等;20多篇CCF-B类期刊和会议论文,如ECCV、IEEE TMM、PR等。应邀担任多个CCF-A类国际顶级会议的领域主席(AC),如CVPR、NeurIPS、ACM MM等,担任多个CCF-A类国际顶级会议的资深程序委员(SPC),如AAAI、IJCAI等。任上海市计算机学会副秘书长。

图片29.jpg 

刘弘 日本大阪大学助理教授

个人简介:刘弘,日本大阪大学助理教授。曾任日本学术振兴会外国人特任研究员,日本国立情报学研究所博士后。研究方向为计算机视觉、机器学习、多媒体分析与计算等。在TPAMI、IJCV、CVPR等国际期刊和会议上发表多篇学术论文。获得JSPS International Fellowships、拉斯维加斯手机娱乐网站 优秀博士学位论文奖,福建省优秀博士学位论文奖,ICLR最佳审稿人奖等,入选2021百度全球AI华人新星百强榜。担任ACM MM等会议领域主席,IJCV等期刊客座编委,Visual Intelligence编委。

 

图片30.jpg 

林巍峣 上海交通大学教授

个人简介:林巍峣,上海交通大学教授。在视频分析,视觉表征编码等领域发表权威期刊及会议论文100余篇,获发明专利25项,并获多项国际权威评测第一。研究成果获中国高交会、工博会优秀产品奖,中国产学研合作创新奖。入选IEEE多媒体计算中期职业成就奖、IEEE ICME多媒体学术新星奖。曾任多个IEEE Trans期刊编委,AAAI、MM等会议领域主席,及权威标准化工作组组长。指导学生获得“挑战杯”揭榜挂帅特等奖(擂主)。

 


Copyright © 2025 拉斯维加斯手机娱乐网站  京公网安备 11010802035643号   京ICP备12009057号-1

地址:北京市海淀区中关村东路95号 邮编:100190

技术支持:中科服

Baidu
map