登录会员系统  |  联系我们  |  加入学会  
学会动态
“图像感知与交互理解” 讲习班报名火热进行中
发布时间:2023-02-13      来源:拉斯维加斯手机娱乐网站       分享:

主题】图像感知与交互理解

2023225-26

    图像感知与交互理解是人工智能的重要研究方向之一。无论是传统的图像处理还是多媒体,无论传统计算机视觉还是最近的具身智能、工业机器人应用,图像感知与交互理解均是核心重要技术。为此,本讲习班专注于展现近期在多媒体、视觉图像等相关方面的图像感知与交互理解建模的新进展和突出成果,为广大年轻老师和同学们提供前沿研究的学习和讨论机会,并与名家会面。

主办单位

拉斯维加斯手机娱乐网站

承办单位

CSIG成像探测与感知专业委员会


上课时间及地点

 时间:2023225-26

    地点:在线授课


日程安排

2月25日上午

09:00—09:20

开班致辞

09:20—10:50

刘越

面向新一代沉浸式互联网的高逼真数字人构建

11:00—12:30

叶茫

复杂场景下的目标重识别

2月25日下午

14:00—15:30

杨易

多模态感知技术现状及其应用

15:40—17:10

朱霞天

Efficient Learning with Foundation Models

2月26日上午

09:00—10:30

金连文

深度学习时代的手写文字识别与分析:数据、方法与应用

10:40—12:10

张辉

面向工业场景的高光谱图像异常检测关键技术研究

2月26日下午

14:00—15:30

彭宇新

数据-知识协同驱动的跨媒体分析与推理

15:40—17:10

卢策吾

行为理解与具身智能

17:10—17:30

结营仪式

 

 

特邀讲者(以姓氏首字母为序)

图片2.png 

金连文 教授

个人简介:金连文,男,华南理工大学二级教授,兼任拉斯维加斯手机娱乐网站 (CSIG)常务理事、广东省图像图形学学会副理事长、CSIG文档图像分析与识别专委会主任、CCF-HCI和CCF-CV执行委员、CSIG-CV、CAAI-PR和CAA-PRMI专委会常务委员等职。主要研究领域为文字识别、文档图像理解等,在IEEE Transactions及权威国际会议上发表学术论文200余篇,其中SCI Q1区+CCF A类论文90余篇,Google Scholar论文被引用数10000余次,H-Index 53。作为负责人先后主持国家科技支撑计划课题、国家重点研发计划课题/子课题、国家自然科学基金重点项目/面上项目、广东省自然科学基金团队项目/重点项目、企业合作项目等科研项目40余项;获省部级科技奖5项(其中一等奖2项,二等奖3项);荣获中国人工智能学会、中国电子学会和拉斯维加斯手机娱乐网站 科技进步二等奖各1项;指导学生参加国际国内学术竞赛荣获冠军20余次。

报告题目:深度学习时代的手写文字识别与分析:数据、方法与应用

报告摘要:手写体识别与分析技术在信息录入、智能办公、智慧金融、身份认证等诸多领域有广阔的应用前景,近年来,基于数据驱动的文字识别已有很多研究工作及成果报道,但如何利用领域知识来更好的进行文字识别、如果解决超大类别情况下的无约束联机手写识别问题、如何解决数据稀缺下的手写签名认证和书写者识别、如果更好的利用大规模无标注或弱标注数据进行自监督/弱监督学习,是文字识别领域仍未解决好的重要研究问题。在本报告中,我将结合上述问题简要介绍近年来手写体文字识别和笔迹分析研究领域的一些新方法与新进展,包括手写文本数据合成和增广、基于Path Signature的手写识别及笔迹鉴别、弱监督自对齐手写识别以及自监督表征学习文本识别方法等,并探讨未来发展趋势。

图片3.png 

卢策吾 教授

个人简介:卢策吾,上海交通大学教授,博士生导师,2016年获海外高层次青年引进人才,2018年被《麻省理工科技评论》评为35位35岁以下中国科技精英(MIT TR35),2019年获求是杰出青年学者,2020年获上海市科技进步特等奖(第三完成人),2021获中国高被引学者,2022年获IROS最佳论文之一(6/3579)。以通讯作者或第一作者在《自然》,《自然·机器智能》,TPAMI等高水平期刊和会议发表论文100多篇;担任Sicence正刊,Nature子刊,Cell子刊等期刊审稿人,NeurIPS,CVPR,ICCV ,ECCV,IROS ,ICRA领域主席。研究兴趣包括计算机视觉,机器人学习

报告题目:行为理解与具身智能

报告摘要:该讲座围绕智能体行为理解问题展开讨论,包括:从机器认知角度,如何让机器看懂行为?介绍人类行为知识引擎与庞加莱空间下的行为语义统一等工作。从神经认知角度:机器语义理解与脑神经认知的内在关联?介绍如何阐释视觉行为理解与其脑神经的内在关联,并建立稳定映射模型。从具身认知角度,如何让机器人具有第一人称的行为能力?介绍提出的PIE(perception- imagination-execution)方案,其中代表工作graspNet首次在未知物体抓取问题上达到人类水平。

图片4.png 

刘越 教授

个人简介:刘越,北京理工大学光电学院教授、博士生导师,光电信息技术与颜色工程研究所所长,北京市混合现实与新型显示工程技术研究中心副主任。2000年获吉林大学通信与信息系统博士学位,先后在美国哈佛大学、加州大学伯克利分校、佐治亚理工学院、天普大学以及澳大利亚国立大学等有关实验室访问研究,主要研究领域包括虚拟现实与增强现实、自然人机交互以及计算机视觉等,兼任中国计算机学会虚拟现实专业委员会副主任;中国电子学会虚拟现实产业分会副主任;中国人工智能学会智能交互专业委员会副主任;拉斯维加斯手机娱乐网站 理事、副秘书长、成像探测与感知专业委员会副主任、三维成像与显示专业委员会副主任;北京图象图形学学会常务理事、秘书长等,目前主持国家重点研发计划项目、国家自然科学基金重点国际(地区)合作项目等多项课题的研究工作,已发表论文100余篇,申请专利50余项,研究成果“曾荣获教育部发明奖一等奖和国家发明奖二等奖各一项。

报告题目:面向新一代沉浸式互联网的高逼真数字人构建

报告摘要:元宇宙是基于互联网而生,与现实世界相互打通、平行存在的虚拟世界。虚拟现实提供沉浸式体验,通过全面接管人类的视觉、听觉、触觉以及动作捕捉来实现元宇宙中的信息输入输出,而增强现实则在保留现实世界的基础上叠加一层虚拟信息。本报告将分析高逼真数字人构建的技术瓶颈,介绍面向新一代沉浸式互联网的数字人构建相关研究成果,并对未来的研究方向进行展望。

图片5.png 

彭宇新 教授

个人简介:彭宇新,北京大学二级教授、博雅特聘教授、国家杰出青年科学基金获得者、国家万人计划科技创新领军人才、科技部中青年科技创新领军人才、863项目首席专家、中国人工智能产业创新联盟专家委员会主任、中国工程院“人工智能2.0”规划专家委员会专家、北京图象图形学学会副理事长、拉斯维加斯手机娱乐网站 会士、副秘书长、提名与奖励委员会副主任。主要研究方向为跨媒体分析、计算机视觉、机器学习、人工智能。以第一完成人获2016年北京市科学技术奖一等奖和2020年中国电子学会科技进步一等奖,2008年获北京大学宝钢奖教金优秀奖,2017年获北京大学教学优秀奖。主持了863、国家自然科学基金重点等30多个项目,发表论文170多篇,包括ACM/IEEE Trans和CCF A类论文80多篇。多次参加由美国国家标准技术局NIST举办的国际评测TRECVID视频样例搜索比赛,均获第一名。主持研发的跨媒体互联网内容分析与识别系统已经应用于公安部、工信部、国家广播电视总局等单位。担任IEEE TMM、TCSVT等期刊编委。

报告题目数据-知识协同驱动的跨媒体分析与推理

报告摘要:图像、视频、文本等跨媒体数据在人类社会、物理空间和信息空间中交叉融合,全面形象地表达综合性知识并反映个体和群体行为。跨媒体分析与推理对于提高计算机对客观世界概念、规则及其演化的深层感知、认知与综合归纳的能力至关重要。然而,现有方法多以数据驱动为主,无法充分利用已有的人类知识,导致模型缺少泛化性和可解释性,难以处理复杂的推理决策问题。其中关键的科学问题是如何将数据驱动与知识驱动相结合,提高计算机对客观世界规律的综合归纳与分析推理的能力。本报告将介绍我们在数据-知识协同驱动的跨媒体分析与推理的近期工作进展,并对未来发展方向及趋势进行简要讨论与展望。

图片6.png 

叶茫 教授

个人简介:叶茫,武汉大学计算机学院教授、博士生导师,国家海外高层次青年人才,中国科协青年托举人才,湖北省高层次人才。曾任阿联酋起源人工智能研究院研究科学家和美国哥伦比亚大学访问学者。主要研究方向计算机视觉、可信人工智能等,发表国际期刊会议论文 70 余篇,其中第一/通讯作者发表 CCF-A 类论文30 余篇,ESI 高被引论文 8 篇,谷歌学术总引用 4400 余次,引用者包括图灵奖获得者 Geoffery Hinton,Yann Lecun 等。担任国际 SCI 期刊CAAI TRIT(IF=7.985)、 Journal of Electronic Imaging 编委等学术职务。主持湖北省重点研发计划、国家自然科学基金面上项目等科研项目。获谷歌优秀奖学金、国际计算机视觉顶会 ICCV2021赛道冠军、2021-2022年斯坦福排行榜 “全球前2%顶尖科学家”、2022年百度AI华人青年学者等荣誉。

报告题目:复杂场景下的目标重识别

报告摘要:跨视角目标(如行人、车辆等)重识别在智慧城市、智慧社区等领域有重要应用。得益于深度学习和大规模的数据采集,目标重识别在多个公开数据集上达到了超越人类辨识水平的准确率。但是现有方法在实际复杂多变场景下仍面临诸多挑战。本次报告首先简单回顾目标重识别近期进展,然后分享课题组利用前沿Transformer在相关领域的工作:1)虚拟到真实的跨域目标识别:我们构建了一个多环境要素的大规模虚拟行人数据集,设计了一种虚拟到现实域泛化的目标重识别方法;2)无人机场景下的目标识别:我们设计了一种在特征层实现旋转不变性的Transformer,克服无人机视角下多种旋转角度变化等挑战;3)素描场景下的目标识别:我们提出了一种非对称解耦的Transformer,解决素描图像和常规图像之间的信息不匹配问题。最后对复杂场景下目标重识别的未来研究方向做简要讨论。

图片7.png 

杨易 教授

个人简介:杨易,浙江大学求是讲席教授,目前担任浙江大学计算机学院副院长、微软-教育部视觉感知重点实验室主任、人工智能省部共建协同创新中心副主任。曾获教育部全国优秀博士论文,浙江省自然科学一等奖,澳大利亚科研终身成就奖,澳大利亚研究理事会青年职业奖,澳大利亚计算机学会颠覆创新金奖,谷歌学者研究奖和AWS机器学习研究奖等二十余次人工智能领域国际奖项。Google Scholar 引用49000余次,H-index 108,入选2021年人工智能全球最具影响力学者榜单AI 2000中经典AI、多媒体、计算机视觉、数据库四个领域全球影响力前一百的最具影响力学者,近四年连续入Clarivate Analytics全球高被引学者。国际科研竞赛中累计获得40余次奖项,含20次世界冠军。担任7种重要国际期刊的副主编或领域主编,以及CVPR、ICCV、IJCAI,ACM MM等重要国际学术会议的重要职务等19次。

报告题目:多模态感知技术现状及其应用

报告摘要:大规模多场景多模态智能分析面临诸多挑战。本报告将首先讨论目前多场景视觉分析技术面临的瓶颈,概述智能视觉系统在物体和动作感知上的进展与挑战,介绍高效视觉感知模型设计策略和视觉感知算法在实际场景下应用实例。其次,本报告将讨论视频时序建模的方法,结合视频分类、定位、分割等任务,介绍高效视频分析的前沿技术。最后,本报告将介绍多模态数据的联合训练方法,讨论如何使多模态算法具备更强的匹配、融合和推理能力。

 图片8.png

张辉 教授

个人简介:张辉,湖南大学机器人学院教授,博士生导师,机器人视觉感知与控制技术国家工程研究中心副主任,拉斯维加斯手机娱乐网站 理事、副秘书长。入选国家“万人计划”青年拔尖人才、湖南省杰出青年基金获得者,湖南省科技领军人才。主要从事智能机器人视觉检测、深度学习图像识别、机器人智能控制等领域研究工作。主持国家自然科学基金重点项目、面上项目等3项,国家科技创新2030—“新一代人工智能”重大项目课题1项。在IEEE 汇刊等期刊上发表50多篇论文,授权国家发明专利35项,计算机软件著作权4项,获2018年国家技术发明二等奖1项,第1完成主持获得2019年湖南省科技进步二等奖、主持获得2019年中国商业联合会科技进步奖一等奖,以主要完成人先后获得省部级科学技术进步奖12项。

报告题目面向工业场景的高光谱图像异常检测关键技术研究

报告摘要:智能机器人在高端制造过程中面临着作业环境恶劣、感知手段有限、工件结构复杂、测量检测精度低、缺陷样本数量少等挑战,无法满足机器人智能化的自主作业与高速高精度的制造需求,因此亟需提升机器人多模态信息获取感知与智能检测分析能力。针对目前的高光谱成像系统大多通过多次曝光扫描实现高光谱成像、成像速度慢、不适用于动态场景等问题,研究基于快照式压缩感知的光谱计算成像技术;针对缺陷检测中异常样本数量少、标注耗时、背景复杂多样等挑战,研究基于生成式模型的分类异常检测方法;针对实际应用场景中,检测算法面临着检测环境变换大、数据易受噪声干扰等问题,研究基于聚类与特征归一化的领域泛化方法。

图片9.png 

朱霞天 副教授

个人简介:Dr Xiatian Zhu is a Senior Lecturer in People-Centred Artificial Intelligence at the CVSSP, University of Surrey. He completed his PhD degree at Queen Many University of London. He was awarded the 2016 Sullivan Doctoral Thesis prize –- the UK’s Best PhD Thesis Prize for AI technologies in Computer Vision awarded annually by the British Machine Vision Association since 1998, competed by all the leading UK research labs from over 40 UK universities. His work has been applied to the development and commercialisation of a world-leading multi-camera people tracking software at industry. Working as a research scientist at the Samsung AI Centre Cambridge, he developed AI algorithms for understanding human actions in long videos and objects in images. Dr Zhu has published 90+ top-tier conference and journal articles with the citation of 10,000+ and H-index of 42.

报告题目:Efficient Learning with Foundation Models

报告摘要:Foundation models (e.g., CLIP, GPT) have been increasingly influential ever since their emergence. Due to their big capability obtained at huge cost, how to exploit them for downstream tasks in an efficient manner becomes important. In this talk, I will introduce two challenges among many others. The first is about cross-modality transfer learning. Due to the ever-growing model size, the standard fine-tuning-based task adaptation strategy becomes prohibitively costly in terms of model training and storage. This has led to a new research direction in parameter-efficient transfer learning. Most existing attempts typically focus on the same modality (e.g., image understanding) as the pre-trained foundation model. This is limited because in some specific modalities, (e.g., video understanding) such a strong model is less or not available. In this context, we investigate parameter-efficient image-to-video transfer learning. The second is about data efficient multi-modality learning. Few-shot (FS) and zero-shot (ZS) learning are two main approaches for scaling to new classes. Taking a step further, we introduce a new multi-modality few-shot (MMFS) learning problem, a marriage of FS and ZS, based on the knowledge base of foundation models and the flexibility of FS learning. As a showcase, we investigate this problem for temporal action localization in long untrimmed videos.


学术主任


 图片1.png


郑伟诗博士,中山大学计算机学院教授、博导,现任中山大学计算机学院副院长、机器智能与先进计算教育部重点实验室副主任。他致力研究协同与交互分析理论与方法,应用于(跨场景)追踪与行为感知处理。他发表在CCF-A/中科院1区/Nature子刊 130多篇。担任国际顶级学术会议ICCV、CVPR、IJCAI 等领域主席,曾担任ICME 2022程序委员会联合主席等。作为负责人,主持承担国家自然科学基金委联合基金重点项目、国家重点研发课题等。获拉斯维加斯手机娱乐网站 自然科学奖一等奖、广东省自然科学奖一等奖等。获国家优秀青年科学基金、广东省自然科学基金委卓越青年创新团队(负责人)项目支持。


图片13.png


 

 

卢湖川教授,国家杰出青年基金获得者、科技部中青年创新领军人才,辽宁特聘教授(兴辽计划),大连理工大学创新学院院长。研究方向为计算机视觉、机器学习、模式识别。发表顶级会议论文(CVPR/ICCV/ECCV)100余篇,Google Scholar引用3万余次,以第一完成人获得教育部自然科学二等奖2项。获得多项国际学术奖,包括CVPR2020 Best Paper Award Nominee, ICCV2011 Most Remembered Poster等。2017-2022年,在国际目标跟踪权威评测VOT竞赛中,其团队连续在多个赛道获得多个冠军,多次担任CVPR/ICCV/ECCV领域主席。



报名及注册费

 

1.本期讲习班300根据缴费先后顺序录取,报满为止。

2. 2023224(含)前注册并缴费:CSIG会员1000/人,非会员1500/人(赠送1CSIG会员);CSIG团体会员参加,按CSIG会员标准缴费;同一单位组团(5人及以上)报名,均按CSIG会员标准缴费。

3.会议注册网址:https://conf.csig.org.cn/10339.html

图片10.png 

扫码报名

4. 参会链接及相关资料将于224日前发至您的手机和邮箱,报名时请预留不会拦截外部邮件的邮箱,并请留意垃圾邮件和被拦截的短信。

5.培训证书将于会后统一发放。

 

联系方式

   人:黄老师

 联系电话:010-82544754

     箱:igal@csig.org.cn

 

  拉斯维加斯手机娱乐网站

2022213

 

Copyright © 2025 拉斯维加斯手机娱乐网站  京公网安备 11010802035643号   京ICP备12009057号-1

地址:北京市海淀区中关村东路95号 邮编:100190

技术支持:中科服

Baidu
map