登录会员系统  |  联系我们  |  加入学会  
学会动态
"大模型理论方法及技术实战"讲习班报名火热进行中
发布时间:2023-11-06      来源:拉斯维加斯手机娱乐网站       分享:

近年来,人工智能理论、方法和技术快速发展,尤其是近期基于深度学习的大模型技术带来了通用人工智能任务的性能快速提升并且展现了在社会多个领域中可以成功应用的潜力。正值此“百模大战”的关键时刻,为了给本领域研究者、技术开发人员和研究生介绍大模型技术的前沿最新进展,拉斯维加斯手机娱乐网站 文档图像分析与识别专业委员会精心筹备了这次大模型理论方法及技术实战的讲习班。本次活动于2023年12月2日-3日在安徽合肥举办,北京科技大学殷绪成教授和中国科学技术大学杜俊副教授担任学术主任,邀请了多名学术界和工业界的知名专家以及开源大模型的核心开发人员作相关报告,使学员在了解图文及视觉等学科热点和理论方法、提高学术水平的同时,也能够深入接触到语言和多模态大模型关键技术的具体实现,增进了与领域顶尖学者之间的学术交流,并共同探讨未来如何将大模型技术更好的应用到文档图像分析与识别等各个领域。

 

主办单位

拉斯维加斯手机娱乐网站

承办单位

CSIG文档图像分析与识别专委会

中国科学技术大学

科大讯飞股份有限公司


学术主任


1699256778711788.png 

殷绪成,国家杰出青年科学基金获得者,北京科技大学教授、博导,北京科技大学计算机与通信工程学院院长,模式识别与人工智能技术创新实验室主任,拉斯维加斯手机娱乐网站 文档图像分析与识别专委会副主任/秘书长。主要研究领域包括模式识别、文字识别、计算机视觉、人工智能芯片、工业智能与工业软件技术及应用,近五年来在中国计算机学会推荐国际期刊和会议上发表论文百余篇,连续四届荣获国际文档分析与识别大会技术竞赛共15项冠军,获2019年度北京市科技进步一等奖(第一完成人)、2018年度教育部科技进步二等奖(第一完成人)。

 1699255908255051.png 

杜俊,中国科学技术大学语音及语言信息处理国家工程研究中心副教授,博导。2009-2013年就职于科大讯飞研究院和微软亚洲研究院,期间主导开发了语音识别、手写识别和OCR多个产品。研究方向是语音信号处理和模式识别应用,已发表论文200多篇,谷歌学术引用8500余次,获得2018年IEEE信号处理学会最佳论文奖、2018年获安徽省科技进步一等奖、2022ISCSLP国际会议最佳论文奖、2022吴文俊人工智能科技进步一等奖、2022中国产学研合作创新成果二等奖。目前是IEEE高级会员和CCF高级会员,并担任IEEE信号处理学会语音及语言处理技术委员会(SLTC)委员、亚太信号与信息处理协会(APSIPA)语音语言音频分会(SLA)技术委员会主任,曾担任语音领域顶级期刊IEEE-ACM TASLP编委。带领团队参加语音和图文领域国际评测获得40多项冠军。


日程安排

时间:2023年12月2-3

地点:安徽省合肥市蜀山区黄山路598号贝斯特韦斯特精品酒店

微信图片_20231106171226.png


特邀讲者

1699256056230070.png 

吕岳 教授 

报告人简介:吕岳,华东师范大学教授、通信与电子工程学院院长。入选教育部新世纪优秀人才计划、上海市曙光学者、上海市优秀技术带头人、上海市领军人才、交通运输部优秀科技人员和优秀科技创新团队带头人,享受国务院政府特殊津贴。研究领域包括模式识别、图像处理、机器学习、智能系统等,主持承担国家自然科学基金项目、国家重大研发计划项目课题、上海市科委和经信委科技项目等各类科研项目30余项,发表学术论文200余篇,授权发明专利20在文本图像识别领域,聚焦复杂场景的文本检测和识别、大规模图文自动生成、多语种文本识别,研究成果在工业智能控制领域获得成功应用,多语种复杂场景图文识别关键技术及产业化获吴文俊人工智能科技进步奖一等奖。领衔研制的信函自动分拣机和包裹自动分拣机得到推广应用并出口国外,为我国信函和包裹分拣的智能化技术研发和软硬件系统设计做出了重要贡献,以第一完成人获得中国邮政科学技术一等奖、上海市科技进步一等奖。吕岳教授IEEE高级会员,担任Pattern Recognition等国际期刊编委,拉斯维加斯手机娱乐网站 理事及文档图像分析与识别专委会副主任。

报告题目:多模态模型和生成式方法在文本识别中的应用

报告摘要:文本图像天然地具有图像-文本两个模态,多模态模型成为当前文本识别领域的重要研究内容。多模态模型的核心之一是多种模态数据的联合训练我们提出图像-文本联合引导的学习方法,并使用图像-文本对比学习来构建文本和图像之间的关联;此外,我们还提出平衡同步推理模型将图像和文本视为同等重要的模态,在模型中提取单图像特征、单文本语义特征以及图像-语义多模态特征,在训练过程中自动学习多模态的特征表达,从而更好地利用多模态的信息来提高识别性能。为了提高复杂背景下的文本识别性能,我们提出基于语义生成对抗网络的文本识别网络,在语义特征层面进行生成和判别,并平衡复杂背景和相应简单背景图像之间的语义特征分布,从语义层面简化识别难度,进而改善复杂背景下的文本识别效果。

 

1699256083400533.png 

张娅 教授 

报告人简介:张娅,女,上海交通大学首席研究员、国家“万人计划”科技创新领军人才。清华大学学士、美国宾州州立大学博士。长期致力于人工智能算法及其在多媒体和医疗影像的应用研究。曾任堪萨斯大学助理教授(tenure-track)、雅虎实验室资深研发经理,2010归国进入上海交通大学任教。兼任上海交通大学数字医学研究院副院长,上海人工智能实验室智慧医疗研究中心执行主任,超高清视音频制播呈现国家重点实验室首席人工智能科学家。在人工智能和智慧医疗等方向主持和参与多项国家级和省部级项目,担任科技部863计划项目首席专家和科技创新2030重大项目负责人。在国际高质量期刊和会议上发表学术论文190余篇,Google Scholar引用9000余次。获上海市技术发明一等奖(2022)、中国电影电视技术学会科学技术奖一等奖(2021)、欧洲信号处理学会期刊年度最佳论文奖(2019)、中国人工智能学会优秀博士论文指导老师(2018)。

报告题目:医疗领域基础模型的探索与实践

报告摘要:基础模型作为一种融合了大数据、大算力和强算法的产物,拥有强大的泛化能力和通用性,已成为国家人工智能新基础设施的核心组成部分。近年来,基础模型在医疗领域也备受关注。然而,由于医疗隐私保护的原因,数据难以大规模汇聚,因此亟需探索多方协同计算的解决方案。同时,医疗诊断高度依赖专业医学知识,需要探索知识与数据融合的表征学习方法,以提高模型的准确性和可解释性。此外,在医疗应用中,公平性也是至关重要的伦理问题,因此对模型的公平表征能力提出了要求。在上述背景下,我们面向医疗领域基础模型的构建进行了一系列技术探索和实践,为推动人工智能更广泛的赋能医疗重大需求做出有力支撑。


1699256160288766.png 

王士进 博士 

报告人简介:王士进博士,教授级高工,科大讯飞副总裁,讯飞研究院执行院长、认知智能全国重点实验室副主任,他带领团队陆续开展了认知智能基础技术及在教育等行业关键技术方向研究,取得一系列国际领先的研究成果,获得30余项国际比赛冠军,在TASLP、AAAI、ACL、KDD、SIGIR等人工智能领域国际顶级期刊和会议上发表论文50余篇,申请了专利80余项,同时还承担了国家重点研发计划、863、973等多项国家重点研发计划工作,获安徽省科技进步一等奖、吴文俊人工智能科技进步奖一等奖、中国科协求是杰出青年成果转化奖等奖项称号。

报告题目:通用人工智能的技术进展和典型应用

报告摘要:本报告首先分析了人工智能的阶段,并提出当前以认知大模型为代表的通用人工智能技术引发全球广泛关注,掀起了新一轮的科技革命浪潮,报告还分析了从认知大模型到多模态大模型的技术特性、发展趋势及应用价值,同时提出大模型的未来还需要攻克的三个难题,及大模型的下一步技术发展方向。其次,报告汇报了科大讯飞研发星火大模型的成果和研发经历,重点介绍了大模型服务教育、医疗、办公、工业等行业的探索经验。最后,报告总结了大模型在行业应用的多个关键点。

  

1699256187834165.png 

乔宇 教授 

报告人简介:乔宇,上海人工智能实验室主任助理、领军科学家。从事人工智能领域研究,近年来聚焦通用大模型,领导研发了国内首个广泛覆盖多种视觉任务的通用大模型“书生”,标杆任务性能国际领先。发表学术论文300余篇,累计被引五万千余次,H-index为88。以第一完成人获广东省技术发明一等奖,获CVPR2023最佳论文奖、人工智能旗舰会议AAAI 2021杰出论文奖、世界人工智能大会青年论文奖等。入选国家级人才计划、科技部中青年科技创新领军人才、上海市优秀学术带头人、中科院百人计划等。

报告题目:“书生”通用大模型体系

报告摘要:近年来预训练语言大模型推动人工智能技术取得突破性进展,成为通向通用人工智能的重要途径。这个报告将介绍通用多模态大模型的最新进展,特别是上海人工智能实验室“书生”通用大模型体系,还将分析未来的发展趋势。

 

1699256222195829.png 

刘静 研究员

报告人简介:中科院自动化所研究员/博导,国家优青获得者。研究方向多模态预训练。曾获中国电子学会自然科学一等奖,图像图形学会科学技术二等奖等。承担或参与多项国家自然科学基金项目、国家973、国家基金重大研究计划、国家重点研发等。已发表高水平学术论文150余篇,谷歌学术引用13000+次,SCI他引次数5000+次,其中有三篇被ESI列为Top 1% 高被引论文。在视觉计算相关领域国际学术竞赛中荣获冠军十余项。

报告题目:多模态预训练模型的构建与应用

报告摘要:近年来,从预训练模型到预训练大模型,从文本、音频、视觉等单模态大模型,到现在的图文、图文音等多模态预训练大模型,无论在学术界还是企业界预训练模型都得到了广泛关注与爆发式发展。多模态预训练通过联合图文音等多模态内容进行模型学习,其发展在多模态理解、搜索、推荐、问答,语音识别与合成,人机交互等应用领域中具有潜力巨大的市场价值。本报告主要包含四方面内容:分析多模态预训练模型的重要性与必要性;简述多模态预训练的关键技术;回顾当前多模态预训练的前沿进展;多模态预训练模型的思考与展望。


1699256285317801.png 

王井东 博士

报告人简介:王井东,百度计算机视觉首席科学家,负责计算机视觉领域的研究、技术创新和产品研发。加入百度之前,曾任微软亚洲研究院视觉计算组首席研究员。2001年和2004年在清华大学获得学士和硕士学位,2007年在香港科技大学获得博士学位。研究领域为计算机视觉、深度学习及多媒体搜索。他发表论文200多篇,Google Scholar引用43000余次,其中有四篇会议文章引用数在当年的会议论文(CVPR 2013, ICCV 2015, CVPR 2019,ECCV 2020)中列前十。他的代表工作包括高分辨率神经网络HRNet、基于Transformer的图像语义分割网络OCRNet、以及基于近邻图的大规模向量搜索SPTAG(最早把近邻图的方法用于实际产品中,是Bing搜索、广告和推荐底层向量搜索的核心技术)等。在微软工作期间,科研成果10多次转化到微软的关键产品和业务中去,包括搜索、广告、OCR、小冰聊天机器人等。在百度带领团队研发的技术已经广泛应用于百度的搜索、智能云以及自动驾驶等重要产品和业务中。王井东曾担任过许多人工智能会议的领域主席,如 CVPR、ICCV、ECCV、NeurIPS、AAAI、IJCAI、ACM MM等。他现在是IEEE TPAMI、IJCV和ACM TOMM的编委会成员,曾是IEEE TMM和IEEE TCSVT编委会成员。因在视觉内容理解和检索领域的杰出贡献,他被遴选为国际电气电子工程师学会和国际模式识别学会会士 (IEEE/IAPR Fellow)、国际计算机协会杰出会员 (ACM Distinguished Member)。 

报告题目:视觉大模型:算法、应用与思考

报告摘要:介绍文心·CV大模型中的自监督表征学习算法Context Autoencoder(CAE)(IJCV)和基于预训练的目标检测算法Group DETR(ICCV 2023)等。同时,从学习物体部件的角度,给出几个典型的自监督预训练算法(BEiT、MAE、CAE、MoCo v3及DINO)的特点(TMLR)。并介绍基于CAE和Group DETR的工业视觉大模型、人体图像大模型等。然后,会讲述在OCR领域里,大模型的一些研究和应用。最后,谈谈对大模型的一些思考,包括:视觉大模型究竟需要预训练什么、大语言模型与视觉大模型的融合、以及大模型时代视觉研究课题(如数据、优化、网络结构)的新趋势等。

 

1699256306232447.png 

白帅 高级算法工程师 

报告人简介:白帅,现任阿里巴巴通义实验室高级算法工程师,2021年毕业于北京邮电大学模式识别实验室,于CVPR,ICML,ECCV等国际会议发表多篇论文。目前主要研究领域包括多模态理解,视觉生成,侧重于多模态预训练及其应用,涉及多模态学习、大规模预训练等技术领域。相关成果包括通用统一预训练模型OFA、图文音统一表征模型OnePeace以及通义多模态大模型Qwen-VL等,在学术、开源社区和业界都产生了较好的反响。

报告题目:Qwen-VL : 探索通用多模态大模型

报告摘要:

多模态大模型发展

Qwen-VL:一个通用多模态大模型,包括数据构建,训练范式,如何评估

Qwen-VL的应用和实践

未来的展望

 

1699256398131585.png 

桂韬 博士

报告人简介:桂韬,复旦大学青年副研究员、硕士生导师。研究领域为预训练模型、类人对齐和智能体交互。在高水平国际学术期刊和会议上发表了50余篇论文,主持国家自然科学基金、计算机学会、人工智能学会多个人才项目。曾获钱伟长中文信息处理科学技术奖一等奖、COLING2018最佳论文提名奖、NLPCC2019杰出论文奖、CIPS优博奖、ACM优博奖,入选第七届“中国科协青年人才托举工程”、上海市启明星计划、世界人工智能大会云帆奖“璀璨明星”称号。

报告题目:大模型价值对齐 MOSS-RLHF

报告摘要:随着基础模型的兴起,NLP正在经历模型范式“同质化”的转变,如今,NLP领域几乎所有的SOTA模型都是少数几个基于Transformer 的大模型进化而来。而且,这种趋势正在向图像、语音、蛋白质序列预测、强化学习等多个领域蔓延。整个 AI 社区似乎出现了一种大一统的趋势。这种同质化也带来了一些隐患,因为基础模型的安全性、公平性、隐私性缺陷也会被所有下游模型所继承。本报告将介绍大模型的安全伦理风险以及带来的社会影响,探讨如何实现可泛化的奖励模型与高稳定的PPO算法,以及通过人类反馈的强化学习算法实现价值观对齐-MOSS RLHF。


报名及注册费

1. 本期讲习班限报120人,根据缴费先后顺序录取,报满为止。

2. 2023年12月1日(含)前注册并缴费:CSIG会员2000元/人,非会员2500元/人(赠送1年CSIG会员);现场缴费:会员、非会员均为3000元/人;CSIG团体会员参加,按CSIG会员标准缴费;同一单位组团(5人及以上)报名,均按CSIG会员标准缴费。

3. 注册费包括讲课资料和2天会议期间午餐,其它食宿、交通自理。

4. 讲习班培训证书于结营仪式统一发放。

5. 即日起至2023年12月1日,请登录会议注册网站注册。

6. 会议注册网址:https://conf.csig.org.cn/10374.html

微信图片_20231106141414.png

 

联系方式

  人: 黄老师

 联系电话:010-82544754

        箱:igal@csig.org.cn


Copyright © 2025 拉斯维加斯手机娱乐网站  京公网安备 11010802035643号   京ICP备12009057号-1

地址:北京市海淀区中关村东路95号 邮编:100190

技术支持:中科服

Baidu
map