获得本届CSIG图像图形技术挑战赛总决赛冠军的团队是“CSIG FAT-AI 2024人像复原挑战赛”赛道冠军中国电信股份有限公司人工智能研究院(上海)团队。本团队隶属于中国电信人工智能研究院(TeleAI),TeleAl由中国电信集团CTO、首席科学家李学龙教授发起并组建,面向国家战略需求和未来人工智能发展趋势,结合中国电信在算力、数据、应用场景及通信等多方面的优势,围绕大模型、具身智能、AIGC等方向开展基础研究、技术攻关和应用落地。
一、 赛道介绍
该赛道赛题要求使用低清人像图片作为输入,可结合提供的文本描述及轮廓草图,输出高清复原人像图片。以复原图与原始高清图相似度相对低清图与原始高清图相似度的提升(IRR)作为基础指标,同时以质量得分作为加权系数考察复原图像效果,要求复原方法必须兼顾复原人脸识别特征和图像质量。训练数据来源于学术界公开的人脸数据集,包括低清高清配对图片、中文文本描述和草图轮廓。其中低清图与高清图为同一人物的不同场景图片,并存在侧脸、遮挡等情况,样本数量较少,任务难度较大。
(图片来源:https://fat.neliva.com.cn/CFAT2024/)
二、 参赛方案介绍
针对本届人像复原挑战赛,本团队结合自身在人脸识别、视觉大模型等领域多年深耕经验,通过对训练数据和测评指标进行深入分析,最终融合多种技术方案,在初赛和复赛均取得冠军成绩。
现有主流人像复原方法普遍会产生较大的身份信息偏差,因此本团队提出基于身份信息保持的多模态人像复原方案。为增强人脸身份保持能力,提高人脸角度相似性,本团队在Arc2face模型基础上,创新性地加入人脸轮廓引导的ControlNet分支,将人脸识别模型获取的识别特征与轮廓草图结合,共同引导图像生成。最终得到保留足够身份信息的高清复原图像。经多轮提交验证,该方法相对其他前期方案指标获得大幅提升,取得初赛的最高成绩。
复赛阶段测评数据来源于开放场景下私有标注的高质量非公开数据集,该测试数据集与训练数据集不同源。开放场景数据具有模糊度高、人脸偏移角度大、人脸区域存在遮挡等问题。本团队针对性地提出了扩散模型联合对抗式生成网络的双阶段人像复原方案。在第一阶段中,利用低清图和配对的不同场景高清图,将低清图人脸特征和压缩后的高清图人脸特征进行对齐,强化了低清图中的人脸身份信息,得到了一阶段复原结果。在第二阶段使用对抗式生成网络,对初步复原结果的细节进行了特征补全,在强化人脸身份信息的同时,有效提高了复原图片的质量。该方案在复赛取得冠军成绩。
三、 参赛总结与展望
在当前传统人脸识别算法潜力已被充分挖掘并应用的形势下,如何结合最新的生成式技术来提升模糊、侧脸等困难场景的识别精度,成为学术和工业界亟需考虑的方向。本次FAT-AI应用竞赛一如既往地保持了立意高远、产学研结合的特点,具有较高的学术价值与实践意义。赛题难点包括训练数据较少、初复赛数据分布完全不同以及每天限提交一次等。前两个难点贴合当前业界实际应用场景,对模型和方法的泛化性、易用性提出极高要求。而第三个难点则需要在固定次数内快速找到方案优化方向,充分地考查参赛团队的行业经验。比赛过程中,本团队凭借多年深耕人脸识别领域的经验,在少量提交后即确定了人类主观观测认为的相似特征与人脸识别模型认为的相似特征存在一定差异性,从而构建了本地评测体系,并结合以往对视觉人脸大模型的研究经验,快速确定方案路线,逐步测试验证,最终取得冠军成绩。
Copyright © 2025 拉斯维加斯手机娱乐网站 京公网安备 11010802035643号 京ICP备12009057号-1
地址:北京市海淀区中关村东路95号 邮编:100190