登录会员系统  |  联系我们  |  加入学会  
学会动态
第七期可视化与可视分析国际学术报告成功举办
发布时间:2021-12-20      来源:拉斯维加斯手机娱乐网站       分享:

2021年12月16日星期四上午,拉斯维加斯手机娱乐网站 可视化与可视分析专业委员会组织的第七期可视化与可视分析国际学术报告成功举行。此次报告特邀美国石溪大学计算机学院Klaus Mueller正教授担任讲者。Mueller教授曾获得美国国家科学基金早期生涯奖, 纽约州立大学校长卓越奖,IEEE计算机协会功勋奖及金核奖,美国国家发明家科学院会士,现担任IEEE Transactions on Visualization and Computer Graphics期刊主编。

Mueller教授带来了题为《Neural Word Embeddings:Adding the Human into the Loop》(神经网络词嵌入:把人放到闭环中)的精彩报告。Mueller教授首先深入浅出地介绍了词嵌入及其可视化涉及的基本概念,如word2vec、高维数据、词嵌入的一般过程等关键要素,指出当前词嵌入的研究现状,并从三个方面介绍了自己的讲座:使用词嵌入来解决与高维数据分析相关的几个长期存在的问题,即子空间聚类和分类法/本体生成;当前词嵌入方法的缺点,例如生成的映射的准确性和偏差;如何运用人类的智慧,通过有效的交互视觉界面来利用和改进生成的词嵌入。

首先,Mueller教授用一个多义词Jaguar来引发大家的联想,介绍了词嵌入的流程和算法。Jaguar既可以表示猎豹,又可以表示车。这在词嵌入的时候,就容易发生错误,并以此引出了当前词嵌入所面临的问题。然后,Mueller教授从宏观的角度,介绍如何将人加入到词嵌入的流程中。如图1 所示,一般文本加专业的文本,通过word2vec的方法,转成一般的词嵌入。属性的元文本加标签也可转成词嵌入。最后通过属性词嵌入,形成概念性的属性组合,可以投影到语意子空间,也可以投影到语意数据子空间等。


1.png图 1 Mueller教授介绍如何把人放到深度神经词嵌入闭环中的流程

 

接下来,Mueller教授针对大量高维数据中,无法根据词汇语意来整理的方法,提出了一种层次化组织的方法。按照高维数据的维度或属性来组织高维数据是一项相当困难的事情。大部分在该领域中的工作侧重于统计方面,例如相关聚类、降维等。这些方法通常产生层次结构数据,其中叶节点由属性名称标记,而内部节点通常仅由一个表示统计量度和标准,例如阈值,这使得大部分的用户难以理解它们。Mueller教授开发了一种叫Taxonomizer的可视分析工具,由可视化界面和分析算法组合而成。这个工具从开始自动计算层次结构,其中叶节点是原始数据的属性,然后它允许用户交互式的组织编排高维数据,以应对高维的挑战。如图2所示,通过一个可视化的界面,Taxonomizer可以自动将属性根据语意进行层次化排布,生成(c)中可视化。它也可以根据用户需求,交互式的调整参数,来进行不同的可视化。



2.png

图 2 Taxonomizer的使用案例界面

 

接着,Mueller教授介绍了如何用可视化解决交叉偏见的问题。交叉偏见是由多种社会因素(如性别、性取向、种族、残疾、宗教等)重叠引起的偏见。最近的一项研究表明,词嵌入模型可能充满对非裔美国女性等交叉群体的偏见。解决此类交叉偏见的第一步是识别它们。然而,研究发现对不同交叉群体的偏见仍然是一项具有挑战性的任务。针对这一问题,Mueller教授实验室开发了WordBias,一种交互式的可视化工具,旨在探索对静态词嵌入中编码的交叉的偏见。给定一个预训练的静态词嵌入,WordBias会根据种族、年龄等计算每个词在不同组中的关联,然后使用交互界面将它们可视化。如图3所示,Mueller教授演示了 WordBias 如何帮助发现对交叉群体的偏见,如黑人穆斯林男性、贫困女性等在词嵌入中编码。



3.png

图 3 WordBias的使用案例界面

 

最后,Mueller教授对本次演讲内容进行了总结,并提出了研究展望。首先,可视化可以在词嵌入研究方面发挥很大的作用,包括发现偏见、组织高维数据词向量等。其次,可视化在NLP领域尤其是词嵌入方面,仍然存在许多亟待解决的问题,如数据的高维以及数据的体量等问题。

在提问环节,在线观众积极发表自己的观点并参与讨论。针对如何处理属性间的相关性问题,如何处理类别型数据及连续型数据的问题,Mueller教授表示他们已经考虑到了这些问题,他们的工作支持dependent和independent的数据,以及类别型数据及连续型数据。针对多义词,是否可以在数据处理前就分开的这一问题,Mueller教授表示他们也考虑过这个问题,起初也是这么想的。后期发现了更有意思的idea,就放弃了这一尝试,可以作为后续的方法进行研究。

本次活动由西湖大学支持,可视化与可视分析专委会委员成生辉主持了报告会。下一期报告将于2022年1月6日晚上19:00 - 20:30举行,报告题目为《Humanizing Visualization Through Vision Science》,讲者是来自美国俄亥俄州立大学计算机科学与工程系陈健副教授。

 

Copyright © 2025 拉斯维加斯手机娱乐网站  京公网安备 11010802035643号   京ICP备12009057号-1

地址:北京市海淀区中关村东路95号 邮编:100190

技术支持:中科服

Baidu
map