人工智能学习可视化广泛的数据集

芬兰人工智能中心的研究人员开发了一种新的人工智能算法，旨在尽可能清晰地可视化数据集。该项目表明，算法独立选择的解决方案通常非常接近人类最普遍喜欢的解决方案。

人脑具有惊人的能力，即使从极其大量的视觉信息中也能观察到特征。例如，这种能力用于研究大量数据，其内容必须压缩成人类智能可以理解的形式。这个降维问题是可视化分析的核心。

在芬兰人工智能中心(FCAI)，隶属于阿尔托大学和赫尔辛基大学的研究人员测试了最著名的可视化分析方法的功能，发现当数据量显着增长时，它们都不起作用。例如，当观测数达到数十万时，t-SNE、LargeViz和UMAP方法不再能够区分数据中观测分组的极强信号。该研究发表在《统计与计算》杂志上。

例如，与发现希格斯玻色子相关的实验数据集包含超过1100万个特征向量。

赫尔辛基大学统计学与概率学教授JukkaCorander说：“从它们中提取的可视化效果就像一团纱线，没有揭示出数据中包含的粒子行为的任何显着特征。”

“这一发现为开发一种新方法提供了动力，该方法利用类似于现代AI方法的图形加速进行神经网络计算。”

研究人员设计的AI算法以可视化为目标，使数据簇等宏观特征尽可能清晰，易于人类观察和理解。

在该项目中，几名志愿者测试了这项技术。事实证明，算法独立选择的解决方案通常非常接近人类最喜欢的解决方案;在这种情况下，人类智能会根据个人观念清楚地区分由相似观察结果组成的数据簇。当将该技术应用于希格斯玻色子数据时，它们最重要的物理特征被清楚地突出了。

“这是视觉分析领域名副其实的量子飞跃。除了比以前的方法快几个数量级之外，我们的技术在处理具有挑战性的应用时也更加可靠，”Corander说。

在Corander小组的指导下，还设计了一个单独的界面，以便在基因组学应用中尽可能有效地利用该技术。这样，用户甚至可以通过将文件直接上传到网络浏览器来交互式地分析他们的数据集。利用全球细菌和SARS-CoV-2数据集，这项进一步研究说明了如何使用新工具快速检查多达数百万个基因组并识别相关特征。

该研究是FCAI主任SamiKaski教授与JukkaCorander小组的合作。挪威科技大学杨志荣教授担任项目负责人。杨教授获阿尔托大学博士学位，后在Corander教授课题组先后在阿尔托大学和赫尔辛基大学任研究员。