快捷搜索:  汽车  科技

之江实验室计算天文(之江实验室朱雀)

之江实验室计算天文(之江实验室朱雀)如果药物种类逐渐增加,两两配对,那实验难度可以呈指数上升。正如 OGB 比赛中的项目一样,如果有 130 万种药物呢?图计算通过分析不同药物之间的相关关系,精准预测具有联合作用的药物,筛选之后再针对性的进行实验研究,大大节约了成本。根据团队核心成员吕劲松博士介绍,如果不采用图计算、图机器学习技术,而是用传统的矩阵分解算法,上述问题只有 13.68% 的准确率,众多科技爱好者耳熟能详的图卷积神经网络算法 GCN,也只能达到 37% 准确度。以图计算解决联合药物作用分析为例。A 与 B 两种药,如果联合用药,是毒性还是更好的疗效?判定这样的问题,如果仅仅依靠实验筛选,费时费力,成本很高。OGB 挑战赛在 2019 年由斯坦福大学发起,这项比赛以难度高、规模大、场景复杂著称,素有图学习领域“ImageNet”之称,吸引了大量国际顶尖实验室参赛。在之江实验室“朱雀”团队夺冠的这次比赛中,他们需要完

在计算机科学的前沿,中国团队斩获国际权威赛事的冠军。近日,之江实验室“朱雀”图计算团队以绝对优势获得国际顶级图学习标准 OGB(Open Graph Benchmark)挑战赛全球冠军,该成绩刷新了保持近一年的世界纪录。这次获奖也表明,在图计算领域,中国科研实力已经走在全球前列。


首先,图计算中的“图”,不是图片的“图”,而是图论的“图”。很多读者对“图论”很陌生,但一定听说过“七桥问题”,这个故事广泛流传于国内中学教材里。柯尼斯堡“七桥问题”讲述的是能否通过“一笔画”的方式,从任何一座桥出发,穿越七座桥再回到原点。欧拉之后,直到上世纪 60 年代才出现随机图理论,图论开始走向实际应用。


因此,从“七桥问题”引申出来,图计算研究的是事物与事物之间的关系,对其进行描述、刻画、分析和计算的一门技术。正是在这项技术上,来自之江实验室的中国团队一举获得全球冠军。

之江实验室计算天文(之江实验室朱雀)(1)

▲图 | 之江实验室“朱雀”团队参赛核心成员(来源:之江实验室)

OGB 挑战赛在 2019 年由斯坦福大学发起,这项比赛以难度高、规模大、场景复杂著称,素有图学习领域“ImageNet”之称,吸引了大量国际顶尖实验室参赛。在之江实验室“朱雀”团队夺冠的这次比赛中,他们需要完成的任务是要在 130 多万个药物-药物相互作用中,精准预测具有联合作用的药物(意味着要排除有害、或者无效的联合用药组合)。该团队本次夺冠,不仅是图计算算法有效性得到了验证,鉴于该比赛试题的“应用性”,也充分体现了图计算在实际工程领域的巨大应用潜力。

之江实验室计算天文(之江实验室朱雀)(2)

神秘的图计算,到底能用在哪些地方?


图计算看似神秘,和人们生活遥远,这不过是“不识庐山真面目,只缘身在此山中”,图计算几乎涉及到我们日常生活的方方面面。“朱雀”团队的夺冠模型告诉我们,它能大大加快新药物的研发流程,造福每一个人。此外,我们日常使用的在线购物平台、社交媒体软件乃至银行反欺诈,其中图计算都起到了关键作用。


以图计算解决联合药物作用分析为例。A 与 B 两种药,如果联合用药,是毒性还是更好的疗效?判定这样的问题,如果仅仅依靠实验筛选,费时费力,成本很高。

如果药物种类逐渐增加,两两配对,那实验难度可以呈指数上升。正如 OGB 比赛中的项目一样,如果有 130 万种药物呢?图计算通过分析不同药物之间的相关关系,精准预测具有联合作用的药物,筛选之后再针对性的进行实验研究,大大节约了成本。根据团队核心成员吕劲松博士介绍,如果不采用图计算、图机器学习技术,而是用传统的矩阵分解算法,上述问题只有 13.68% 的准确率,众多科技爱好者耳熟能详的图卷积神经网络算法 GCN,也只能达到 37% 准确度。

“朱雀”团队采用了基于路径感知的孪生图神经网络 PSG 算法,最终获得 92% 的预测准确率,将预测误差的小数点又移动了一位,降低到了千分位,大幅提升了算法稳定性。


图计算在电商中的应用也取得非常好的效果。人们在购物的时候,往往会得到不同平台的推荐,这些推荐的商品基于平台数据模型对某个消费者的认知。因此推荐的成功率非常重要。在用户端,我们看到的仅仅是一个推荐,但是背后是巨大的运算量和复杂的模型。“朱雀”团队特聘专家李朝介绍说,在应用图相关技术之前,电商对消费者的判断往往用内容标签和低阶模型的办法,即用一些关键词结合用户行为建模来对不同个体进行描述和刻画,这样的方式忽略了节点的高阶信息以及节点之间的非线性关系,而这恰恰是图计算的长处。基于更精准的模型,现在电商的推荐模型命中率已经上升到了 70%-80%,换言之,模型可能比你更懂你。


除了能够加速制药、提升购物体验,在保证消费者“钱包安全”方面,图计算一样功不可没,这就是反欺诈。根据相关专业机构的统计,在支付场景中有 10%-30% 的风险来自于团伙欺诈,在 ATO 场景下更是超过 50%。


近几年电信诈骗猖獗,各种骗子的欺诈手法也越来越多、越来越高明。根据微信披露的数据,传统的打标签、描述用户画像的做法已经遭遇了痛点。诈骗手法越来越多,对用户的行为、特征描述事物标签量也随之剧增。仅仅在微信支付,特征数量已达到 6 位数。分析一个人的消费习惯,以前是按天分析、后来按照小时分析,特征和特征之间还能做交叉,如此下去,特征越多,效果提升反而越慢,而且计算成本、存储成本越来越高。这是传统方法面临的难题,也是图计算可以解决的问题。

图计算所带来的,是从个体的特征工程到全局的网络工程的转变。这种新视界,摆脱了此前的基于特征的传统分析模式,能够更快速、更准确的识别欺诈行为。


图计算是研究事物之间关系的学问:药物之间的关系,消费行为之间的关系,欺诈模式之间的关系。由此不难理解,图相关技术也会在我们的社交媒体中得到广泛应用。在社交网络数据上构建图模型后,可以深入挖掘个体之间的联系,比如发现潜在的黑客、挖掘社区、根据爱好更精准推荐好友等等。

之江实验室计算天文(之江实验室朱雀)(3)

图计算的未来,不可限量


图计算可以应用于相当多的主流行业。除了我们提到的金融、社交、制造,其在能源行业、制造业甚至脑科学中同样有用武之地。以电网为例,如今电网规模之大、不同设备、区域之间关联关系之复杂,已经超出了一般模型的分析能力。图计算可以帮助电网进行实时、高效的管理,提升输电、配电效率。著名咨询公司 Gartner 在《2021 年十大数据和分析技术趋势》报告中预测,到 2025 年图计算技术将应用于 80% 的数据和分析创新。

中国工程院院士、清华大学计算机科学与技术系教授郑纬民强调:“现在布局高性能图计算恰逢其时,就相当于抓住了未来大数据、人工智能和高性能计算产业发展的牛鼻子,其影响不可估量。”


清华大学计算机系教授、蚂蚁集团图计算技术负责人陈文光,也曾表示,“图计算不仅仅只是一个技术,更是一种理解世界新的方式”。


图计算应用前景广阔,原因在于其就像“万金油”一般,可以和很多当今前沿的新兴技术发生化学反应。


如图技术与机器学习结合而出现的图机器学习,前者体现的是“连接主义”,后者则是“人工智能符号主义”。传统的机器学习具有可解释性低下、缺乏非欧空间数据结构处理能力等问题,图结构数据有可能成为解决方案之一。融合了图结构数据和机器学习技术的图神经网络(GNN),可以将人类认知以图的形式和计算机建立的神经网络相结合,探索人工智能更强大的潜力。

在图计算上的突破,只是“朱雀”团队众多科研创新成果的一部分。

获得本次 OGB 冠军的团队之江智能图计算平台负责人陈红阳告诉 DeepTech,除了图计算在制药领域的研究进展,目前团队也在积极探索图 其他领域的融合。比如在国产芯片领域,如何将图计算应用于存算一体的芯片,期望未来三年能看到成果。


目前,该团队既有来自全球知名高校的学者,也有来自头部科技公司的行业专家。近年来在智能计算、数据挖掘和深度学习等领域取得了重大进展。此次 OGB 夺冠是团队多年深耕基础科学研究的必然回报。

之江实验室计算天文(之江实验室朱雀)(4)

▲图|之江实验室“朱雀”团队合照


在谈到科研细节时,之江实验室图计算研究中心高级研究专员吕劲松博士介绍,这次能够开发出识别准确率高达 92% 的模型有一些运气,更多的是因为坚持。在攻关之处,尝试了多种方式,期望在上一年冠军模型基础上进行优化,最终结果反而更差了。在思考节点与节点关系上,研究人员举了这样一个例子,“这就好比判断全球任意两个人之间是不是潜在的朋友关系,这是很难穷举的。但后来有人提出能否通过第三者、中间人的存在去判断,由此打开了思路”。但这种猜想很可能是错的,抱着试一试的态度,团队成员沿着这条路线走了下去,最终获得成功。

“大胆假设,小心求证”不仅是做学问的原则,也是科研的原则。只有秉承这样的精神,加之持之以恒的品质,中国的实验室将有望在全球更多基础科学领域获得更大的成就。

之江实验室计算天文(之江实验室朱雀)(5)

猜您喜欢: