阿里ai写作(阿里7篇论文入选ICML)
阿里ai写作(阿里7篇论文入选ICML)该方法被称为“双模推理”, 即将一个复杂任务拆分成两个任务,例如在复杂AI推理任务过程中,可以先以很小的资源运行“小网络”,同时分析哪些网络的区域较为敏感,然后只对敏感区域在“大网络”中运行计算。阿里巴巴达摩院设计出了一种“AI双脑思考”的方法,能让大型神经网络像人类一样学会“快思考”与“慢思考”,从而进行高效且准确的推理过程。如何让神经网络的推理过程在有限的硬件资源下,延时更小,耗能更少,一直是业界难题。尤其是类似语言模型这类大模型,给计算、内存资源带来了新的挑战。目前,业界通用的解决方法是采用更先进的计算性能来运行AI任务,例如采用GPU、FPGA或者NPU等异构计算,但该方法并没有从根源上解决问题。
ICML 2020放榜,接收率再创新低,为21.8%。
纵览榜单,中国学术界依然是清华领衔,公司维度上,阿里则以7篇论文入选的数量拔得头筹。
根据ICML官方资料,阿里7篇论文涵盖在图像识别、自然语言处理、搜索推荐等领域的研究成果。
比如,其中一篇《Boosting Deep Neural Network Efficiency with Dual-Module Inference》,提出了一种全新的AI推理方法,可大幅减少AI对计算和内存资源的消耗,能将推理速度提升3倍。
AI双模推理
如何让神经网络的推理过程在有限的硬件资源下,延时更小,耗能更少,一直是业界难题。
尤其是类似语言模型这类大模型,给计算、内存资源带来了新的挑战。
目前,业界通用的解决方法是采用更先进的计算性能来运行AI任务,例如采用GPU、FPGA或者NPU等异构计算,但该方法并没有从根源上解决问题。
阿里巴巴达摩院设计出了一种“AI双脑思考”的方法,能让大型神经网络像人类一样学会“快思考”与“慢思考”,从而进行高效且准确的推理过程。
该方法被称为“双模推理”, 即将一个复杂任务拆分成两个任务,例如在复杂AI推理任务过程中,可以先以很小的资源运行“小网络”,同时分析哪些网络的区域较为敏感,然后只对敏感区域在“大网络”中运行计算。
推理时:
先以很小的资源运行量化为FIX POINT的“小网络”;
将该结果的每一个输出与阈值对比,判断这个数值是不是“关键的敏感数值”;
如果是“关键敏感”数值,那么适用原有的精确大网络,计算其精确数值;
如果不是,那么就用这个小网络的数值作为其估计值,继续计算。
小网络,实际上就是大网络的一个估计。
研究人员同时考虑了维度缩减和量化,借鉴 random projection 的方法,用 W^LLPx 来估计 WHHx,其中 W^HH 大网络是一个 nd 的矩阵,而 W^LL 是一个 nk (k << d) 的矩阵,P 是一个转化矩阵(稀疏的 0/1 矩阵)。
在训练上,采用知识蒸馏(Knowledge Distillation)的方法,把大网络作为“老师网络”小网络作为“学生网络”。
小网络的训练过程如下:
研究人员在CPU server上对该方法进行了实现,并与MKL的Pytorch实现进行了对比。
实际效果显示,该方法能在保证模型精度的基础上,在语言模型上减小40%的访存,达到1.54倍-1.75倍的性能提升,同时可以在仅损耗0.5%精度基础上,提升3倍的推理速度。
One More Thing
近年来,阿里在AI领域迎来了基础研究与产业应用成果双爆发的阶段。
三年前,阿里巴巴成立了内部前沿研究机构达摩院,达摩院下设十余个基础研究实验室,涵盖语音实验室、视觉实验室、语言技术实验室、决策智能实验室、城市大脑实验室、自动驾驶实验室等AI相关部门。
据了解,阿里AI已在国际顶级技术赛事上获得了近60项世界第一,500多篇论文入选国际顶会。同时,阿里AI落地了多项重大研究成果,全面赋能各行各业。达摩院医疗AI团队疫情期间研发的AI诊断技术,已在全球近600家医院落地,完成50余万例临床诊断。
— 完 —
量子位 QbitAI · 头条号签约
关注我们,第一时间获知前沿科技动态