神经网络计算平台(一个用于超低功耗二值卷积神经网络加速的框架)
神经网络计算平台(一个用于超低功耗二值卷积神经网络加速的框架)图 11:基线架构(定点 Q2.9、SRAM、8×8 信道、固定 7×7 滤波器)与最终的 YodaNN(二值的、SCM、32×32 信道、支持多个滤波器)在内核能效和通量上的比较图 10:YodaNN 的 floorplan,其带有 9.2 KiB SCM 内存,可并行计算 32 个输出信道摘要:在过去几年里,卷积神经网络(CNN)已经为计算机视觉领域带来了革新,推动实现了超越人类准确度的图像分类。但是,我们需要非常高功耗的并行处理器或者通用计算图形处理器(GP-GPU)才能满足运行目前 CNN 的要求。最近在为系统级芯片集成(system-on-chip integration)的 CNN 加速器上的发展已经实现了显著的功耗降低。不幸的是,即便是这些经过高度优化的设备,其包络功率(power envelope)也因超过了移动设备和深层嵌入式应用从而面临因 CNN weight I/O
选自arXiv.org
机器之心编译
参与:晏奇、吴攀
去年,来自瑞士苏黎世联邦理工学院(ETH Zurich)和意大利博洛尼亚大学电气、电子与信息工程系的研究者提出一种用于超低功耗二值卷积神经网络加速的框架 YodaNN。近日,该研究团队对这个框架的论文进行了更新,机器之心在此对其进行了简单的摘要介绍,论文原文请点击文末「阅读原文」查看。
摘要:
在过去几年里,卷积神经网络(CNN)已经为计算机视觉领域带来了革新,推动实现了超越人类准确度的图像分类。但是,我们需要非常高功耗的并行处理器或者通用计算图形处理器(GP-GPU)才能满足运行目前 CNN 的要求。最近在为系统级芯片集成(system-on-chip integration)的 CNN 加速器上的发展已经实现了显著的功耗降低。不幸的是,即便是这些经过高度优化的设备,其包络功率(power envelope)也因超过了移动设备和深层嵌入式应用从而面临因 CNN weight I/O 和 storage 导致的硬性限制。这也阻碍了未来在超低功耗物联网端节点中采用 CNN 来对近传感器(near-sensor)的分析工作。最近在算法和理论中的进展使具有竞争力的分类准确度成为可能——即便当在训练中限制 CNN 使其使用二值权重( 1/-1)来计算也没问题。通过去除对大量乘法运算的需求和减少 I/O 带宽与存储,这些新发现为我们带来了在运算核心中进行重要优化的良机。本文中,我们提出了一种为二值 CNN 优化过的加速器,它在仅 1.33MGE(Million Gate Equivalent,百万级等效门)或 0.19 平方毫米的核心区域上在 1.2 V 的条件下实现了 1510 GOp/s 的速度,而且在 0.6 V 条件下使用 UMC 65 nm 技术时仅有 895 uW 的功率耗散。我们的加速器在能量效率和尺寸效率上的表现都显著超越了当前最佳水平,分别在 0.6 V 和 1.2 V 的条件下实现了 61.2 TOp/s/W 和 1135 GOp/s/MGE 的表现。
算法 1:该伪代码给出了卷积层处理所需的主要步骤的概览
图 10:YodaNN 的 floorplan,其带有 9.2 KiB SCM 内存,可并行计算 32 个输出信道
图 11:基线架构(定点 Q2.9、SRAM、8×8 信道、固定 7×7 滤波器)与最终的 YodaNN(二值的、SCM、32×32 信道、支持多个滤波器)在内核能效和通量上的比较
图.12. 固定点和若干二进制架构的核心功率击穿。
图.13. 最先进的卷积神经网络加速器的核心区域效率和能源效率比较