未来半导体新技术发展方向（人工智能产业深度研究）

小君 2022-12-12 05:30:37 258

未来半导体新技术发展方向（人工智能产业深度研究）最早的人工智能出现及运用在 1950-1980 年代，接着转换到 1980-2010 年机器学习，从 2010 年以后，随着各种演算法 CNNs RNNs DNNs 等图影像视觉学习，辨识，推理的普及，让深入人工智能深入学习的突飞猛进。深度学习是人工智能和机器学习的一个子集，它使用多层人工神经网络在诸如对象检测，语音识别，语言翻译等任务中提供最先进的准确性。深度学习与传统的机器学习技术的不同之处在于，它们可以自动学习图像，视频或文本等数据的表示，而无需引入手工编码规则或人类领域知识。它们高度灵活的架构可以直接从原始数据中学习，并在提供更多数据时提高其预测准确性。人工智能的深度学习最近取得的许多突破，例如谷歌 DeepMind 的 AlphaGo 及更强大的 AlphaZero 陆续在围棋，

温馨提示：如需原文档，可在PC端登陆未来智库官网（www.vzkoo.com）搜索下载本“人工智能深度研究”。

1、人工智能平台到底是工具还是应用?

人工智能平台(包括芯片，模组，软件)在一般人看起来像是一种新型应用但在我们看来人工智能芯片在整合软硬件后将成为各种物联网应用的提升效能工具平台这就像我们常用的微软 Office 软件微软 Office 软件是我们在办公室应付各种应用的生财工具因此人工智能平台除了被广泛利用在云端大数据的深度学习训练和推断外我们认为人工智能平台也将出现在各式各样的应用端的边缘设备，从英伟达公布的数字来看，早在 2016 年，公司就累计了 7 大领域(高等教育，发展工具，互联网，自驾车，金融，政府，生命科学)及 19 439 客户使用其深度学习的服务工具配合软件和之前在云端大数据的深度学习训练和推断的数据成果库来达到帮助使用者或取代使用者来执行更佳的智能判断推理。

未来半导体新技术发展方向（人工智能产业深度研究）(1)

虽然目前人工智能芯片仍多是以昂贵的图形处理器(GPU) 张量处理器 (Tensor Processing Unit) 或现场可编程门阵列芯片配合中央处理器 (FPGA CPU) 为主来用在云端的深度学习训练和推理的数据中心但未来特定用途集成电路 (ASIC)将在边缘运算及设备端所需推理及训练设备遍地开花，及逐步渗透部分云端市场，成为人工智能芯片未来的成长动能我们预估全球人工智能云端半导体市场于 2018-2025 年复合成长率应有 37%，边缘运算及设备端半导体市场于 2018-2025年复合成长率应有 249% (请参考图表) 远超过全球半导体市场在同时间的复合成长率的5% 整体约占全球半导体市场的份额从 2018 年的 1% 到 2025 年的 10%。

2、人工智能会渗入各领域应用-无所不在

当大多数的产业研究机构把自驾车(Autonomous drive vehicle) 虚拟/扩增实境(Virtual Reality/Augmented Reality) 无人商店 (Unmanned store) 安防智能监控 (Smart Surveillance System) 智能医疗，智能城市，和智能亿物联网 (Internet of Things IoT) 分别当作半导体产业不同的驱动引擎国金半导体研究团队认为其实自驾/电动车 5G 虚拟/扩增实境无人商店安防智能监控智能医疗，智能城市其实都只是人工智能亿物联网的延伸。

无人驾驶/电动/联网车对半导体的需求爆增 10 倍:虽然全球汽车半导体产业，目前由传统的整合元件制造商(IDM)掌控，但未来很难说，主要是因为先进辅助或自动驾驶系统兴起，人工智能，摄像，传感，雷达芯片公司的出现。像英伟达图形处理器(Xavier，Pegasus 320)，谷歌张量处理器 (Tensor Processing Unit)，英特尔/Altera/Mobileye的 CPU/FPGA/AI 解决方案，地平线 L3/L4 自动驾驶 (Matrix 1.0 平台，征程 2.0 芯片) 高通，联发科，华为/海思的5G 无线通信平台及毫米波雷达，索尼，豪威的传感器，博通及瑞昱的以太网络芯片。尤其是自动驾驶对雷达，摄像头，传感器及芯片的 3 倍增幅; 千倍的 3D 视频数据的上传及云端的存储学习推理;因无人驾驶车设备及云端建制成本高昂(US$150 000/Waymo 车) 额外成本必须由广大消费者共同分摊费用较有利，乘坐共享公交服务业产品运送的后勤支援业无人驾驶应会领先乘用车市场，而 Waymo/谷歌将带动出租车/公交车自动驾驶市场，领先英伟达的自驾乘用车市场(请参阅国金电动，无人驾驶，车联网的三部曲驱动力的深度报告) 依照美国加州 DMV(Department of Moter Vehicles)最新公布的资料显示 Waymo 于去年测试的 120 万英里中，每 1000 英里发生解除自驾系统状况频率是 0.09 次，运低于前年的 0.179 次，及通用 Cruise 的 0.19 次，苹果的 872 次，及 Uber 的 2860 次;自动泊车、车道偏离检测、无人驾驶的带宽需求，及车内电线费用和重量的不断增加。为了让增加数倍的电子控制单元 (ECU) 能彼此间快速地沟通数倍的以太网路节点和转换器芯片需求便随之而来。

无人商店及安防智能监控: 除了自动驾车联网外最近风起云涌的无人商店和智能监控不也是利用大量监控摄像头配合三维人脸辨识系统二维码/ 近场通讯来收集大数据资料再透过 WiFi/xDSL/光纤传输将资料送到云端人工智能储存与处理来达到无需柜台人员的无人商店和能随时辨识的视频智能监控而政府机关可透过此系统来调查人口移动来重新设计城市智能公共交通系统协寻通缉犯恐怖分子失踪人口及在展场车站机场学校大型活动场地的安全监护; 系统整合业者除可做无人商店外也可靠着人口动向来预测消费热点 (商家必备) 人口居住热点 (房地产业必备) 如果再配合无人商店，线上购物系统，和政府的大数据系统业者便可更精准的投送广告发展个人信用评级。类似于自驾车联网无人店和监控联网系统需要大量并且高清晰度的三维辨识摄像头和芯片传输系统和芯片和庞大的云端，边缘运算，及设备端的储存及智能训练及推理的各式高速芯片及软件。

智能医疗: 智能医疗系统可利用三维脸部个人辨识来挂号减少排队时间让看诊更顺畅。医院可收集资料并整合个人在不同医疗院所的所有医疗纪录; 医生可利用人工智能数据平台辅助做更精准的医疗判断减少重复用药的浪费和对病人的副作用医院可利用此大数据资料做更深入的医学研究数家政府医院应先抛砖引玉带头做整合。

智能亿物联网:1. 空污，水污染化学感测物联网:政府是否应利用强制安装并定期检验各式气体/液体的物联网化学感测器在每部汽、机车和工厂排污管道上再透过大量的低耗能无线通讯将资料上传到云端储存和处理并透过人工智能来监测空污水污来收取空污或水污税; 2. 身份识别证明联网: 大型互联网企业像谷歌 (Googl US) 百度(Baidu US) 腾讯(00700.HK) 或海康威视 (002415.SZ) 为何不能发展三维脸部个人辨识智能系统来整合所有的线上线下购物启动驾驶银行转帐/汇款/提款进入手机/电脑/应用App 和政府机关办事所需要的身份证明。您可否想过你现在要纪录多少密码多少使用者名称身上带着多少付款软体银行卡，信用卡钞票居民身分证交通卡，驾照护照居民健康卡电梯卡加油卡金融社保卡大卖场会员证和各式通行卡; 3. 同步翻译连网:目前先进智能芯片/软体的语音辨识速度太慢和不够精准的理解与翻译应是语言同步翻译机仍未大卖的主因但透过更高速的智能芯片无线通讯芯片和更庞大的语音数据库来训练云和端的人工智能的推理反应相信未来国际多种语言的零障碍沟通将指日可待; 4. 人工智能教师和消费机器人: 当把强大的人工智能导入到人工智能教师和消费机器人联网物中透过不断的反覆学习这不但可提升学生的教育水平和兴趣未来都能解决老人及残障人士的健康照顾清洁饮食娱乐保全等需求减少后代的负担及外佣虐老事件也明显能提升老人和残障人士的寿命和生活品质。

3、三种主流人工智能演算法

最早的人工智能出现及运用在 1950-1980 年代，接着转换到 1980-2010 年机器学习，从 2010 年以后，随着各种演算法 CNNs RNNs DNNs 等图影像视觉学习，辨识，推理的普及，让深入人工智能深入学习的突飞猛进。深度学习是人工智能和机器学习的一个子集，它使用多层人工神经网络在诸如对象检测，语音识别，语言翻译等任务中提供最先进的准确性。深度学习与传统的机器学习技术的不同之处在于，它们可以自动学习图像，视频或文本等数据的表示，而无需引入手工编码规则或人类领域知识。它们高度灵活的架构可以直接从原始数据中学习，并在提供更多数据时提高其预测准确性。人工智能的深度学习最近取得的许多突破，例如谷歌 DeepMind 的 AlphaGo 及更强大的 AlphaZero 陆续在围棋，西洋棋类比赛夺冠，谷歌 Waymo 英伟达的 Xavier/Pegasus 320 及 Intel/Mobileye 的 Eye 4/5 自动驾驶汽车解决方案，亚马逊的 Alexa 谷歌的 Google Assistant 苹果 Siri，微软的 Cortana 及三星的 Bixby 智能语音助手等等。借助加速的深度学习框架，研究人员和数据科学家可以显着加快深度学习培训，可以从数天或数周的学习缩短到数小时。当模型可以部署时，开发人员可以依靠人工智能芯片加速的推理平台来实现云，边缘运算设备或自动驾驶汽车，为大多数计算密集型深度神经网络提供高性能，低延迟的推理。

未来半导体新技术发展方向（人工智能产业深度研究）(2)

卷积神经网络 CNNs ( Convolutional Neural Networks ): 卷积神经网络(CNN)是建立在模拟人类的视觉系统，并透过图影像分类模型的突破，也将是，主要来自于发现可以用于逐步提取图影像内容的更高和更高级别的表示。 CNN是将图像的原始像素数据作为输入，并‚学习‛如何提取这些特征，并最终推断它们构成的对象。首先，CNN 接收输入特征图:三维矩阵，其中前两个维度的大小对应于图像的长度和宽度(以像素为单位)，第三维的大小为 3(对应于彩色图像的 3 个通道:红色，绿色和蓝色)。 CNN 包括一堆模块，每个模块执行三个操作。举例而言，卷积将 3x3 过滤贴图的 9 个条件(0，1)套用(先乘后求和以获得单个值)在 5x5 输入特征贴图的 9 个像素特征上，而得出3x3全新的卷积输出特征贴图。在每次卷积操作之后，会采用最大池演算法(Max pooling)，CNN 对卷积特征贴图进行下采样(以节省处理时间)，同时仍保留最关键的特征信息，最大池化是要从特征贴图上滑动并提取指定大小的图块 (2x2)，对于每个图块，最大值将输出到新的特征贴图，并丢弃所有其他值。在卷积神经网络的末端是一个或多个完全连接的层，完全连接的层将一层中的每个神经元连接到另一层中的每个神经元。它原则上与多层感知器神经网络(multi-layer perceptron neural network (MLP) 类似，他们的工作是根据卷积提取的特征进行分类，CNN 可以包含更多或更少数量的卷积模块，以及更多或更少的完全连接层，工程师经常试验要找出能够为他们的模型产生最佳结果的配置。总之，CNN 专门于图影像处理如自动驾驶汽车，安防，人脸辨识，及疾病图像辨识解决方案。

未来半导体新技术发展方向（人工智能产业深度研究）(3)

循环神经网络 RNNs (Recurrent Neural Network): RNN是一类人工听觉及说话的神经网络，具有记忆或反馈回路，可以更好地识别数据中的模式。 RNN 是常规人工神经网络的扩展，它增加了将神经网络的隐藏层送回自身的连接 - 这些被称为循环连接。循环连接提供了一个循环网络，不仅可以看到它提供的当前数据样本，还可以看到它以前的隐藏状态。具有反馈回路的循环网络可以被视为神经网络的多个副本，其中一个的输出用作下一个的输入。与传统的神经网络不同，循环网络使用他们对过去事件的理解来处理输入向量，而不是每次都从头开始。当正在处理数据序列以进行分类决策或回归估计时，RNN 特别有用，循环神经网络通常用于解决与时间序列数据相关的任务。不同于 CNN专门于图影像处理，循环神经网络的应用包括自然语言处理，语音识别，机器翻译，字符级语言建模，图像分类，图像字幕，股票预测和金融工程。机器翻译是指使用机器将一种语言的源序列(句子，段落，文档)翻译成相应的目标序列或另一种语言的矢量。由于一个源句可以以许多不同的方式翻译，因此翻译基本上是一对多的，并且翻译功能被建模为有条件而非确定性。在神经机器翻译(NMT)中，我们让神经网络学习如何从数据而不是从一组设计规则进行翻译。由于我们处理时间序列数据，其中语境的上下文和顺序很重要，因此 NMT 的首选网络是递循环神经网络。可以使用称为注意的技术来增强 NMT，这有助于模型将其焦点转移到输入的重要部分并改进预测过程。举两RNN的例子，为了跟踪你的自助餐厅主菜的哪一天，每周在同一天运行同一菜的严格时间表。如周一的汉堡包，周二的咖喱饭，周三的披萨，周四的生鱼片寿司和周五的意大利面。使用 RNN，如果输出‚生鱼片寿司‛被反馈到网络中以确定星期五的菜肴，那么 RNN 将知道序列中的下一个主菜是意大利面(因为它已经知道有订单而周四的菜刚刚发生，所以星期五的菜是下一个)。另一个例子是如果我跑了 10 英里，需要喝一杯什么?人类可以根据过去的经验想出如何填补空白。由于RNN的记忆功能，可以预测接下来会发生什么，因为它可能有足够的训练记忆，类似这样的句子以‚水‛结束以完成答案。

未来半导体新技术发展方向（人工智能产业深度研究）(4)

深度神经网络 DNNs (Deep Neural Network): DNN 在视觉，语言理解和语音识别等领域取得了关键突破。为了实现高精度，需要大量数据和以后的计算能力来训练这些网络，但这些也带来了新的挑战。特别是 DNN 可能容易受到分类中的对抗性示例，强化学习中遗忘任务，生成建模中的模式崩溃的影响以及过长的运算时间。为了构建更好，更强大的基于 DNN 的系统，是能否有效地确定两个神经网络学习的表示何时相同?我们看到的两个具体应用是比较不同网络学习的表示，并解释 DNN 中隐藏层所学习的表示。设置的关键是将 DNN中的每个神经元解释为激活向量，神经元的激活矢量是它在输入数据上产生的标量输出。例如，对于50 个输入图像， DNN 中的神经元将输出 50 个标量值，编码它对每个输入的响应量。然后，这 50 个标量值构成神经元的激活矢量。因为深度神经网路的规模(即层数和每层的节点数)，学习率，初始权重等众多参数都需要考虑。扫描所有参数由于时间代价的原因并不可行，因而小批次训练(微型配料)，即将多个训练样本组合进行训练而不是每次只使用一个样本进行训练，被用于加速模型训练。而最显著地速度提升来自 GPU，因为矩阵和向量计算非常适合使用 GPU实现。但使用大规模集群进行深度神经网路训练仍然存在困难，因而深度神经网路在训练并列化方面仍有提升的空间。

未来半导体新技术发展方向（人工智能产业深度研究）(5)

4、到底哪种人工智能芯片将成云计算的主流?

深度学习是一种需要训练的多层次大型神经网络结构(请参考图表)，其每层节点相当于一个可以解决不同问题的机器学习。利用这种深层非线性的网络结构，深度学习可以从少数样本展现强大的学习数据集本质特征的能力。简单来说，深度学习神经网络对数据的处理方式和学习方式与人类大脑的神经元更加相似和准确。谷歌的阿法狗也是先学会了如何下围棋，然后不断地与自己下棋，训练自己的深度学习神经网络更厉害的阿法零 (AlphaZero) 透过更精准的节点参数不用先进行预先学习就能自我演化训练学习。深度学习模型需要通过大量的数据训练才能获得理想的效果训练数据的稀缺使得深度学习人工智能在过去没能成为人工智能应用领域的主流算法。但随着技术的成熟，加上各种行动、固定通讯设备、无人驾驶交通工具可穿戴科技各式行动、固定监控感测系统能互相连接与沟通的亿物联网，骤然爆发的大数据满足了深度学习算法对于训练数据量的要求。

未来半导体新技术发展方向（人工智能产业深度研究）(6)

训练和推理所需要的神经网络运算类型不同。神经网络分为前向传播(Forward algorithm)其中包括输入层隠藏层输出层和后向传播(Backward algorithm)主要指的是梯度运算两者都包含大量并行运算。训练同时需要前向和后向传播推理则主要是前向传播。一般而言训练过程相比于推理过程计算量体更大。云端人工智能系统透过海量的数据集和调整参数优化来负责训练和推理，边缘运算终端人工智能设备负责推理。推理可在云端进行，也可以在边缘运算端或设备端进行。等待模型训练完成后，将训练完成的模型(主要是各种通过训练得到的参数) 用于各种应用。应用过程主要包含大量的乘累加矩阵运算，并行计算量很大，但和训练过程比参数相对固定，不需要大数据支撑，除在云端实现外，也可以在边缘运算端实现。推理所需参数可由云端训练完毕后，定期下载更新到应用终端。

在深度学习半导体领域里，最重要的是数据和运算。谁的晶体管数量多，芯片面积大谁就会运算快和占据优势。因此，在处理器的选择上，可以用于通用基础计算且运算速率更快的GPU 迅速成为人工智能计算的主流芯片根据美国应用材料的公开资料 (请参考图表) 英伟达的人工智能逻辑芯片配合英特尔的中央处理器服务器芯片面积达 7 432mm2，是不具人工智能的企业用和大数据服务器的八倍或谷歌专用张量处理器人工智能服务器的三倍多存储器耗用面积 (32 512mm2) 是其他服务器的三倍以上。可以说，在过去的几年，尤其是2015 年以来，人工智能大爆发就是由于英伟达公司的图形处理器得到云端主流人工智能的应用。但未来因为各个处理器的特性不同我们认为英伟达的图形处理器 GPU 和谷歌的张量处理器仍能主导通用性云端人工智能深度学习系统的训练可编程芯片 FPGA 的低功耗及低延迟性应有利于主导云端人工智能深度学习系统的推理，而特殊用途集成电路(ASIC) 未来将主导边缘运算及设备端的训练及推理，但因为成本，运算速度，及耗电优势，也会逐步侵入某些特殊应用人工智能云端服务器市场，抢下训练及推理运算的一席之地以下就先列出各种处理器在云端人工智能系统的优缺点:

未来半导体新技术发展方向（人工智能产业深度研究）(7)

未来半导体新技术发展方向（人工智能产业深度研究）(8)

中央处理器 CPU: X86 和 ARM 在内的传统 CPU 处理器架构往往需要数百甚至上千条指令才能完成一个神经元的处理，但对于并不需要太多的程序指令，却需要海量数据运算的深度学习的计算需求，这种结构就显得不佳。中央处理器 CPU 需要很强的处理不同类型数据的计算能力以及处理分支与跳转的逻辑判断能力，这些都使得CPU 的内部结构异常复杂现在 CPU 可以达到 64bit 双精度，执行双精度浮点源计算加法和乘法只需要 1~3 个时钟周期，时钟周期频率达到 1.532~3gigahertz。CPU 拥有专为顺序逻辑处理而优化的几个核心组成的串行架构，这决定了其更擅长逻辑控制、串行运算与通用类型数据运算当前最顶级的 CPU 只有 6 核或者 8 核，但是普通级别的 GPU 就包含了成百上千个处理单元，因此 CPU 对于影像，视频计算中大量的重复处理过程有着天生的弱势。

图形处理器 GPU 仍主导云端人工智能深入学习及训练: 最初是用在计算机、工作站、游戏机和一些移动设备上运行绘图运算工作的微处理器但其海量数据并行运算的能力与深度学习需求不谋而合，因此，被最先引入深度学习。GPU 只需要进行高速运算而不需要逻辑判断。GPU 具备高效的浮点算数运算单元和简化的逻辑控制单元，把串行访问拆分成多个简单的并行访问，并同时运算。例如，在CPU上只有 20-30%的晶体管(内存存储器 DRAM dynamic random access memory 缓存静态随机存储器 Cache SRAM 控制器 controller 占了其余的70-80%晶体管) 是用作计算的，但反过来说 GPU 上有 70-80%的晶体管是由上千个高效小核心组成的大规模并行计算架构 (DRAM 和微小的 Cache SRAM controller 占了剩下的 20- 30% 晶体管)。大部分控制电路相对简单，且对 Cache 的需求小，只有小部分晶体管来完成实际的运算工作，至于其他的晶体管可以组成各类专用电路、多条流水线，使得GPU拥有了更强大的处理浮点运算的能力。这决定了其更擅长处理多重任务，尤其是没有技术含量的重复性工作。不同于超威及英特尔的 GPU 芯片，英伟达的人工智能芯片具有 CUDA 的配合软件是其领先人工智能市场的主要因素。CUDA 编程工具包让开发者可以轻松编程屏幕上的每一个像素。在 CUDA 发布之前， GPU 编程对程序员来说是一件苦差事，因为这涉及到编写大量低层面的机器码。CUDA 在经过了英伟达的多年开发和改善之后，成功将Java或 C 这样的高级语言开放给了 GPU 编程，从而让GPU编程变得更加轻松简单，研究者也可以更快更便宜地开发他们的深度学习模型。因此我们认为目前英伟达价值(6 000/7 500-9 300/10 500 美元)的图形处理器加速卡 Tesla V100 PCIe/SXM2 (640 Tensor 核心 5 120 CUDA核心) 或配备 8/16 颗 V100 的 DGX-1/H-2 系统(180 000-360 000 美元)，配合其 CUDA 软件及 NVLink 快速通道，能达到近 125 兆次深入学习的浮点运算训练速度(TERA FLOPS) 以 16bit 的半精度浮点性能来看，可达到31 Tera FLOPS 32bit 的单精度浮点性能可达到 15.7 Tera FLOPS 及 64bit 的双精度可达到 7.8 Tera FLOPS，210亿个晶体管台积电 12 纳米制程工艺，815mm2芯片大小，仍然是目前云端人工智能深入学习及训练的最佳通用型解决方案但未来会受到类似于华为海思 Ascend-Max 910 ASIC 芯片及 Ascend Cluster 系统的挑战。

现场可编程门阵列芯片 FPGA 的优势在低功耗，低延迟性: CPU 内核并不擅长浮点运算以及信号处理等工作，将由集成在同一块芯片上的其它可编程内核执行，而 GPU 与 FPGA 都以擅长浮点运算着称。FPGA 和 GPU 内都有大量的计算单元，它们的计算能力都很强。在进行人工智能神经网络(CNN RNN DNN) 运算的时候，两者的速度会比 CPU 快上数十倍以上。但是 GPU 由于架构固定，硬件原来支持的指令也就固定了，而 FPGA 则是可编程的，因为它让软件与应用公司能够提供与其竞争对手不同的解决方案，并且能够灵活地针对自己所用的算法修改电路。虽然FPGA 比较灵活但其设计资源比 GPU 受到较大的限制，例如 GPU 如果想多加几个核心只要增加芯片面积就行，但 FPGA 一旦型号选定了逻辑资源上限就确定了。而且，FPGA 的布线资源也受限制，因为有些线必须要绕很远，不像 GPU 这样走 ASIC flow 可以随意布线，这也会限制性能。FPGA 虽然在浮点运算速度增加芯片面积，及布线的通用性比 GPU 来得差，却在延迟性及功耗上对 GPU 有着显着优势。英特尔斥巨资收购 Altera 是要让 FPGA 技术为英特尔的发展做贡献。表现在技术路线图上，那就是从现在分立的 CPU 芯片分立的 FPGA 加速芯片(20nm Arria 10GX)，过渡到同一封装内的 CPU 晶片 FPGA 晶片，到最终的集成 CPU FPGA 系统芯片。预计这几种产品形式将会长期共存，因为 CPU 和 FPGA 的分立虽然性能稍差，但灵活性更高。目前来看用于云端的人工智能解决方案是用 Xeon CPU 来配合 Nervana 用于云端中间层和边缘运算端设备的低功耗推断解决方案是用Xeon CPU来配合FPGA可编程加速卡。赛灵思(Xilinx)于2018年底推出以低成本，低延迟，高耗能效率的深度神经网络(D NN)演算法为基础的 Alveo 加速卡采用台积电 16nm 制程工艺的 UltraScale FPGA，预期将拿下不少人工智能数据中心云端推理芯片市场不少的份额。

未来半导体新技术发展方向（人工智能产业深度研究）(9)

谷歌张量处理器 TPU 3 强势突围，博通/台积电受惠，可惜不外卖 : 因为它能加速其人工智能系统 TensorFlow 的运行，而且效率也大大超过 GPU―Google 的深层神经网络就是由 TensorFlow 引擎驱动的。谷歌第三代张量处理器 (TPU Tensor Processing Unit 大约超过 100 Tera FLOPS/hp-16bit) 是专为机器学习由谷歌提供系统设计，博通提供 ASIC 芯片设计及智财权专利区块，台积电提供 16/12 纳米制程工艺量身定做的，执行每个操作所需的晶体管数量更少，自然效率更高。TPU 每瓦能为机器学习提供比所有商用 GPU 和 FPGA 更高的量级指令。TPU 是为机器学习应用特别开发，以使芯片在计算精度降低的情况下更耐用，这意味每一个操作只需要更少的晶体管，用更多精密且大功率的机器学习模型，并快速应用这些模型，因此用户便能得到更正确的结果。以谷歌子公司深度思考的阿尔法狗及零 (AlphaGo AlphaZero/DeepMind) 利用人工智能深度学习训练和推理来打败世界各国排名第一的围棋高手世界排名第一的西洋棋 AI 程式 Stockfish 8 世界排名第一的日本棋 Shogi AI 专家，但我们估计 AlphaZero 系统使用至少近 5 大排人工智能主机，5 000 个张量处理器 1 280 个中央处理单元而让云端的设备异常昂贵且无提供任何的边缘运算端设备。

ASIC 特定用途 IC 需求即将爆发:即使研发期长初期开发成本高通用性差，但国内芯片业者因缺乏先进 x86 CPU GPU 及 FPGA 的基础设计智慧财产权(IPs)，可完全客制化，耗电量低，性能强的特定用途 IC(ASIC Application-specific integrated circuit)设计就立刻成为国内进入人工智能云端及边缘运算及设备端芯片半导体市场的唯一途径。但因为起步较晚，除了比特大陆的算丰 (SOPHON) BM1680 及 BM1682 云端安防及大数据人工智能推理系列产品已经上市之外，其他公司在云端人工智能训练及推理芯片设计都还停留在纸上谈兵阶段。举例而言，华为海思使用台积电 7 纳米制程工艺设计的昇腾 Ascend 910 ASIC 系列，号称在 16bit 半精度下能达到 256 兆次的浮点运算，倍数于英伟达目前最先进的 Volta 100 解决方案(台积电 12 纳米) 也要等到 2H19 量产及谷歌最新推出的张量处理器 3 (台积电 16/12 纳米)，。而从智能手机端 IP 事业切入设计云端芯片的寒武纪，将于 2019 首发的产品 MLU100 PCIe 智能推理加速卡 (台积电 16 纳米)在打开稀疏模式时的峰值也可达到64 兆次浮点运算(16bit 半精度)。最后可惜的是国内搜寻引擎龙头百度的昆仑芯片(818-300 采用 Samsung 14 纳米)，阿里巴巴的 Ali-NPU 及亚马逊的 Inferentia 目前都还没有提供更确实的芯片速度，耗电量，应用，价格，量产时点，及软件框架规格让我们做出更好的比较图表。

5、哪种人工智能芯片将成边缘运算及设备端的主流?

从算法，IP，边缘运算及设备端芯片转换到模块，平台或生态系的战争

谷歌在 Google Cloud NEXT 2018 活动中首次推出人工智能推断用边缘运算张量处理器(Edge Tensor Processing Unit Edge TPU <30mm2)具有低功耗，低延迟，高运算效率，其开发版系统模块套件中还包括有恩智浦的CPU 图芯的 GPU，再配合谷歌开源简易版机器学习框架软件(Open-source TensorFlow Lite)，设备端物联网核心运作(Edge IoT Core)和边缘运算端张量处理器来推动各种应用，像是预测性维护，异常检测，机器视觉，机器人，语音识别医疗保健，零售，智能空间，运输交通等等。

未来半导体新技术发展方向（人工智能产业深度研究）(10)

在谷歌的 Waymo 建立了全球最大的无人驾驶车队后，谷歌再次利用其在深度学习及云端软，硬件的技术领先优势，提供机器学习边缘运算端软件，固件，安卓物联网作业系统及专用半导体芯片整体解决方案模块，让客户对其智能物联网解决方案的黏着度提升，这不但对中国大陆人工智能芯片公司是利空，也对目前主要提供云及边缘运算物联网服务的竞争厂商亚马逊(AWS)，微软(Azure)，阿里巴巴造成市场压力。

未来半导体新技术发展方向（人工智能产业深度研究）(11)

但是，目前谷歌终端型张量处理器目前只能算是个机器学习的加速器，不能独立运作，其解决方案中还要配合其他半导体公司的芯片，像是恩智浦以安谋为核心的中央处理器，图芯(Vivante Corporation)的 GC7000 Lite 图形处理器 (请参考图表)，我们认为谷歌的解决方案效能比较与量产时间未定。而且，谷歌过去还是主推软件解决方案，自有硬件及半导体的产品上市都是拿来推广其软件及生态系解决方案，其边缘运算型张量处理器硬件规格中，还是使用相对旧的 28 纳米晶圆代工制程工艺，Tera OPS 浮点远算能力，耗电瓦特数，价格等指标都还是未知，来与其他人工智能芯片设计公司的产品来做比较。举例而言，英伟达今年推出的 Jetson AGX Xavier 模块也是瞄准物联网应用端的解决方案，但在其高单价下规格明显胜出。华为即将推出的边缘运算模块Atlas 200 和 Atlas 300 也相当有竞争力。

从英伟达，谷歌，英特尔，及华为在深入学习边缘运算端解决方案模块及软件与固件的竞争而高通及联发科陆续将人工智能专利区块透过嵌入式整合到其手机应用处理器中，可以看出未来在人工智能端的应用领域已经不再单单是人工智能算法，IP(智财权)到芯片设计推陈出新的竞争，中国大陆的人工智能算法/IP/芯片龙头公司像寒武纪，地平线为了存活，就必须与应用领域系统公司紧密合作，共同推出更佳的嵌入式或独立式解决方案模块及软，固件，否则就要像谷歌和英伟达一样推出自己整套的解决方案。虽然比特大陆及嘉楠耘智进入人工智能芯片领域较晚，但其在挖矿机业务及挖矿生态系的系统整合经验，反而比只具备算法/IP/芯片的人工智能设计公司还有机会。

6、谁能引领国内人工智能芯片产业突围?

未来因人工智能边缘运算推理端和云端推理(Inferencing)芯片及设备成本性能，耗电效率的考量以及各种处理器的特性不同我们预期特定用途集成电路(ASIC)或系统集成电路 (SoC system on chip) 未来将在设备，边缘运算，及云端推理市场和设备，边缘运算，小部分云端训练市场遍地开花百花齐放根据产业链调查，我们认为中国在处理器/芯片领域的投资有加速的迹象，AI 芯片的创业企业目前已达到 40 家左右。

而中国的人工智能半导体公司像华为海思 (HiSilicon) 寒武紀(Cambricon) 地平线 (Horizon Robotics) 彼特大陆 (Bitmain) 耐能 (Kneron) 肇观 (NextVPU)，及大数据系统公司如百度，阿里巴巴及安防龙头海康威视，大华将追随国际大厂陆续推出人工智能特定用途集成电路和系统芯片从过去的模仿和追赶模式改为提前布局的思路加上今年中国科创板融资平台的加持相信一定可以孵育出未来世界级的人工智能芯片设计龙头公司。但就未来2-3 年来看，因为有强大的财物资源来支持 10 纳米以下先进制程工艺的电子设计自动化软件(EDA tool)，验证(Verification)，光掩膜(Photo Mask)成本的蹿高(请参考图表)，最有实力的半导体设计团队，及其对人工智能深入学习系统的知识及各种设备人工智能化的需求，我们预测华为海思将能引领国内人工智能芯片产业突围;而比特大陆因为深谙 IP，芯片，模块，到平台或生态系的争战，我们不排除比特大陆反而领先其他一些一线设计公司率先推出些云端人工智能的推理/训练芯片及解决方案模块; 当然，我们还是认为纯算法及半导体设计公司寒武纪，目前有较佳的设计团队及较充裕的估值融资能力来陆续推出边缘运算端及云端推理的人工智能芯片;最后因为 SAE Level 4/5 自动驾驶平台成本过高及生态系组成庞大及复杂，目前我们对地平线在自动驾驶的解决方案方面的短期营运及获利模式存疑。

未来半导体新技术发展方向（人工智能产业深度研究）(12)

华为海思后发先至:在供应全球智能手机第二大厂，中国智能手机第一大厂华为超过近六成的应用处理器及基频芯片，及率先数月于高通及联发科采用台积电的 7 纳米制程工艺推出的麒麟 980 芯片，让华为的 Mate 20 手机大卖，并让华为整体智能手机在国内的市占从2017 年的 20%，提高到 2018 年的 27%，及 2018 年四季度的 29%，预期这也将同时拉升华为海思 (HiSilicon) 在全球无晶圆设计公司的市占到 6-7%或是在 2019 年成为前五大。而 7 纳米的麒麟 980 芯片是整合了寒武纪 (Cambricon) 设计的 Cambricon-1M 神经处理单元 (NPU Neural Processing Unit) 专利区块来让摄像头看得更全更清更快更久让麦克风听得更清更广识别场景推测用户行为意图和适时处理高性能或高效率任务根据华为公布的资料在人工智能性能比上，其 NPU 是一般 CPU 的 25 倍，GPU 的 6.25 倍(25/4)，能效比上，NPU 更是达到了 CPU 的 50 倍，GPU 的 6.25 倍(50/8)(请参考图表)。但因为目前其边缘运算端神经处理单元架构简单我们估计此专利区块芯片应不超过整体芯片面积(基频和应用处理器整合在一起的系统芯片面积) 的 10%。但因为我们预期采用台积电 7 纳米 EUV 制程工艺的华为海思麒麟 990 芯片，将使用海思自行设计的人工智能专利区块 Ascend Lite SKU(请参考图表)，而苹果(Neural Engine 5 Tera OPS) 高通 (Neural Processing Engine SDK Software Development Kit，< 8 Tera OPS)，联发科 (NeuroPilot SDK Android Neural Network NNAPI 联发科 NeuroPilot SDK) 也将陆续整合其人工智能专利区块及软件到其手机应用处理器 (Application processor)中，这将对寒武纪及其他人工智能算法及芯片公司在智能手机及联网物 (IoT) 设备端的芯片发展造成限制。

华为海思因为有这样强大的财物资源来支持 7 纳米以下先进制程工艺的电子设计自动化软件(EDA tool)，验证(Verification)，光掩膜(Photo Mask)成本的蹿高，拥有国内最强的半导体设计团队，及其庞大的系统知识及各种设备对人工智能化的需求，我们预测华为海思将后发先至引领国内人工智能芯片产业突围。华为海思今年将陆续问世的7 纳米昇腾 Ascend-Max 910 ASIC (整合 8 颗芯片 dies)，及 1 024 颗昇腾 910 芯片的 Ascend Cluster (256 Peta FLOPS)，使用 12 纳米昇腾 Ascend-mini (310) -Lite -Tiny -Nano ASIC推出的Atlas200加速模块 Atlas300加速卡 Atlas 500 智慧小站，Atlas 800 私有云解决方案一体机，MDC 600 移动数据中心 (Mobile Data Center)。我们预期这些 AI 芯片及系统，陆续将对英伟达，赛灵思，英特尔，谷歌在云端及边缘运算端人工智能芯片及平台的地位，带来挑战，但特定用途 IC 的专用性缺点会让华为海思切入像是外部安防等系统公司客户时，碰到些安防公司系统知识领域不愿意外泄的问题。

寒武纪从设备端步入云端:寒武纪 (Cambricon) 是于 2016 年在北京成立，核心成员陈天石及陈云霁兄弟都曾在中科院计算所工作，专攻计算机处理器结构优化和人工智能，而后来寒武紀在拿到中关村科技园区支持资金及上海市政府对神经网络处理器，深度学习处理器 IP 核项目，智能处理器核项目等多项补助近 6 000 万人民币，加上多次拉高估值的融资，于 2018 年 5 月 3 日发布了使用 TSMC 7nm 工艺 IP 的 1M，每瓦速度达 3.1-3.3 兆次运算，为 10 纳米 1A 智财权专利区块的 10 倍左右，且超越英伟达 V100 的每瓦速度达 0.4 兆次运算，其 8 位运算效能比达 5Tops/watt(每瓦5 兆次运算)。寒武纪提供了三种尺寸的处理器内核(2Tops/4Tops/8Tops) 以满足不同领域下，不同量级智能处理的需求( 智能手机、智能音箱、摄像头、自动驾驶)。Cambricon 也介绍以 TSMC 16nm 工艺制程设计的 MLU 100 及 MLU 200 云端服务器 AI 芯片，具有很高的通用性，可满足计算机视觉、语音、自然语言处理和数据挖掘等多种云端推理，甚至训练的任务。在发布会上，联想 (ThinkSystem SR650)，中科曙光 (Phaneron 服务器)，科大讯飞 (翻译机 2.0) 都介绍了使用 Cambricon MLU100 芯片相对应的云端服务器。此外，专为开发者打造的Cambricon NeuWare 人工智能软件平台，加上支持 TensorFlow Caffe MXNet 等主流机器学习框架 (Framework)，让寒武纪在尚未扭亏为盈的情况下(估计 2017 年亏损超过 1 000 万人民币以上)，2018 年营收连 1 000 万美金都达不到的状况下(2016/2017 年营收估计约 400 万人民币上下)，市值已被拉高到超过25 亿美元。

卖人工智能解决方案模块的地平线:地平线(Horizon Robotics)创办人是前百度深度学习研究院负责人余凯、还有前华为芯片研发架构师周峰，地平线不是只做芯片，在软件方面，地平线已经研发出了自动驾驶的雨果神经网络 OS 平台及智能家居的安徒生平台。地平线的目标是做分支处理单元(BPU Branch processing unit)的人工智能算法架构嵌入式芯片的 (Embedded ARM CPU GPU FPGA) 自动驾驶 (征程 2.0 处理器) 智能城市智能商业 (旭日 1.0 处理器) 的人工智能设备终端解决方案模块(具有感知，识别，理解，控制的功能) 给产品厂商。地平线的整个流程是根据应用场景需求，设计算法模型，在大数据情况下做充分验证，模型成熟以后，再开发一个芯片架构去实现，该芯片并不是通用的处理器，而是针对应用场景跟算法是结合在一起的人工智能算法处理器，得到芯片大小执行耗能(Area、Performance、Power)的综合解决方案。地平线 BPU 架构的解决方案只可以用在符合车规的 FPGA 或 GPU 等计算平台上，下一步地平线会将自己的 BPU 处理器 IP 授权给国际厂商，让他们生产车规级处理器。智能驾驶方面，基于高斯架构研发的ADAS 产品(征程 1.0 处理器) 也会作为重点推进 SAE L3/L4 的无人驾驶 Matrix 1.0 平台，也会持续落实与系统厂商像是博世的技术合作，计划在年中实现特定道路的自动驾驶; 智能生活方面，除与美的的合作之外，地平线继续在家电、玩具、服务机器人等领域发力;公共安防方面，地平线去年与英特尔在北美安防展上进行联合展示。类似于寒武纪，地平线于2018 年 11 月 27 日获得近 10 亿美金的 B 轮融资，持续拉高其市值。

从挖矿机转云端人工智能推理模块的比特大陆:由 CEO 詹克团及创办人吴忌寒于 2013 年联合成立的挖矿机及芯片霸主比特大陆 (BITMAIN) 于 2017 年 11 月正式介绍其 AI ASIC 芯片品牌 SOPHON (算丰)，宣布全球首款云端安防及大数据人工智能推理系列的张量加速计算芯片 28nm BM1680 的震撼面世，并展示了视频图像分析、人脸人体检测的演示。并同步发布了 SOPHON.AI 官网，并将系列产品在官网中面向全球发售。 BITMAIN 致力于通过强大的芯片工程、快速迭代和系统设计制造能力，提供最具性价比、最具性能功耗比的 AI 计算力，同时致力于为行业定制、优化全栈的硬件和系统方案，从而极大降低行业 AI 的难度，促进 AI 普及。 BM 1682 在 2017 年 12 月已进入流片阶段，并于 2Q18 量产。12nm 的 BM 1684 是预计于 1Q19 量产及第四代的 12 纳米芯片 BM1686 是预计于 2H19 量产。这两款芯片会拥有 6/9 Tera Flops 的能力和 30W 的功耗。 BM1880 是比特大陆于 2018 年 10 月发布的一款设备端 AI 芯片，将主要应用于安防、互联网及园区等领域 BM1880 芯片可以作为深度学习推理加速的协处理器，也可以作为主处理器从以太网接口或USB 接口接收视频流、图片或其它数据，执行推理和其他计算机视觉任务，其它主机也可以发送视频流或图片数据给 BM1880，BM1880 做推理并将结果返回主机。比特大陆将于2019 年推出第二代产品 BM1882，以及 2020 年的 BM1884，按照规划，BM1882 和 BM1884 的主要应用场景将是智能摄像机、智能机器人和智能家居等。虽然目前比特币跌破 4 000 美元以下，占比特大陆 98% 的矿机销售，自营挖矿业务要是采用两年折旧几乎是无利可图(除了于 4Q18 推出的 7 纳米 BM1391 挖矿芯片及 S15 挖矿机应可获利外)，而 AI 芯片导入云端系统又遥不可期，但不同于其他新兴 AI 芯片设计公司大多缺乏现金，比特大陆在手现金(7-8 亿美元现金，4-5 亿美元的加密货币)应该还是有超过 10 亿美元，芯片研发设计资源仍然丰厚，每一代芯片代与代之间的间隔是快于摩尔定律而达到9-12 个月。摩尔定律是指芯片行业每 18 到 24 个月的周期里，计算能力能翻一倍，或者在相同的单位芯片面积里，晶体管数量翻一倍。

耐能专注于低功耗设备端的人工智能芯片:耐能 (kneron)是由一群留美华人于 2015 年成立于圣地牙哥，CEO 刘峻诚博士是毕业于 UCLA，并于 2018 年 7 月延揽前高通多媒体研发部总监李湘村(前展讯，华为，VIVO VP)为其首席科学家，其余团队成员多有 UCLA 清华大学，高通，三星电机，电子，计算机背景，并于 2017 年 11 月耐能宣布完成超过千万美元的 A 轮融资，阿里创业者基金(Alibaba Entrepreneurs Fund)领投，奇景光电(HIMX Himax Technologies，Inc.)、中华开发资本(CDIB)、高通、中科创达(Thundersoft)、红杉资本(Sequoia Capital)的子基金 Cloudatlas 与创业邦跟进投资 2018 年 5 月由李嘉诚旗下维港投资(HorizonsVentures)领投的 A1 轮融资，还有最近一轮从 Iconiq capital (Mark Zuckerberg’s private fund)拿到的融资。耐能的定位是子系统设备端人工智能的技术提供厂商，现在主打低功耗、轻量级可压缩/重组(reconfigurable 靠软件重组 CNN， Pooling 运算区块的组合)的 NPU (神经网络处理单元)芯片，专注在智能手机的子系统(NPU IP- KDP300)、物联网(IoT)、智能家居、智能安防(NPU IP-KDP500)设备端市场机器人，无人机，安防(NPU IP-KDP 700) 能耗比可以做到 100mw 到 300mw，最新的一款产品甚至可以到 10mw 以下，但在算力方面可以达到华为海思 Ascend Lite 系列的芯片等级，而纳能另外与 Cadence 的 Tensilica Vision P6 DSP 处理器整合的 KDP 720 NPU 处理器，主要是锁定智能安防与监控。有别于目前市场上主流的云端人工智能，耐能提供创新的设备端人工智能解决方案，可将一部份的人工智能从云端移转到设备端上，进行实时识别与分析推断，不用等到把所有数据经由网络传送至云端后才能处理，并可大幅减轻网络、云端的负担与成本。耐能目前手机加 OEM/ODM 客户可达 6-8 家，主要客户有手机相关的高通，格力，奇景光电，互联网的客户包括搜狗，腾讯，钰创，钰立微，工业计算机客户有研扬，安防客户有大华，苏州科达等。格力已经使用其智财权区块量产，目前一些芯片已经量产。因扩大研发团队及产品线，耐能从2017 年的获利扭赢转到 2018 年亏损达 400-500 万美元，但 2019 年将有二颗芯片流片 (Tape out)。

亿智是有实力又低调的 AI 芯片公司:的由前全志团队组成的亿智电子科技于 2016 年 7 月在珠海高新区注册成立。同年 10 月在北京设立人工智能(AI)算法研究团队。亿智核心团队是中国最早一批进行 SOC 系统设计的专家，有 20 多年的行业经验，目前亿智在珠海的研发团队已近 100 余人。亿智电子科技已于 2018 年 2 月完成了数千万元天使轮融资，并于 2018 年 8 月由北极光创投领投，达泰资本跟投。亿智的商业模式主要为代理商和大客户提供整套的解决方案。目前，亿智解决方案主要聚焦在视像安防、智能硬件(家电)、汽车电子等方面。2017 年底第一颗 Test Chip 首次流片即成功，2018 年第四季度流片 AI 功能量产版系统级芯片，于 2019 年实现量产出货。亿智在珠海、北京、深圳均设有办公地点，其中珠海为总部，负责芯片设计、算法研究、软件开发等方向。北京负责人工智能AI 算法的研究。深圳负责方案开发、技术支持、市场与客户拓展等。亿智成立至今，一直坚持 AI 加速、高清显示、音视频编解码、高速数模混合等 IP 的自主研发，这样可以实现更低带宽、更低功耗、更低成本地落地应用产品。特别是 AI 的 IP 的 PPA 指标均优于业界对手。目前已经成长为具备完全自主 AI SOC 产品量产落地能力的人工智能芯片设计公司。亿智凭借在音视频编解码以及 AI 视觉算法方面积累了超过 10 年的领先经验，通过对人工智能需求市场的垂直化、场景化应用研究，在汽车电子应用方面，亿智的产品线具有车牌识别、路牌识别、文字识别的能力，ADAS 智能算法可实现 4 路全景拼接、全景泊车，行车记录仪/智能后视镜/智能中控车机等汽车电子产品应用。目前的夜视后视镜产品，长焦夜视摄像头、短焦行车摄像头，显示车辆油耗、车速、水温等，信息全部手机互联。4G 后视镜提供在线导航、在线音乐、云狗、行车记录，ADAS 安全驾驶辅助系统。亿智的占道抓拍产品，可进行车牌检测，车牌识别，抓拍路段时间规划、黑白名单管理、车辆轨迹显示、后台管理系统多车道实时识别，具备软件能力，团队表示目前的识别成功率达到 95%。志在成为视像安防、汽车电子、智能硬件领域智能化(AI)赋能的全球领导者。

网站首页

返回栏目

未来半导体新技术发展方向（人工智能产业深度研究）

猜您喜欢：

相关文章