智能机器人的发展趋势:从特斯拉人形机器人看智能化投资机遇
智能机器人的发展趋势:从特斯拉人形机器人看智能化投资机遇完整的 Autopilot 神经网络包含 48 个网络,需要 70 000 个 GPU 小时进 行训练,共同在每个时间步输出 1 000 个不同的张量(预测)。其中摄像头 网络分析原始图像以执行语义分割、对象检测和单目深度估计。鸟瞰网络 从所有摄像头获取视频,直接在自上而下的视图中输出道路布局、静态基 础设施和 3D 对象。该视觉网络不仅能够利用仿真平台从世界上最复杂、 最多样化的场景中学习,还能实时迭代地从特斯拉近 100 万辆汽车组成的 车队中获取信息。感知网络将不同汽车摄像头捕捉到的视频数据经过数据校准层 (Rectify)的处理和映射,消除外参后,通过残差神经网络(RegNet) 和 BiFPN多尺度特征融合结构,提取出多尺度视觉特征空间。 采用“前融合”思路将多个视频数据融合后通过网络结构中引入的 BEV(鸟瞰俯视图)空间转换层,其中的核心模块 Transformer 神经 网络
(报告出品方/作者:国金证券,邵艺开,罗露)
1、下一代智能化终端,人形机器人将打开蓝海市场1.1、特斯拉宣布进入人形机器人市场,技术可复用率高
特斯拉作为自动驾驶全球领先企业,已有技术积淀可在人形机器人中复用。 公 司 宣布 将于 今 年 9 月 30 日推 出首 款 双足 人形 机 器人- 擎天柱 (“OPTIMUS”),Tesla Bot 将基于视觉神经网络神经系统可预测性的自动 管理技术,以 Dojo D1 自研超级计算机芯片和提供算力的 FSD Chip 2.0 硬 件驱动微核心。从目前公布的应用范围来看,人形机器人是服务机器人的 技术升级,涉及自动控制、视觉导航、传感器技术等多种技术的融合。作 为美国最大的电动汽车及新能源企业,公司具有领先行业的自动驾驶技术, 部分技术积累可复用于人形机器人中,如:AI芯片、自动驾驶算法和 AI 视 觉解决方案,但也有一些新增部分需要从相关元器件厂商处采购,比如减 速器、伺服电机等上游材料。
【AI 芯片】 自研 D1 芯片结合多芯片模块技术(MCM)构建高带宽、低延迟训练模块, 支持全球最先进的可扩展 AI 训练机器 Dojo 系统。自定义计算芯片 D1 芯 片是由 354 个训练节点组成的阵列所形成的面积为 645 平方毫米的计算平 面,采用 7nm 制造工艺,热设计功率(TDP)为 400w。作为 Dojo 超级计 算 的 集 成 单 元 , D1 芯 片 能 实 现 362 TFLOPS 的 机 器 学 习 计 算 (362TFLOPs(BF16/CFP8)/22.6TFLOPs(FP32)),片上带宽为 10 TBps, 边缘的 IO 带宽为 4 TBps,约为最先进的网络交换芯片的两倍。
训练模块由 25 个 D1 芯片使用扇出晶圆工艺紧密集成,保留了裸片之间的 带宽,利用多芯片模块技术(MCM)解决 IO 问题,优化带宽,同时减少 延迟、面积和功耗,实现相邻芯片间通信速度的低延迟。集成连接器、定 制的电压调节器模块、机械和热部件的训练模块最终能提供 9 PFLOPS 的 计算和 36 TB/s 的模块外带宽。 120 个训练模块平铺创建出能够达到 1.1 EFLOPs 的超级计算机系统,为 AI 训练提供充足算力。与行业中的其他类似超级计算技术相比,Dojo 计算 机在同等成本下具有 4 倍性能,1.3 倍能耗节约,碳排放仅占 1/5。它不仅 能实现全球最快的 AI 训练速度,而且性能拓展无上限,特斯拉预计下一代 Dojo 系统在某些方面将拥有 10 倍的性能提升。
【自动驾驶算法】公司自动驾驶算法实现感知、规划与控制,赋能人形机器人部分类人特征。 特斯拉自动驾驶方案基于感知网络输出根据真实世界建立的三维向量空间, 并利用传统规划方法与神经算法相结合的混合规划系统,在该空间中规划 汽车完成指定任务的行为和轨迹,最终控制其完成。特斯拉的神经网络算 法(Neural Networks)应用前沿研究,训练深度神经网络处理从感知到规 控的各种问题。预计该算法用于人形机器人中,将推进人形机器人的自治 能力和对空间与时间信息的感知,并做出准确决策。由于拥有大规模原始 数据集、自动标注方案、虚拟仿真空间以及充足的算力,特斯拉自动驾驶 感知、规控的核心算法在应对不同场景的性能方面都可以得到充分的训练。
【AI 视觉解决方案】 空间理解和短时记忆能力,实现特斯拉自动驾驶纯视觉感知。特斯拉放弃 雷达融合方案,仅利用车身四周的八个摄像头模仿人类视觉系统原理进行 纯视觉感知。采用 HydraNet 多头网 络的基础结构形式,多个子任务共享特征空间。
感知网络将不同汽车摄像头捕捉到的视频数据经过数据校准层 (Rectify)的处理和映射,消除外参后,通过残差神经网络(RegNet) 和 BiFPN多尺度特征融合结构,提取出多尺度视觉特征空间。 采用“前融合”思路将多个视频数据融合后通过网络结构中引入的 BEV(鸟瞰俯视图)空间转换层,其中的核心模块 Transformer 神经 网络利用 Query、Key 和 Value 三个核心参数实现三维变换的空间理 解,代替雷达感知物体深度信息。引入时空序列特征层识别不同时间维度的图像即视频片段,使自动驾 驶感知网络拥有短时记忆能力。 最后各个头部基于统一提取的时空特征序列可实现 1000 多个不同的 任务,如物体检测、交通信号灯识别、车道线识别等。
完整的 Autopilot 神经网络包含 48 个网络,需要 70 000 个 GPU 小时进 行训练,共同在每个时间步输出 1 000 个不同的张量(预测)。其中摄像头 网络分析原始图像以执行语义分割、对象检测和单目深度估计。鸟瞰网络 从所有摄像头获取视频,直接在自上而下的视图中输出道路布局、静态基 础设施和 3D 对象。该视觉网络不仅能够利用仿真平台从世界上最复杂、 最多样化的场景中学习,还能实时迭代地从特斯拉近 100 万辆汽车组成的 车队中获取信息。
特斯拉的仿人机器人在机器视觉上的路径和智能驾驶有相似之处。特斯拉 机器视觉中的纯视觉解决方案,是基于图像的目标检测,目的是确定图象 中是否存在给定类别的目标实例,若存在,就返回每个目标实例的空间位 臵和覆盖范围。而目标检测就是解决分割、场景理解、目标追踪、图像描 述、事件检测和活动识别等更复杂更高层次(时间记忆等)的视觉任务的基础。
【减速器】 谐波减速器是人形机器人的核心零部件,在国产替代趋势下相关供应商将 有更多成长红利。根据特斯拉机器人目前公布的数据,20 多个关节需要使 用谐波减速器。 但考虑到目前谐波减速器的单价较高,且技术壁垒高,特 斯拉自研可能性很小,因此预计初期量产时谐波减速器的用量可能会有所 减少。未来随着特斯拉机器人的量产和谐波减速器的降价,需求量将大幅 增加。国内如绿地谐波、来福等优质厂商生产的谐波减速器的市占率明显 提高,有望在人形机器人发展需求中进一步成长。
【伺服系统】 伺服系统市场规模近 300 亿元,预计将在在工业自动化带动下保持高速增 长及创新,可复用于人形机器人。伺服系统是一种电磁装臵,通过使用负 反馈机制将电能转换为精确控制的运动。 据中商产业研究院统计,2017- 2021 年,我国伺服系统规模将从 97 亿元增长到 224 亿元,复合年增长率 为 23.3%,增速较快。 长期来看,中国的人口红利会消退,劳动力成本会 逐渐上升。传统行业尤其是制造业对自动化生产线设备的需求将始终保持 增长趋势,且人形机器人作为新增场景,伺服系统的需求量将在未来有所 增长,以及可能会有更先进的伺服系统产品出现。
【控制器】 人形机器人对控制系统的需求量以及高质量的要求,将进一步推进控制系 统市场的发展。控制系统类似于机器人的大脑,负责向机器发出传感以及 传递指令和一系列动作,控制机器人在工作过程中的运动位臵、姿态和轨 迹。我国工业机器人产业链日趋成熟,在机器人控制器软硬件方面的发展 实力不断增强,市场成倍增长。 中商产业研究院数据显示,中国工业机器 人控制器市场规模将从 2017 年的 10.5 亿元增长到 2021 年的 14.7 亿元, 复合年增长率为 8.8%。 到 2022 年后中国工业机器人控制器市场规模将可 能达到 16.2 亿元。
1.2、当前全球机器人市场竞争格局:欧美日领先,中国系统集成赶超
当代国际机器人市场商业模式:日本产业链,德国本体+集成,中美集成。 根据产业链布局将商业模式归纳为三种:零部件、本体(包括本体+零部 件、本体+集成、全产业链)、系统集成。 美国模式侧重于系统集成,优势领域在医疗机器人、国防军工机器人, 以 AdeptTechnology、AmericanRobot 为代表企业。欧洲模式以德国为代表侧重于本体+集成,在工业机器人和医疗机器 人方面均具有产业优势,拥有以 ABB、KUKA 为代表的机器人国际公 司。日本模式在零部件、本体、集成产业链上分工明确,优势领域在工业 机器人和家庭机器人,著名企业包括发那科、安川等。 中国在系统集成环节已反超外资,占据主要市场份额,正向日本德国 模式发展,未来的发展趋势将类似于日本的产业链分工模式。
特斯拉虽然在智能汽车领域技术领先,但在人形机器人市场是新进入者。 当前人形机器人领先企业波士顿动力与日本本田和特斯拉在产品定位与技 术布局存在差异。从技术和产品成熟度来看,波士顿动力在行业中处于领 先地位,专注于提升“运动智能”的能力,最开始是以军用机器人为出发 点,属于专业领域,但还没有找到合适的商业化途径;日本本田尝试将 ASIMO 应用于教育、接待、娱乐等各类场景 ,并计划利用 ASIMO 驱动机 构、控制算法等进一步研发具备看护、护理等功能的服务机器人。特斯拉 则从家用、商用切入服务领域实现商业化。 波士顿动力机器人应用场景主要在任务执行,产品迭代趋势为灵活性增加。
波士顿动力感知系统主要采用激光雷达解决方案,从四足改进到双足,体 积、重量不断减小,速度更快,能实现的动作更多。日本本田在双足技术 方面先发优势更为显著,经历了三四十年的双足、双臂技术积淀,平衡性 与灵巧性不断提升。
特斯拉的双臂双足等协同技术仍缺乏沉淀。人形机器人的核心难点是双足 技术,重心和动作的配合很重要。重心控制方面汽车到机器人跨度非常大, 从高维向低维。另一核心难点双臂控制,行业总体还处于起步阶段,参考 谷歌、三星、戴森等 IT 巨头,都采用单臂,控制难度较小。在工业方面, 南方许多工厂使用机械臂代替人工进行高精尖工作,商业价值明确,但很 难将技术移植到服务机器人上:因为机械臂在工厂里处于固定位臵,与目 标点的距离固定。服务机器人有两条手臂,目标距离随时变化,对传感器 精度、算法和目标跟踪提出了更高的要求,除了能准确捕捉目标外,更不 能互相干扰。
波士顿动力的双足技术靠液压控制和算法可以实现通关、跑步、跳舞。日 本本田 2000 年推出了能够跳跃和使用楼梯的人形机器人 ASIMO 之后,人 形机器人的发展方向逐渐走向成熟化。但他也用了很多模型去模拟人双足 走。比双臂技术更难。现阶段 AI 技术水平也难以实现操作机器人做这类复 杂的事情。但是波士顿动力和本田 ASIMO 的双臂没有那么灵活。手脚配 合没有任何一家公司能做到。特斯拉也很难在 Tesla bot 发布时有所超越。 参考其他 IT 巨头,谷歌、三星、戴森。戴森的目标是 2030 年,谷歌没有 透露原型成熟销售的时间,因为机器人,尤其是服务机器人,要突破很多 技术难关。参照特斯拉智能汽车经验,马斯克擅长利用制造工艺与思维方 式改变,在已有的技术基础上创造性实现成本和性能突破,9 月 30 日 Tesla Bot 或有意外惊喜。
1.3、人形机器人打开万亿蓝海市场
在“机器换人”的趋势下,机器人产业拥有广阔的市场空间。根据马斯克 在 2022 年 4 月的 TED 演讲,Optimus 的单价大约 2.5 万美元 (约 16.75 万元人民币),显著低于波士顿机器人。预估 Optimus 单价在 15 万到 20 万元之间,有望进入家庭作业、快速配送、工业生产等各种消费级和商业 级场景。据麦肯锡报告,到 2030 年,全球约有 4 亿个工作岗位将被自动 化机器人取代,按 20%渗透率测算全球人形机器人市场空间 12-16 万亿元。
根据 IFR 和中国电子学会的数据,2021 年中国机器人市场规模预计约 839 亿元, 2016 到 2023 年 CAGR 约为 18.3%。其中,工业机器人、服务机 器人和特种机器人市场规模分别为 445.7 亿元/302.6 亿元/90.7 亿元,占比 分别为 53%/36%/11%。尽管人形机器人处于起步阶段,参照其他电子产 品,渗透率超过 20%后将爆发式增长。按 23-30 年 CAGR 30%测算到 2030 年,我国人形机器人市场规模约 8700 亿元。
2021 年中国人家工作 10.68 万元,按照 Optimus 15 万-20 万的价格区间, 购买单台 Optimus 机器人的退货期为 1.4-1.9 年,即 1-2 年内可收回成本, 机器人无需休息并且可以长时间从事高强度劳动。用机器人代替人力具有 可预见的经济价值。
1.4、短期零部件先行,长期看机器人智能化程度空间广阔
根据产业链调研,机器人 BOM 成本主要集中在机身零部件,特别是电机、 减速器,增量空间显著。以人形机器人关节为例,单个关节安装的位臵不 同,承载力不同,价值差异大,总体区间可从几千到上万。机器人 BOM 成本约 60%-70%投入各种机身关节、减速器、控制器等;主控芯片与全身 传感器占比约 15%;躯壳与电池等占 20%。当前全球尚无实现商业化的人 形机器人,使用场景与功能待定,不同技术解决方案成本构成差异非常大。 8 月 12 日晚小米发布人形机器人 CyberOne(“铁大”),公告的 BOM 成本 约 60-80 万人民币,比较符合当前市场认知。特斯拉机器人定价较低,预 计三五年后可量产,降低硬件成本的技术方案,如谐波减速器,成为关键 布局机会。
长期看机器人智能化程度提升增加对智能网联和 AI 算法需求的提升。机器 人本体通信、连接入网,以及前期的数字孪生和算法训练,都将提升对芯 片、通信模组、云计算资源的需求。同时,随着智能化程度提升,参考 《中国汽车基础软件发展白皮书 2.0》,汽车软件结构占比将从 2016 年的 10%到 2030 年的 30%,我们认为机器人软件占比也将复刻汽车软件发展 路径,从当前约不到 10%提升至 2035 年 30% 。
2、下一代智能化终端,感知决策供应链与智能汽车或高度重叠2.1、人形机器人环境感知需求高,带动各类传感器需求
人形机器人的环境感知方案或可类比智能汽车,利用摄像头、激光雷达、 毫米波雷达、红外传感器、超声波传感器等。环境感知是对于环境的场景 理解能力,例如障碍物的类型、道路标志及标线、行车车辆的检测、交通 信息等数据的语言分类。环境感知需要通过传感器获取大量的周围环境信 息,确保对车辆周围环境的正确理解,并基于此做出相应的规划和决策。 同样地,人形机器人也需要感知系统判断周遭环境。由于各类环境感知传 感器在感知性能上各有优劣,预计会搭配使用。
我们认为人形机器人感知能力应该对标自动驾驶 L4 以上级别:1)人形机 器人作为家用机器人,在屋内活动时,需要清楚感知工作环境,避免造成 人身伤害或经济损失;2)人形机器人或有外出任务,如:家庭采购、快递、 外卖配送等,此时人形机器人在路上等同自动驾驶,需要具有判断往来车 辆和行人以及路面标识的能力;3)人形机器人或将代替人类执行较危险的 工作,如:高空作业、工地劳动等,因此需要具有感知精度更高、决策速 更快的特性。