怎么样找到识别物体功能（遇到无法识别分类）

小君 2023-08-03 16:24:36 111

怎么样找到识别物体功能（遇到无法识别分类）特斯拉中国台湾高速事故。图片来源：Baidu除了OOD外，还有一类物体是单目三目视觉系统永远都无法识别的，那就是侧翻车辆。大部分厂家没有时间去摸索，看看Mobileye便知研发人员人工成本太高了，即便已经占有超过75%的智能驾驶市场，利润依然无法填平研发成本的坑。为什么会出现无法识别的目标，这就是深度学习的天生缺陷，无法改变。学术的说法叫Out of Distribution（OOD），OOD detection 指的是模型能够检测出OOD样本，而OOD样本是相对于In Distribution(ID)样本来说的。传统的机器学习方法通常的假设是模型训练和测试的数据是独立同分布的(IID Independent Identical Distribution)，这里训练和测试的数据都可以说是In Distribution(ID)。在实际应用当中，模型部署上线后得到的数据往往不能被完全控制的，

单目或三目构成的视觉系统是目前智能驾驶的主流，其致命缺陷就是识别与检测是一体的，也就是说要检测目标必须先识别目标，无法识别就等于看不到，车辆不会有任何减速而直接撞上去，此类事故，特斯拉、小鹏和蔚来都发生过。普通人说识别，在计算机视觉里实际是分类，为了对应传统习惯，本文依然把分类叫识别。

怎么样找到识别物体功能（遇到无法识别分类）(1)

图片来源：Andrew Ng公开课

要解决这个问题最好的办法是立体双目，其次是没有分类任务的激光雷达，典型代表就是奥迪A8上那种四线激光雷达，目前多线的激光雷达通常都是用与单目摄像头一样的应用算法，同样会遇到识别与检测一体的问题。这也正是特斯拉不用激光雷达的原因之一，单目摄像头遇到的困难，多线激光雷达一样会遇到，而奥迪A8上那种四线激光雷达只能检测到前方有没有物体，是什么物体就不知道，算是加强版的毫米波雷达。对于复杂驾驶环境如城区则不太适合，只能用于塞车时的自动跟车。最后是4D毫米波雷达，近似于4线激光雷达，缺点与4线激光雷达一样。

立体双目能完美解决问题，缺点是其标定太麻烦，传感器的尺寸一致性要求很高。还有就是立体匹配算法难度不低，最好使用FPGA，AI加速器完全无用，GPU的话消耗算力太多。熟悉FPGA的厂家很少，需要摸索很长时间，因此立体双目只有老牌的博世、斯巴鲁、奔驰和丰田坚持使用。

大部分厂家没有时间去摸索，看看Mobileye便知研发人员人工成本太高了，即便已经占有超过75%的智能驾驶市场，利润依然无法填平研发成本的坑。

为什么会出现无法识别的目标，这就是深度学习的天生缺陷，无法改变。学术的说法叫Out of Distribution（OOD），OOD detection 指的是模型能够检测出OOD样本，而OOD样本是相对于In Distribution(ID)样本来说的。传统的机器学习方法通常的假设是模型训练和测试的数据是独立同分布的(IID Independent Identical Distribution)，这里训练和测试的数据都可以说是In Distribution(ID)。在实际应用当中，模型部署上线后得到的数据往往不能被完全控制的，也就是说模型接收的数据有可能是OOD样本，也可以叫异常样本(outlier abnormal)。

简单地说，深度学习数据集就像穷举法，但穷举所有类型是不可能的，那样数据集会异常庞大且成本高昂，并且现实世界每分每秒都在产生新的异常样本，永远都无法穷尽。对于牵涉到安全的应用，如无人驾驶和医学识别，OOD是噩梦般的存在。虽然说异常样本出现的几率很低，但一旦出现就可能损失一条生命。有人会说，人开车会出事故，因此不能苛求机器开车不出事故，这显然是错误的，人是有纠错机制的，而机器不会，它犯错一次要一条人命，下次遇到异常样本还是如此。

除了OOD外，还有一类物体是单目三目视觉系统永远都无法识别的，那就是侧翻车辆。

怎么样找到识别物体功能（遇到无法识别分类）(2)

特斯拉中国台湾高速事故。图片来源：Baidu

怎么样找到识别物体功能（遇到无法识别分类）(3)

图片来源：Baidu

画面中这辆侧翻的集装箱车对单目三目来说也是噩梦，是一大片红色，无纹理特征的图像，任何计算机视觉技术皆无能为力，当然，最困难的是白色，就等同于天空，特斯拉中国台湾高速事故就是如此，无论何种单目计算机视觉都无从下手，立体双目可以完美解决这个问题。

怎么样找到识别物体功能（遇到无法识别分类）(4)

图片来源：Baidu

还有这种侧翻，大面积反光，且有图像显示在车上，训练数据集都是基于正常车辆拍摄的图像数据，这种侧翻的非常罕见，数据集里肯定没有，再加上它还能反光，还能显示其他图像，单目计算机视觉完全无能为力。

想完美解决问题是不可能的，目前学术界在尝试用差异性网络来解决这个问题。众所周知，深度神经网络不具备可解释性，永远存在概率，没有确定性，而汽车领域一定要有确定性，但除了深度神经网络，人类开发智能驾驶没有其他低成本方式，只能用它。当然对于那种大面积空洞类似天空的目标，任何基于单目三目的计算机视觉技术都无能为力。

目前对于无法识别物体的检测，学术界研究主要方向是差异性网络Discrepancy Networks。本文主要基于四篇论文：

第一篇是瑞士洛桑联邦理工学院EPFL的计算机视觉实验室的《Detecting the Unexpected via Image Resynthesis》，
第二篇是丰田的《Road Obstacle Detection Method Based on an Autoencoder with Semantic Segmentation》，
还有一篇《Efficient Unknown Object Detection with Discrepancy Networks for Semantic Segmentation》。
最后一篇是微软研究院和Wisconsin-Madison大学的《Unknown-Aware Object Detection Learning What You Don’t Know from Videos in the Wild》。

目前都局限于学术研究，离上车最快也要等10年。

思路都大同小异，即用GAN再合成图像，制造差异性网络。

EPFL的思路

怎么样找到识别物体功能（遇到无法识别分类）(5)

图片来源：EPFL

EPFL的思路，图a是路上的两个异常样本物体，深度学习完全无法识别，也就检测不到；图b是图像语义分割，这两个物体消失了，用GAN再合成图像，这两个物体还是消失不见，但最后加上差异性网络，这两个物体找到了，就是图d的高光显示部分。

EPFL的做法

怎么样找到识别物体功能（遇到无法识别分类）(6)

图片来源：EPFL

EPFL的做法，用两个VGG16网络从原始图像和再合成图像中抽出特征并做金字塔矫正，特征和关联送入一个跳过连接的解码器，最终得到差异性图像。

怎么样找到识别物体功能（遇到无法识别分类）(7)

图片来源：EPFL

基于CNN的图像识别通常无法识别右边这辆自行车，因为它靠在柱子上。

丰田的思路

怎么样找到识别物体功能（遇到无法识别分类）(8)

图片来源：丰田

微软的思路

怎么样找到识别物体功能（遇到无法识别分类）(9)

图片来源：微软

微软提出了一种新的未知感知目标检测框架，该框架通过时空未知提取（STUD）从野外视频中提取未知对象，并有意义地正则化模型的决策边界。视频数据自然地捕获了模型运行的开放世界环境，并封装了已知和未知对象的混合物；见图1（b）。例如，建筑物和树木（OOD）可能会出现在驾驶视频中，尽管它们没有明确标注用于培训车辆和行人的物体检测器（ID）。类似于化学中的蒸馏概念，即“从混合物中分离物质的过程”。虽然经典的目标检测模型主要使用标记的已知对象进行训练，微软试图通过联合优化目标检测和OOD检测性能，利用未知对象进行模型正则化。

微软的STUD框架

怎么样找到识别物体功能（遇到无法识别分类）(10)

图片来源：微软

《Efficient Unknown Object Detection with Discrepancy Networks for Semantic Segmentation》这篇论文比较新，是2022年8月发表的，作者单位名气不大，有日本SenseTime和德州奥斯汀大学。

怎么样找到识别物体功能（遇到无法识别分类）(11)

图片来源：SenseTime

典型示例如上，图中车辆车身上有大字，很容易被误认为标志牌，或者无法识别。

怎么样找到识别物体功能（遇到无法识别分类）(12)

图片来源：SenseTime

作者的思路主要是加入了所谓深监督(Deep Supervision)，就是在深度神经网络的某些中间隐藏层加了一个辅助的分类器作为一种网络分支来对主干网络进行监督的技巧，用来解决深度神经网络训练梯度消失和收敛速度过慢等问题。

虽然立体双目可以完美解决所有难题，但立体双目研发周期长，短期很难出成果，大部分企业都不会选择立体双目，深度学习太容易了，炼丹不需要知道因果关系，只需塞数据即可，立体双目阵营目前也开始出现松动，丰田还专门出了个深度学习加单目推测立体视觉再获得深度数据的数据集，宝马也在2021年放弃了立体双目。年轻人几乎没有从事立体双目研究的。

Argo关闭，Aurora和图森市值暴跌95%，Cruise和Waymo沉寂多日，过度依赖深度学习的无人驾驶该何去何从？

声明：本文仅代表作者个人观点。

更多佐思报告

报告订购及合作咨询请私信小编。

佐思2023年研究报告撰写计划智能网联汽车产业链全景图（2022年10月版）

自主品牌主机厂自动驾驶	汽车视觉（国内）	高精度地图
合资品牌主机厂自动驾驶	汽车视觉（国外）	高精度定位
ADAS与自动驾驶Tier1-国内	环视市场研究（本土篇）	汽车网关
ADAS与自动驾驶Tier1-国外	环视市场研究（合资篇）	数据闭环研究
自动驾驶与座舱域控制器	红外夜视	汽车信息安全硬件
多域计算和区域控制器	汽车仿真（上）	汽车信息安全软件
乘用车底盘域控	汽车仿真（下）	OEM信息安全
域控制器排名分析	激光雷达-国内篇	无线通讯模组
E/E架构	激光雷达-国外篇	汽车5G融合
L4自动驾驶	毫米波雷达	800V高压平台
L2自动驾驶	车用超声波雷达	燃料电池
乘用车摄像头季报	Radar拆解	一体化电池
ADAS数据年报	激光和毫米波雷达排名	一体化压铸
合资品牌车联网	专用车自动驾驶	汽车OS研究
自主品牌车联网	矿山自动驾驶	线控底盘
自动驾驶重卡	无人接驳车	滑板底盘
商用车ADAS	无人配送车	电控悬架
商用车智能座舱	无人零售车研究	转向系统
商用车车联网	农机自动驾驶	线控制动研究
汽车智能座舱	港口自动驾驶	充电基础设施
智能座舱Tier1	模块化报告	汽车电机控制器
座舱多屏与联屏	V2X和车路协同	混合动力报告
智能座舱设计	路侧智能感知	汽车PCB研究
仪表和中控显示	路侧边缘计算	IGBT及SiC研究
智能后视镜	汽车eCall系统	EV热管理系统
行车记录仪	汽车EDR研究	汽车功率电子
汽车数字钥匙	智能汽车个性化	电驱动与动力域研究
汽车UWB研究	汽车多模态交互	汽车线束
HUD行业研究	车载语音	汽车音响研究
人机交互	TSP厂商及产品	汽车座椅
车载DMS	自动驾驶法规	汽车照明
OTA研究	自动驾驶标准和认证	汽车镁合金压铸
汽车云服务研究	智能网联测试基地	电装新四化
AUTOSAR研究	PBV及汽车机器人	造车新势力-蔚来
软件定义汽车	飞行汽车	造车新势力-小鹏
汽车功能安全	行泊一体研究	造车新势力-理想
乘用车T-Box	智慧停车研究	Waymo智能网联布局
商用车T-Box	汽车分时租赁	座舱SOC
T-Box排名分析	共享出行及自动驾驶	汽车VCU研究
软件供应商	自动驾驶芯片	汽车MCU研究
智能表面	商用车智能底盘	传感器芯片

「佐思研究月报」

网站首页

返回栏目

怎么样找到识别物体功能（遇到无法识别分类）

猜您喜欢：

相关文章