为什么特斯拉不用大算力?-电动汽车观察家

为什么特斯拉不用大算力?

只有在同一维度下比较,才会发现特斯拉的“可怕”之处。

本次AI DAY上,特斯拉宣布在美国参加FSD测试版的车辆已达16万辆之众。测试版在人类驾驶员始终监控的情况下,根据导航实现从一个停车场到另一个停车场的“完全自动驾驶”功能。

这与近期包括小鹏、毫末、华为等在内的厂家提供的高速和城市领航功能相类似。

但值得注意的是,FSD Beta是基于144Tops的算力实现上述功能的,而且近期特斯拉宣布在新车上取消了超声波雷达,就此在硬件层面彻底走上的纯视觉路线。

这意味着硬件成本进一步降低,数据结构进一步统一。

此前有投资人估算,FSD整体价格在1400美元左右,取消雷达后的成本势必进一步下降。

相比之下,目前254TOPS的英伟达Orin芯片价格为300美元/颗,速腾聚创M1激光雷达的价格则为500美元/颗。

不算摄像头,仅双Orin和双激光雷达的成本就已超过了FSD HW3.0的整体方案价格。

他山之石可以攻玉。在大算力+重感知的技术路线之外,特斯拉为何能仅凭144TOPS就能在城市场景中大范围落地纯视觉的“完全自动驾驶能力“?

10月9日,《电动汽车观察家》特邀地平线BPU算法负责人罗恒博士;均胜电子副总裁、均胜智能汽车技术研究院院长郭继舜博士,进行了一场AI DAY的解读直播,从新的神经网络、数据训练体系,和硬件数据中心入手,回答特斯拉自动驾驶技术能力到底如何,自动驾驶落地还有多远的问题。

【关注“电动汽车观察家”,并回复“十万分之一”可获得直播回看链接】

01

自动驾驶何时实现?

“FSD到了自动驾驶的深水区。这次AI DAY展示了对一些非常长尾非常琐碎问题的解决方案。在我看来,FSD又向前迈了很大一步。“罗恒表示:高级别自动驾驶功能落地的三个量化要素分别是:自动驾驶的覆盖范围、搭载车辆的数量,以及行程中机器驾驶的比例。

罗恒表示,如果未来特斯拉在美国和加拿大范围内的FSD测试版落地车辆达到50万辆,且人们频繁使用的话,则就很接近高等级自动驾驶功能实现了。

对于国内,郭继舜表示,如搭载L2+(在高速/城市道路下,能够自动变道、超车、进出匝道等)级功能的车辆占到个人时长的10%以上;达到L4级的自动驾驶出租车能够在一二线城市内区域性的商业化运行,成为人们日常的交通工具时,则可被认为高级别智能驾驶能力接近落地。

从时间来看,罗恒认为特斯拉或在明年实现北美地区50万辆FSD测试版应用的规模;郭继舜认为2024或2025年,国内或将接近高级别智能驾驶功能量产。

“在自动驾驶的深水区,需要在安全性、稳定性、先进性和成本上找到一个均衡点,实现技术和成本收益的最大化。从这点来说,在技术实现和功能可行性上,特斯拉依然是全世界最好的自动驾驶公司。“郭继舜表示。

02

大算力是必须的吗?

除了落地车辆规模和区域上的直观数据外,特斯拉在这次AI DAY上展示了其在算力需求收敛方面的能力。

AI DAY上,特斯拉展示了一个交互对象超过20个,可能性超过100种的无保护左转场景中的三个决策结果。

采用传统搜索方法,每种可能性的决策时间在10毫秒左右,最终做出决定或要50毫秒。

而特斯拉通过在规划层面引入神经网络,将决策时间从通常的1-5毫秒缩短到100微秒之内。

规划领域的传统方法是迭代优化,循环求解。其存在结果不确定,单位时间内算力需求大,或车端这样的有限算力下所需计算时间长的问题。因此很难应对高度复杂且需要快速决策的城市十字路口。

但神经网络则会给出一个高度确定性的结果。通过在云端对完整模型离线训练后,将训练好的轻量化网络部署到车端,就能实现一个非常高效的规划结果。

如果将特斯拉FSD beta和Waymo在国外的情况进行对比就会发现,FSD的决策会非常激进果断,但Waymo则要保守的多,只要能右转就不左转,宁可兜圈子来行驶。

正是因为FSD规划时的效率更高,使其能够搜索更大的空间,快速做出更加全局性的决定。

“总体而言,特斯拉是把大量的复杂迭代的计算放到离线来做,然后去训练快速的,确定性、低延迟的神经网络在线的去处理。这二者的结合,就使得它能够达到一个非常高的效率。”罗恒表示,“按特斯拉的提法就是用传统的方法,一个action大概需要1~5毫秒,对于神经网络来说,它就是固定值就是0.1毫米,提升从10倍到50倍。”

通过布置高效的轻量化神经网络来进行规划,是特斯拉能够仅用144TOPS算力实现城市高级别自动驾驶能力的原因之一。

罗恒提到,特斯拉之前在讨论FSD芯片时,相比算力更加强调其FPS(帧率,单位时间内识别图像的速度)性能。而且,基于FSD beta的版本更新信息,其还在不断新增数据集并提升性能,“说明对特斯拉来说,算力还是够的。”

事实上,在算法和算力之间求得效果、成本之间的平衡,将是各大企业实现城市内自动驾驶能力落地的核心门槛之一。

郭继舜表示:国内用大算力首先是出于对安全的保证,“我们先用大算力来保证安全,再去持续降本优化,才能保证这个系统能够大面积的使用起来。”

在此前提下,之所以目前业内L2+的自动驾驶能力算力需求不断上升,甚至有的逼近1000TOPS,核心原因在于感知硬件的数量和性能不断提升,以及所需应对的场景不断增多。

“我们从高速到城市道路,最难的部分在于感知和预测,因为它需要分类的物体变多了,复杂度变高了,对模型的数量和并行化的需求也由此提升了。”

郭继舜表示,这都是算力需求越来越大的原因,但并不代表需要无限的算力。

“特斯拉之所以能在144Tops算力之下实现城市领航的能力,一方面是软硬件协同更加高效,另一方面也显示出算法工程师应当更加精简集约得去高效使用算力,由此才能推动高等级智能驾驶尽快落地。”

03

激光雷达是必须的吗?

通过将神经网络应用在规划领域节省算力外,特斯拉还在感知领域引入了新的神经网络模型,来实现类似激光雷达的感知效果。

今年AI DAY上的一个亮点就是通过矢量数据来描述三维世界的占用网络。

“特斯拉希望通过占用网络,在不定义物体具体是什么的情况下,去确定物体在三维空间中的位置,以及其在以什么样的速度运动。”罗恒这样描述占用网络的作用。

从效果来看,占用网络非常类似于激光雷达,能够直接提供障碍物的三维和运动变化信息。

但值得注意的是,特斯拉的占用网络是建立在视觉信号之上的,内容非常丰富,由此可实现很高的精度。而激光雷达的点云相比视觉信号始终是稀疏和不连续的,无法精细描绘物体的边界。

占用网络对三维信息和速度变化的敏感性,也成为特斯拉彻底取消雷达的底气所在。

事实上,罗恒认为特斯拉正在用占用网络逐步替代其去年才正式对外公布的BEV架构。

“他们现在的整个架构里面还包含一个动态物体的网络,未来说动态物体的网络会不会被占用网络替代?我不确定,我感觉好像也有这个趋势。”

同样是形成最终行车所用向量空间的感知耦合网络模型架构,BEV可生产一个俯视的鸟瞰图,然后将平面划分为一些点格,在每个格点内标出高度和物体属性,到底是车道线、车辆、行人还是交通标志,由此来提供一个可行使范围。

BEV模型很好的解决了多个摄像头前融合的问题,不用在后融合阶段进行不同角度摄像头的置信投票。

目前国内的多传感器方案也采用了BEV模型在其感知模型架构当中,对激光雷达的数据进行中融合或后融合。

“深度学习中,一直是通过标注更多的数据,训练更多的模型,不断扩大神经网络的认知边界,让车辆在道路上能够识别跟踪更多的事务,对它进行分类。BEV就是这样扩大了我们的知道的边界。”郭继舜表示。

但另一方面,由于要先理解是什么,再判断是否是障碍物,导致BEV模型因为无法穷尽标注现实世界,而无法去理解所有的路面情况。

例如高速路上破碎的轮胎碎片该如何识别?

通过传统的标注方式,很难标注出所有破碎轮胎的样子,以便训练出何时的模型。

事实上,类似由于对障碍物识别不准确,或未识别的情况,是造成包括特斯拉在内多个企业发生交通事故的原因。

此外,在分辨静态还是动态物体方面,BEV还是使用静态和动态两套网络,而且现实世界中任何静态物体都有可能变成动态物体,例如被撞非的路障石墩子。出现这样的情况时,静态和动态网络的分歧又很难解决。

郭继舜表示:“占用网络解决了BEV对面的另一个问题,缩小了我们故知道自己不知道的边界。”

占用网络能够让车辆在未理解前方是什么的情况下,将其判断为是否影响交通结果的障碍物。“这在我看来是非常大的一步,占用网络一定会成为未来一年,我们在技术领域高度关注的一个算法。”

那么是否多传感器融合的方案,也可以通过使用占用网络来消除激光雷达的需求?

对此,郭继舜表示,从对系统和产品负责角度来看,激光雷达的置信度仍然更高,而且可在全天候(光线不足时)提供更多的有效信息。“与其去等待机器视觉算法的不断进步,还不如依赖激光雷达的摩尔定律。但我们也希望特斯拉能够最终真的实现了人类的技术边界拓展。“

有意思的是,理想汽车创始人李想在社交媒体的一个回复中说到,激光雷达就是占用网络。

但从技术角度来看,目前主流激光雷达的输出频率是10赫兹,摄像头则是36赫兹,在高速上意味着激光雷达即使不做融合对齐,也是3米左右“看”一次,“看漏”的几率远高于基于摄像头的占用网络。

不过摄像头还存在越远误差越大的现实问题。虽然未来随着摄像头精度不断提升可以改善,但在超视距范围外的场景下,激光雷达仍有相当的优势。

04

高精度地图是必须的吗?

虽然目前占用网络还无法完全替代激光雷达,但车道线网络帮助FSD完全补足了对高精地图的需求。

FSD Beta v10.69.2.3的发行说明有这样一段:“向矢量车道神经网络添加了一个新的‘深度车道引导’模块,该模块将从视频流中提取的特征与粗略的地图数据(即车道数和车道连通性)融合在一起。与之前的模型相比,这种架构在车道拓扑上的错误率降低了44%,从而在车道及其连接变得明显之前实现了更平滑的控制。”

简而言之,这一版本之后FSD Beta在复杂路段上可能的变道错误降低了44%。

这一数据与测试结果的反馈一致。去年测试版用户还在大量得抱怨变道变错的问题。但随着车道线网络的引入,这类抱怨明显减少,变道体验明显改变了。

在复杂道路上应该走那条道,即使对人类驾驶员来说也是很困难的一件事。自动驾驶车如果利用高精地图,可以实现对车辆和道路环境厘米级的定位,轻松解决“我在哪儿,我怎么走”的问题,在高速领航辅助中常被作为主要信源。

但高精地图始终存在运营成本和地图保鲜的难题,因而在进入道路复杂多变的城市场景中,便难以满足商业化的量产需求。

也是因为覆盖区域、鲜度、成本的问题,FSD从未将高精地图纳入系统方案之中。此前一直采用简单的像素点标注(描绘)车道线的方式来解决。

但进入城市后,要用像素点来描绘复杂交错的道路变得非常困难,引入了自然语言模型理念的车道线网络由此应运而生。

罗恒表示:特斯拉引入了新的数据标注方法,将车道线标注为一系列点,每个点有自己明确的语义,例如“起始、并线、分叉、结束”等。由此,将原来只是在图像上做语义分割(这是车道线),改为将车道线标注成一个句子(开始继续转弯并线结束),从而形成完整的车道线连通关系图。

由此,车辆对本车道和“视线内“的路网关系有了清晰的理解,也就便于变道行驶。

值得注意的是,随着车道线网络的加入,FSD可形成5维的3D+时间+语义的向量空间。而通过云端的数据训练体系,大量车辆产生的,内涵丰富的向量空间数据可被集合为众包的ADAS地图。

从特斯拉的展示来看,该地图的鲜度和细节程度都非常的高。

05

数据训练的活儿,让硅基去干吧

“深度学习背后的核心在于数据。数据如何标注定义了算法模型的类型。”罗恒表示:特斯拉自动标注的进展是超预期的。

事实上,就在2022年上半年,马斯克还表示要进一步扩张标注团队,但几个月后就开始裁员。“我觉得裁人也非常简单,发现其实不需要人画那么多框了。”

此前基于二维图像数据训练神经网络时,需要人工对图像区域进行标注,包括3D数据、属性,甚至时间上的对齐。“都是我们碳基生命的贡献,耗时巨大,但把它映射到3D空间中时使用起来又很困难。”罗恒表示。

2018年的特斯拉,以及目前国内相当一部分数据标注都采用此方法;

至2019年,特斯拉开始在三维空间中进行标注,目前国内一些企业也已经在三维重建映射方面引入自动化的计算标注;2020年,通过采用BEV框架,已经能够自动输出鸟瞰图,人工主要进行一些对齐工作;而到了2022年,自动数据标注系统已可以完全输出重建的映射场景,对人力的需求大幅下降。

从效率来看,如今特斯拉的自动标注系统可在12小时内完成500万小时人类标注的工作量。

而且基于高效的对现实世界的自动标注,特斯拉能够构建起宛如游戏界面一样高度逼真的仿真环境,帮助其视觉感知系统不断收敛罕见的长尾场景;而且通过数据引擎,可对数据进行重新标注进行模型的“矫正训练”,而无需改写模型。

“在过去的实践中,我对自动标注,虚拟仿真等自动化手段是持悲观态度的,因为从实际效果来看,准确率和精度都无法达到预期,仍需要用硬件在环的手段来完成。”郭继舜表示。

对于行业来说,随着自动驾驶系统搭载的车辆越来越多,(标注后)有用的结构化数据就越多。准确的结构化数据越多,对算法进化越有优势。

“但这基于两个前提,第一是自动化标注的准确度,第二是自动化标注的效率。现在基于特斯拉的说法,其自动标注的准确率和效率都非常高,是足够值得我们学习的。”郭继舜表示。

06

如何追赶特斯拉?

“(国内与特斯拉在自动驾驶领域)还是有一定差距的,但不见得就追不上。”郭继舜表示。

从技术路线上,仍应将激光雷达作为一个非常重要的补充传感器,由此可减少在视觉领域所需积累的数据量。同时利用规模化对激光雷达进行将本。

第二是立足于中国市场的规模优势,通过共同一套(数据训练)基础设施来加快车辆搭载的规模化,和由此产生的数据规模化;

第三还应该学习特斯拉的技术突破方式。特斯拉是在将自动驾驶推向一个前所未有的规模过程中,发现了很多新的真问题,在解决问题的过程中实现技术突破的。

在推动规模化的同时,我们还应该借鉴特斯拉如严选参与测试的司机等审慎的推广方案。

“见贤思齐。自动驾驶还处于行业的早期,大家还在共同实现这一宏伟目标的过程中。有人跑得快,我们多学习也能够加速实践落地的过程。“罗恒表示。

“现在仅仅是自动驾驶量产到了该交付的深水区,但行业还处于早期阶段,我们还有非常多的机会。“郭继舜表示。

本文由 电动汽车观察家 作者:朱, 世耘 发表,其版权均为 电动汽车观察家 所有,文章内容系作者个人观点,不代表 电动汽车观察家 对观点赞同或支持。如需转载,请注明文章来源。
23