毫末进城，量产城市自动驾驶的技术可能性

朱, 世耘深度 2022年9月14日

城市场景自动驾驶，难的超乎想象。目前机器两次接管间的最短距离普遍超过一公里；完全自动驾驶的落地时间被普遍认为在2030年；甚至特斯拉目前的估值中尚不包括FSD（完全自动驾驶计算机）的价值。

饶是如此，海外的特斯拉，国内的小鹏汽车、魏牌都宣布将量产大规模的城市自动驾驶辅助功能。

这仅仅是对“辅助“限定的有持无恐吗？

9月13日，长城汽车旗下自动驾驶技术公司，也是魏牌落地城市NOH的技术提供方，毫末智行在其AI DAY上介绍了基于大数据、大模型的自动驾驶3.0技术路线，以解释推动城市场景自动驾驶能力量产落地的技术可能和路径。

大模型大数据的3.0时代

“我们认为可以将这近十年的自动驾驶技术发展分成了三个阶段：由硬件驱动方的1.0时代；软件驱动的2.0时代；和即将很快发生，并将持续发展的数据驱动的3.0时代。”毫末智行CEO顾潍颢在毫末AI DAY上表示，3.0时代是以大模型大数据为核心模式特征的。

所谓“大模型”是指参数量达到百亿、千亿甚至万亿量级、函数更复杂、输出精度和准确度更高，且具有自监督学习功能和强通用性的人工智能算法模式。

就在不久之前，自动驾驶的感知领域还主要采用小模型模式。传感器们各自为战，收集数据供针对特定任务（如识别行人、识别车辆、识别车道线）的小模型进行感知识别，之后进行结果级的融合。

直到2020年，基于Attention机制的Transfomer类大模型在横扫NLP（自然语言处理）领域后，开始在CV（计算机视觉）领域取得明显突破。2021年，特斯拉在其AI DAY上展示了基于Transfomer结构算法输出的BEV（鸟瞰图，Bird’s Eye View）感知空间，开启了Transfomer类大模型在自动驾驶量产领域的普及化：

对多个，甚至是不同模态传感器的原始数据进行统一识别之后输出感知结果。而大模型对海量数据的处理能力，也为自动驾驶系统去处理极端复杂的城市路况，提供了可能性。

但大模型并非完美无瑕。

一方面，一个能输出高精度和准确度的大模型，对训练数据量的需求巨大，而且数据的多样性要足够充分。

顾潍颢表示：训练数据规模上，自动驾驶里程数据需至少达到1亿公里；在多样性上，不同类型、不同像素、不同角度，以及不同场景的传感器数据都对与大模型训练都有非常大的价值。

“所以，我们有理由认为，辅助驾驶是通往自动驾驶的必由之路。因为只有大规模前装辅助驾驶系统，才有能力收集到足够规模和足够多样的数据。”

另一面，是基于Attention的大模型会将大量的“关注”放在弱关联（与所求结果关联度不高的参数）运算上，导致Transformer所需算力是CNN所需算力的100倍，但有效（与所求结果高度相关）算力仅为7%，导致大模型的训练成本高，落地难，尤其是在算力和功耗都非常有限的车端。

“所以在大模型的趋势下，我们觉得需要重点解决3个问题：如何通过低碳超算，降低自动驾驶成本；如何改进车端模型，提高计算效率；如何改进车端芯片，提高计算效能。”顾潍颢表示。

据统计，目前毫末智行的辅助驾驶里程已经超过1700万公里，其数据智能体系MANA的学习时长已经超过了31万小时，虚拟驾龄达到4万年。而末端物流自动配送车也为附近用户运送了近9万单的物资。

毫末的大模型自动驾驶训练方式

即使采集到1亿公里的自动驾驶数据，又要如何使其成为神经网络的合格教材，将大模型训练“成才”，并符合量产目标下，对时间、成本的要求？

与小模型需要预设特定的“学习目标”，进行监督学习的方式不同，大模型具有自监督学习功能。可以减少数据标注，在一定程度上解决了人工标注成本高、周期长、准确度不高的问题。

顾潍颢介绍，毫末选择统一所有感知任务的主干网络，之后利用无标注数据对其进行训练并锁定，模型剩余部分再用标注样本来训练。“我们实验的结果是这种方式相比只用标注样本做训练，训练效率可提升3倍以上，同时精度有显著提升。”

不过新的挑战是，当训练数据达到上亿公里后，模型对新场景保持敏感性会下降，会陷入遗忘性灾难：即在新的数据集上训练模型，会遗忘掉旧数据上学习到的知识，因此在旧数据上测试会发生很大的掉点。

顾潍颢表示，为应对上述挑战，毫末构造了增量式的学习平台。训练时要求新模型和旧模型的输出保持尽量一致，对新数据的拟合尽量好。“相比常规做法（全量数据再次精细训练），我们达到同样的精度可以节省80%以上的算力，收敛时间也可以提升6倍以上。”

如何用好transformer的时空“魔法”

训练成熟之后，就是大模型发挥Transformer架构“魔法”的时候了。

城市场景更为复杂且多变，高速场景依靠高精地图获得先验时空信息的方法便不再适用。自动驾驶系统需要像人类驾驶员一样，通过感知理解“眼前”的路面情况来做出驾驶决策。

因此，构建包含一定时间长度的行车空间便成了自动驾驶系统落地城市环境的必备能力。

顾潍颢表示，毫末采用时序的transformer模型，综合一定时间段内的多帧信息来消除抖动，使感知结果连续性地稳定递，推在BEV空间上做出一定时空下的虚拟实时建图，让感知车道线的输出更加准确和稳定，对障碍物的判断更为准确。

使用强大实时感知能力，我们已经可以解决部分的道路模糊、复杂路口、环岛等问题，整个过程只需要普通导航地图里面的相对可靠的拓扑信息即可，就像我们自己开车一样。”

打造像人的决策模型

对感知领域大模型的实践应用，显然能够帮助毫末在决策领域积累应用AI的思路和能力。

在3.0时代之前，自动驾驶的决策系统仍是人写的逻辑判断代码为主，硬性的条条框框，但同时也丧失了车辆在路上“随机应变”的能力。这种“僵硬”的决策方式能够适用于相对简单的高速路，但在城市路况中，这将极大影响通行效率，以及使用者的体验。

毫末借鉴多模态大模型的方法来更好地解决认知问题。

具体做法是对覆盖海量人驾进行深度理解，构建毫末自动驾驶场景库。

并基于典型场景挖掘海量司机的实际驾驶行为，构建taskpromt，训练一个基于时空Attention的驾驶决策预训练大模型，实现自动驾驶决策的可控、可解释。

“在复杂的城市中，毫末NOH在路口左拐、右拐等各种场景种，不但能结合实际情况选择最优路线保证安全，还能学习人类驾驶特点，给出最合理的行为序列和参数，体感更像老司机。”顾潍颢表示。

补完城市自动驾驶所需

构建了针对大模型的训练方法，和大模型的工作模式后，毫末开始就量产城市自动驾驶功能所需的一系列“新能力”进行补全。

在能够看懂红绿灯这样的城市道路交互系统后，毫末正在升级车上的感知系统，加入对刹车灯、转向灯等车辆信号灯状态的专门识别能力，以使车辆能够很好地预测交通参与者的运动意图。

针对仿真系统偏离真实环境，无效训练的问题，毫末与阿里以及德清政府合作，利用路端设备记录路口的事实交通情况，再通过log2world的方式导入仿真引擎形成仿真环境，用于对自动驾驶模型路口场景的调试验证。

“当然大部分场景是重复度比较高的，我们用交通环境熵来计算场景价值，挑选出高价值场景转化为仿真测试用例，大大提高了整个产品的通过性。”顾潍颢表示。

此外，毫末也正式官宣了中国自动驾驶公司首个超算中心——毫末超算中心，其目标是满足千亿参数大模型，训练数据规模100万clips，整体训练成本降低200倍。

活动现场，张凯宣布毫末“打赢智能驾驶下半场五大制胜法则”：智能驾驶产品开发始终将安全放在首位；产品体验“真香”才是王道；基于用户真实场景数据驱动，实现产品快速迭代；实现感知智能与认知智能高度一体化；以开放的心态赋能客户，促进行业共同进步。

本文由电动汽车观察家作者：朱, 世耘发表，其版权均为电动汽车观察家所有，文章内容系作者个人观点，不代表电动汽车观察家对观点赞同或支持。如需转载，请注明文章来源。

上一篇：MG MULAN全球同步上市，补贴后价格12.98万元-18.68万元下一篇：从桑塔纳到MULAN，中国汽车到跨国车企的第四级跨越

毫末进城，量产城市自动驾驶的技术可能性

相关文章

豪掷10亿，北汽新能源誓夺北京大本营

恩智浦4D毫米波雷达助力L2+级智驾能力普及

自主电动车企：特斯拉可能不是你的敌人