城市领航,不用地图行不行?
“未来经过充分验证之后,我们不做(感知结果和地图信息之间的)二选一了,我们相信这个(实时感知的)结果。”毫末智行技术副总裁艾锐向《电动汽车观察家》表示。
2022年,很多智能驾驶的头部玩家都提出要在城市领航中“重感知、轻地图”。但最后身体诚实,最后落地的方案仍需在高精地图适用范围内运行。
城市领航能否脱开地图?毫末认为是可以的。
2025年中国高阶辅助驾驶搭载率将达到70%。2023年,仅依靠普通导航地图的能力的毫末城市NOH将在车型上量产上市,预计2024年上半年落地城市达到100个。
同时,毫末智行董事长张凯表示,以重感知技术为主,主要依托视觉方案的智驾系统将可以在中低算力的车端平台上部署,这将使得高级别智能驾驶系统有可能成为中端价位车型的标配。
2022年搭载毫末城市NOH的魏牌摩卡激光雷达版曾与华为、小鹏争夺城市领航功能的首发名额,但最终未能成型。如今毫末又立下2024年的百城目标,是否又会是一个“宣传话术”?更重要的是,城市领航要如何脱开地图?
01
泛化前先轻地图
尽管目前华为、小鹏面向小批量客户推送的城市领航功能仍需采用高精地图,但“轻地图”仍是行业共识。华为将于今年年中推出类似众包模式的轻地图方案,小鹏汽车也表示XPILOT 4.0在实现初步闭环后,会采用轻地图方案。
之所以要“轻地图”,一方面是由于高精地图的鲜度问题。
目前高德、四维图新、百度等企业已经能够提供覆盖全国高速公路、全国城市快速路甚至普通城市路段的高精地图。但大部分一季度一更新的“鲜度”完全无法满足城市领航的需求。
而且,在高精地图政策要求下,目前只有北京、上海、广州、深圳、杭州、重庆等六大城市开展智能网联汽车高精度地图应用试点。
另一方面则是成本问题。
目前包括华为在内多家智能驾驶玩家拥有甲级或乙级地图测绘资质,但高精地图绘制成本高昂让人望而却步。
作为参考,2018年,美国无人驾驶汽车高精地图技术公司DeepMap连续投资4.5亿美元用于开发。此外,MapBox、Carmera、Civil Maps等企业的开发费用也在2.272亿美元(2017年),2000万美元、1700万美元不等。
这样的成本显然与大规模落地智驾功能,获得大量数据推动系统迭代的发展模式相悖。
张凯告诉《电动汽车观察家》,毫末对中端价位车型的定义是在12-15万元和15-25万元价格区间内的车型。毫末在下一代智能驾驶平台的计划中布局了中低价位车型适配,其中1500元左右的成本能够实现行泊一体,高速HWA(LCC类功能);2000元左右的方案则可以实现高速NOH的功能。
这样的成本对感知和计算硬件价格就提出了较高的要求。
艾锐表示,毫末计划未来在20-30Tops算力的平台上实现一定精度的NOH功能。
为此,需要新的使用地图的方式。
地图有两种用法:一种是显式的,先建成离线地图用于实时调用,作为先验信息供系统决策时使用。当感知结果和地图信息不吻合时,系统需要按照预先设置的逻辑规则:如果怎么样就信谁,进行二选一的选择。
另一种则是隐式的,将普通地图信息作为先验输入到模型里,让模型去纠错。好比人类开车时不会看到死胡同后,还继续听从导航前进的指令。
“所以我们希望的是模型具有这个能力由此可以避免二选一。(隐式的)方法理论上来说天花板更高,但是难度更大。”艾锐表示。
未来,毫末会在落地城市内画出一片区域,明确告知是否可以激活城市领航功能。其区域范围或许基于区域内的数据量和道路复杂度来决定。
02
核心算法的进步支撑
核心算法的进步是毫末关于立下2024年百城落地城市领航的基础。
在近期的AI DAY上,毫末发布了MANA的视觉自监督、多模态互监督、3D重建、动态环境,以及人驾自监督认知五大模型。
其中,多模态互监督大模型和动态环境大模型是应用于车端,改进毫末MANA感知框架的大模型。
多模态互监督大模型从效果上类似于特斯拉在去年发布的占用网络模型,其核心通过视觉数据来对周围空间进行实时建模,构建出只有长宽高这样的结构信息,但没有“公交站”、“水马”、“乘用车”、“行人”这样语义信息的空间结构。
由此可直接规避道路上已经被占用的位置,规划出可行驶的行车空间。
其中,由于不用对感知到的是什么进行判断,可大幅减少对车端实时的算力需求,甚至是摄像头的精度需求,由此可在低成本的感知和算力平台上落地。
但另一方面,视觉只能给出2D信息,要加入深度和时间信息,就对数据量和模型调优提出的很高的要求。
此外,毫末的多模态互监督大模型和特斯拉的占用网络在实现方法和效果上也有一定的不同。
特斯拉完全采用纯视觉来实现,毫末则引入了能够直接获得3D信息的激光雷达信息来对视觉感知的结果进行监督。
艾锐表示,毫末希望未来能够使用纯视觉来实现和激光雷达一样的效果。“虽然这辆车上没有激光雷达,但是这个结果跑出来,相当于装了一个高线速的激光雷达一样。”
动态环境大模型则类似于特斯拉的语言车道线模型,通过对“看到”的道路进行语义理解,由此推断构建出实时的道路拓扑结构。
由此,模型可以像熟悉路况的老司机一样,在预先知道大概的路径规划和方向后,就可以根据自己看到的实际路面情况来进行实时的规划行驶,彻底脱开高精地图的束缚。
艾锐表示,在经过充分验证后,毫末希望未来动态环境大模型能够作为置信方,对地图信息进行矫正。“在计算机领域,如果你有充分数据的时候,你会发现让模型去做选择可能会比你总结的规律更合适。”
毫末官方表示,目前在保定、北京,毫末对于85%的路口拓扑推断准确率高达95%。
目前,动态环境大模型还在云端训练,尚未落地车端。
03
大规模投入基础设施
想要依靠多模态互监督和动态环境大模型实现对激光雷达、高精地图的依赖,前提是大规模的基础设施投入。
大模型指参数达到10亿级甚至更高的神经网络模型,可以处理更加复杂和多样化的任务。但同时,大模型需要海量数据进行训练,而且因此模型和参数庞大,要想高效得完成训练,就需要巨大的算力和计算速度才能施展开来。
为此,特斯拉不仅进一步加强其数据标注的自动化闭环,还自建的名为“道场”(DOJO)的大型智算中心。
同样想走低成本、普适性路线的毫末也建立了相类似的基础设施体系。
毫末建成了智算中心——“雪湖·绿洲”(MANA OASIS),每秒浮点运算达67亿亿次,存储带宽每秒2T,通信带宽每秒800G,百亿小文件随机读写延迟小于500微秒,以适应大模型训练对数据量、吞吐速度和计算效率的要求。
小鹏汽车发布的智算中心扶摇每秒浮点运算60亿亿次。神威·太湖之光超级计算机的峰值性能为12.5亿亿次/秒,持续性能为9.3亿亿次/秒。
67亿亿次的浮点算力,按照英伟达A100每片3.2万美元的价格计算,成本约10亿元左右(人民币汇率按照6.8计算)。
毫末此前与阿里云合作智算中心,此次自建可见其决心。
自建智算中心之外,毫末还通过达模型对数据处理能力进行提升。
视觉自监督大模型一方面实现了包含时间标连续帧夹的一次性4D标注,而且对此前未进行连续标注的单帧数据进行了完善标注,将标注成本降低98%。
3D重建大模型能够对真实场景进行仿真重建,在其中获得海量corner case(长尾场景)。
人驾自监督认知大模型则类似于影子模式,通过人类驾驶员的接管反馈,训练出更加拟人化的架势策略。
张凯介绍,毫末除了长城体系内的客户,已与其它品牌客户达成合作意向。目前毫末仿真工作在研发过程的覆盖率超过70%,研发效能较两年前提升了8倍;在工程化中,可以做到智能驾驶产品100%的一次性过线率。