锚定纯视觉,极越奔向自动驾驶“最终领先”
是不是来晚了?
作为后来者,吉利与百度合资成立的全新智能汽车品牌极越,成立两年来被屡次追问。如今,极越给出了一些答案。
10月17日,在首款产品极越01上市前夕,极越发布了其国内首个BEV+Transformer“纯视觉”高阶智驾技术方案。同时,极越与百度联合研发的国内首个占用网络技术(Occupancy Network,“OCC”)也首次对外公布,该技术的引入将进一步提升汽车机器人“纯视觉”高阶智驾能力。
目前,极越的这套纯视觉方案已在上海城区道路实现领航辅助驾驶,年内将在三个城市落地。尽管仍采用高精地图作为传感器之一,但该方案如果最终量产上车,极越则将成为特斯拉之后,第二个采用纯视觉方案的车企。
而纯视觉也被认为是难度极大,上限极高的自动驾驶技术方案。
“激光雷达可在短期内迅速提升系统表现,但存在上限。”极越CEO夏一平向《电动汽车观察家》表示:“长期来看,纯视觉在系统成本、迭代速度、数据闭环,甚至向端到端发展都具备优势。所以比较激进得把激光雷达干掉了。”
极越01将于10月底正式上市,并同步开启交付。如今,智驾已经成为中高端电动汽车必备要素。高阶智能化能力特别是智能驾驶,也是极越01主打卖点。因此,极越表示极越01上市可做到业界领先的“开箱即用”。不过,具体的智驾量产方案,还要等上市的时候才确定。
但无论如何,在下一阶段智驾方案上,在业界比较有共识的纯视觉方向上,极越的探索走在了前面。
01
放弃激光雷达,锚定纯视觉方案
极越01
“我跟王亮(百度智能驾驶事业群组技术委员会主席)说,这个事情(选择纯视觉路线)就这么干了。”夏一平表示,极越在4月份左右坚定了纯视觉的技术路线,
“又想保激光雷达,又想搞纯视觉,很可能最后两个都搞不好。方向是对的,就把干激光雷达的资源干纯视觉,说不定干出来的结果,比两条腿走路更好。”
在激光雷达和纯视觉方案之间,极越做过很大的摇摆。
早在2021年年初讨论极越智能驾驶的项目方案时,夏一平和王亮便考虑过纯视觉方案,但最终出于安全考虑仍增加了两个前向激光雷达。
2021年年底,极越骡子车(Mule Car,白车身装载设计底盘和动力系统)基于英伟达Xavier平台30TOPS的算力,跑通固定路线的高速和城市领航功能;
2022年年初,极越智驾系统切换至258TOPS×2的双Orin-X平台上。当年十月份,感知硬件位置固定的样车准备就绪后,极越开始重写智驾系统的算法架构,以应用BEV+Transformer的新技术方案。
2023年年初,取消激光雷达被正式提上讨论议程,并在四五月份最终确定。确定取消激光雷达后,极越在全国投入数百辆车进行BEV的泛化,和地图完善的工作。
王亮表示:最终应用纯视觉方案,经过了量化的标准质量体系,和用户、高管试驾体验,这样客观加主观的双重考验。“在摄像头沾上泥等极特殊情况外,其它大部分体验(相比有激光雷达的方案)要没有什么起伏,我们才能允许这个东西上。”
17日,极越官方发布了一台仅搭载纯视觉感知架构的极越01跑完了上海陆家嘴-外滩-南浦大桥等路段,全程零接管的“一镜到底”路试视频。
02
纯视觉的下一步:上占用网络,去图
“(基于纯视觉方案),我们现在选路试的Demo路线都更加容易。我自己点到点能开很多地方。”夏一平表示极越选择纯视觉路线主要出于三点考虑:
其一:BEV+Transformer的“纯视觉”方案在性能上具备追平激光雷达方案的能力,并且性能上限极高;
其二:纯视觉方案有利于数据驱动。相比视觉+激光雷达,两套感知算法进行融合的方式,一套硬件一套算法在数据采集、标注、分布、训练上的效率更高;
其三:去掉激光雷达有利于降低系统成本,从而使高阶智驾能力落地普惠的能力更强。
之前的信息显示,极越01将配备双激光雷达、双Orin-X,5个毫米波雷达、12个超声波雷达、12个自动驾驶高清摄像头、1个驾驶员红外感知摄像头和2个高精度定位单元作为智驾的主系统硬件方案。
此外,座舱域的8295芯片还将支持智驾方案的冗余安全系统。
之前,极越的前身集度,采用禾赛AT128激光雷达方案,如果最终量产方案取消激光雷达,则意味着智驾系统的BOM成本下降1万元左右(按照AT128售价6000元计算)。如果超声波和毫米波雷达也去掉,则进一步降低成本。
不过第一阶段,极越的方案并称不上真正的纯视觉,其仍需要在高精地图覆盖的范围内才能启动,无图的路段则将降级为增强LCC类的辅助功能。
对此王亮表示,去图比去激光雷达更加困难。极越将从现在依赖高精地图向轻地图,最终无图化的方向发展。
极越OCC占用网络技术演示
此外,“今年基本上OCC也会直接上车了。因为一些场景下,没有OCC的纯视觉表现和激光雷达还有一些差距。我们要保证产品在市场上和其它竞品的竞争力,所以我们整个技术上走得比较激进。”
面向终局的端到端(数据输入端-执行指令输出端)方案中,极越或将采用感知和决策两个大模型,通过数据对骨干网络进行联合优化的模式来演进。
“一步一步很踏实地做。可能5年甚至更长时间,(完整端到端)的大模型才能运用到车端。那时候可能需要新一轮的重写。”王亮表示。
03
极越为何能率先拿出纯视觉?
纯视觉方案因其数据和硬件特性,被认为极有可能是自动驾驶的终局路线。
一方面,视觉图像丰富的纹理信息,不仅含有自动驾驶系统所需的道路环境信息,而且还有通用智能所需的世界知识。通过学习,自动驾驶系统不仅可以学习驾驶本身,甚至能够理解世界的底层规则。
例如特斯拉V12的演示中,由于95%以上的人类驾驶员在停止标志前不会完全刹停,FSD V12也就依此“潜规则”低速通过停止标志。
另一方面,只用计算芯片和摄像头的硬件成本则更低。
例如特斯拉HW3.0的硬件成本占比整车只有3%左右,而国内高阶智驾系统的硬件成本占比通常在10%。更低的硬件成本意味着更多的车型搭载,从而获得更多的数据。而数据,正是以神经网络为代表的自动驾驶系统迭代的进步的燃料。
但能力上限极高的纯视觉方案,技术难度也极大。目前国内小鹏、华为仍采用激光雷达的融合方案,并开始逐步摆脱高精地图。极越作为一个后来者,新玩家,为何敢先上“纯视觉”方案?
夏一平
夏一平表示,极越的纯视觉方案并非几个月内产生的无根之木。
在算法上,极越的BEV+Transformer架构,是基于此前百度阿波罗的纯视觉方案。
2019年,百度阿波罗内部启动了“uplight”项目,采用纯视觉方案做L4级自动驾驶出租车,从2019年到2021年的三年时间内,uplight可在北京亦庄的自动驾驶出租车上实现无接管的点对点自动驾驶闭环运行。
2021年年底,uplight基于Transform和BEV对算法进行了底层重构。
2022年12月,百度阿波罗发布了ANP3.0路测视频。其中收费站灵活、无保护左转、过红绿灯、近距离切车应对、路口非机动车应对等能力都是由纯视觉方案进行。
在数据方面,王亮表示,百度的自动驾驶出租车,和其背后高度自动化的数据闭环体系是极越做纯视觉的底层基础。
目前,百度在全国范围内有上千辆自动驾驶出租车在运行,实际驾驶里程超过了3200万公里。相比之下,截至2022年年底,特斯拉FSD Beta行驶里程超过1亿英里,约1.6亿公里。
但特斯拉等车企受限于流量费用,只能上传里程数的一小部分数据,阿波罗的数据是全量上传。“是一个超级大的数据集,我们去里面筛选,像一个大图书馆一样,你能读的书其实足够的。”王亮表示。
云端的大算力,也是纯视觉路线“大模型、大数据、大算力”轮动效应成立的前提。
目前百度阿波罗的算力储备无从得知。但根据IDC的统计显示,2022年,百度阿波罗自动驾驶云以34.4%的市场份额排名第一;华为、阿里云、腾讯云、亚马逊云科技(AWS)分列第二至五名,市场份额分别为29.7%、9.2%、5.0%、3.4%。
“再先进的技术也是用来解决实际问题的。”夏一平表示,在纯视觉方案之前,其对完全自动驾驶的实现时间估计为10年左右。而从极越01开始,这一估计将缩短至3-5年。