悄无声息间,“端到端”的智驾竞争已经演进至第二阶段。
最直观的一项变化是,2025年1月始,各家车企的“车位到车位”功能将逐渐上车,开启“城市NOA开城大赛”“端到端上车大赛”之后的又一场“战役”。
在2024年,理想、华为、特斯拉已经冲刺在了“第一线”,开启了“车位到车位”功能的推送,Momenta虽然没有用“车位到车位”功能来形容,但其已经发布了“一段式端到端”量产智驾大模型。2025年,小鹏、极氪、小米、元戎启行等,也均将正式进入“车位到车位”功能竞赛的战场。
“车位到车位”的概念由华为在2024年4月首次提出,其所描述的技术就是采用端到端架构的ADS 3.0。因此,“车位到车位”功能竞争的表象下,本质是端到端智驾上车的竞争。
但在端到端智驾系统的火爆背后,技术路线的分歧正在逐步显现。目前,业内多将端到端智驾技术分为一段式端到端、两段式端到端,以此作为划分,大部分企业仍然在“两段式端到端”的阶段,距离“一段式端到端”还有一定距离。
北汽新能源商创中心解决方案业务总监梁耕龙和北京理工大学汽车研究所所长、教授龚建伟等曾公开对外表示,一段式端到端是终极目标。有行业观点判断,2025年将是“一段式端到端”的冲刺之年。
不过也有观点指出,很难用一段式、两段式作为划分端到端技术演进程度的标准。此外,除了“端到端”之外,多模态大模型也成为了技术焦点。VLM(视觉-语言模型)、VLA(视觉-语言-动作模型)等概念,与端到端一同站在了技术的聚光灯下。
伴随着2025年的到来,争议与挑战下,智能驾驶技术正在持续分化。在端到端智驾上车的过程中,智驾的效果也将直接通过市场反馈,间接影响智驾路线的收敛、智驾公司的生存。
01 华为、理想、特斯拉带头上车
“车位到车位”功能、端到端架构,正在竞相上车。
这场竞争始于2024年,华为、理想、特斯拉是率先落地这一功能的三家企业。
2024年11月,向理想L系列AD Max用户和理想用户全量推送“车位到车位”功能;2024年12月,鸿蒙智行全系已陆续开启全量推送HUAWEI ADS 3.0“车位到车位领航辅助 Beta”;2024年12月,特斯拉FSD v13 开启推送,实现了“从车位到车位”这一功能。
2025年,更多的参与者将加入竞争。
2025年1月底,小鹏P7+的“车位到车位”功能预计于XOS 5.5.0正式版全量上线;极氪也预计将于2025年1月左右分批推送“车位到车位”领航辅助功能;元戎启行计划在2025年一季度向部分种子用户推送“车位到车位”的功能;小米汽车在2024年12月开始了先锋版推送。
““车位到车位””功能指的是,从原始车位出发到目的车位,车辆全场都能够进行智能驾驶。这一功能主要借助于端到端智驾技术实现,因此被认为是一种将“端到端”具像化的技术传播话术。
具体的效果层面上,“车位到车位”在两方面有所突破,一是智驾出行的场景覆盖度,二是智驾功能的连贯、流畅度。
在“车位到车位”上车竞赛前,智驾行业的竞争还处于“开城大赛”“全国都能开”的竞争阶段,即互相PK彼此的城市NOA功能能在多少座城市使用,是否全国都能使用。彼时,城市NOA功能指的单单是在城市道路的场景中,实现点到点的辅助驾驶。
而“车位到车位”则将这场竞赛拉到一个新高度。在场景覆盖度方面,“车位到车位”实现从高速、乡间小路、隧道、城市道路、停车场等场景的全覆盖;在连贯、流畅度方面,“车位到车位”要做到在各种场景间顺滑切换,实现全程无接管。
一个细节是,华为、理想等“车位到车位”智驾系统,均能够自动通过此前需要驾驶员操作的场景,比如高速ETC、停车场闸机等。这也被视作该智驾系统的特点之一。
02 路线争论
在“车位到车位”的功能名称背后,车企/品牌背后的“端到端”技术思路有相似,也有区别。
在“端到端”架构火爆之前,智能驾驶系统大致由三个核心板块组成,包括感知、决策、规控。“端到端”架构则去掉决策、规控等功能的明确划分,多个流程融为一体,在该系统内,感知信号输入后,直接进行决策信号输出。按当下的“一段式端到端”和“两段式端到端”做为区分方式,这被称为“一段式端到端”。
与之相比,“两段式端到端”的架构稍微复杂一些。其仍然保留了两个流程。一般来说,第一个流程仍然是感知,第二个流程为决策、规控。
华为、理想、特斯拉系统的区别在于,华为落地推送的智驾方案采用了两段式端到端,而理想智驾方案中“端到端”的部分则采用了一段式端到端。由于特斯拉自2023年开始不再举办AI Day,外界对其智驾系统的信息所知不多,但有信息显示,特斯拉FSD Beta V12为一段式端到端。
值得一提的是,目前华为正在向“一段式端到端”努力。据媒体报道,2025年,“一段式端到端”智驾方案将是华为车BU的重点。
但除了端到端本身之外,三者选择的系统模式也不同。比如,华为在ADS 3.0端到端智驾系统中,除了感知和决策规划这两段之外,还额外加入了本能安全网络。决策规划后的信号必须经过本能安全网络,才会最终输出到车辆的执行机构,以确保安全。
而理想采用了“双系统”的模式,包括端到端和VLM视觉语言大模式。其用“快系统”(端到端架构)处理简单任务,让基于经验和习惯形成的直觉应对95%的场景,而“慢系统”(VLM,视觉语言模型)则是用逻辑推理、复杂分析和计算能力来解决复杂、未知的约5%交通场景。
虽然没有官方信息披露,但根据已有信息,特斯拉可能并没有采用更复杂的网络结构。这也意味着,三家“车位到车位”功能的“领头”企业,分别采用了三种不同的技术架构来实现这一功能。
这从侧面展现出了当下行业中混战的一角。
第一场混战是:“一段式”还是“两段式”。
两个架构相比,“一段式端到端”更贴近定义“端到端”的定义。“‘一段式’方案很难,但一旦模型学出来能力会很强,这才是我们追求的自动驾驶里面的‘ChatGPT’时刻。”商汤科技联合创始人、首席科学家、绝影智能汽车事业群总裁王晓刚曾说。
但是,并非所有人都对“一段式端到端”持支持态度。百度智能驾驶首席研发架构师、百度智能驾驶事业群组技术委员会主席王亮曾表示,一段式端到端模型的黑盒系统使得控制系统输出的内容变得困难,缺乏透明度,工程师在调试系统决策逻辑时也面临挑战。
不过,《端到端⾃动驾驶⾏业研究报告》也指出,缺乏“可解释性”并不会成为限制端到端模型应用的问题。比如,与其性能较传统算法的显著提升相比,可解释性成为一个次要考量因素。
第二场混战是:多模态大模型用VLM还是VLA。
在业内不少专业人士眼中,端到端架构与多模态大模型的结合,将是“端到端”路线下一步的发展方向。“去年开始讨论端到端,仿佛‘端味儿’的浓和淡代表了技术的领先性。到了今年,只讲端到端可能也不够了,大家开始研究多模态大模型。”2025年1月,地平线智驾科技畅想日上,地平线创始人兼CEO余凯调侃道。
所谓多模态大模型,指的是在多种数据模态(如文本、图像、声音等)上进行训练的人工智能模型。理想的VLM(视觉-语言模型),以及基于此更进一步的VLA(视觉-语言-动作模型),都属于多模态大模型。
采用哪种多模态大模型,相关观点在不断碰撞。
目前,VLA备受追捧。“奇瑞的智能化也不客气了。”2024年10月,奇瑞宣布,将在2025年落地端到端+VLM智驾系统,将在2027年落地端到端 VLA 大模型。元戎启行CEO周光曾说,现在所有的方案都是端到端1.0,元戎启行已经投入了更多的精力在VLA模型,这才是端到端2.0。
王晓刚则认为,不否认VLA是端到端的下一代技术方向,只是不会那么快。
此外,要不要做并行系统,行业观点各不相同。
理想用人类大脑的思考和逻辑的原理,来解释采用“双系统”的逻辑。但有观点认为效果并不会好。
“(双系统)是一个落后的架构,可能比新手司机会强一点。打个比方,VLM像是让车上坐了一个教练。”周光说。
但“双系统”也被认为更加务实。“我们自己选择的是一条比较务实的道路,系统的内核完全是一段式的端到端数据驱动,但是在数据比较稀疏,短期内用更大数据量也很难收敛的时候,也会用一些有经验的工程师做一些规则的东西,可以认为是双并行的系统,目前实践下来是最有效的。”地平线副总裁兼首席架构师苏箐说。
如果只看技术概念,在VLA之外,“世界模型”正在成为新宠。CES 2025上,英伟达发布的Cosmos世界基础模型,可以通过创建合成训练数据帮助机器人和汽车理解物理世界。地平线面向量产的端到端世界模型World Model,可实现全场景无差别的智能驾驶,为用户带来超越“老司机”的拟人化驾驶体验。
技术路线的争论意味着,暂时没有一条路被证明是“最终路线”。智能驾驶,正在技术变革中被不断重塑。
03 谁能胜出?
技术有周期,人无再少年。
换言之,智能驾驶技术路线,可以不断在变迁中进行修正、重塑,但是智驾企业——尤其是初创智驾公司,在不高的容错率下,则很难有“再来一次”的机会。
2024年是分化的一年,有智驾企业喜讯频传,纷纷“组团上市”。也有智驾企业风波不断,禾多科技、纵目科技均陷入泥沼。
头部智驾企业/车企,如特斯拉、华为、理想,正在技术探索的道理上埋头前进,而对第二阵营的智驾公司而言,路线抉择或许将决定生死。
四维图新CEO程鹏也曾表示,从资金角度分析,2024年没上市的公司2024年就会开始倒闭,而即便2024年上市了的智驾公司,融资额可能只能撑一年,2026年就撑不住了。因此,他认为,2026是一个变局的点。
《端到端⾃动驾驶⾏业研究报告》也指出,中性预期One Model 端到端系统从2026年至2027年开始上车量产。
因此,从2025年到2026年,智驾公司可能将面临最紧张的一轮淘汰赛。那么,要在端到端、多模态大模型的趋势中脱颖而出,要做好哪些准备?
“我认为拐点到来的技术三要素:第一,领先的算法;第二,足够大的算力;第三,海量丰富的数据。”余凯说。
从智驾公司的角度来看,市场考验的无外乎也是这三大要素的储备。
算法方面,端到端、多模态大模型等算法框架引领了行业方向,公司主要需要储备足够多的技术人才进行算法研发。这涉及两方面的能力,一是公司领导者的魅力、魄力、吸引力,二是公司提供资源的能力。当下智驾人才的高流动,正反映出智驾技术战背后的“人才战”。
算力方面,模型训练算力和车端算力都需要得到提升,以满足更优秀的模型的需要。模型训练算力较为考验财力和先天优势,比如特斯拉是英伟达H100芯片的最大客户之一,但是该芯片被禁止出口至中国。《端到端⾃动驾驶⾏业研究报告》显示,大部分研发端到端自动驾驶的公司目前的训练算力规模在千卡级别,随着端到端逐渐走向大模型,训练算力将显得捉襟见肘。
车端算力则主要是需要在追求芯片算力的同时,进行芯片性价比的平衡。实际上,蔚来、小鹏、理想、Momenta等企业均在开发智驾系统的同时进行芯片研发,软硬件研发的结合,能帮助其做好算力与成本的“性价比”,同时实现软硬件结合的全局最优。
而芯片制造商如地平线、英伟达,则开始进行软件系统研发。地平线SuperDrive智驾系统将在2025年量产落地,目标以捅破天的高阶智驾方案,加速推动智能驾驶在三年迈入“handsoff”的新阶段。
数据方面,端到端架构较为依赖数据驱动,训练数据的重要性得到进一步增强。数量方面,训练数据的来源有二,一是真实场景数据,二是模拟场景数据。目前后者还在发展之中,前者则严重依赖数据采集团队和产品落地。质量方面,系统需要优秀驾驶员所提供的数据来进行迭代,以达到“老司机”水准,但这对数据质量提出了极高的要求。
不过在智驾领域内,并不是所有企业都能够兼有算法、算力、数据。不同的企业可以设计不同的智驾技术发展路线图,来满足技术发展的需求。只不过,其中存在快慢之别。
“采用一段式端到端技术的成本相对较高,所需的算力投入可能会显著增加,而分段式技术的成本则相对较低,因此在选择技术方案时,企业需要综合考虑成本和技术能力的平衡。”北京理工大学汽车研究所所长龚建伟曾说。
对端到端智驾发展路线来说来说,“一段式”还是“两段式”是局部的争议;对一家企业来说,技术的发展走哪条路也是“局部”的选择。“局部最优”并不意味着“整体最优”,实现了“整体最优”,才机会能够健康成长。