返回旧版

算力的理性回归:自动驾驶下半场的算力之争

解决方案

解决方案

在汽车智能化转型的下半场,算力已不再只是硬件参数的堆叠,而是衡量车型智能化水平的关键标尺。所谓算力,即车载计算平台在单位时间内能够完成的计算操作次数,它决定了车辆能否在复杂道路环境中“看得清、想得快、动得准”。随着自动驾驶等级从基础的驾驶辅助向高度自动驾驶乃至完全自动驾驶演进,算力的角色正从辅助工具转变为核心驱动力。

从2026年北京车展上也不难看出,行业竞争已从整车单点性能的比拼,升级为“算力+算法+数据+生态”的全产业链对抗。理想L9 Livis搭载两颗自研5nm马赫100芯片,综合算力达2560 TOPS;蔚来ES9配备自研神玑芯片,算力超过1000 TOPS;小鹏GX则宣称搭载四颗自研图灵AI芯片,本地有效算力达到3000 TOPS。这些数字背后,标志着算力已成为车企智能化竞争的核心焦点。


一、算力的作用是什么?

要理解算力的作用,首先需要厘清自动驾驶系统的基本运作逻辑。一个典型的自动驾驶系统由感知、决策、规划与控制四个核心环节构成。

1. 感知阶段:算力作为环境建模的物理基础

在感知阶段,车辆搭载的摄像头、激光雷达、毫米波雷达等传感器会产生海量原始数据。以一颗高清摄像头为例,其每秒产生的原始图像数据量可高达数百兆比特。此时,算力负责对这些非结构化数据进行实时解析,这要求芯片具备极强的并行处理能力,通过复杂的神经网络算法,在毫秒级时间内识别出行人、车辆、车道线及交通信号灯状态。在这一过程中,算力既是支撑感知算法从二维图像向三维空间投影的物理基础,也是实现全向环境建模的前提。

随着感知技术从早期的简单目标检测演进到如今的BEV(鸟瞰图)与占用网络,算力消耗呈指数级增长。从CNN到Transformer+BEV,算力需求从20~30 TOPS直接跃升至200+ TOPS,增幅接近一个数量级。BEV架构要求将多个不同视角的摄像头画面统一转换到同一个空间坐标系下,这高度依赖Transformer的注意力机制——它能让系统像人眼一样,通过对比不同传感器在不同时间点的数据,聚焦关键信息,从而建立起对环境的深度理解。这一机制虽显著提升了感知的准确性与鲁棒性,但其背后的空间变换和矩阵运算量极为惊人,对车载芯片的瞬时吞吐能力提出了极高要求。

有研究指出,相比传统CNN,Transformer的计算需求量提升了约100倍,但其中超过90%的计算贡献的价值极低,导致大量功耗被浪费。以小鹏G6的XNGP系统为例,仅BEV模块就消耗了60%的算力资源,城市NOA运行时双Orin-X芯片功耗接近40W,致使续航里程有所缩水。极氪千里浩瀚智驾系统的算力分配也印证了这一点:在其双Orin-X方案中,BEV网络占用200 TOPS,Occupancy网络占用150 TOPS,强化学习模块占用100 TOPS,剩余算力仅用于冗余备份。

2. 决策与规划阶段:算力作为逻辑推理者

在感知之后的决策与规划阶段,算力则扮演逻辑推理者的角色。自动驾驶系统需要根据感知到的动态环境,预测周围行人或车辆在未来数秒内的可能路径,并计算出最安全、最平稳且最符合交通规则的行驶轨迹。在城市场景中,由于参与者众多且行为高度不确定,系统每秒钟可能需模拟数千种潜在行驶路径,并从中选出最优解。这种大规模的路径搜索与概率计算同样离不开强大的计算资源。若算力不足,系统可能出现决策迟滞,导致车辆在复杂路口犹豫不前,甚至因无法及时响应突发状况而引发安全风险。因此,算力在此阶段是保障行驶效率与安全性的核心屏障。

自动驾驶算力


二、算力越高就越好吗?

谈及算力时,TOPS(每秒万亿次操作)常被提及。那么,算力是否越高越好?事实上,许多公布的数据中,标称的TOPS代表芯片在理想状态下的峰值理论性能,而在实际应用中,芯片的真实表现受限于有效算力利用率,这就引出了“算力利用率”这一核心概念。

 

1. 有效算力利用率与存储墙问题

行业实测数据显示,传统通用GPU架构因大量晶体管用于指令调度而非有效计算,实际算力利用率普遍低于40%。更严峻的是,通用芯片超过70%的功耗消耗在数据搬运上,真正用于计算的功耗不足30%,标称算力的实际利用率通常仅为25%~35%。一颗标称500 TOPS的芯片,若其内部架构与主流算法不匹配,或数据流转过程中出现阻塞,实际可能仅发挥出50 TOPS的效能,再高的标称数字也失去意义。因此,衡量算力优劣不仅要看总量,更要关注单位功耗下的有效输出,即PPA(功耗、性能、面积)的综合平衡。

当前阻碍算力充分发挥的主要瓶颈之一是“存储墙”问题。在自动驾驶计算任务中,数据需要在计算核心与存储单元之间频繁往返。随着模型规模增大,数据搬运量激增,若芯片的内存带宽跟不上计算核心的速度,计算单元便会因等待数据而处于闲置状态。对于基于Transformer架构的智驾大模型,90%的性能瓶颈并非来自计算单元的算力不足,而是算存分离架构带来的内存墙问题。通用芯片的传统架构中,计算单元与存储单元完全割裂,Transformer推理所需的权重和特征数据绝大部分存放在片外DRAM中,每次计算都要进行长距离搬运。

研究显示,在传统CNN架构中,计算与带宽的需求比例约为100:1到1000:1,而在Transformer架构下,这一比例显著缩小至1:1到10:1。这意味着芯片的片上带宽和总线速度正逐渐取代峰值算力,成为制约系统性能的真正瓶颈。若硬件架构未针对Transformer的计算特性进行底层重构,单纯增加计算单元只会造成硬件资源的巨大浪费。正因如此,行业开始从单纯堆叠算力转向追求有效算力。

2. 架构创新的案例:蔚来神玑NX9031

蔚来神玑NX9031芯片便是量产上车、从底层实现近存计算架构的车规级智驾芯片。它将超过95%的Transformer数据访问限制在片内完成,片外DRAM访问量直接降低87%,峰值算力利用率高达92%。这意味着其标称1000 TOPS的INT8算力,实际可用稳定算力可达920 TOPS;而四颗Orin X标称总算力1008 TOPS,在30%的实际利用率下,可用算力仅300 TOPS出头。这正是架构创新带来“一颗顶四颗”效果的根本原因。

3. 软硬件协同优化

此外,软硬件协同优化也是决定算力效能的关键。为了让算法在有限资源下运行得更快,开发者常采用剪枝和量化技术。剪枝通过识别并剔除神经网络中对最终结果贡献较小的神经元或连接,降低模型计算复杂度和权重存储空间;量化则将原本高精度(如32位浮点数)计算转化为低精度(如8位整数)运算,从而大幅提升计算速度并降低功耗。这些技术虽能减轻算力压力,但高度依赖芯片硬件对特定计算模式的支持。一款优秀的自动驾驶芯片应是为特定算法量身定制的加速器——例如地平线的BPU架构专为神经网络设计,在处理特定感知任务时,能效远高于通用GPU。

 

 
 
芯片架构类型 算力灵活性 有效利用率(针对AI) 典型功耗表现
通用GPU 极高(可运行各类模型) 中等(数据搬运开销大) 较高(通常100W以上)
专用ASIC(如BPU) 中等(需硬件适配算法) 极高(针对性流水线) 极低(通常30-40W)
传统FPGA 高(硬件可重编程) 较高 中等
车载NPU 较低(专注矩阵运算)

不同架构芯片在处理自动驾驶任务时的效能特征对比


三、算力应如何适配硬件?

算力并非凭空产生,背后是实实在在的能源消耗。对于电动汽车而言,车载计算平台、传感器与散热系统共同构成巨大用电负荷,直接影响续航里程。在开启高级别自动驾驶功能时,计算系统的功耗会使电动汽车续航显著下降。城市拥堵路况下,因行驶速度慢、环境复杂度高,计算平台长时间处于高负载状态,续航降幅甚至可达30%。这种智能与节能之间的冲突,要求车企在规划算力方案时保持克制,找到既能支撑功能需求、又不过度消耗能源的平衡点。

除了电量消耗,高算力带来的散热问题同样棘手。高性能芯片满负荷运行时会产生大量热量。若散热不畅,芯片会因过热触发限频保护,导致算力瞬间跌落,这对实时性要求极高的自动驾驶场景极为危险。为解决这一问题,许多高端车型不得不引入昂贵且复杂的液冷系统,这不仅增加了硬件成本,也提升了整车重量。因此,算力的“高”必须建立在“高效”的基础上。

这一点在产业实践中已得到充分验证。英伟达基于Blackwell架构的AGX Thor芯片,虽然算力高达2070 FP4 TFLOPS,但功耗控制在130W,实现了极高的能效比,这也是其能够支撑L4级智驾与生成式AI的关键。在车载环境下,每一瓦特电能都极其珍贵,追求极低功耗下的高性能(高TOPS/W)才是芯片研发的终极目标。过于冗余的算力若不能转化为显著的体验提升,反而会成为续航和成本的负担。

此外,自动驾驶算力的爆发式增长也会对环境产生影响。若全球范围内的大型车队都配备高功耗计算平台,其产生的温室气体排放量将不容小觑。有研究指出,如果未来有十亿辆自动驾驶汽车每天行驶一小时,其计算机功耗产生的碳排放甚至可能相当于全球现有数据中心的总量。在这一背景下,开发更节能的算法和更先进的半导体制程,不仅是商业成本的考量,更是实现自动驾驶技术可持续发展的必要举措。当前,通过多传感器融合、减少冗余计算以及优化交通流管理,自动驾驶系统在某些情况下可以抵消一部分自身功耗带来的负面影响,实现整体能效的提升。


四、数据驱动时代的云端算力与端到端演进

随着自动驾驶技术进入端到端大模型时代,算力的竞争赛道也在发生改变。所谓端到端,是指通过一个单一的深度学习模型,直接将传感器图像信号转化为车辆控制信号。这种架构不仅代表了自动驾驶从代码驱动向数据驱动的转变,更对算力提出了全生命周期的需求。在这一阶段,算力不再局限于车端,而是大量向云端智算中心倾斜。

1. 云端算力:训练的核心资源

云端算力负责消化从全球车辆回收的千万级驾驶数据,通过不断模拟与训练,让模型像人类一样掌握处理复杂极端场景的能力。行业普遍认为,“端到端千卡是门槛,万卡是入场券”,没有万卡以上的计算规模,很难在端到端技术的竞争中保持第一梯队。小鹏汽车自动驾驶负责人李力耘透露,小鹏已建成国内汽车行业首个万卡智算集群,算力储备达10 EFLOPS,集群利用率常年高达90%以上,从云到端的全链路迭代周期平均为5天一次。小鹏用于训练基座模型的视频数据量高达2000万clips,这一数字在2026年将增至2亿clips。

此时,云端算力规模直接决定了算法迭代的频率与天花板的高度。在云端,算力竞赛已演变为一场资金与资源的竞争。进入2026年,自动驾驶规则模块化的小模型时代已经结束,下半场是大模型——即物理世界的基座模型。为训练千亿参数级别的自动驾驶模型,头部企业正在建立拥有数万张高性能GPU的计算集群。这种超大规模的计算资源能够模拟出人类驾驶员一生都难以遇到的罕见工况,并让模型在短时间内完成学习。

2. 车端算力:安全冗余与挑战

而在车端,端到端模型虽然能够减少对高精地图的依赖并处理更复杂的交互,但其推理过程的黑盒特性与计算负载仍是一大挑战。为确保安全,许多车企采用递进式演进策略,从感知端到端逐步过渡到全流程端到端,同时在车端保留必要的计算冗余作为安全守护。

3. 产业界对算力需求的分化判断

值得关注的是,端到端时代产业界对于算力需求的判断也在持续分化。面向L3、L4级自动驾驶,车端算力需求仍将显著攀升。车百会理事长张永伟预计,2026年起伴随世界模型及L3上车,车端算力将快速突破1000 TOPS;至2028年,L3/L4量产或推动算力需求达2000 TOPS以上。黑芝麻智能创始人兼CEO单记章则指出,智能汽车的底层逻辑正从功能驱动迈向物理AI驱动,VLA模型配合世界模型将成为高阶智能驾驶的最佳解决方案——世界模型可以推演未来5至10秒内各个目标的交互,大幅提升驾驶水平。而地平线创始人余凯给出了更长周期的时间表:2028年行业实现100%脱手驾驶,2030年进入L4区间,2035年进入“睡着开”的终局。

4. 算力的普惠化实践

在产业实践中,算力的普惠化正在加速推进。轻舟智航基于地平线单征程6M芯片(仅128 TOPS)的城市NOA方案已实现量产上车,验证了用更小算力承载高水平城市NOA的可行性。卓驭科技更进一步,推出7V+32 TOPS芯片组合方案,目标让售价10万元以下的A0级电动车也能标配智能辅助驾驶功能。在算力供给端,英伟达Thor芯片(单颗2000 TOPS)已与比亚迪、理想、极氪、小米等车企达成合作并进入量产阶段;小马智行更基于双Thor配置,推出算力高达4000 FP4 TFLOPS的下一代L4级自动驾驶域控制器,加速Robotaxi的大规模商业化部署。黑芝麻智能华山A2000家族覆盖200 TOPS至1000 TOPS全场景算力,其创始人单记章透露,2026年芯片出货量将远超千万颗。


五、最后的话

未来,自动驾驶的算力需求仍将持续增长,但其形态将趋于理性和多元。算力的增长不再单纯追求数值领先,而是向着更精准的业务场景收敛。未来的汽车将是一个移动的智能终端,其算力分配将实现车端与云端的动态平衡:车端算力负责实时决策与安全兜底,追求极速响应与极致能效;云端算力负责深度学习与知识进化,追求规模效应与模型涌现。只有当算力、算法与数据三者达成深度的协同平衡,自动驾驶才能真正走出实验室,成为每一位普通消费者都能享受到、且用得起的安全出行方案。算力作为这项技术的数字引擎,其最终价值在于将复杂隐藏在底层,留给用户简单、自然且可靠的驾驶体验。


四信车载通信产品推荐

四信FTV300 是一款专为智能车联网领域开发的5G车载网关,集成了新一代车联网通信、定位与边缘计算能力,为车辆提供稳定可靠的网络连接服务。该产品通过5G蜂窝网络和双频WiFi构建高速数据传输通道,提供高速、不间断、安全的网络接入,为车辆管理构建可靠且易于扩展的车联网系统,全面提升管理与运营效率。产品采用抗震设计、M12接口及宽电压输入,满足各类车载应用场景的需求。

更多详情案例,请联系我们的专家团队