通八卦网 > 汽车 > 正文

​车端的地平线,瞄着云端的英伟达

2022-11-09 15:03 来源:网络 点击:

车端的地平线,瞄着云端的英伟达

导语

Introduction

你有 GPU,我有 DSA。

作者丨王小西

责编丨李思佳

编辑丨朱锦斌

说到 AI 芯片领域,最近的一件大事是,10 月 13 日地平线和大众旗下软件公司 CARIAD 官宣合作。双方成立合资企业,CARIAD 控股 60%,投资约 24 亿欧元,预计会在 2023 年上半年完成。

这算是地平线迄今为止最重磅的一个合作。而一个插曲是,半年前地平线才宣布第三代产品征程 5 芯片首个定点合作,花落比亚迪,上车时间 2023 年。不过,有意思的是,比亚迪同时也将投产搭载英伟达 DRIVE Orin 计算平台的车型。

而公社 C 次元最近一篇文章《英伟达不要的,地平线都要》,对地平线和英伟达在汽车领域 AI 芯片应用的竞争情况也做了介绍,所以,这篇我们就科普科普,到底这两家企业竞争些什么,以及车企的选择背后是怎样的考虑?

都是 AI 芯片,有啥不一样?

论及双方,他们的产品都是用于自动驾驶领域的 AI 芯片。但是区别还是很大的。

AI 芯片的应用场景,主要分为云端和终端,还有边缘端。目前,云端应用的更多,相对成熟。此外,云端应用又可分为训练和推理两种,其中训练的市场规模占比较高。

云端应用的霸主,就是英伟达。而云端(服务器、数字中心)和终端(手机、智能汽车等移动端)应用场景中,AI 芯片的运算方式有着本质性的差别。

比如,云端处理大批量一次性到达的累积数据(扩大批处理量,batch size),可以 " 等 " 数据 " 够了 " 再开始处理。但车端芯片则需要处理流数据,随着行驶(时间)陆续到来的数据;需要实时完成计算,尽可能得降低延迟。

对于交互性,终端要求更高。云端任务本身是限定在虚拟世界,无需考虑与现实世界的交互。终端则身处现实世界,每一个任务都需要考虑交互性。

此外,功耗和成本在车端 AI 芯片的考量中也占据更重的分量。可见,对于汽车终端来讲,AI 芯片除了须保证计算能效,还有低功耗、低延迟、低成本的要求。

目前,AI 芯片主要有三种,分别是通用型的 GPU,可定制的 FPGA,以及专用的 ASIC。英伟达的 Orin 芯片,是基于通用 GPU。而地平线的征程 5 芯片,既是 ASIC 芯片,也是 DSA(Domain Specific Architecture 特定领域架构)芯片。值得注意的是,Orin 芯片的核心 GPU 架构仍是云端架构。

不过,对车企来说,芯片的兼容性越强越好,因为车企可以一步到位,而且无需再从头做验证,用一个芯片就能实现未来高阶智能驾驶的硬件预埋,为未来更高阶的智能驾驶做好准备。这也是很多品牌愿意选择英伟达 Orin 芯片的原因。

而地平线采用面向特定场景的软硬结合方法论来设计芯片,也就是 DSA 芯片的做法 , 极大提升了芯片的有效算力。但是,我们的疑问是,征程 5 芯片的极限到达后,更高级别的自动驾驶需求就要换用征程 6,那么,这个换装的综合成本,谁来买单承受呢?

除了算力,还有 FPS

除了通用和定制的区别,目前业内存在 " 唯算力论 ",好像芯片算力越高觉得越好。其实,这有失偏颇。实际上,还是要看 FPS(每秒传输帧数)才行。

FPS 通俗来讲就是指动画或视频的每秒画面数。FPS 是测量用于保存、显示动态视频的信息数量。简单来说,FPS 数值越大,性能越好。对于自动驾驶所有应用的计算平台来说,FPS 被认为是衡量先进算法运行效率的评价标准之一。

比如,在芯片算力上,单片英伟达 Orin 和征程 5 的算力分别为 254TOPS(每秒万亿次计算)和 128TOPS,功率为 45W 和 30W,功耗比分别为 4.6TOPS/W 和 4.2TOPS/W。征程 5 只有英伟达 Orin 的一半。

但是,征程 5 的 FPS(每秒传输帧数)却为 1283。比 Orin 的 1001FPS(基于同安培架构的英伟达 RTX3090 进行调整后测算得出)高出不少。地平线征程 5 画面传送视频的流畅度明显要好于英伟达 Orin。怪不得地平线 BPU 算法负责人罗恒要说," 能效上来看,我们(征程 5 相比 Orin)有 6 倍多的提升。"

其实,不仅是地平线以 FPS 来算帐。2017 年发布自研的 FSD 芯片时,特斯拉创始人马斯克便以此前应用的英伟达 Drive PX2 作比,从算力来看 FSD 是 Drive PX2 的 3 倍,但 FPS 是 Drive PX2 的 21 倍。

此外,低延迟性能也是衡量 AI 芯片性能的关键指标。因为,延迟问题直接关乎驾驶证安全。比如,在紧急制动场景下,100 毫秒意味着近 1.7~3.3 米的刹车距离。

而按照地平线的说法,征程 5 的 8M 单目前视感知结构化输出延迟小于 60 毫秒,比英伟达 ORIN 的延迟性能更好。而 Orin 芯片的低延迟数据未知。

所以,从 FPS 和低延迟、低成本来说,地平线在汽车领域的发展机会还是很大的,目前有超过 20 家车企的 70 多款车型应用了征程系列芯片,这也是地平线通过定制路线的 " 奇兵 " 收获的成果。

架构,决胜

而在第五波计算浪潮之下,决定芯片的核心,当然是架构。因为,架构是芯片企业最底层的核心技术,迭代成本巨大,也是最值钱的技术。

作为提出 DSA 架构的泰山北斗,John Hennessy 与 David Patterson 在获得 2017 年图灵奖时的获奖演说中指出:" 未来十年,将是计算机体系结构的黄金年代 "。这是一个很好的注脚。

而地平线的征程系列芯片,从其架构来说,经历了名为高斯、伯努利和贝叶斯的三代 BPU(Brain Processing Unit, 地平线自主设计研发的高效的人工智能处理器架构)架构。

从低到高,高斯架构主要处理感知,就是图像识别,识别摄像头,雷达,传感器等的图像,采用 40nm 工艺。而伯努利架构加入了深度学习,20nm 工艺。贝叶斯架构则是加入贝叶斯网络,结合深度学习来提高 AI 的准确率,16nm 工艺。

再来看英伟达。创立于 1993 年的英伟达厉害之处在于,1999 年发明 GPU(图形处理器),2006 年发布 CUDA 通用并行计算架构,实现了软硬解耦。开发者不必再使用高难度的 GPU 专用开发语言,而能使用通用性的编程语言调用 GPU 算力。

通过软硬解耦,将图形处理的专用芯片 GPU 变为适用于大规模并行计算的通用型芯片,英伟达站上 AI 时代的 C 位。对于地平线以及其他芯片企业来说,也是高山仰止、拼命追赶的对象。

而英伟达的 Orin 是基于Ampere(安培)架构,这也是推动英伟达数据中心业务增长近 9 成的主力产品架构。换句话说,面向高级别自动驾驶场景的 Orin,用的还是魔改的通用架构。这就像,今年大热的高通 8155 芯片,是从消费电子芯片魔改而来。

通用架构的好处是 " 上手容易 ",拿来就能用,而且工具丰富。不过,缺点是,很多硬件性能前期是浪费的,暂时用不上的。

那么,为什么站在云端的英伟达仍然在用通用架构?看看汽车业务占比就明白。

5 月 26 日,英伟达发布 2023 财年 Q1 财报(截至 2022 年 3 月),本季营收 82.9 亿美元,同比增长 46%。其中,由超大规模计算、云端和 AI 业务推动的数据中心业务占比 45.23%;显卡支撑的游戏业务占比 43.67%。汽车业务呢?微不足道,占比 2.1%。

地平线的营收情况,没有公开的披露。不过,2020 年《晚点 LatePost》曾报道,地平线 2020 年营收为 2~2.3 亿元,其中 70% 来自向车厂提供芯片等产品的收入,客户包括长安、一汽和理想汽车等。

从营收来看,地平线和英伟达的差距还不是一个数量级的,还根本无法威胁到英伟达的地位,是海洋界鲸鱼和海豚的关系。所以,英伟达没什么动力去做面向车企的 ASIC 芯片。这也给了地平线和其他芯片企业巨大的机会。

当然,地平线还处于发展初期也就是要不断砸钱的阶段。根据企查查的数据,如果不计算未披露的融资金额,地平线累计融资超 34 亿美元(约合人民币 243.3 亿元)。最近一笔,是奇瑞汽车的。

地平线目前的核心业务只有端侧的汽车领域。市场方面,地平线征程系列芯片目前累计出货超过 150 万片。而通过针对自动驾驶场景算法和需求专门设计的专用芯片,实现在效率上的更高效,只是地平线追赶英伟达的第一步。

就像前面说的,比亚迪并不是唯一一个同时部署英伟达和地平线的车企。理想在 2021 理想 ONE 以及后续的理想 L8 Pro 上搭载了征程 5,而在理想 L8 MAX 和 L9 上则使用的是英伟达 Orin。

所以,地平线更难的是构建出好用的软件体系,以及能支撑持续演进迭代的用户生态,而这正是英伟达 CUDA 体系的王牌所在。地平线的天工开物还有很长的路要走。不过,无论怎样,地平线给中国汽车企业带来了一个 DSA 芯片的可选项,都是件 " 极好的 " 事。

王小西

比天空更辽阔的……

THE END

直播主题

四季度,谁称王,谁败寇?!

微信号|iAUTO2010