距離超越特斯拉，還有X天

兩年前，日經亞洲評論刊登過一則報道：研究人員在拆解Model3後發現，Autopilot Hardware 3。0不僅是自動駕駛系統與多媒體控制單元的核心，更是讓特斯拉甩開其他競爭對手的關鍵武器。

一個高效能的硬體平臺，是處理預期增長的海量資料的基石，是自動駕駛系統不斷精進的技術依託。事實也證明，特斯拉近些年一直走在自動駕駛隊伍前列。但顯然，這只是一道開胃小菜。

資料才是那個壓軸選手。

自動駕駛系統在前期開發階段，需要採集大量的道路環境資料，形成貫穿感知、決策、規劃與控制多環節的演算法。隨著自動駕駛等級每進一步，場景的長尾性將大幅增加，資料量也會呈現指數級增長。

量產車在上市後亦是如此，仍需持續不斷回傳場景資料，對演算法模型加以訓練和驗證，做進一步的最佳化迭代。因而資料被認為是車企發展自動駕駛技術的護城河。截止到去年6月，特斯拉已收集100萬支36幀10秒時長的高度差異化場景影片資料，累計資料量約1。5PB，遠超Waymo。

如何獲取、儲存以及利用更多海量資料，是過渡到更高階甚至是實現完全無人化L5級自動駕駛的關鍵，也是越來越多的車企將目光瞄向超算中心的根本原因。

真正的主菜無資料不智慧

對於搭建自動駕駛系統而言，資料採集主要有兩種模式，一是靠採集車預先採集，二是靠量產車路測回灌。一些打算從事自動駕駛系統開發的公司往往面臨兩個難題，建立資料採集車隊難，打造量產車回傳隊伍更難。

結合IDC聯合英偉達釋出的白皮書，在實車端採集資料，需要真實車輛搭載全套感測器裝置在真實場景中持續行駛，這通常會產生較高的測試成本。

與此同時，依靠實車路測難以對長尾場景實現全面覆蓋；某些場景還具有一定危險性，極有可能增加測試成本。另外，僅僅透過實車路測無疑會拉長研發週期，難以滿足當下市場對產品創新週期的需求。而一旦資料成了缺失專案，便無從談起自動駕駛。

“長尾場景”即種類多且出現頻率低的情景

自動駕駛時代，模擬由此成為硬需求。將真實世界中的物理場景透過數字建模進行數字化還原，自動駕駛系統便可以在虛擬環境中測試生成資料。

不僅測試速度優於真實物理世界的車輛水平，還可以在組裝樣車前就開啟自動駕駛系統演算法的測試。透過預先收斂的演算法精度，也能進一步提升實車測試效率。毋庸置疑，一個高效精準的模擬工具尤為重要。

至於為什麼需要智算中心，如果進行大規模模擬測試，一定時間裡測試多個10億量級的資料，算力將成為模擬效率的瓶頸。而算力早已不是一兩張GPU或者一個小叢集就能構建出開發的基礎。

當資料變得越來越龐雜、越來越系統化，自動駕駛演算法模型的複雜度不斷提升，模型體積呈幾何倍數增長，只有依靠數以百計、千計的GPU並行運算，才能在更長的訓練時長中完成對Transformer等模型的訓練，也只有資料中心能夠支援這種需求。

“超算中心是演算法的根本，如果沒有超算中心，便沒有辦法打通自動駕駛這張牌。”

英偉達汽車資料中心業務總監陳曄如此強調。這些要求都對資料中心的設計、建設和運維提出了更高要求。

造車新勢力中，小鵬已經率先和阿里雲攜手在內蒙古烏蘭察布釋出了智算中心“扶搖”，算力可達600PFLOPS（每秒浮點運算60億億次），可將自動駕駛核心模型的訓練速度提升近170倍。而蔚來、特斯拉等車企都選擇了英偉達提供的解決方案。

其中，蔚來採用英偉達HGX加速器平臺構建資料中心基礎設施，在此基礎上模型開發效率提高近20倍，加快了ET7、ET5等車型的量產上市速度。HGX整合了NVIDIA GPU、Mellanox等技術，以及在NGC（NVIDIA GPU Cloud）中最佳化的AI軟體堆疊。

特斯拉也是利用英偉達GPU來構建自己的超算中心。在英偉達自動駕駛客戶中，GPU使用規模最大的當屬特斯拉，目前已經部署120個DGX SuperPOD 分散式叢集。

“DGX”是英偉達最強的伺服器，內建8張NVIDIA GPU，“SuperPOD”是英偉達推出的最小化可交付超算中心，內有20臺DGX。換句話說，特斯拉整整用了2400臺DGX，近2萬張NVIDIA GPU。

“20臺伺服器能夠做很多起步性的工作，但對於中國的造車新勢力們來說，20臺的數量遠遠不夠。”

據陳曄稱，

中國領先的自動駕駛客戶的使用需求量在300到600多臺DGX。

從完成資料採集、篩選到打標後，自動駕駛演算法模型訓練、回放性驗證（推理過程）以及模擬測試這三大環節都離不開超算中心發揮作用。車企或者自動駕駛公司要想做好自動駕駛模型訓練，一個大規模超算中心是必需品。這其實也是車企自建資料中心的底層邏輯。

建一座超算中心，就完了嗎？

不過在起“量”之前，還有幾個問題需要思考。

搭建超算中心不僅與伺服器相關，還涉及系統構建，包括GPU叢集、儲存、高速網路、軟體排程、機房管理、資料中心基礎設施建設等內容。每個部分都涉及大量元件，增加了設計階段的難度；

再者，無論是裝置還是軟體的部署，都需要一個較長週期，在統一協調部署和整合方面存在很多挑戰；最後當資料中心裝置全部安裝部署完後，如何讓其常用常新，一直保持最鮮狀態，維持最好的工作狀態同樣至關重要。

市場研究公司Forrester早些時候在一份調查報告中指出，超過6成的受訪企業認為自己的資料中心處於L3級階段。

這項調查透過採訪197位大中型企業的IT部門領導者和技術決策者發現，雲計算、人工智慧等技術有助於資料中心網路提升自動化和智慧運維的水平，但由於相關企業在建設和運維階段仍然依賴專家經驗和員工技能，導致效率低且易出錯。

在上述白皮書中還有一點，即無形的成本問題。車企和Tier1對搭建智算中心的預算普遍超過1億元人民幣，超過2億元的佔到五分之一。AI科技公司和自動駕駛獨角獸也不乏投資過億者，然而這些還只限於前期投入。

開發自動駕駛技術是個燒錢活，以Waymo、Cruise等公司為例，三五年燒掉幾十億美元是家常便飯。再尷尬一點，一些自動駕駛公司持續燒錢卻毫無進展。硬體是錢，資料是錢，人才也是錢。

搭建人工智慧計算中心投資金額（人民幣）；圖片來源：IDC

比起自建超算中心，選擇合適的供應商或許能夠事半功倍。針對這些挑戰，英偉達可以提供端到端，從晶片到資料中心的一體化解決方案。

以SuperPOD超級計算機來說，其擁有支援從小規模迅速擴充套件的參考架構，可以從20臺變成40臺、80臺、1000多臺，像搭積木一樣不斷拓展。同時具備持續的軟體最佳化、“白盒”交付等特點。如此一來，車企便能將更多時間和精力聚焦在演算法開發上，而非資料中心。

至少現階段，超算中心比拼的不一定是規模和伺服器的數量，諸如效率、開發方法也將決定著自動駕駛模型的進度條，而這裡面不僅涉及硬體，還涉及開發的AI框架、方法、管理平臺等等。誰能搶佔先機，就有望先拿下一局。

英偉達會是唯一的答案嗎？

從市場過往的發展規律來看，高科技行業的第一梯隊將掌握在少數幾家公司手中，隨著科技新兵不斷入場，絕對意義的寡頭壟斷格局只會越來越脆弱。

眼下資料中心處理器市場，英偉達、英特爾和AMD幾乎100%形成壟斷格局。單就GPU計算晶片而言，英偉達和AMD持續對壘，前者份額超過8成。目前自動駕駛演算法模型的訓練多以GPU為主，英偉達憑藉以GPU構建伺服器，基於“伺服器+網路”構建超算中心的方案正在積極搶市。

圍繞超算中心的戰爭已然打響，車企和自動駕駛公司要想拔得頭籌，唯有快、更快地行動。

釋出於：上海

百聞網

距離超越特斯拉，還有X天

相關文章