首頁/ 遊戲/ 正文

距離超越特斯拉,還有X天

兩年前,日經亞洲評論刊登過一則報道:研究人員在拆解Model3後發現,Autopilot Hardware 3。0不僅是自動駕駛系統與多媒體控制單元的核心,更是讓特斯拉甩開其他競爭對手的關鍵武器。

一個高效能的硬體平臺,是處理預期增長的海量資料的基石,是自動駕駛系統不斷精進的技術依託。事實也證明,特斯拉近些年一直走在自動駕駛隊伍前列。但顯然,這只是一道開胃小菜。

資料才是那個壓軸選手。

距離超越特斯拉,還有X天

自動駕駛系統在前期開發階段,需要採集大量的道路環境資料,形成貫穿感知、決策、規劃與控制多環節的演算法。隨著自動駕駛等級每進一步,場景的長尾性將大幅增加,資料量也會呈現指數級增長。

量產車在上市後亦是如此,仍需持續不斷回傳場景資料,對演算法模型加以訓練和驗證,做進一步的最佳化迭代。因而資料被認為是車企發展自動駕駛技術的護城河。截止到去年6月,特斯拉已收集100萬支36幀10秒時長的高度差異化場景影片資料,累計資料量約1。5PB,遠超Waymo。

如何獲取、儲存以及利用更多海量資料,是過渡到更高階甚至是實現完全無人化L5級自動駕駛的關鍵,也是越來越多的車企將目光瞄向超算中心的根本原因。

真正的主菜 無資料不智慧

對於搭建自動駕駛系統而言,資料採集主要有兩種模式,一是靠採集車預先採集,二是靠量產車路測回灌。一些打算從事自動駕駛系統開發的公司往往面臨兩個難題,建立資料採集車隊難,打造量產車回傳隊伍更難。

結合IDC聯合英偉達釋出的白皮書,在實車端採集資料,需要真實車輛搭載全套感測器裝置在真實場景中持續行駛,這通常會產生較高的測試成本。

與此同時,依靠實車路測難以對長尾場景實現全面覆蓋;某些場景還具有一定危險性,極有可能增加測試成本。另外,僅僅透過實車路測無疑會拉長研發週期,難以滿足當下市場對產品創新週期的需求。而一旦資料成了缺失專案,便無從談起自動駕駛。

距離超越特斯拉,還有X天

“長尾場景”即種類多且出現頻率低的情景

自動駕駛時代,模擬由此成為硬需求。將真實世界中的物理場景透過數字建模進行數字化還原,自動駕駛系統便可以在虛擬環境中測試生成資料。

不僅測試速度優於真實物理世界的車輛水平,還可以在組裝樣車前就開啟自動駕駛系統演算法的測試。透過預先收斂的演算法精度,也能進一步提升實車測試效率。毋庸置疑,一個高效精準的模擬工具尤為重要。

至於為什麼需要智算中心,如果進行大規模模擬測試,一定時間裡測試多個10億量級的資料,算力將成為模擬效率的瓶頸。而算力早已不是一兩張GPU或者一個小叢集就能構建出開發的基礎。

當資料變得越來越龐雜、越來越系統化,自動駕駛演算法模型的複雜度不斷提升,模型體積呈幾何倍數增長,只有依靠數以百計、千計的GPU並行運算,才能在更長的訓練時長中完成對Transformer等模型的訓練,也只有資料中心能夠支援這種需求。

“超算中心是演算法的根本,如果沒有超算中心,便沒有辦法打通自動駕駛這張牌。”

英偉達汽車資料中心業務總監陳曄如此強調。這些要求都對資料中心的設計、建設和運維提出了更高要求。

造車新勢力中,小鵬已經率先和阿里雲攜手在內蒙古烏蘭察布釋出了智算中心“扶搖”,算力可達600PFLOPS(每秒浮點運算60億億次),可將自動駕駛核心模型的訓練速度提升近170倍。而蔚來、特斯拉等車企都選擇了英偉達提供的解決方案。

其中,蔚來採用英偉達HGX加速器平臺構建資料中心基礎設施,在此基礎上模型開發效率提高近20倍,加快了ET7、ET5等車型的量產上市速度。HGX整合了NVIDIA GPU、Mellanox等技術,以及在NGC(NVIDIA GPU Cloud)中最佳化的AI軟體堆疊。

距離超越特斯拉,還有X天

特斯拉也是利用英偉達GPU來構建自己的超算中心。在英偉達自動駕駛客戶中,GPU使用規模最大的當屬特斯拉,目前已經部署120個DGX SuperPOD 分散式叢集。

“DGX”是英偉達最強的伺服器,內建8張NVIDIA GPU,“SuperPOD”是英偉達推出的最小化可交付超算中心,內有20臺DGX。換句話說,特斯拉整整用了2400臺DGX,近2萬張NVIDIA GPU。

“20臺伺服器能夠做很多起步性的工作,但對於中國的造車新勢力們來說,20臺的數量遠遠不夠。”

據陳曄稱,

中國領先的自動駕駛客戶的使用需求量在300到600多臺DGX。

從完成資料採集、篩選到打標後,自動駕駛演算法模型訓練、回放性驗證(推理過程)以及模擬測試這三大環節都離不開超算中心發揮作用。車企或者自動駕駛公司要想做好自動駕駛模型訓練,一個大規模超算中心是必需品。這其實也是車企自建資料中心的底層邏輯。

建一座超算中心,就完了嗎?

不過在起“量”之前,還有幾個問題需要思考。

搭建超算中心不僅與伺服器相關,還涉及系統構建,包括GPU叢集、儲存、高速網路、軟體排程、機房管理、資料中心基礎設施建設等內容。每個部分都涉及大量元件,增加了設計階段的難度;

再者,無論是裝置還是軟體的部署,都需要一個較長週期,在統一協調部署和整合方面存在很多挑戰;最後當資料中心裝置全部安裝部署完後,如何讓其常用常新,一直保持最鮮狀態,維持最好的工作狀態同樣至關重要。

市場研究公司Forrester早些時候在一份調查報告中指出,超過6成的受訪企業認為自己的資料中心處於L3級階段。

這項調查透過採訪197位大中型企業的IT部門領導者和技術決策者發現,雲計算、人工智慧等技術有助於資料中心網路提升自動化和智慧運維的水平,但由於相關企業在建設和運維階段仍然依賴專家經驗和員工技能,導致效率低且易出錯。

在上述白皮書中還有一點,即無形的成本問題。車企和Tier1對搭建智算中心的預算普遍超過1億元人民幣,超過2億元的佔到五分之一。AI科技公司和自動駕駛獨角獸也不乏投資過億者,然而這些還只限於前期投入。

開發自動駕駛技術是個燒錢活,以Waymo、Cruise等公司為例,三五年燒掉幾十億美元是家常便飯。再尷尬一點,一些自動駕駛公司持續燒錢卻毫無進展。硬體是錢,資料是錢,人才也是錢。

距離超越特斯拉,還有X天

搭建人工智慧計算中心投資金額(人民幣);圖片來源:IDC

比起自建超算中心,選擇合適的供應商或許能夠事半功倍。針對這些挑戰,英偉達可以提供端到端,從晶片到資料中心的一體化解決方案。

以SuperPOD超級計算機來說,其擁有支援從小規模迅速擴充套件的參考架構,可以從20臺變成40臺、80臺、1000多臺,像搭積木一樣不斷拓展。同時具備持續的軟體最佳化、“白盒”交付等特點。如此一來,車企便能將更多時間和精力聚焦在演算法開發上,而非資料中心。

至少現階段,超算中心比拼的不一定是規模和伺服器的數量,諸如效率、開發方法也將決定著自動駕駛模型的進度條,而這裡面不僅涉及硬體,還涉及開發的AI框架、方法、管理平臺等等。誰能搶佔先機,就有望先拿下一局。

英偉達會是唯一的答案嗎?

從市場過往的發展規律來看,高科技行業的第一梯隊將掌握在少數幾家公司手中,隨著科技新兵不斷入場,絕對意義的寡頭壟斷格局只會越來越脆弱。

眼下資料中心處理器市場,英偉達、英特爾和AMD幾乎100%形成壟斷格局。單就GPU計算晶片而言,英偉達和AMD持續對壘,前者份額超過8成。目前自動駕駛演算法模型的訓練多以GPU為主,英偉達憑藉以GPU構建伺服器,基於“伺服器+網路”構建超算中心的方案正在積極搶市。

圍繞超算中心的戰爭已然打響,車企和自動駕駛公司要想拔得頭籌,唯有快、更快地行動。

釋出於:上海

相關文章

頂部