首頁/ 遊戲/ 正文

特斯拉公佈Dojo超算路線圖,披露全家福,首個ExaPOD明年見

芯東西10月1日訊息,今日上午,在第二屆特斯拉AI Day上,特斯拉分享了其自研Dojo超級計算機系統的更多技術進展,並公佈未來路線圖。

特斯拉公佈Dojo超算路線圖,披露全家福,首個ExaPOD明年見

據介紹,特斯拉首款人形機器人“擎天柱”的大腦就將採用Dojo超級計算機系統。

在去年的首屆特斯拉AI Day上,特斯拉展示了其首款AI訓練晶片Dojo D1,以及基於該晶片構建的完整Dojo叢集ExaPOD,用於執行AI訓練任務,為其上路車輛龐大的影片處理需求提供支撐。

當前特斯拉已經擁有基於英偉達GPU的大型超算,以及一個儲存30PB影片素材的資料中心。

特斯拉公佈Dojo超算路線圖,披露全家福,首個ExaPOD明年見

特斯拉技術專家稱,特斯拉的車隊在日常行駛中積累了很多影片片段,每個影片有多幀影象,需要14億幀才能訓練一個神經網路,需要使用10萬個GPU工時。而特斯拉自研的Dojo超算,能夠提升30%的網路訓練速度。

Dojo首席系統工程師Bill Chang說,特斯拉超級計算機的願景是構建一個統一的加速器。

特斯拉公佈Dojo超算路線圖,披露全家福,首個ExaPOD明年見

會上,Dojo團隊展示了透過Dojo實現Stable Diffusion在火星上執行Cybertruck的影象。

據介紹,只用4個Dojo機櫃就能取代由4000個GPU組成的72個GPU機架。Dojo能將通常需要幾個月的工作減少到了1周。

特斯拉公佈Dojo超算路線圖,披露全家福,首個ExaPOD明年見

自去年特斯拉AI Day至今,Dojo開發迎來了一系列里程碑,包括安裝第一個Dojo機櫃、進行2。2mW負載測試等,現在特斯拉正以每天打造一個Tile的速度推進工作。

特斯拉還宣佈其第一個ExaPOD預計將在2023年第一季度完工,計劃在帕洛阿爾託總建造7臺ExaPOD。

特斯拉公佈Dojo超算路線圖,披露全家福,首個ExaPOD明年見

特斯拉一直試圖最佳化Dojo設計的可擴充套件性,並以“快速試錯”的心態來克服挑戰。

特斯拉公佈Dojo超算路線圖,披露全家福,首個ExaPOD明年見

Dojo加速器具有單個可擴充套件計算平面、全域性定址快速儲存器和統一的高頻寬+低延遲。

特斯拉公佈Dojo超算路線圖,披露全家福,首個ExaPOD明年見

Bill Chang特別談到電壓調節模組,它具有高效能、高密度(0。86A/mm2)、複雜整合性。

特斯拉公佈Dojo超算路線圖,披露全家福,首個ExaPOD明年見

其電壓調節模組在24個月內更新了14個版本。

熱膨脹係數(CTE)很重要,因此特斯拉與供應商合作提供電力解決方案。其CTE降低了50%以上,Dojo的效能是初始擴充套件的3倍。

特斯拉公佈Dojo超算路線圖,披露全家福,首個ExaPOD明年見

在Bill Chang看來,解決每個級別的密度是實現系統性能的關鍵,所有系統元件必須整合到電源模組中。其整合解決方案包括用軟終端電容器來減少振動等。

特斯拉公佈Dojo超算路線圖,披露全家福,首個ExaPOD明年見

特斯拉還展示了一組過去兩年間從交付定製冷液分配單元(CDU)到安裝第一臺整合Dojo機櫃、再到2。2MW機組負載測試的照片。

特斯拉公佈Dojo超算路線圖,披露全家福,首個ExaPOD明年見

下圖是Dojo超級計算機系統,包括D1晶片、訓練Tile和ExaPOD叢集。

特斯拉公佈Dojo超算路線圖,披露全家福,首個ExaPOD明年見

D1採用臺積電7nm製程工藝,在645mm2的面積上塞了500億顆電晶體,BF16、CFP8算力可達362TFLOPS,FP32算力可達22。6TFLOPS,TDP(熱設計功耗)為400W。

相比之下,同樣採用臺積電7nm製程工藝、TDP達400W的英偉達旗艦計算卡A100 GPU,面積為826mm2,電晶體數量達542億顆,FP32峰值算力為19。5TFLOPS。

基於D1晶片,特斯拉推出晶圓上系統級方案,透過應用臺積電InFO_SoW封裝技術,將所有25顆D1裸片都整合到一個訓練Tile上,每個Dojo訓練Tile消耗15kW。特斯拉Dojo訓練Tile中有計算、I/O、功率和液冷模組。

特斯拉公佈Dojo超算路線圖,披露全家福,首個ExaPOD明年見

Dojo System Tray有高速連線、密集整合等特性,75mm高度能支援135kg。其BF16/CFP8峰值算力可達到54TFLOPS,功耗100+kW。

特斯拉公佈Dojo超算路線圖,披露全家福,首個ExaPOD明年見

Dojo介面處理器是一個具有高頻寬記憶體的PCIe卡,利用特斯拉自家TTP介面。

特斯拉公佈Dojo超算路線圖,披露全家福,首個ExaPOD明年見

特斯拉傳輸協議TTP還可以橋接到標準乙太網,TTPOE可將標準乙太網轉換至Z平面拓撲,擁有高Z平面拓撲連線性。

特斯拉公佈Dojo超算路線圖,披露全家福,首個ExaPOD明年見

Dojo主機介面的介紹如下:

特斯拉公佈Dojo超算路線圖,披露全家福,首個ExaPOD明年見

據介紹,在10機櫃系統中,Dojo ExaPOD叢集將突破E級算力。

其BF16/CFP8峰值算力達到1。1EFLOPS(百億億次浮點運算),並擁有1。3TB高速SRAM和13TB高頻寬DRAM。

特斯拉公佈Dojo超算路線圖,披露全家福,首個ExaPOD明年見

接下來是Dojo ExaPOD的軟體棧。

特斯拉公佈Dojo超算路線圖,披露全家福,首個ExaPOD明年見

其軟體效能由硬體效能、利用率和加速器佔用率的綜合加成決定。其中利用率涉及編譯器,加速器佔用率涉及Ingest Pipeline功能。

特斯拉公佈Dojo超算路線圖,披露全家福,首個ExaPOD明年見

在軟體方面,整個系統可以被視為一個整體。

特斯拉公佈Dojo超算路線圖,披露全家福,首個ExaPOD明年見

藉助Dojo編譯器,使用者可將Dojo大型分散式系統視作一個加速器。

特斯拉公佈Dojo超算路線圖,披露全家福,首個ExaPOD明年見

現場,特斯拉首席工程師Rajiv Kurian分享了在Dojo上執行Stable Diffusion,根據“火星上Cybertruck”的提示建立由AI生成的影象。他打趣道,看起來它在匹配特斯拉設計團隊之前還有很長的路要走。

特斯拉公佈Dojo超算路線圖,披露全家福,首個ExaPOD明年見

Dojo編譯器的歸一化Batch Norm結果如下,相比GPU有數量級的延遲優勢。

特斯拉公佈Dojo超算路線圖,披露全家福,首個ExaPOD明年見

同樣跑經典影象分類模型ResNet-50,Dojo可以實現比英偉達A100更高的幀率。

特斯拉公佈Dojo超算路線圖,披露全家福,首個ExaPOD明年見

跑自動標註演算法、預測汽車周圍所有物體空間佔用率的神經網路模型Occupancy Networks時,相比英偉達A100,Dojo能實現效能的倍增。

特斯拉公佈Dojo超算路線圖,披露全家福,首個ExaPOD明年見

結果,以前要用6個GPU Box的計算開銷,現在不到1個GPU Box就能搞定。

特斯拉公佈Dojo超算路線圖,披露全家福,首個ExaPOD明年見

72個GPU機架才能跑完的自動標註演算法,現在只要4臺Dojo Cabinet機櫃就能做到。

特斯拉公佈Dojo超算路線圖,披露全家福,首個ExaPOD明年見

特斯拉公佈Dojo超算路線圖,披露全家福,首個ExaPOD明年見

此前在為特斯拉AI Day預熱時,馬斯克已經發推文預告說此次活動的目的是為了招募人工智慧和機器人領域的工程師,因此內容會非常硬核。

結果也如其所述,本屆AI Day儼然是特斯拉前沿技術能力的集中展示,從人形機器人的核心技術,到全自動駕駛(FSD)的各種先進演算法,再到Dojo超算的軟硬體系統,乾貨相當豐富。

從這些在人工智慧、自動駕駛、機器人及計算硬體相關的技術佈局,可以看到特斯拉在押注高精尖技術上的佈局之深之廣,這也將是特斯拉吸引更多高階工程人才的絕佳金字招牌。

炒股開戶享福利,入金抽188元紅包,100%中獎!

開啟App看更多精彩內容

相關文章

頂部