首頁/ 汽車/ 正文

英偉達全面分析(七),地表最強,車企瘋搶,詳解晶片Orin

本文為英偉達全面分析的第七篇文章,關注英偉達在今年會大規模交付的Orin系統級晶片。“Orin”是亞特蘭蒂斯神話第一任統治者,海王Altan的兒子。Orin一經發布,便成為眾多車企爭搶裝車的物件。

本文重點探討Orin的硬體和軟體架構,包括新一代的GPU、CPU、深度學習加速器,以及基於Orin的軟體棧。

英偉達全面分析(七),地表最強,車企瘋搶,詳解晶片Orin

1。 Orin概覽

英偉達2019年推出了DRIVE AGX Orin平臺,最高算力(INT8)達到2000TOPS,是一個既覆蓋從L2到L5自動駕駛全場景,也包含視覺化、數字儀表、車載資訊娛樂及互動的高效能AI平臺,且在硬軟體上與上一代Xavier完全相容,下圖為基於單Orin和雙Orin從L2到L5自動駕駛的系統方案。

英偉達全面分析(七),地表最強,車企瘋搶,詳解晶片Orin

DRIVE AGX Orin平臺中,內建了Orin SoC晶片,下圖為基於Jetson AGX Orin機器人計算平臺,供參考。

英偉達全面分析(七),地表最強,車企瘋搶,詳解晶片Orin

2。 Orin的系統架構

Orin SoC採用7奈米工藝,由Ampere架構的GPU,ARM Hercules CPU,第二代深度學習加速器DLA、第二代視覺加速器PVA、影片編解碼器、寬動態範圍的ISP組成,同時引入了車規級的安全島Safety Island設計,下圖為Orin SoC的系統架構。

英偉達全面分析(七),地表最強,車企瘋搶,詳解晶片Orin

Orin支援204GB/s的記憶體頻寬和最高64GB的DRAM,高速I/O介面與上一代Xavier SoC的介面相容,可實現275TOPS的INT8算力,是Xavier的7倍,功耗55W。

3。 Orin的硬體架構

3.1 Ampere GPU

Orin採用了新一代的Ampere架構GPU,由2個GPC(Graphics Processing Clusters,圖形處理簇)組成。

每個GPC又包含4個TPC(Texture Processing Clusters, 紋理處理簇),每個TPC由2個SM(Streaming Multiprocesor,流處理器)組成,下圖為Orin的GPU架構。

英偉達全面分析(七),地表最強,車企瘋搶,詳解晶片Orin

每個SM有192KB的L1快取和4MB的L2快取,包含128個CUDA Core和4個Tensor Core。

因此Orin總計2048個CUDA Core和64個Tensor Core,

INT8稀疏算力為170 TOPS

(Tensor Core提供),INT8稠密算力為54TOPS,FP32算力為5。3TFLOP(由Cuda Core提供)。

與上一代Volta架構的GPU相比,Tensor Core引入了對稀疏性的支援, 稀疏性Sparsity是一種細粒度的計算結構,可以使吞吐量翻倍並減少記憶體使用量。

3.2 第三代張量核稀疏化技術

Ampere架構中第三代Tensor Core是亮點,首次引入了細粒度結構化稀疏性技術(Fine-grained structured sparsity ,稀疏性),

也是支撐英偉達對外宣傳“AI算力標杆”的關鍵控制點。

英偉達全面分析(七),地表最強,車企瘋搶,詳解晶片Orin

稀疏化技術主要分為兩個部分:

一是對權重網路先進行密集訓練(Dense trained weights),再將網路權重修剪(pruning)為2:4的稀疏矩陣,稀疏矩陣中每個4個元素中有2個非零值,最後再對非零權重進行微調(fine-tune),透過權重網路壓縮,使得資料佔用空間和頻寬減少為原來的一半;

二是在Tensor Core中加入選擇電路,稱為稀疏的tensor core),根據權重的索引過濾掉0的位置,讓weights不是0的部分和輸入的Tensor對應的部分做內積,使矩陣乘法所需計算量大大減少,即透過跳零(skipping the zeros)將數學計算的吞吐量加倍。

3.3 第二代DLA

Orin上推出了第二代深度學習加速器DLA,相比於第一代,主要有兩個變化:

第一是增加了本地緩衝,以提高效率並減少DRAM頻寬;第二是引入了

結構化稀疏功能

(structured sparsity),增加了

深度卷積處理器

(depth wise convolution processor)和硬體排程器(hardware scheduler),下圖為第二代DLA架構。

英偉達全面分析(七),地表最強,車企瘋搶,詳解晶片Orin

總體使得DLA的INT8稀疏算力為105TOPS,INT8稠密算力為11。4TOPS,而Xavier中的第一代DLA為5TOPS。

TensorRT可以在DLA上INT8或FP16執行各種網路,並支援卷積、反捲積、全連線、啟用、池化、batch歸一化(batch normalization)等各種層。

3.4 Arm A78 CPU

Orin系統架構中,CPU從之前自研的Carmel架構回到了到5奈米工藝的ARM Cortex-A78上,下圖為CPU架構。

英偉達全面分析(七),地表最強,車企瘋搶,詳解晶片Orin

Orin多達12個CPU核心,每個核心包含了64KB的L1指令快取和64KB的L1資料快取,以及256KB的L2快取。

每4個CPU核心組成一個CPU簇,共同使用一個2MB的L3快取,支援的最大CPU頻率達到了2。2GHz。

相比於上一代Xavier的8核Carmel CPU,Orin的12核A78 CPU效能提升1。9倍。

3.5 記憶體和通訊

Orin最高支援64GB的256位LPDDR5和64GB的eMMC。

DRAM支援3200MHz的最大時鐘速度,每個引腳6400Gbps,支援204。8GB/s的記憶體頻寬,是Xavier記憶體頻寬 memory bandwidth 的1。4倍、儲存storage的2倍。

下圖顯示了Orin各元件中,透過記憶體控制器結構(Fabric)和DRAM如何通訊和資料互動。

英偉達全面分析(七),地表最強,車企瘋搶,詳解晶片Orin

3.6 影片編解碼器

Orin包含一個多標準影片編碼器 (ENC)、一個多標準影片解碼器 (DEC) 和JPEG處理塊 (JPEG)。

ENC和DEC支援完整硬體加速的編解碼標準,包括H。265、H。264 、AV1等;JPEG用於JPEG靜止影象的解壓縮計算、影象縮放、解碼(YUV420、YUV422H/V、YUV444、YUV400)和色彩空間轉換(RGB到YUV)等功能。

3.7 第二代視覺加速器PVA和VIC

Orin中對PVA進行了升級,包括雙7路VLIW(超長指令字)向量處理單元、雙DMA和Cortex-R5,支援計算機視覺中過濾、變形、影象金字塔、特徵檢測和FFT等功能。

英偉達全面分析(七),地表最強,車企瘋搶,詳解晶片Orin

Orin還包含一個Gen 4。2影片成像合成器 (Video Imaging Compositor,VIC) 2D 引擎,支援鏡頭畸變校正和增強、時間降噪、影片清晰度增強、畫素處理(色彩空間轉換、縮放、混合和合成)等影象處理功能。

為了呼叫Orin SoC上的多個硬體元件(PVA、VIC、CPU、GPU、 ENC等),英偉達開發了視覺程式設計介面

( Vision Programming Interface,VPI)

。作為一個軟體庫,VPI附帶了多種影象處理演算法(如框過濾、卷積、影象重縮放和重對映)和計算機視覺演算法(如哈里斯角檢測、KLT 特徵跟蹤器、光流、背景減法等)。

3.8 I/O介面

Orin包含大量的高速 I/O,包括了22通道PCIe Gen4、乙太網介面(千兆、10千兆)、顯示埠、16通道MIPI CSI-2、USB3。2等。

英偉達全面分析(七),地表最強,車企瘋搶,詳解晶片Orin

Orin中帶有電源管理積體電路 (Power Management Integrated Circuit,PMIC)、穩壓器和電源樹,支援15W、30W 、50W、60W功率模式。

4。 Orin的軟體棧

Orin的軟體棧是基於軟體開發工具包SDK(Software Development Kit)來提供支撐的。

主要是板級支援包 (BSP),包括了載入程式Bootloader、Linux核心、驅動程式Driver、工具鏈Tool chain和基於Ubuntu的參考檔案系統,BSP也支援各種安全功能(安全啟動、可信執行環境、磁碟和記憶體加密等)。

在BSP之上,有多個用於加速應用程式的使用者級庫,包括

深度學習加速庫

(CUDA、CuDNN、Tensor RT),

加速計算庫

(cuBLAS、cuFTT),

計算機視覺和影象處理庫

(VPI),

多媒體和相機庫

(libArgus 和 v4l2)。

TensorRT是用於深度學習推理的執行時庫( Runtime library)和最佳化器( Optimizer ),可提供更低的延遲(Latency)和更高的吞吐量( Throughput ), 即透過模型量化、融合核心節點( Fusing nodes in a kernel)和選擇最佳資料層和演算法(Best data layers and algorithms )來最佳化GPU記憶體和頻寬(Memory and bandwidth)的使用。

cuDNN( CUDA Deep Neural Network Library,深度神經網路庫),是英偉達專門為深度神經網路所開發出來的GPU加速庫,針對卷積、池化等常見操作做了非常多的底層最佳化,比一般的GPU程式要快很多,大多數主流深度學習框架都支援 cuDNN。

此外,Orin軟體棧上也

支援特殊場景的SDK

,包括用於智慧影片分析應用程式的DeepStream、用於機器人應用程式的Isaac和用於自然語言處理應用程式的Riva,

以支撐更多生態應用發展。

下圖是基於Jetson AGX Orin機器人計算平臺供參考。

英偉達全面分析(七),地表最強,車企瘋搶,詳解晶片Orin

對於邊緣部署場景,推出了預訓練模型 (PTM) ,已經採用了數百萬張影象進行了預訓練,模型庫中包括了人車檢測、自然語言處理、姿勢估計、車牌檢測、人臉檢測等模型,可以實現開箱即用;

此外配合TAO工具包( TAO toolkit ),使客戶能夠使用自己的資料集進行訓練、微調和最佳化這些預訓練模型,形成快速部署。

針對已經部署在邊緣端的模型,藉助雲,透過

容器和容器編排技術

實現定期更新,包括具有Docker整合的 NVIDIA Container Runtime,以簡化大規模 AI 模型的部署。

5。 地表最強,車企瘋搶

目前Orin的訂單火爆,已經有越來越多的車企和初創公司宣佈搭載Orin平臺。

上汽的R和智己,理想L9、蔚來ET7、小鵬新一代P7,威馬M7、比亞迪、沃爾沃XC90,還有自動駕駛卡車公司智加科技,Robotaxi等眾多明星企業Cruise、Zoox、滴滴、小馬智行、AutoX、軟體公司Momonta等等,都搭載Orin平臺進行開發。

很多車企在拿到Orin樣板都迫不及待地官宣,試圖對外展示是Orin的首裝,Orin的交付,可以看作是今年智慧汽車裡程碑事件。

英偉達全面分析(七),地表最強,車企瘋搶,詳解晶片Orin

6。 汽車人參考小結

燃油車向電動車和智慧車過渡,高續航成為標配,拼續航為代表的電動化基本進入了下半場;到智慧汽車,業界很自然共識是從“馬力”到“算力”,因此從拼續航到了拼馬力時代。

英偉達Orin賣點就是算力,踩得非常準,就是要用自身優勢掀起算力的軍備競賽。

車企智慧化還在競爭中,特別是在高階車型上,急需要有一個賣點和標籤,而市面上可選的晶片只有英偉達一家,因此就出現了車企瘋搶的狀態。

汽車人參考認為,一方面英偉達算力是稀疏的,算力利用率、價效比需要更詳細分析,

車企對其算力的認知會越來越清晰

;另外一方面,

在主流車型上,

晶片的算力也會逐步向電池續航一樣開始收斂,最終會達到一個平衡,迴歸比價效比的真實狀態。

英偉達全面分析(七),地表最強,車企瘋搶,詳解晶片Orin

本文為汽車人參考第386篇原創文章,如果您覺得文章不錯,

“推薦和關注”

是對我最大的支援。

相關文章

頂部