英偉達全面分析（七），地表最強，車企瘋搶，詳解晶片Orin

本文為英偉達全面分析的第七篇文章，關注英偉達在今年會大規模交付的Orin系統級晶片。“Orin”是亞特蘭蒂斯神話第一任統治者，海王Altan的兒子。Orin一經發布，便成為眾多車企爭搶裝車的物件。

本文重點探討Orin的硬體和軟體架構，包括新一代的GPU、CPU、深度學習加速器，以及基於Orin的軟體棧。

1。 Orin概覽

英偉達2019年推出了DRIVE AGX Orin平臺，最高算力（INT8）達到2000TOPS，是一個既覆蓋從L2到L5自動駕駛全場景，也包含視覺化、數字儀表、車載資訊娛樂及互動的高效能AI平臺，且在硬軟體上與上一代Xavier完全相容，下圖為基於單Orin和雙Orin從L2到L5自動駕駛的系統方案。

DRIVE AGX Orin平臺中，內建了Orin SoC晶片，下圖為基於Jetson AGX Orin機器人計算平臺，供參考。

2。 Orin的系統架構

Orin SoC採用7奈米工藝，由Ampere架構的GPU，ARM Hercules CPU，第二代深度學習加速器DLA、第二代視覺加速器PVA、影片編解碼器、寬動態範圍的ISP組成，同時引入了車規級的安全島Safety Island設計，下圖為Orin SoC的系統架構。

Orin支援204GB/s的記憶體頻寬和最高64GB的DRAM，高速I/O介面與上一代Xavier SoC的介面相容，可實現275TOPS的INT8算力，是Xavier的7倍，功耗55W。

3。 Orin的硬體架構

3.1 Ampere GPU

Orin採用了新一代的Ampere架構GPU，由2個GPC（Graphics Processing Clusters，圖形處理簇）組成。

每個GPC又包含4個TPC（Texture Processing Clusters，紋理處理簇），每個TPC由2個SM（Streaming Multiprocesor，流處理器）組成，下圖為Orin的GPU架構。

每個SM有192KB的L1快取和4MB的L2快取，包含128個CUDA Core和4個Tensor Core。

因此Orin總計2048個CUDA Core和64個Tensor Core，

INT8稀疏算力為170 TOPS

（Tensor Core提供），INT8稠密算力為54TOPS，FP32算力為5。3TFLOP（由Cuda Core提供）。

與上一代Volta架構的GPU相比，Tensor Core引入了對稀疏性的支援，稀疏性Sparsity是一種細粒度的計算結構，可以使吞吐量翻倍並減少記憶體使用量。

3.2 第三代張量核稀疏化技術

Ampere架構中第三代Tensor Core是亮點，首次引入了細粒度結構化稀疏性技術（Fine-grained structured sparsity ，稀疏性），

也是支撐英偉達對外宣傳“AI算力標杆”的關鍵控制點。

稀疏化技術主要分為兩個部分：

一是對權重網路先進行密集訓練（Dense trained weights），再將網路權重修剪（pruning）為2：4的稀疏矩陣，稀疏矩陣中每個4個元素中有2個非零值，最後再對非零權重進行微調（fine-tune），透過權重網路壓縮，使得資料佔用空間和頻寬減少為原來的一半；

二是在Tensor Core中加入選擇電路，稱為稀疏的tensor core），根據權重的索引過濾掉0的位置，讓weights不是0的部分和輸入的Tensor對應的部分做內積，使矩陣乘法所需計算量大大減少，即透過跳零（skipping the zeros）將數學計算的吞吐量加倍。

3.3 第二代DLA

Orin上推出了第二代深度學習加速器DLA，相比於第一代，主要有兩個變化：

第一是增加了本地緩衝，以提高效率並減少DRAM頻寬；第二是引入了

結構化稀疏功能

（structured sparsity），增加了

深度卷積處理器

（depth wise convolution processor）和硬體排程器（hardware scheduler），下圖為第二代DLA架構。

總體使得DLA的INT8稀疏算力為105TOPS，INT8稠密算力為11。4TOPS，而Xavier中的第一代DLA為5TOPS。

TensorRT可以在DLA上INT8或FP16執行各種網路，並支援卷積、反捲積、全連線、啟用、池化、batch歸一化（batch normalization）等各種層。

3.4 Arm A78 CPU

Orin系統架構中，CPU從之前自研的Carmel架構回到了到5奈米工藝的ARM Cortex-A78上，下圖為CPU架構。

Orin多達12個CPU核心，每個核心包含了64KB的L1指令快取和64KB的L1資料快取，以及256KB的L2快取。

每4個CPU核心組成一個CPU簇，共同使用一個2MB的L3快取，支援的最大CPU頻率達到了2。2GHz。

相比於上一代Xavier的8核Carmel CPU，Orin的12核A78 CPU效能提升1。9倍。

3.5 記憶體和通訊

Orin最高支援64GB的256位LPDDR5和64GB的eMMC。

DRAM支援3200MHz的最大時鐘速度，每個引腳6400Gbps，支援204。8GB/s的記憶體頻寬，是Xavier記憶體頻寬 memory bandwidth 的1。4倍、儲存storage的2倍。

下圖顯示了Orin各元件中，透過記憶體控制器結構（Fabric）和DRAM如何通訊和資料互動。

3.6 影片編解碼器

Orin包含一個多標準影片編碼器（ENC）、一個多標準影片解碼器（DEC）和JPEG處理塊（JPEG）。

ENC和DEC支援完整硬體加速的編解碼標準，包括H。265、H。264 、AV1等；JPEG用於JPEG靜止影象的解壓縮計算、影象縮放、解碼（YUV420、YUV422H/V、YUV444、YUV400）和色彩空間轉換（RGB到YUV）等功能。

3.7 第二代視覺加速器PVA和VIC

Orin中對PVA進行了升級，包括雙7路VLIW（超長指令字）向量處理單元、雙DMA和Cortex-R5，支援計算機視覺中過濾、變形、影象金字塔、特徵檢測和FFT等功能。

Orin還包含一個Gen 4。2影片成像合成器（Video Imaging Compositor，VIC） 2D 引擎，支援鏡頭畸變校正和增強、時間降噪、影片清晰度增強、畫素處理（色彩空間轉換、縮放、混合和合成）等影象處理功能。

為了呼叫Orin SoC上的多個硬體元件（PVA、VIC、CPU、GPU、 ENC等），英偉達開發了視覺程式設計介面

( Vision Programming Interface，VPI)

。作為一個軟體庫，VPI附帶了多種影象處理演算法（如框過濾、卷積、影象重縮放和重對映）和計算機視覺演算法（如哈里斯角檢測、KLT 特徵跟蹤器、光流、背景減法等）。

3.8 I/O介面

Orin包含大量的高速 I/O，包括了22通道PCIe Gen4、乙太網介面（千兆、10千兆）、顯示埠、16通道MIPI CSI-2、USB3。2等。

Orin中帶有電源管理積體電路（Power Management Integrated Circuit，PMIC）、穩壓器和電源樹，支援15W、30W 、50W、60W功率模式。

4。 Orin的軟體棧

Orin的軟體棧是基於軟體開發工具包SDK（Software Development Kit）來提供支撐的。

主要是板級支援包（BSP），包括了載入程式Bootloader、Linux核心、驅動程式Driver、工具鏈Tool chain和基於Ubuntu的參考檔案系統，BSP也支援各種安全功能（安全啟動、可信執行環境、磁碟和記憶體加密等）。

在BSP之上，有多個用於加速應用程式的使用者級庫，包括

深度學習加速庫

（CUDA、CuDNN、Tensor RT），

加速計算庫

（cuBLAS、cuFTT），

計算機視覺和影象處理庫

（VPI），

多媒體和相機庫

（libArgus 和 v4l2）。

TensorRT是用於深度學習推理的執行時庫（ Runtime library）和最佳化器（ Optimizer ），可提供更低的延遲（Latency）和更高的吞吐量（ Throughput ），即透過模型量化、融合核心節點（ Fusing nodes in a kernel）和選擇最佳資料層和演算法（Best data layers and algorithms ）來最佳化GPU記憶體和頻寬（Memory and bandwidth）的使用。

cuDNN（ CUDA Deep Neural Network Library，深度神經網路庫），是英偉達專門為深度神經網路所開發出來的GPU加速庫，針對卷積、池化等常見操作做了非常多的底層最佳化，比一般的GPU程式要快很多，大多數主流深度學習框架都支援 cuDNN。

此外，Orin軟體棧上也

支援特殊場景的SDK

，包括用於智慧影片分析應用程式的DeepStream、用於機器人應用程式的Isaac和用於自然語言處理應用程式的Riva，

以支撐更多生態應用發展。

下圖是基於Jetson AGX Orin機器人計算平臺供參考。

對於邊緣部署場景，推出了預訓練模型（PTM），已經採用了數百萬張影象進行了預訓練，模型庫中包括了人車檢測、自然語言處理、姿勢估計、車牌檢測、人臉檢測等模型，可以實現開箱即用；

此外配合TAO工具包（ TAO toolkit ），使客戶能夠使用自己的資料集進行訓練、微調和最佳化這些預訓練模型，形成快速部署。

針對已經部署在邊緣端的模型，藉助雲，透過

容器和容器編排技術

實現定期更新，包括具有Docker整合的 NVIDIA Container Runtime，以簡化大規模 AI 模型的部署。

5。地表最強，車企瘋搶

目前Orin的訂單火爆，已經有越來越多的車企和初創公司宣佈搭載Orin平臺。

上汽的R和智己，理想L9、蔚來ET7、小鵬新一代P7，威馬M7、比亞迪、沃爾沃XC90，還有自動駕駛卡車公司智加科技，Robotaxi等眾多明星企業Cruise、Zoox、滴滴、小馬智行、AutoX、軟體公司Momonta等等，都搭載Orin平臺進行開發。

很多車企在拿到Orin樣板都迫不及待地官宣，試圖對外展示是Orin的首裝，Orin的交付，可以看作是今年智慧汽車裡程碑事件。

6。汽車人參考小結

燃油車向電動車和智慧車過渡，高續航成為標配，拼續航為代表的電動化基本進入了下半場；到智慧汽車，業界很自然共識是從“馬力”到“算力”，因此從拼續航到了拼馬力時代。

英偉達Orin賣點就是算力，踩得非常準，就是要用自身優勢掀起算力的軍備競賽。

車企智慧化還在競爭中，特別是在高階車型上，急需要有一個賣點和標籤，而市面上可選的晶片只有英偉達一家，因此就出現了車企瘋搶的狀態。

汽車人參考認為，一方面英偉達算力是稀疏的，算力利用率、價效比需要更詳細分析，

車企對其算力的認知會越來越清晰

；另外一方面，

在主流車型上，

晶片的算力也會逐步向電池續航一樣開始收斂，最終會達到一個平衡，迴歸比價效比的真實狀態。

本文為汽車人參考第386篇原創文章，如果您覺得文章不錯，

“推薦和關注”

是對我最大的支援。

百聞網

英偉達全面分析（七），地表最強，車企瘋搶，詳解晶片Orin

相關文章