首頁/ 娛樂/ 正文

阿里云何萬青:南坡VS北坡,阿里雲高效能計算行業實踐

隨著數字化轉型的深入,行業應用對算力提出更高要求。為滿足不同行業靈活的業務形態與計算需求,

以雲計算技術為服務模式創新的技術手段,以高效能計算服務為核心的高效能計算雲(HPC Cloud)受到業界的廣泛關注

為了進一步凝聚產業共識,推進高效能計算雲產業發展,2021年12月21日,計算網融合產業及標準推進委員會聯合超級計算創新聯盟,召開首屆高效能計算雲(HPC Cloud)產業發展論壇,邀請了學術界與產業界專家,以 “雲化超算,智啟未來”為主題,從技術研究、應用部署、實踐發展等多個方面進行精彩演講。

阿里云何萬青:南坡VS北坡,阿里雲高效能計算行業實踐

在本次論壇上,來自

阿里雲的高效能計算負責人何萬青

發表了《

南坡VS北坡,阿里雲高效能計算HPC-as-a-Service行業實踐

》的主題演講。

01 阿里雲高效能計算的發展

超算透過網際網路的方式去部署和交付已經成為趨勢

。何萬青表示阿里雲的高效能計算已經發展了四到五年,目前部署在很多工業和行業計算的相關垂直業務,比如汽車模擬、影視後期渲染、AI生物製藥、氣象業務等領域。

基於過去十多年線上下HPC的技術觀察,談到傳統超算系統轉型高效能計算雲的趨勢,何萬青將線下超算轉型雲服務和雲服務提供高效能計算產品和服務兩種模式,比喻為從南坡和北坡不同線路攀登HPC-as-a-Service頂峰。

在北坡,雲公司藉助於雲上大計算效能突破來提供HPC服務,切入的重點更加聚焦於雲服務

:單機SLA和大規模穩定性、快捷、彈性、多種雲產品和服務的快速組合及SaaS服務,超越以提供“核時”和“算力”為核心的模式,強調整體科研業務上雲。

阿里云何萬青:南坡VS北坡,阿里雲高效能計算行業實踐

2020年是高效能計算在穩定性、彈性以及計費敏感性方向發展最快的一年,很多重大任務在阿里雲已經可以大規模的部署,阿里雲在去IOE的過程中,可以使超70%硬體故障無感消除,在公共雲大計算產品端,雲超算SCC第七代例項規格全新上線。

阿里云何萬青:南坡VS北坡,阿里雲高效能計算行業實踐

在神龍計算平臺上,它的優勢包括虛擬化網路高效解除安裝,物理網路、儲存和計算完全解耦,避免資源爭搶。

神龍eRDMA功能2021年也正式上線,實現CPU例項和GPU例項並池和混合部署,極大擴充套件CPU和GPU例項叢集範圍

。從POD擴充套件到可用區、資料中心,平臺支援更大規模的彈性伸縮,同時支援VPC網路、eRDMA網路、儲存網路三網合一。在數值天氣預報中,eRDMA會極大提升應用規模和並行效率。

阿里云何萬青:南坡VS北坡,阿里雲高效能計算行業實踐

02 阿里雲高效能計算Cloud Stack

何萬青表示,

基於以上的底層架構,阿里雲高效能計算統稱為“神龍雲超算”

,在其上部署面向公共雲和混合雲的E-HPC雲軟體棧,它是基於神龍伺服器+RDMA網路+並行檔案系統開發的PssS層服務。其中,排程器和彈性伸縮、熱遷移等功可以從底層對客戶透明實現。在ISV層,服務是透過工作流的方式提供,資料搬移不僅是物理方式,而是透過高速網路,一次性的上載來完成任務交付。在跨資料中心的計算叢集上,完成三網合一,現有排程器完全實現對跨可用區計算節點的排程,將不同的任務分配給不同的例項。在不同的佇列排程上方面,全球只有阿里雲能夠在執行過程中實現佇列繫結不同的例項。

阿里云何萬青:南坡VS北坡,阿里雲高效能計算行業實踐

03 阿里雲高效能計算應用方案

阿里云何萬青:南坡VS北坡,阿里雲高效能計算行業實踐

何萬青介紹了將搶佔式例項與斷點續算結合,使用者只需要花費比傳統方式很少的成本,便可以按需得到所需資源。在混合雲技術方面,透過混合雲非同步檔案儲存的方式,可以實現在線上、線下同時進行資料拉取與計算,在影視渲染場景中,已經得到廣泛使用。

阿里云何萬青:南坡VS北坡,阿里雲高效能計算行業實踐

阿里云何萬青:南坡VS北坡,阿里雲高效能計算行業實踐

E-HPC商業License方案中,可透過阿里雲高速通道打通雲上雲下網路

。其中,E-HPC自動部署雲上計算資源,併為其配置好License服務或License代理節點,雲下License伺服器透過VPN連線License代理節點,E-HPC服務負責License Manager部署、License發放和使用監控。

阿里云何萬青:南坡VS北坡,阿里雲高效能計算行業實踐

原文連結:https://developer.aliyun.com/article/857628?utm_content=g_1000320012

本文為阿里雲原創內容,未經允許不得轉載。

相關文章

頂部