取消
清空記錄
歷史記錄
清空記錄
歷史記錄
英偉達DPU這種類型的硬件,幾乎可以代表數據中心的某一個發展方向。這個議題甚至恰好能夠解答,英偉達為何要收購Arm,以及AMD為何要收購賽靈思。在近期英偉達GTC China首日主題演講之后的圓桌論壇上,英偉達全球業務運營執行副總裁Jay Puri談到了有關英偉達收購Arm的問題……
在Aspencore全球分析師共同發布的《2021年全球半導體行業10大技術趨勢》一文中,有一項提到了,HPC數據中心專用加速的趨勢遞進。其中特別提到英偉達的DPU,這種類型的硬件,幾乎可以代表數據中心的某一個發展方向。
這個議題甚至恰好能夠解答,英偉達為何要收購Arm,以及AMD為何要收購賽靈思。在近期英偉達GTC China首日主題演講之后的圓桌論壇上,英偉達全球業務運營執行副總裁Jay Puri談到了有關英偉達收購Arm的問題。
Arm已經取得了巨大成功,但他們獲得的成功大部分集中在移動端,更多的機會在等待他們探索。Arm應當發揮顯著作用的地方,還包括數據中心與PC。但這個市場的涉足其實并不簡單,數據中心、云和PC領域是另一回事。”Jay Puri提到,“從技術上來看,Arm在這一領域是完全沒問題的。很多探索中的例子都表明,技術不是問題。”
“在市場方面,數據中心未來的重要工作是圍繞人工智能、加速計算的。英偉達在這個平臺很成熟,我們有可用的完整堆棧,有所有必要的合作伙伴,生態系統龐大,有超過200萬開發者;很多初創企業、行業研究都在進行中。”“一旦Arm成為英偉達的一部分,我們將能夠促進Arm在數據中心取得成功。”
“這樣一來,市場就會有x86之外可行的替代方案,不只限于移動領域,數據中心、PC等領域都如此。競爭能夠促進進步、推動創新。”這番話實則已經非常明晰地交代了,Arm對于英偉達的主要價值在哪里:數據中心(和可能的PC)。本文嘗試擴展HPC數據中心的專用加速趨勢這一話題,亦可從中看看英偉達的野心有多大。
Arm對數據中心的作用有多大
2020年,HPC領域在相關芯片架構層面發生過一件大事:富士通(Fujitsu)發布名為富岳(Fugaku)的超算,其中的芯片為A64FX。這顆芯片在微架構層面其實是很有意思的。首先它整體上采用monolithic的設計,而不是現在流行的chiplet(比如AMD Epyc)。它既像CPU,又有點兒像GPU,而且片上還集成了HBM2存儲——這樣一來,A64FX的板卡就比較奇特:板卡上沒有RAM,因為已經集成在了片上(chip level)。
我們來簡單看看這顆芯片微架構的獨特之處。從上面這張圖來看,核心周圍的4個die就是HBM2存儲,連接到四個HBM2 Interface之上,算是與核心靠得很近了,所以主內存到L2 cache的帶寬就會比一般的HPC系統要明顯更大(1024GB/s),單芯片的容量也達到了32GiB。
核心部分,A64FX整體上是基于Arm v8.2A架構的,擴展了SVE(Scalable Vector Extensions)——這種擴展是專門針對HPC科學負載矢量化準備的,屬于NEON擴展指令集的補充。A64FX具體采用的是512bit SVE。這一點其實并沒有什么。
這顆芯片真正有意思的地方是,它并沒有什么加速器,die上也沒有集成專門的GPU之類的處理器。其行為方式很像GPU,但卻是顆實實在在的通用CPU。A64FX內部總共分成4組,分別是4個CMG(core memory group),每組13個核心(所以總共是52個核心,其中48個是活躍核心,其余4個為OS以及冗余策略預留)。CMG內部每個核心依次連接,而不同CMG之間采用類似于Intel Skylake的那種Ring Bus環形總線連接。作為一顆通用處理器,A64FX就是可以跑常規操作系統的,雖然它內部看起來還挺像英偉達的GPU。
這顆芯片在設計上就是為HPC負載準備的,尤其是科學模擬、數據分析等。現在比較主流的方案,是用GPU來加速這些活兒,主要是因為GPU能夠灌入大量數據,并做高度并行計算,然后同時輸出大量結果。事實上,HPC的存儲帶寬需求一直很大,包括氣象模擬、各種流體力學、量子力學等研究,以及計算機視覺、機器學習一類數據分析工作,都要求大量數據的遷移,在大量核心之間通訊、共享。
A64FX從設計思路上,也能干這樣的工作:持續做SIMD計算,而且還有不小的片上存儲資源和相當大的傳輸帶寬。另外富士通開發了一種名為“Tofu”的互聯方案,據說在能效、帶寬和延遲方面表現都非常好,宣傳上提到是顯著優于AMD和Intel的方案的(據說是比Xeon/Epic,有10倍的能效優勢)。此外,SVE矢量擴展,及其對FP16、FP32等數據類型計算的原生支持,都令其相當適用于HPC負載。
從已公開的數據來看,A64FX單芯片在性能上也遠優于Intel Xeon Platnium 8168、NEC SX-Aurora這類方案,以及部分測試優于Nvidia上代的Tesla V100。其實相較傳統通用CPU的性能優勢還是意料之中的。因為A64FX從設計上來看,是明顯更偏向專門針對HPC做了"domain-specific"的優化的,與此同時還保有了CPU的通用性。
用簡單的話來概括A64FX的思路,它很像把HPC方案中CPU+GPU+RAM的傳統組合凝聚到一起,另外也有比較全面的大規模擴展方案。這顆芯片預計2021年會出貨給亞馬遜、谷歌、微軟這些云供應商。
當然不能就性能、效率,以及其設計就簡單認定,A64FX就一定能夠在HPC領域掀起多大的浪,生態構建也屬于重要的工作。但很顯然,Arm在HPC、數據中心之上發光發熱,至少就技術、性能層面來看,是沒有任何問題的;而且Arm具備了相當的彈性,是x86平臺可能無法給予的;另一方面,Arm在端側正在對x86發起新一輪猛攻,這可能也將有助于Arm在數據中心的生態構建。
GPU在數據中心的發展令人咂舌
富岳以及A64FX的發展思路未必就代表了數據中心的未來,電子科技及半導體領域從來不是效率、性能說了算的,而且我個人也覺得A64FX在微架構層面雖然有創新,但它作為一種通用芯片,在專用計算的"domain-specific"這一點上仍然可輕易被超過;比如幾個月前,Graphcore二代IPU的發布會就特別提到了,算力相較A64FX的超越。
老祖宗構建起來的架構,其實很難在短期內被輕松推翻。只不過傳統CPU+GPU+RAM的發展方向,本身就在不停發生變化。就好像多年前應該不會有太多人想到,GPU、FPGA加速卡這類硬件可以在數據中心活得這么滋潤。
英偉達最偉大的發明,大概就是CUDA和GPGPU了。這將GPU擴展到了更多市場。2016年黃仁勛在GeForce 1080 Ti發布會上提到最多的詞還是rendering和graphics;但在2020年GeForce 30系列GPU的發布會上,Graphics這個詞被提及的次數卻遠遠少于RT core、AI等。這表明英偉達的GPU市場,早就擴展到了游戲、圖形計算之外。
即便AMD剛剛發布的Radeon GPU在性能上將近做到與Ampere架構GeForce的齊頭并進,AMD Radeon的市場與英偉達依然是不可同日而語的。
我在去年GTC China的報道中提到,2015-2019年英偉達的營收增長速度之快,令這家公司不像是個已經步入成熟期的企業。這主要是源于GPU在數據中心業務上的風光正盛。而且這個趨勢在2020年竟然還在持續,甚至可以用“飆車”來形容。
英偉達數據中心業務云霄飛車般的營收增長
英偉達最新一季(FY2021Q3)的財報顯示,公司季度營收47.3億美元,上漲57%。值得注意的是,其中數據中心業務的營收同比增長達到了162%——而且這還是在持續多年增長之后的持續增長。在谷歌云、微軟Azure之后,AWS、Oracle Cloud、阿里云都相繼宣布了Nvidia A100可用;選擇英偉達平臺針對AI相關服務做AI inference越來越多;當然英偉達數據中心業務的強勢,也離不開Mellanox在InfiniBand等方面的增長。
相較之下,英偉達游戲業務37%的增速雖然也很亮眼,卻在增長性上相形見絀了。專業視覺以及汽車業務的營收下滑,也就顯得沒那么重要了。去年的分析文章中,我曾大致估算數據中心業務占到英偉達整體營收的1/4,只次于營收占比過半的游戲業務。今年的情況預計又會發生較大變化。以這種成長速度,數據中心很快就會成為可與其游戲業務相提并論、并駕齊驅的業務了。
這其實很大程度上代表了數據中心市場,GPU這類型的硬件已經占據了多重要的地位。可見市場對于性能和效率的渴求還是瘋狂的,何況數據中心市場客觀上還受到了新冠疫情的推動。
那么這和Arm又有什么關系呢?
DPU是英偉達野心的承載
英偉達也在GTC China期間宣布,多家中國頂級云服務提供商及系統制造商采用其A100 Tensor Core GPU。阿里云、百度智能云、滴滴云、騰訊云等云服務提供商都推出了搭載A100的云服務及GPU實例。A100是英偉達這一代Ampere架構,定位在數據中心平臺的GPU產品,被英偉達稱作“最強性能的端到端AI以及HPC數據中心平臺”。
Ampere架構是英偉達在2020年年中正式官宣的。消費端的GeForce 30系列,以及上述A100都可以說是Ampere架構產品。實際上英偉達如今在熱推的另一類產品,文首提到的DPU也有Ampere架構GPU的身影:BlueField-2X DPU板卡上就加入了一枚Ampere架構的GPU,用于AI加速。
這里的DPU是相當值得一談的。拋開Ampere架構不談,在前兩個月的GTC大會上,英偉達正式宣布了BlueField-2/2X DPU(data processing units)的推出。DPU這個概念最早應該是Mellanox提出的。英偉達在新聞稿中提到,DPU采用data-center-infrastructure-on-a-chip架構,“突破性的網絡、存儲和安全性能”。直譯過來,就是芯片上的數據中心基礎設施。
本月GTC China期間,好幾篇來自英偉達的新聞稿都提到了DPU或相關信息:包括公有云廠商Ucloud基于英偉達的BlueField DPU研發,“并于上半年推出的裸金屬物理云1.0產品,通過DPU集成的多核Arm CPU快速將物理云基礎架構軟件從x86遷移到DPU中”。而且“Ucloud進一步于下半年研發并推出裸金屬物理云2.0產品”,其中也包含了BlueField DPU本身的更多特性。
在Mellanox被英偉達收購之前,DPU實際上是Mellanox針對下一代SmartNIC的一個設想,將其networking的技術,和Arm做結合,分擔主系統的更多工作,包括軟件定義網絡、軟件定義存儲、專用加速引擎等。2019年BlueField產品很低調地發布了。英偉達后續對BlueField-2,也就是DPU二代產品的定位有了進一步的延展。
所以今年發布的其實是二代DPU。BlueField 2芯片本身包含8個Arm Cortex-A72核心,以及兩個VLIW加速引擎;然后再加上Mellanox最拿手的針對網絡連接的ConnectX-6 DX NIC(網絡適配器)。
簡單來說,DPU是數據中心的另一個domain-specific加速器,從主CPU分擔networking、存儲和安全負載。這其實是英偉達在GPU產品于數據中心市場大獲成功后的又一步擴張舉措。與此同時進一步消除x86 CPU在數據中心的重要性。
用Mellanox的話來說,DPU是將計算功能,與數據靠得更近了(data-centric architecture),取代以前還要把數據專門移到計算所在位置的那種模式(compute-centric architecture)。
更具體地說,BlueField-2相對而言是達成了這個目標的;而BlueField-2X則是在板卡上給DPU再加上了Ampere架構的GPU(和EGX A100好像有點類似)——英偉達稱其為AI-powered DPU。此處多加的GPU價值主要是實時的安全分析,包括識別異常流量,加密流量分析,識別惡意行為,以及動態安全組合、自動響應等。
至此,其實英偉達已經有能力將整個系統,包括CPU、NIC、加速器、安全都放到一個SoC上,再搭配自家GPU,基本上是可以無視x86的存在的。從英偉達公布的DPU產品路線圖來看,后續還會有BlueField-3和4的問世。
BlueField-3其實是加強版的BlueField-2。而BlueField-4則計劃在單芯片性能上就打敗現有DPU+GPU的組合。英偉達計劃BlueField-4應可提供400 TOPS的AI算力。如此一來,從GPU在數據中心做AI、數據分析及HPC,到如今DPU接管網絡、存儲、安全等關鍵任務,以及將來DPU可能把這些加速的活兒都干了。
DSP應用于網絡安全的一個例子:當兩名開發者使用Omnivers高吞吐流app進行實時的工作時,一臺設備是Vmware Cloud Foundation + BlueField-2 DPU,另一臺則是傳統架構,在遭遇DdoS攻擊時,兩種架構的CPU占用率對比。右邊這臺服務器會因為數據包泛紅,致工作被打斷;而左側服務器,DPU自己就能夠識別并丟棄這些惡意數據包
與此同時,英偉達也推出了配套的DOCA軟件棧,就類似于GPU世界的CUDA那樣。英偉達這兩年一直在宣稱自己是家軟件公司。那么當為開發者提供SDK,這片市場的空前增長,就像現如今的GPU那樣,是為英偉達真正統領數據中心市場的野心所在。
而且英偉達現有的軟件開發能力,還能持續為DOCA添磚加瓦,包括SDK擴展支持、各種庫的增加:眼見CUDA如此的興盛即知DPU將來的潛力了。與此相較,媒體渲染的什么黃氏定律(Huang’s Law)都不過是為此服務的營銷宣傳罷了。
Arm將在此間扮演什么樣的角色?回想文首Jay Puri在GTC China首日的圓桌論壇上的發言,是否變得明朗許多?在DPU的版圖上,Mellanox早已是英偉達麾下一員,就剩Arm了。想到此處,感覺英特爾在現如今的時代格局下,還真是有點兒“誰都在針對我”的處境。
這或許也能一定程度解釋,為何AMD要收購賽靈思。另外,Jay Puri發言中還提到了,Arm理應在PC領域也發光發熱,這是否是在暗示,英偉達或許還有在消費市場一搏的打算?