進軍InfiniBand主場 超乙太網路志在必得

作者: 郭勤毅
2024 年 09 月 20 日

超乙太網路聯盟(Ultra Ethernet Consortium, UEC)於2023年8月成立,聯盟的執掌成員為9家國際大廠,包含晶片商超微(AMD)、博通(Broadcom)、英特爾(Intel),資通訊設備商Arista、思科(Cisco)、慧與(HPE),雲端大廠Meta、微軟(Microsoft),資訊服務大廠則有Atos旗下的Eviden,加上後來加入的甲骨文(Oracle),共計10家。

UEC目標是以現行乙太網路技術為基礎共同訂立一套更先進的傳輸協定,協定標準一旦定案,晶片商至少需要重新設計乙太網路晶片內的媒體存取控制層(Media Access Control, MAC)的電路,以此推出合乎UEC標準的新網路晶片,而後用於資通訊設備內,最後將多套設備構建成大型資訊系統與環境。

UEC與CXL(Compute Express Link)有些類似,兩者都採用客製化的傳輸協定,但CXL是以PCI Express(PCIe)實體介面為基礎,UEC則是以乙太網實體介面為基礎。CXL是為了提升系統內整體連通效能與更充分運用記憶體資源而訂,那UEC所求為何?對此本文從市場脈絡、技術演進等角度來說明。

劍指FC/IB 乙太網協定持續擴張

在了解UEC訂立動機前先說明過往背景。基於實體線路的高速網路可分成三大類,一是在辦公室內用的乙太網,用於連接個人電腦、印表機、伺服器(放置於辦公室內或鄰近辦公室的資訊機房內),通常是少數伺服器服務多部個人電腦,乙太網也用於資訊機房內伺服器間的連線,一般也稱為區域網路(LAN)。

二是資訊機房內更深處的光纖通道(FC)構成的儲存區域網路(SAN),用於儲存設備與伺服器間的連線,通常為少數的儲存設備服務多部伺服器。三是只在超級電腦(SC)、高效能運算(HPC)領域運用的InfiniBand(IB)。三者各自獨立,使用不同的網卡、不同的交換器,全然不同的三套網路系統。

不過,隨著乙太網的速率持續提升,原本使用光纖通道的領域,也開始採用乙太網。雖然光纖通道仍有低傳輸延遲、高實質傳輸率等優勢,然在乙太網持續精進下,光纖通道的空間已大幅限縮,現在諸多儲存設備也改用乙太網而不再堅持用光纖通道,LAN與SAN從各自分立逐漸融成一體。

為了取代光纖通道,乙太網也在原有協定中加入原本只有光纖通道才具備的功能,例如iSCSI。光纖通道協定能讓儲存設備內彈性劃分的儲存空間,分配給各伺服器運用,且從伺服器角度仍認為該儲存資源位於自身機內,而乙太網搭配iSCSI、FCoE等,也能達到相似的效果(圖1)。

圖1 以乙太網實體層為基礎增訂的iSCSI、FCoE協定,正逐漸壓縮與取代光纖通道協定(圖片來源:TechnoScoop)

 

UEC希望複製乙太網大幅取代光纖通道的勝利模式,透過在乙太網體系中持續增加新的協定功能,以便取代HPC領域的IB。事實上,現行SC/HPC領域中早已是乙太網跟IB各占一片天的局面,但後者多用於高階HPC或超級電腦,前者則是以預算相對有限的系統為主(圖2)。

圖2 每年更新兩次的全球500大超級電腦,以2024年6月而言已過半使用Gigabit Ethernet(左),次之為InfiniBand(右),其餘為專屬網路、客製連線及些許OmniPath(圖片來源:Top500.org)

 

為了讓乙太網進一步取代IB,乙太網陣營一樣是在既有的協定基礎上進行增訂,實現原本只有IB才有的功能。舉例來說,IB的RDMA協定可以讓不同設備間的記憶體透過IB實現共享,例如A設備內有4GB記憶體,B設備內有8GB記憶體,透過IB連線便可視為一個連續的12GB空間,簡言之兩部設備可視為單一系統,以此構成一套大型運算系統。

為達到與IB搭配RDMA類似的效果,乙太網陣營已制定出RoCE。UEC則試圖制定更先進的UET協定來取代RoCE,以便進一步取代IB。

IB生態系一家獨大給予UEC可乘之機

按理而言,高效能運算市場(HPC)不僅遠小於廣大的商務運算市場(一般伺服器),市場成長性也趨穩定而缺乏吸引力,為何乙太網陣營看上此一市場?原因主要有二:

‧IB生態系走向一家獨大

IB正逐漸從產業共通標準逐漸演變成單一企業的專屬標準。IB標準背後的產業聯盟InfiniBand Trade Association雖有50多家企業成員,但真正執掌標準的會員僅4家,即NVIDIA(原Mellanox,NVIDIA購併後繼承其地位)、英特爾、IBM、慧與,其中晶片商僅有NVIDIA與英特爾。然而,英特爾已放棄IB,甚至放棄以IB衍生成的OmniPath,專注於乙太網,導致IB變成NVIDIA一家獨大的局面,引發業界的憂慮。

‧LLM讓HPC從小眾變主流

2022年11月開始,大型語言模型(LLM)、生成式人工智慧(GenAI)崛起,需要龐大運算力來訓練與推論模型,此促使AI運算系統龐大化,使其與HPC系統兩者日益接近。換言之:過往小眾、低成長的系統市場開始起飛。

雖然大型AI系統與HPC系統還是有些差異,前者需要大傳輸頻寬,後者則偏向低傳輸延遲,而低延遲是IB的強項,然兩者漸趨一致,如此也將能發揮產業常見的量價均攤效益,倘若乙太網陣營沒有進步,反而讓IB因此攻城掠地,在具有HPC市場後也擴展延伸到新興的大型AI系統市場,則僅有NVIDIA一家業者受益,故業者聯合發起UEC,試圖增訂協定以進一步限縮、制衡IB。

所以,UEC的增訂方向在於盡可能減少乙太網原有的傳輸封包擁擠堵塞現象,讓乙太網可以實現規模更大、更穩定可靠的連接,減少整體系統的尾部延遲(Tail Latency)現象等,以爭取原本屬於IB的市場。

為達到目標,UET協定用到的技術包含多路徑(Multi-pathing)、封包噴灑(Packet Spraying)、彈性送達順序(Flexible Delivery Order)、更現代化且易於組態配置的堵塞控制(Congestion Control)機制、端對端遙測(End-to-end telemetry)等。

另外,UET也要求多重傳輸送達服務(Multiple Transport Delivery Services)、交換器卸載(Switch Offload)、在傳輸訂之初即考慮安全防護機制,並把強化的乙太網連結層、實體層納入考慮。然上述列出的技術規格僅為草案(圖3),1.0正式標準預計於2024年底頒布。

圖3 2024年3月UEC發布的UET協定堆疊主張(圖片來源:UEC)

 

UEC晶片展望推測

與IB相比,UEC有較多的晶片供貨商,至少主導成員中,有三家會供貨,而Marvell、NVIDIA也在次一階的一般成員中,仍會對UEC的發展保持密切關注,估計必要時也會跟進推出UEC網路晶片。未來數年內將是UEC能否成功挑戰IB的關鍵。

》想看更多內容?快來【免費加入會員】【登入會員】,享受更多閱讀文章的權限喔!
標籤
相關文章

生成式AI算力需求無極限 HPC硬體彈性擴充應援

2023 年 06 月 05 日

數位轉型需求大幅成長 AI帶動資料中心投資熱(1)

2023 年 06 月 12 日

數位轉型需求大幅成長 AI帶動資料中心投資熱(2)

2023 年 06 月 12 日

國內外廠商積極布局 生成式AI商機/監管挑戰並陳(1)

2024 年 01 月 01 日

國內外廠商積極布局 生成式AI商機/監管挑戰並陳(2)

2024 年 01 月 01 日

AI伺服器「熱度」飆升 液冷技術百家爭鳴(1)

2024 年 06 月 28 日
前一篇
AMD推出尺寸更小/成本最佳化之車規級FPGA系列
下一篇
散熱技術創新飛快 專利地圖全面解析(2)