隨著GPU功耗大幅提升,伴隨而來的散熱問題,已成為AI伺服器設計,甚至整個資料中心設計規劃時,最棘手的挑戰之一。由於傳統氣冷方式已無法滿足AI伺服器的散熱需求,因此,轉向液冷將是必然的趨勢。
散熱問題演變為跨物理、多層級的工程戰役
Ansys技術經理陳建佑指出,在伺服器散熱方式由氣冷轉向液冷過程中,工程團隊普遍遭遇三大挑戰:首先是系統整合問題,其次是需導入主動式的熱管理,第三則是冷板與液冷模組設計複雜化。
在系統整合方面,現有的伺服器主機板、機箱多是以氣冷為前提進行設計,要導入液冷時,必須考慮幾何相容性、製造可行性、管線接頭密封性、機構干擾等問題。
主動式熱管理的需求,則與AI伺服器的負載變化有關。由於AI伺服器的運算負載變化相當劇烈,因此其熱負載的變化也會大幅變動。因此,業界需要能因應負載變化,甚至是預測晶片溫度變化,進而動態調整的主動式熱管理方案。
冷板與液冷模組設計複雜化,則是追求散熱效率最佳化的結果。為了得到最好的散熱效率,工程師在設計冷板或液冷模組時,必須考慮到微通道的幾何設計與換熱效率、流量均勻性、冷卻液相變化/沸騰能力、局部溫度飆升等各種問題,從而使模組的設計變得極為複雜。
跨層級模擬成新基礎 預測能力即是競爭力
在熱模擬領域擁有最完整工具組合的Ansys,可為設計人員提供多層級、跨尺度的模擬方案。在晶片、模組與冷板設計層級,Fluent、Icepak可以提供高解析度的CFD模擬;從伺服器、機櫃到整個機房的設計規劃,則可用Thermal Desktop搭配Fluent,對整個複雜系統進行宏觀分析,提早發現可能的問題點。
而隨著液冷散熱成為主流,液冷模組與系統的可靠度,將會是接下來業界面臨的最大考驗。Ansys經理丁羽辰指出,隨著時間經過,液冷系統的可靠度問題會逐漸浮上檯面。因為反覆的熱循環、壓降跟流體衝擊,都會造成材料疲勞、劣化 ,進而引發接頭鬆動、變形、滲漏等問題。這時,Mechanical、Sherlock、Materials等工具,就會派上用場。這類可靠度分析,能藉由Ansys的多物理耦合功能,結合CFD的壓力與溫度結果,形成完整的可靠度載入條件。
考慮到AI伺服器與資料中心的造價高昂,與其事後補救,不如事前預防,已經是業界普遍能接受的概念。而這也是Ansys能為業界帶來的最大價值:唯有先預測,才能談預防;有了預防機制,才能提升可靠度。
Ansys預期,液冷技術在AI伺服器領域,只會越來越普及。這不只式散熱技術的改朝換代,更會為包含電子、金屬加工、機械設備等業者在內的供應商,帶來前所未有的工程挑戰。在這場變革中,Ansys的模擬工具提供了一條降低風險、加速開發、縮短整合時間的道路,成為跨產業液冷供應鏈的共同基礎與核心競爭力。