全球市場針對人工智慧(AI)的研發腳步飛快,尤其在生成式AI技術發酵後,AI的算力需求迅速攀升。為了滿足大型語言模型等大規模訓練的需求,處理器廠商加快超級電腦的開發腳步,期望助AI發展一臂之力。其中,NVIDIA日前透過影片首次公開資料中心規模超級電腦Eos,展示為先進AI工廠提供動力的架構。Eos是大型NVIDIA DGX SuperPOD,NVIDIA開發人員利用加速的運算基礎架構和全面最佳化的軟體來實現AI突破。
Eos由576個NVIDIA DGX H100系統、NVIDIA Quantum-2 InfiniBand網路和軟體構成,提供總共18.4 exaflops的FP8 AI效能。Eos在2023年11月的Supercomputing 2023大會(SC23)上亮相,以希臘女神Eos命名。
Eos超級電腦中,每個DGX H100系統均配備八個NVIDIA H100 Tensor核心GPU。Eos共有4,608個H100 GPU。因此,Eos可以處理龐大的AI工作負載,以訓練大型語言模型、推薦系統、量子模擬等。同時Eos有助於人們生成式AI改變世界,包含藥物探索到聊天機器人,再到自主機器等等。
為了實現這些AI技術的突破,研發人員需要的不僅僅是AI專業知識和開發技能,也需要一個AI工廠,一個隨時可用的專用AI引擎,以提升構建大規模AI模型的能力。Eos在全球最快超級電腦TOP500排行榜中排名第九,突破了AI技術和基礎設施的極限。
Eos包含NVIDIA先進的加速運算和網路技術,以及諸如NVIDIA Base Command和NVIDIA AI Enterprise等先進的軟體產品。其架構針對需要跨越大型加速運算節點叢集,實現超低延遲和高吞吐量連線的AI工作負載最佳化,成為尋求擴展AI功能企業的理想解決方案。
基於採用網路內運算(In-Network Computing)技術的NVIDIA Quantum-2 InfiniBand,其網路架構支持高達400Gb/s的資料傳輸速度,有助於快速移動訓練複雜AI模型所需的大型資料集。Eos的核心是由NVIDIA DGX H100系統所驅動的突破性DGX SuperPOD架構。該架構旨在為AI和運算領域提供緊密整合、能夠進行龐大規模運算的全端系統。隨著世界各地的企業和開發人員尋求利用AI的力量,Eos可望成為關鍵資源,加速實現能為每個組織提供動力的AI驅動應用進程。