記憶體頻寬限縮晶片算力 存算一體AI晶片大有可為

作者: 張慧娟
2023 年 03 月 04 日

架構就像是晶片的基因,直接決定了晶片的進步空間。這也是後摩爾定律時代,新型態晶片崛起的根本原因。大量的資料、有效的演算法以及足夠的算力結合,推動了人工智慧(AI)的高速發展。但也不得不看清一個嚴峻的現實,資料量越來越大,資料類型越來越多。各種演算法日新月異,高速發展,與此同時,算力的提升卻顯得趕不新技術的進展,甚至落後於資料和演算法的需求,尤其在運算場景對高頻寬、低功耗需求持續增加的趨勢下。此外,加上晶片製程的進步趨近極限,可大規模商用的新型材料暫時還沒出現,因此在晶片架構上的探索成為提高晶片性能最重要的手段之一。

AI晶片突破重圍

在傳統的馮・諾依曼架構中,由於運算與儲存分離,運算過程中需要不斷透過匯流排交換資料,將資料從記憶體讀進CPU,運算完成後再寫回記憶體。而隨著深度學習的發展和應用,運算單元和儲存單元之間的資料移動尤為頻繁,資料搬運慢、搬運耗能大等問題,成為了算力效能進一步提升的關鍵瓶頸。從處理單元外的記憶體提取資料,搬運時間往往是運算時間的成百上千倍,公開資料顯示,整個過程的無用耗能約在60~90%之間。

特別是大算力場景下,存算分離帶來的運算頻寬問題成為主要瓶頸。以智慧駕駛等高度使用邊緣運算場景來看,除了對算力需求高之外,對晶片的功耗和散熱也有很高的要求。而常規架構的晶片設計中,記憶體系統的性能提升速度已經大幅落後於處理器的性能提升速度,有限的記憶體頻寬無法保證資料高速傳輸,無法滿足高算力的運算需求。

因此半導體產業面臨的挑戰很兩極,一邊是需要不斷突破的算力門檻,另一邊則是固守多年的記憶體限制。而只有創新架構,打破記憶體的限制、降低成本、提升運算效率,才能讓晶片算力更進一步,推進資料運算應用的

發展。在此趨勢下,將記憶體和運算更緊密地結合在一起的存算一體方案,正獲得越來越多的關注,並逐步由研究走入商用場景中。

以資料為核心的AI晶片路線

對於大算力的AI晶片來說,架構設計已經越來越明顯轉向以資料為核心,不過對於不同技術路線的企業來說,有不同的實現方式。HBM是目前超大算力晶片常用的方案之一,能夠暫時緩解記憶體限制的困擾,但實現成本較高。以輝達(NVIDIA)在AI雲端市場大規模落地的GPU來看,其較先進的Hopper架構一方面透過HBM來解決記憶體瓶頸,另一方面新增了張量儲存加速器(TMA)。整個Hopper架構GPU由8個圖形處理叢集(GPC)組合而成,核心兩側是HBM3顯存,擁有5,120位元的位寬。此外,TMA提高了張量核心與全域儲存和共用儲存的資料交換效率。此方式也需要先進的製程和封裝技術,基於Hopper的新一代GPU H100,就採用了台積電4nm製程、CoWoS 2.5D封裝技術,在設計能力、成本投入方面都有較高門檻。

另外,三星(Samsung)則發布HBM2-PIM技術和近記憶體運算方案AxDIMM。HBM2-PIM實際上是帶有運算功能且在AI應用中能提升系統性能的記憶體晶片,AxDIMM則實現了在每個DRAM晶片旁邊都整合了一個單獨的加速器邏輯,並可以同時存取,增加了記憶體存取的頻寬。這樣的設計概念也非常符合三星的業務規畫,用以確保其記憶體在AI時代繼續保持先進性。

英特爾(Intel)的神經擬態計運算晶片Loihi也採用了存算一體的架構,使之更容易擴充。Loihi晶片的裸片包含128個小核心,每個核心裡面模擬1,024個神經元的運算結構,每個神經元又有1,000個突觸連接,這表示768個晶片連接起來可以構建接近1億神經元的系統。

存算一體成時勢所趨

近年來,中國企業對於存算一體晶片的投入進入高峰期。中國產存算一體晶片主要呈現以下趨勢。一是進入2017年以來,中國存算一體晶片企業開始蜂擁入場,12家企業中有10家成立於2017年之後。第二,從廠商的技術藍圖觀察,以近記憶體運算和記憶體內運算兩種路線為主,其中,又可以細分為模擬記憶體內運算、全數位記憶體內運算、類人腦記憶體內運算、類腦近記憶體運算等。第三,記憶體類型相對多樣化,包括快閃記憶體、SRAM、RRAM、ReRAM等。第四,中國存算一體晶片正在向大算力的方向邁進,以2020年成立的億鑄科技和後摩智慧為代表。

技術藍圖的選擇直接決定了產品的應用方向。近記憶體運算的基本做法是將資料儲存儘量靠近運算單元,降低資料搬運的延遲和功耗,其架構主要包括多級緩存架構和高密度晶片上儲存。而記憶體內運算是在內部記憶體中增加運算邏輯,直接在記憶體內部執行資料運算,這種架構資料傳輸路徑最短,同時能滿足大模型的運算精度要求。

在記憶體的選擇方面,發展較為成熟的有NOR Flash、SRAM、DRAM等。FLASH屬於非易失性儲存介質,具有低成本、高可靠性優勢,但製程有瓶頸;SRAM在速度方面有優勢,但容量密度小,價格高,在大陣列運算的同時保證運算精度具有挑戰;DRAM成本低、容量大,但是速度慢,且需要電力不斷更新。存算一體新型記憶體有PCRAM、MRAM、ReRAM等,其中ReRAM在神經網路運算中具有優勢,是目前發展較快的新型記憶體。

此外,還有類比記憶體運算和全數位記憶體運算的區分。業界對於數位還是類比較好尚未有定論。前幾年業界認為類比運算在速度、能耗、製程方面有優勢;近些年則又提出類比路線需要進行數位類比轉換,精度容易受訊噪比影響達到上限。而數位運算具有高精度、高環境容忍度的優點。不過,不論是類比還是數位,都需要企業基於已有技術能力,面向應用場景、可選擇製程等方面進行權衡。

記憶體/運算整合仍有挑戰

面向國際巨頭在AI算力市場、儲存技術占據領先地位的當下,以電路/架構設計出身的存算一體新創公司,將競爭核心著眼於存算一體SoC晶片設計以及相應的IP核心能力,是一種較為務實的做法。並且,差異化的技術藍圖演進,長遠看也有利於產業的良性發展。

目前看來,整個產業對存算一體晶片的研究依舊處於探索階段,在製程成熟度、典型應用、生態系統等方面尚待進一步成熟,談論哪種架構勝出為時尚早。並且,存算一體晶片發展本身就涉及龐雜的產業鏈環節,需要從記憶體到AI晶片再到編譯器和演算法的一系列技術能力,也離不開強大的開發能力和生態建設能力。

算力發展須突破記憶體頻寬瓶頸

多年從事晶片開發的工程師,到後來可能發現,很多時候算力提升的挑戰並不在於運算單元本身,而是傳輸頻寬的限制。對於2022年以來就存在的瓶頸,存算一體無疑是合理的發展方向,此方向也因深度學習的興盛而達到了合適的發展時機。目前看來,第一批實現量產落地的存算一體晶片,以小算力、邊緣端應用居多,面向大算力資料中心、智慧駕駛的晶片,根據主要供應商的市場規畫,有望在未來一兩年內實現量產。

在人工智慧本身仍在探尋應用場景的前提下,存算一體化的落地問題,仍需要緊密結合具體應用場景來進行分析。存算一體晶片產業真正走向成熟還需要持續地積累,實現小算力場景持續滲透,針對高價值場景盡可能優化,且大算力場景規模量產,最終才能走向普遍應用。

(本文原刊登於與非網EEFOCUS)

》想看更多內容?快來【免費加入會員】【登入會員】,享受更多閱讀文章的權限喔!
標籤
相關文章

巨大機會與挑戰迎面撲來 2024生成式AI全方位啟動(1)

2024 年 05 月 06 日

巨大機會與挑戰迎面撲來 2024生成式AI全方位啟動(2)

2024 年 05 月 06 日

處理器架構市場洗牌 RISC-V喜迎工業/自駕商機

2022 年 12 月 03 日

智慧化趨勢點火 中國感測器產業全面啟動

2023 年 01 月 07 日

從ChatGPT透析國力競爭/中國AI發展(2)

2023 年 03 月 28 日

中國AI算力制衡遊戲新局 唯獨華為當輸家

2025 年 07 月 18 日
前一篇
英飛凌將以8.3億美元收購GaN Systems
下一篇
感測號誌即時警示 交通糾察機器人守護路口安全