人工智慧(AI)時代,運算元件的效能重點,從算力進化到運算密度(Arithmetic Intensity),運算密度越高可以更有效率的處理模型的資料,台灣發展軟體科技(Skymizer)十多年前從編譯器軟體起家,近年設計出可以最有效率處理大語言模型的LPU(Language Processing Unit)架構,並透過IP授權方式,希望協助晶片廠商開發最有效率的各類產業應用GenAI晶片,發展最佳化軟硬體垂直整合產業鏈。
運算密度加速GAI
Skymizer從編譯器軟體起家,早期協助X86處理器效能優化,該公司創辦人暨技術長唐文力提到,2018年跨入卷積神經網路(CNN)加速器IP,2022年開始研究大型語言模型(Large Language Model, LLM),在看到Meta於2023年發表LLaMA(Large Language Model Meta AI)大語言模型,不在資料中心也可以跑LLM後,正式全面投入LLM。
AI需要大量的資料與運算配合,進行訓練與推論,過去幾年算力是產業追求的重點,唐文力提到,在生成式人工智慧(GAI)與Transformer架構的時代,運算密度更加重要,其為資料與運算的比例,單位是OPs/byte,這個量的意思是,在算法中平均每讀入單位數據,能支援多少次運算操作。運算強度越大,則表示單位數據能支持更多次運算,也就是說算法對於儲存記憶體頻寬的要求越低。
以目前常見的運算元件為例,無論是CPU、GPU還是DSP,都有一個資料與運算的比例,代表處理每一筆資料所需要執行的運算指令數量。CPU的算力密度大約在2到8之間,意味著每筆資料進來,大約會執行2到8個運算指令,其記憶體頻寬通常在8GB/s左右。另外,GPU則高達300~1700,這使其運算密度極高,GPU的記憶體頻寬可以達到1TB/s的等級,也是近年GPU被大量使用來運算AI模型的主因。
數位訊號處理器(DSP)這類處理器常見於邊緣裝置,唐文力說,DSP的運算密度也很高,約在300上下。但它的頻寬卻與CPU相當,僅有8GB/s左右,造成了性能瓶頸。而神經網路處理器(NPU)一度被視為AI運算的新星,運算密度同樣在300左右,甚至更高。然而,大多數NPU的頻寬規格卻落在25~50GB/s之間,遠不及GPU,這讓它在處理需要大量資料吞吐的任務時顯得尷尬。
Skymizer的LPU運算密度需求極低,只有1.2~2;但它對頻寬的需求卻是和GPU同等級的1TB/s,與當今最熱門的大型語言模型,運算特性相符,只需要有限的運算能力就可以處理大量的資料,既不會像CPU在記憶體頻寬造成瓶頸,也不會像GPU浪費運算資源又耗電。
LPU最大化運算效能與耗電量
整體而言,用CPU跑LLM,算力密度勉強匹配,但8GB/s的頻寬完全跟不上,也會形成運算瓶頸。而用GPU/NPU跑LLM,頻寬(1TB/s)是足夠的,但其高達300~1700的算力卻嚴重過剩,造成大量電力消耗。LPU透過低算力,但頻寬極大的架構,可以最大化運算效能與耗電量。
唐文力強調,LPU的設計理念,是追求極致的效率。因為運算單元(加法器)的數量遠少於GPU,晶片面積會小得多,耗電量也隨之大幅降低,相較於某些GPU,LPU的晶片面積差距可能達到150倍,累計起來的整體差距甚至可達600倍。這意味著Skymizer可以用極少的電晶體,達到與GPU處理LLM時相當的性能,同時大幅降低能源浪費。
在商業模式上,Skymizer選擇IP授權的方式,而不是直接設計晶片,主要是希望不要與目前產業龍頭NVIDIA的產業鏈直接競爭,並保留合作與互動的空間。在半導體產業,一家新創公司能否存活,技術固然重要,但更關鍵的是銷售通路的掌握度。唐文力認為,當前Skymizer與NVIDIA的規模差距太大,跟隨其產業鏈更能確保發展。
唐文力形容,Skymizer的商業模式像是開加盟店,先建立品牌,提供核心的IP和軟體,而其他IC設計公司則是加盟主。在這個模式下,Skymizer負責最難的IP、軟體以及SoC設計部分,而合作夥伴則利用既有的銷售通路和客戶關係去推廣產品。大家共同分擔風險,也一起分享利潤。
Transformer將長期主導AI架構
在網路模型的發展上,CNN已經在每一個面向,都被Transformer的方法打敗了,甚至在CNN最專長的影像辨識精準度上,Transformer的辨識率已經超越人類,而CNN則略遜一籌。在ChatGPT發表初期,AI軟體工具鏈曾出現嚴重的分裂,甚至有超過二十種不同工具並存的混亂局面。所幸Meta推出開源的LLaMA模型,讓開發社群迅速團結起來,全面擁抱以Hugging Face為核心的開源生態。
同時,Transformer模型參數動輒數十億甚至百億,訓練一個大型模型的成本從百萬美元級別飆升到數十億美元級別,這使得能夠參與遊戲的玩家數量銳減,模型種類也從過去的上萬種CNN模型,收斂到現在不超過50個的主流LLM模型。這讓硬體廠商的支援工作變得單純許多。
對於未來,唐文力大膽預測Transformer架構的長期穩定性。Transformer已經在數學上被證明,與其挑戰者Mamba模型是等價的,這意味著目前技術可知最有效率的AI模型就是這樣了,很長一段時間內,Transformer應該就是AI模型的主流,未來都將在這上面進行穩定的改善與優化。
建構全新運算平台
儘管通用人工智慧(Artificial General Intelligence, AGI)尚未出現,未來能不能真正產業化也還有諸多爭論,對於AGI能否成為終極的AI型態還在未定之天,但他已經成為科技產業的下一個「聖杯」,現階段產業大廠追逐的主要目標。唐文力則認為,通用人工智慧AGI可能在三~五年內就會誕生,但它對人類的影響不會是一個瞬間的過程,而是五~十年的演進。AGI是一種能夠在各種領域和任務中表現出與人類相媲美或超越的運算系統,而且能自我學習與成長。
唐文力相信,在AGI時代,AI將會自己設計最適合自己的晶片。屆時,產業將迎接翻天覆地的改變,人類工程師的角色也會與過去大不相同。Skymizer的目標,是在這五~十年的過渡期中,穩健地發展成為市場上的獨角獸,確保在AGI運行的過程中占有一席之地。
為了實現這個目標,Skymizer的第一步,是推出一顆28奈米製程的晶片。選擇相對成熟的製程,一方面是考量到台灣資本市場的募資規模,另一方面則是為了應對美國對中國的出口禁令,確保產品能銷售到全球市場。當營收和市場地位穩固後,才能吸引到足夠的資金,兩年後,希望可以將製程推進到2奈米。
Skymizer將持續聚焦在高效率運算架構、低功耗晶片設計與軟硬整合服務,讓AI不只是雲端的事,也能落地到機器人、邊緣設備與個人裝置上。不是只要做出一張AI加速卡,而是要做出一個全新的運算平台。