Arm終端產品運算子系統(Arm CSS for Client),在提高整體運算效能、強化人工智慧運算能力與優化省電續航三大主軸下,帶領智慧終端實現下一波運算性能需求。Arm並舉辦Tech Day深入解析相關技術架構與設計理念。
人工智慧(AI)時代正式降臨,AI PC與AI NB等智慧終端預計將成為品牌廠商開發的重點,身為各家晶片商軍火庫的Arm,也於5月底正式推出全新的架構解決方案Arm終端產品運算子系統(Arm CSS for Client),在提高整體運算效能、強化人工智慧運算能力與優化省電續航三大主軸下,帶領智慧終端實現下一波運算性能需求。
Arm終端產品運算子系統採用Armv9架構搭載全新的CPU與GPU核心,並推動旗艦運算單元進入3奈米製程,推出已量產就緒的參考設計,加速晶片商的量產時程。Arm終端事業部智慧手機市場資深總監Steve Raphael(圖1)表示,過去一年, AI從手機到筆記型電腦取得顯著創新,並由此誕生了AI智慧手機和AI PC。在裝置端和雲端均能實現更高的性能,同時將需要更高的能耗來驅動AI技術。
Arm CSS for Client針對下世代3奈米製程堆疊進行優化。Raphael說明,Arm在2021年推出了專為性能和AI而設計的Armv9架構,並在過去幾年中提高了在向量加速、機器學習(ML)等應用的運算能力;增強系統的安全性和穩健性;更重要的是,增加了AI的功能。
Arm CSS for Client優化行動終端AI體驗
進一步觀察CSS架構,Arm終端事業部產品管理總監Steve Hopper(圖2)指出,其包括第二代Armv9.2 CPU組合,超大核Cor tex-X925以及高效率的Cor tex-A725和更新後的Cortex-A520;GPU部分為第五代的Arm Immortalis-G925,以及Arm Mali-G725和Mali-G625。CSS運算時脈超過3.6GHz,適用于Android系統的CSS參考軟體堆疊搭配固定虛擬平台(Fixed Virtual Platform, FVP)。
2024年Arm的參考平台選擇2+4+2的CPU配置,配備的L3快取大小為16MB,Hopper說,透過將L3從8MB增加到16MB,並在所有核心之間共用,運算量大的工作負載可進一步加速。在GPU方面,最終決定採用14個著色器核心,搭載4MB的共用L2快取。
在性能表現上,Hopper提到,與TCS23相較,透過Geekbench單核跑分,Cortex-X925峰值性能提高36%;而在前十大應用中,五款應用平均啟動時間加快33%;對於AI大語言模型(LLM),CSS平台上詞元(Token)首次回應時間,結果顯著提升了46%和42%;Speedometer測量網頁瀏覽速度提升60%;而在光線追蹤與可變速率著色(VRS)等七項繪圖基準中,峰值繪圖性能平均提高30%。
在能效部分,系統級增強帶來的直接效應是遊戲時間和電池續航時間均有延長。Hopper表示,在終端CSS中採用了新Arm Immortalis-G925 GPU,測量到的遊戲性能以及能效改進結果較TCS23平台有了顯著的改善。在五款熱門手遊中,終端CSS在相同功率的條件下,其FPS性能平均提升37%;而在相同的120fps性能條件下,功耗降低30%。
Arm終端產品運算子系統將進一步推動行動端LLM性能的提升,使其成為生成式AI體驗的最佳終端平台。Hopper認為,儘管摩爾定律可能正在減速,但高階行動平台的創新壓力卻並未減輕。每一代高階行動晶片組都將突破更高的運作時脈,以獲得更出色的性能。Arm終端產品運算子系統是一個彈性可擴展的平台。Raphael強調,CSS未來也可以成為AI PC/NB的平台。與Cortex-X4相比,其TOPS數提升了50%。
新世代Armv9 CPU效能滿點
Arm終端產品運算子系統的核心,絕對非CPU架構莫屬,Arm自2020年推出Cortex-X系列以來,目標簡單明確,就是提高單核性能,2024年Arm對Cortex-X CPU的設計進行了根本性的改變,能夠適應未來數年的發展。
CSS解決方案的超大核為Arm Cortex-X925,是Arm迄今為止速度最快、性能最強的CPU。Arm終端事業部高級產品經理Manish Pandey表示,其單核效能提升了36%,AI性能提高了46%。再者,大核架構為Arm Cortex-A725,與前一代相比, 性能效率提升了35%。另外,針對最新的3奈米製程,亦對Cortex-A520進行了更新與優化,與2023年的Cortex-A520相比,節省15%的能耗。此外,整合的動態共用單元DSU-120,為應對新的高階應用案例,Arm對DSU進行更新,並導入新的功耗模式,與上一代相比,降低了典型工作負載的功耗。
Pandey指出,無論是應用啟動、網頁流覽、遊戲、AI還是羽量級媒體處理,在各種應用中性能皆有所提升。而現實環境中的應用相當複雜,涉及多個CPU的相互作用,從另一個角度來看,在現實環境的體驗中,在大約40個指標上平均實現30%的提升。
Arm不僅關注原始性能,同樣也注重功耗。Cortex-X在多個指標上實現了性能和功耗的雙重改進。在DVFS曲線的操作點上端,Cortex-X925達到峰值性能,這表現在裝置反應速度提升。在操作點的中段範圍內,Cortex-X925在給定的功耗範圍內提升了性能。
在效率部分,Cortex-A700系列是關鍵,Pandey說,Arm Cortex-A725持續改善性能效率。此次致力於解決兩大挑戰,第一,滿足新一代應用的需求,主要是持續的AI和遊戲體驗; 第二,為這條產品線在3奈米製程上實現量產解決方案。與前代A720相比,A725能效提高25%。
另外,Arm Cortex-A520雖然採用的微架構更新頻率較低,然而,這並不意味沒有做出任何改進。Pandey強調,針對3奈米製程,對於Cortex-A520來說同樣比較複雜,因此透過更新生產流程,並與特殊應用積體電路(ASIC)團隊合作,以確保能保持微架構不變的情況下,優化3奈米製程解決方案。
在叢集(Cluster)部分,CSS的DSU架構,作法是將所有IP放在一起,並使IP高效協同工作,此外,DSU同時具有可擴充性。Pandey提到,DSU性能指標包括快取大小、頻寬、延遲、漏電和動態功耗。這些指標往往會與實際應用之間存在緊密的牽動。
Pandey表示,Arm CSS新版DSU導入中高切片斷電模式(Middle High Slice Power Down),針對RAM新增Quick Nap(QNap)模式,QNap是RAM的特殊電源模式, 介於RAM運作(Functional)模式和保留(Retention)模式之間,在不影響性能的前提下,可以降低漏電。
Immortalis-G925大幅強化遊戲體驗
自從行動裝置進入智慧聯網時代,無所不在的影像體驗就成為智慧裝置的一大重點。2024年Arm CSS for Client的GPU Immortalis-G925也透過強化繪圖效能與AI的運算,提供使用者全面進化的繪圖體驗。
Immortalis-G925是Arm第五代繪圖處理架構的第二代GPU產品,為該公司現階段性能最強、效率最高的GPU,也是Arm CSS的繪圖核心。安謀科技市場總監王剛表示,與2023年的Immortalis-G720相比,G925在各種繪圖應用中的性能提高了37%;在運行AI/ML網路方面,性能提高36%。在提供與2023年參考平台相當的遊戲性能時,G925能節省30%的功耗;而在對複雜物件進行光線追蹤,其性能提升達52%。
在遊戲效能方面,王剛指出,與2023年的解決方案相比,主流手遊運行在採用Immortalis-G925的Arm終端CSS參考平台時,性能平均提升了46%。在AI的表現部分,影像處理(如分割或分類)與2023年的全面運算解決方案(TCS)相比,性能提升41%。在超級採樣任務中,使用神經網路放大圖像時,性能提升了將近30%;在自然語言處理和語音轉文本方面,亦有50%性能提升。
現代手遊愈來越複雜,不僅在於著色器的複雜度,場景中的幾何圖形數量也呈爆炸式成長。因此出現了過度繪製的問題,過度繪製指的是場景中模糊不清的重疊圖元數量,即在最終圖像中實際不會看見的部分。王剛說明,G925導入了片段預處理(Fragment Prepass)的機制,使得應用無需進行任何物件或原語排序。
G925支援的著色器核心數量增加50%,最高達24個核心,而上一代最多只有16個。王剛說,為確保能夠支援所有著色器核心,Tiler和命令流前端(Command Stream Front-end, CSF)等單元都經過了調整和優化,以充分發揮GPU的性能。在Tiler中,兩個三角形常常共用一條邊。利用這個特性,可將Tiler傳輸量翻倍,具體做法就是將四個頂點而非三個向下傳遞到管線中,進而將三角形的輸送量提高一倍。
Arm Kleidi開發平台 終端AI體驗再升級
在支援的軟體開發平台部分,Arm Kleidi是一個包含一系列針對Arm CPU高度優化的運算內核代碼軟體庫,可以被直接整合進各類函式庫或框架,Arm開發者生態高級經理李陳魯指出,Kleidi目前的版本包括KleidiAI和KleidiCV兩個部分,皆是針對Arm CPU架構以及微架構高度優化,可支援未來的SVE2和SME2指令集,同時也沒有放棄傳統的Neon指令集。
李陳魯表示,KleidiAI設計過程中,根據長期蒐集的回饋,大多數開發者更喜歡由哪些將要整合KleidiAI的運行時來管理核心和記憶體,因此把KleidiAI的功能範圍定義為只覆蓋那些開發起來最為耗時的ML負載,然後根據這一原則以及目標設備的特性再去選擇最合適的內核來處理相關的任務。根據Llama.cpp測試獲得的結果,採用KleidiAI之後,詞元(Token)首次回應時間提升三倍。
而在KleidiCV部分,李陳魯認為,世界上並沒有純粹的ML影像管線,即使相關的ML任務是由NPU運算完成的,大量資料仍需要在不同的階段進行封裝與轉換。而OpenCV是最合適的出發點,作為電腦視覺演算法的集大成者,KleidiCV的導入大幅提升性能。此處顯示的性能提升資料來自於最新的Arm Cortex-X925 CPU,配合KleidiCV的Neon與SVE2指令集實現。
Arm Kleidi專注於加速CPU上的AI功能,因為多數AI工作負載都會從CPU上開始運行,使得CPU成為開發人員在為其AI工作負載設定目標時的最便捷路徑。而隨著LLM變得更小更高效,越來越多工作負載將適合在CPU上處理,預期也將使得開發流程更加順暢、無縫,進而優化開發者的AI工作負載性能。