ChatGPT挺進AI 2.0 生成式AI攻克LLM天險

供稿單位: 台智雲
2023 年 04 月 24 日

聊天機器人ChatGPT從2022年11月下旬開放用戶免費試用後,因其可以根據用戶輸入的要求,生成非常多文字、散文、笑話、詩歌甚至程式碼,使用者的使用體驗不但非常直覺,過程更有如在跟正常人類互動一般,馬上掀起一股使用熱潮。根據瑞士銀行集團的研究,ChatGPT在2023年1月活躍用戶就已達到1億,成為史上成長最快的消費者應用程式。

這股因為ChatGPT帶起的生成式AI(Generative AI)應用風潮,馬上引起包括微軟(Microsoft)及Google等國際大廠對AI的重視,紛紛將相關技術整合至旗下產品。如微軟在發表加入了ChatGPT的全新搜尋引擎Bing升級後,股價應聲上揚逾4%,一夜市值飆漲超800億美元,生成式AI的影響力可見一斑。在上一個十年,各行各業都積極的使用AI,得到很好的成果,但ChatGPT使用大型語言模型(Large Language Model, LLM)發展生成式AI的成果出乎業界預期,也讓AI即將進到下一個AI 2.0的時代。

進入AI 2.0時代的門檻

但想要掌握AI 2.0的趨勢,得到屬於自己或是適用領域的LLM基礎模型,其實需要跨過不少門檻。想要啟動LLM,業者首先要熟悉分布式訓練大規模模型的技術,知道如何在不同的節點上一起訓練一個大模型,如Pipeline Parallelism(PP)、Tensor Parallelism(TP)及Data Parallelism(DP)這三個在跨節點模型訓練過程中很重要的參數。由於大模型及所需資料集相當龐大,單一片GPU的記憶體是無法完全容納,需從模型的寬度(TP)及深度(PP),以及資料集(DP)進行適當切割,讓多片GPU的記憶體共同容納模型及資料集進行高效運算,因此優化TP、DP及PP是大模型訓練效能的關鍵之一。除此之外,有效管理記憶體也是訓練效能關鍵之一,在平行運算的領域中,Zero Redundancy的技術可有效管理記憶體用量減少冗餘記憶體的使用,再加上1F1B(One Forward One Backward)的策略安排,活化記憶體運用,減少記憶體閒置,也能有效提升訓練效能。

其次則是要有對應的大算力來支持,因為大模型FLOPs不斷攀升,以GPT-3 175B為例,需要的計算量就高達3.64×103 Petaflop/s-days,而且不只要有大算力,還必須配合高效率儲存系統如GPFS,才能有效啟動LLM的訓練。

第三個啟動門檻是要能夠理解微調(Fine-tuning)、提示調校(Prompt tuning)相關技術,如透過In-context Learning方法訓練LLM基礎模型,將下游任務轉化成模型的提示(Prompt)輸入,減少模型參數儲存,提升模型對任務的理解力,進而達到模型泛化的能力,趨近人類思考模式,將原有的大批資料集學習方式,轉變成Zero Shot或Few Shot的學習方式。針對特定領域或目標進行提示調校優化,擬定領域專屬提示策略,來引導模型生成符合所需風格和目標的文本,制定符合使用情境的提示模板,提升模型學習目標的速度,可以加速訓練過程的進展。儘管AI模型能夠生成高品質的內容,但在某些情況下,生成的文本仍可能不符合用戶的期望。進行提示調校可以提高生成內容的品質,節省時間和成本,增加內容的多樣性,提高與用戶的互動效果,對於提高AI生成內容的實用性和效益有很大的幫助。

第四個啟動門檻是要克服大模型推論(Inference)的挑戰,因為LLM的部署與推論需要配合優化的環境,因為LLM已經大到單一GPU無法負荷,需要對應多GPU推論(Multi-GPU Inference)的推論架構,才能達到低延遲的要求,也需要提升GPU核心性能的支援,如支援縱向、水平和記憶體融合為一體的多維融合技術。最後一個啟動門檻是要準備高效能系統環境建置,包括運算、網路、儲存,都要能夠完成協同作業,達到最佳化設定模型訓練環境的目標。

開源大語言模型有助AI 2.0普及

由此可知,LLM的開發門檻極高,即使是像Microsoft、Google等國際大廠,想要只憑一己之力來啟動LLM,都不是一件很簡單的事情。也因此國際大廠基於各種商業和其他原因,多半會限制旗下客戶對其完整模型的存取使用。

所幸由全球上千位研究者組成的BigScience研究團隊,由法國超級電腦Jean Zay訓練達117天,具有1,760億個參數,參數量/架構與GPT3相近的BLOOM LLM(BigScience Large Open-science Open-access Multilingual Language Model)已經在2022年7月完成,資料集包含46種語言和13種程式語言,共1.5TB,包含西班牙文、日文、德文、中文或多種印度及非洲語言,主要任務包括文章分類、對話產生、文本產生、翻譯、知識回答(語意搜尋)及文章摘要。使用者只要選擇一種語言,就能要求BLOOM撰寫食譜、翻譯或摘要,也能要求BLOOM撰寫程式碼。

值得注意的是,BLOOM是第一個「開源」的大語言模型,不管是學術界、非營利組織或者中小企業,都有機會能夠使用少數國際大廠才能使用到的資源。但由於BLOOM的資料量與模型規模相當龐大,用戶仍需要面對開發和維護的挑戰,更因為缺乏訓練經驗及人才,要啟動LLM也變得更加困難。

深度學習企業Lambda Labs的首席科學家推測,訓練GPT-3模型,需要花上至少460萬美元、耗時355年才能訓練完成,所以就算BLOOM LLM已經開源,大多數業者還是需要能夠幫助業者跨過AI 2.0門檻的資訊顧問服務業者的協助。

顧問服務幫助企業跨過AI開發門檻

由於BLOOM的參數多達1,760億個,無法在任一GPU上直接訓練,需要使用平行技術來精準分割模型,優化TP+DP+PP並有效率的分散訓練,加速訓練成效,需要如TWCC提供的世界級超級電腦AI HPC,才能提供BLOOM的巨量模型訓練,並推論在台灣AI雲端平台TWCC上快速運行。而傳統跨節點平行運算,會隨著節點數的增加造成效能的衰退,例如一台節點的算力為100,以線性理論兩台節點應該是200,但實際上可能會只剩180,原因是節點間的通訊傳輸遞減效能。

但由於TWCC的跨節點平行運算環境,是以InfiniBand架構有效發揮各節點間的協同運作,在實作BLOOM的執行成果時,能以跨節點線性的表現,獲得接近線性的加速,提供近乎完美的高效能驗證,可協助用戶完整發揮運算效能,訓練時間也將隨節點數增加而逐步降低。

如TWCC使用105台節點及840張GPU,精準切割分配模型做大量的平行運算,訓練的成果非常好,每張GPU卡都能跑到最大效能。可見藉由TWCC在BLOOM大模型訓練的成果展現,不僅可以助力大模型推論系統優化,更能成功克服Multi-node Inference挑戰。

基於前述BLOOM的具體成果,廠商如台智雲提供一站式整合的「AI 2.0大算力顧問服務」,提供AI專家、AI HPC技術環境資源、大型語言模型LLM開發服務,整合優化好相關套件與環境,零風險幫助客戶直接啟動LLM專案,將需求加速轉為可使用的模型與應用,建立專屬於客戶的大語言模型。由此企業可降低龐大時間投入、技術成本、開發風險、硬體設備和人力投資成本,至少省下數百萬美元的成本,將每分投資都花在刀口上。

(本文由台智雲提供)

》想看更多內容?快來【免費加入會員】【登入會員】,享受更多閱讀文章的權限喔!
標籤
相關文章

ChatGPT再掀新高潮 科技廠爭搶生成式AI商機

2023 年 06 月 06 日

從機械按鍵到心領神會 人機介面演進催生科技金雞母

2024 年 04 月 09 日

半導體產業先蹲後跳 AI撐起晶片市場V形反轉

2023 年 07 月 05 日

非x86陣營搶進AI PC 生態系成熟度定勝負(2)

2024 年 01 月 07 日

台灣是德科技行銷處副總經理羅大鈞:2024 AI/量子技術/元宇宙/6G領風騷

2024 年 04 月 10 日

多模態/AI Agent多點開花 生成式AI生態系漸成型

2024 年 12 月 03 日
前一篇
熱力圖分析網路訊號 無線訊號量測多管齊下
下一篇
貿澤即日供貨ST運動/骨傳導感測器