為避免繁體中文在大語言模型浪潮中消失,在國科會主導下,TAIDE團隊耗時一年,完成本土大語言模型的開發。TAIDE模型不僅將繁體中文所代表的文化保存在大語言模型中,也為使用繁體中文的台灣一般使用者與企業,奠定了導入生成式AI的基礎。
生成式AI浪潮席捲科技業,除了晶片業者聯發科開始跨界布局大語言模型(LLM)技術跟服務,推出達哥DaVinci平台服務外,國科會亦於日前正式推出利用台灣繁體中文文本訓練出來的可信任AI對話引擎(Trustworthy AI Dialogue Engine, TAIDE)。在國家資源挹注下而誕生的TAIDE模型,是所有人皆可下載使用、甚至進一步微調(Fine-tune)的LLM。這也意味著所有使用繁體中文的個人跟企業,日後都有機會在TAIDE模型的基礎上,開發出自己專屬的應用。
回首TAIDE第一期 資料匱乏是最大挑戰
中央研究院資訊科技創新研究中心研究員兼資通安全專題中心執行長李育杰(圖1)指出,TAIDE大語言模型是降低台灣產業導入生成式AI門檻的關鍵一步。TAIDE就像汽車的引擎,有了引擎後,後續搭配各式零件、組裝車殼,就可以化身成不同用途的車輛運具。
例如TAIDE已與高雄大學合作,透過吳俊興教授及其團隊開發的開源生成式AI應用平台(Kuwa GenAI OS),將TAIDE模型預載內建於Kuwa平台,開發者可靈活組合串接週邊功能,使用者則是透過簡易的Web介面與後端模型互動。其他應用案例則包含台南大學開發的TAIDE台語對話機器人、中興大學神農TAIDE、中研院行政常見問題回應、民間公司的智慧客服等。
雖然TAIDE第一期已繳出產學研應用的初步成果,但回顧TAIDE第一期走過的路,團隊其實面臨相當多考驗,尤其是合法訓練資料難以取得,自始至終都是團隊所遭遇到的最主要挑戰。模型的參數規模越大,需要的訓練資料集就越大。TAIDE計畫一開始是以Bloom 176B模型為基礎,但由於中文訓練資料的規模無法與英文相提並論,繁體中文的訓練資料更是罕見,因此團隊很快就放棄Bloom 176B,轉向規模較小的Llama 2。
但即便Llama 2最大參數規模只有70B,對於繁體中文來說,仍是十分巨大的模型。TAIDE又是政府主導的計畫,只能使用經過合法公開或取得版權單位授權的文本來訓練模型,以降低侵權風險。這使得TAIDE團隊在第一期結案時,只能釋出Llama 2 7B與13B版本,其中7B是完全可商用的;13B則僅限學研使用。
李育杰透露,為解決訓練文本不足的問題,除了LoRA這類已經廣為人知的技巧外,TAIDE團隊還自行摸索出其他可以用較小規模資料集來訓練模型的技巧。但從繁中大語言模型的長遠發展來看,如何取得更多訓練文本,仍是一個必須設法克服的瓶頸。眾籌是一個可能的解決辦法,例如開設一個網路討論區,讓網友上來留言討論,並且在平台註冊時明確告知,在此平台上發表的文字,會被整理成大語言模型的訓練資料集。這樣就能合法取得繁體中文的訓練資料,為繁中大語言模型的後續發展帶來幫助。
「發展繁中大語言模型是我們的責任,因為大語言模型不只是一項技術,同時也是保存文化的載體。在大語言模型開發領域,中文已經是弱勢語言,繁體中文更是弱勢中的弱勢。如果我們不做,繁體中文所承載的文化,就不會被保留在大語言模型裡。」李育杰語重心長地表示。
模型更新與健全法制是第二期重點
隨著TAIDE計畫第一期結束,國科會主委吳政忠(圖2)宣示,此計畫將再延長至少一年。第二期計畫不只要讓TAIDE模型繼續與時俱進,同時在政府層面,也會加快推動法制面的調整,為台灣打造出更有利於AI應用發展的環境。例如AI基本法的制定,就會是國科會接下來重點推動的工作項目。
至於在模型維護方面,在生成式AI熱潮持續延燒的情況下,大語言模型的更新速度快得驚人。這也使大語言模型開發團隊必須時刻上緊發條,才能跟上最新進展。基於Llama 2的TAIDE模型在4月15日正式發表後,只隔了四天,Meta就正式發表Llama 3大語言模型。李育杰笑稱,TAIDE團隊很幸運,如果再多拖幾天,TAIDE模型恐怕是一發表就過時了。
但由於Llama 3已正式發表,因此TAIDE模型也有更新的壓力。李育杰感謝團隊的努力,以及國網中心的算力支援,讓TAIDE模型在Llama 3發表後,只花了不到半個月時間,就有基於Llama 3的Llama 3-TAIDE-LX-8B-Chat-Alpha1模型能夠釋出。這是以Meta Llama-3-8B為基礎進行訓練,並已完成基本測試的大型繁體中文模型。其訓練使用的繁體中文資料集規模是430億Token,總共耗費2336個H100 GPU小時。
國科會團隊打造本土LLM 百工百業擁抱生成式AI(1)
國科會團隊打造本土LLM 百工百業擁抱生成式AI(2)