生成式人工智慧(GAI)的快速發展是雙面刃,為產業帶來亮眼的應用進展,然而假資訊、模型偏見與資料管理等風險也隨之出現。面對AI生成的惡意內容,用生成式AI偵測與防範,可有效辨別假資料。在模型訓練方面,來自不同國家的訓練資料會造成模型偏見,因此各國開始發展主權模型,訓練符合當地需求的生成式AI。另一方面,聯邦學習技術的發展,確保訓練資料保留在擁有者手上,可望有效解決資料治理的挑戰。
生成式AI應用在ChatGPT的熱度帶動下發酵,台灣人工智慧實驗室創辦人杜奕瑾表示,2024年是百工百業思考如何使用生成式AI的一年。其中,媒體採用AI生成的虛擬主播播報新聞,或者娛樂影音中,讓虛擬歌手演唱。生成虛擬內容的技術,也帶來更多Deepfake與假資訊的隱患。尤其2024年是多個國家的選舉年,假資訊氾濫的問題,例如認知作戰已經影響到政治生活層面,需要透過生成式AI技術解決。例如採用ChatGPT長期觀察在社群攻擊政治人物的帳號,找出異常帳號。
2025年企業將透過生成式AI技術達成永續目標,包生成式AI防止數位極權與假消息傳播、強化資料治理,以及減少模型偏見等,控制AI帶來的風險範圍。數位極權指的是大型科技公司,可能未經同意,直接將作品用於訓練AI模型,再透過訓練完成的模型,生成更多內容,導致版權爭議。
在地化資料解決模型偏見
生成式AI應用的另一項挑戰,在於模型的偏見。目前市場上的生成式AI模型,都具有明顯的偏見,杜奕瑾說明,尤其中文資訊大幅偏重簡體中文資料,因此AI回應的內容不符合台灣使用者的需求。其他的語言,包含英文在不同國家的使用方式也會有差異,所以各國都需要建立主權模型。
面對生成式AI與LLM應用的潛在風險,以及台灣垂直應用領域導入AI的需求,台灣人工智慧實驗室(Taiwan AI Labs)蒐集大量台灣人使用的中文、台語、英文語料,訓練出具備大學生等級知識的FedGPT模型。企業可以依照應用需求,加入企業內部的知識,訓練客製化的生成式AI模型。
聯邦學習平台協助資料治理
同時FedGPT以聯邦學習為核心,建立模型訓練平台。例如醫療機構可以使用FedGPT,跨機構訓練模型。過去智慧醫療的痛點之一,即是每一間醫院的病歷資料都具有高度的隱私性,不能輕易提供給其他單位訓練AI模型。FedGPT則將資料保留在擁有者手上,模型則輪流到不同的醫療機構「受訓」。當生成式AI模型在不同的機構被訓練之後,就能結合跨機構的訓練結果,建立精準的模型。
將資料留在擁有者手上,就能保護資料的隱私性,也避免資料外流之後遭到濫用。資料擁有者能確保資料的安全與可靠性,才能實現良好的資料治理。
生成式AI應用高速發展的同時,企業需要留意並評估相應的風險。透過生成式AI、聯邦學習技術與週邊的軟體服務,可以應對假資料形成認知作戰,以及模型偏見帶來的應用問題,可望為企業平衡風險。