DeepSeek引發喧然大波 草根AI模型還有路要走

作者: 黃繼寬
2025 年 03 月 06 日

農曆新年期間,中國對沖基金公司幻化量方創立的子公司深度求索(DeepSeek)將其DeepSeek R1模型開源,並發表論文說明其模型訓練方法。由於該模型不僅在諸多評測中得到優於眾多開源模型的分數,而且在與使用者互動的過程中,確實有不少令使用者耳目一新的表現,因此DeepSeek R1一出,迅速在AI技術圈、資本市場甚至地緣政治領域引發大地震。如果要說哪一家AI新創公司能如此「出圈」,恐怕還真的找不到DeepSeek以外的第二個例子。

事實上,表現不遜於DeepSeek R1的開源模型是存在的。在DeepSeek R1發表後沒幾天,法國AI新創Mistral開源的Mistral-Small-Instruct-2501就是其中之一,而且已經被筆者整合在自己使用的AI工具上。這其實是當前AI模型領域的常態,SOTA(State of the Art)模型的寶座通常幾個禮拜就會換人坐坐看。但如果在AI圈外隨機訪問,有聽過Mistral這家新創公司的人,恐怕是少之又少。

DeepSeek震撼 資本市場猶如驚弓之鳥

說穿了,DeepSeek之所以會引發喧然大波,還是跟錢有關。由於DeepSeek在其發表的論文中表示,該公司透過蒸餾(Distillation)、平行執行緒執行(Parallel Thread Execution, PTX)等技巧,大幅減少了模型訓練所需的成本跟硬體資源需求,因此引爆了資本市場對NVIDIA前景的疑慮,甚至造成NVIDIA股價單日暴跌近17%(圖)。為此,NVIDIA執行長黃仁勳近日在接受專訪時還特別澄清,認為投資人對DeepSeek有所誤解。

NVIDIA近6個月股價(截止於台北時間2/25上午)

 

不過,對於模型開發團隊而言,甚至是個人模型開發者而言,DeepSeek的出現確實是一大激勵。畢竟,現有模型訓練方式對硬體資源跟訓練資料的需求實在過於龐大,導致模型訓練成本難以降低。DeepSeek探索出一條有助於壓低模型訓練成本的道路,對於其他開發團隊甚至個人開發者來說,自然產生了示範效應。在農曆年假期間,Huggingface就發起了重現DeepSeek訓練過程的活動,也有個人開發者(多半是學生)分享自己只花了數十美元就「訓練」出來的模型。

從開發者社群的熱烈反應來看,降低模型訓練成本確實是大家共同的願望;部分雲端服務供應商(CSP)甚至寧願自己投入可觀的NRE成本,開發類似GPU的AI ASIC,以創造跟NVIDIA談判的籌碼,目的也是想降低AI資料中心的建置成本。所以,與其說DeepSeek對NVIDIA的營運造成衝擊,不如說降低硬體成本是整個AI生態圈共同的願望,DeepSeek只是射出一支穿雲箭罷了。

法規環境不明確 AI模型民主化再等等

有些論點認為,如果AI模型訓練的硬體成本能大幅降低,將促成AI模型的民主化,進而創造出AI的Android時刻,促成AI應用的全面普及。對於NVIDIA等硬體供應商而言,這未必是壞事,因為推論(Inferrence)也需要硬體,而且需求量是訓練的數倍之多。事實上,DeepSeek R1引發熱潮後不久,DeepSeek就因為推論基礎建設的容量不足,必須限制使用者訪問。

筆者認為,降低硬體成本可以促成模型訓練民主化的觀點並不完整。至少,對於必須遵守法規的企業或法人團體而言,即便訓練模型所需的硬體成本大幅下滑,要取得訓練模型所必需,而且合法可用的資料,依然得花不少人力物力。

國科會主導的TAIDE模型在訓練過程中,就遇到這個問題–取得合法授權,可以安心使用的資料集數量不足,只能訓練小模型;要訓練大模型,就得使用未經正式授權的資料,恐怕會引發法律糾紛。聯發科的AI團隊也曾打算開源一份經過整理的訓練資料集,但因為原始資料是透過網路爬蟲取得,可能會有法律問題,因此計畫卡關。蒸餾其他人訓練的模型,也可能引發法律上的糾紛。

降低模型訓練的硬體成本當然是好事,但卻不是AI模型訓練民主化,甚至草根化的充分條件。如果法規環境不明確,或是對AI訓練資料的合理使用作出嚴格解釋,降低模型訓練硬體成本能帶來的效益,大概只有個人開發者,或身處法規上對AI發展一路開綠燈的國家,才能夠享受到。

透過DeepSeek引發的關注,重新審視自家的法令環境,或許才是最重要的。不管是重新審視資料「合理使用」的定義,或是對蒸餾技術做出更明確的法律規範,其對AI產業發展的重要性,都不亞於降低AI訓練成本,特別是對於像我們這樣一個法令環境限制多,對AI發展相對不友善的國家。

》想看更多內容?快來【免費加入會員】【登入會員】,享受更多閱讀文章的權限喔!
標籤
相關文章

Phablet規格大躍進 手機晶片開啟新戰局

2013 年 03 月 07 日

應用擴及車用/工業/軟體 生成式AI神助攻專業領域

2023 年 06 月 07 日

非x86陣營搶進AI PC 生態系成熟度定勝負(2)

2024 年 01 月 07 日

生成式AI助手進軍EDA IC設計面臨大變革

2024 年 01 月 22 日

群雄逐鹿生成式AI 抽乾NVIDIA護城河談何容易(2)

2024 年 04 月 23 日

手機/AI兩樣情 NVIDIA超越高通拿下IC設計王座

2024 年 05 月 13 日
前一篇
友嘉與新漢擴大AI與工具機的合作布局
下一篇
DigiKey/Qorvo宣布簽訂全球經銷協議