OpenAI與DeepSeek商標並列圖。路透社
中國新創企業的DeepSeek AI引擎,對美國矽谷造成大震撼,因為號稱用幾十分之一的成本、很少的算力就能達到與業界龍頭OpenAI同等級的成果。
《金融時報》報導,OpenAI內部人士指出,他們有證據顯示DeepSeek使用「蒸餾」(distillation)的技巧,盜用OpenAI的成果。
「蒸餾」這個技法是AI開發者常用的技術,這是利用其他更大AI模型所計算輸出的結果,訓練自己開發中的較小AI模型。如果《金融時報》的報導獲得證實,則DeepSeek可以用極低算力、極低成本達成媲美OpenAI等級的成果,就不再是個謎:DeepSeek等於是
寄生在OpenAI身上,自然不必自己投入大成本建構算力。
OpenAI的服務條款規定,使用者不得「複製」其任何服務,或「使用OpenAI的輸出結果來開發與OpenAI 競爭的模型」。DeepSeek若利用了OpenAI開發出DeepSeek-R1這個震驚各界、和OpenAI競爭的模型,就違反了使用條款。
據另一名知情人士透露,OpenAI 及其合作夥伴微軟去年秋天調查了據信屬於DeepSeek的帳戶,這些帳戶使用了OpenAI的API(應用程式介面),以違反服務條款的方式進行蒸餾,遭到封鎖。這些調查最早由彭博新聞報導。
DeepSeek表示,其V3 AI模型僅使用2048張輝達H800顯示卡,只花費560萬美元進行訓練,擁有6710億個參數,成本僅為OpenAI和Google類似規模模型的幾十分之一。
部分專家指出,DeepSeek模型的輸出結果,顯示其可能接受過OpenAI GPT-4輸出的內容訓練,這違反OpenAI的服務條款。業界人士指出,在中國和美國的AI實驗室中,使用來自OpenAI等大型AI企業的輸出進行訓練是常見做法,較小型的企業往往藉此「搭便車」。
對於OpenAI這些最前線的AI模型開發公司而言,他們必須耗費金錢與心力搭建龐大的算力中心,接受人工輸入的反饋,以訓練出更好的AI模型。這個過程耗時而且非常昂貴。
加州柏克萊大學(UC Berkeley)AI博士生古普塔(Ritwik Gupta)表示:「新創公司和學術界普遍會使用商業化的大型語言模型(LLM),像是ChatGPT的輸出,來訓練自己的模型。這樣一來,他們便能免費獲得人類回饋訓練的結果。我不會驚訝DeepSeek採用了相同方法。如果確實如此,要完全杜絕這種做法可能相當困難。」