DeepSeek其實花逾5億美元?傳用5萬顆Hopper GPU

2025/02/03 08:31

MoneyDJ新聞 2025-02-03 08:31:50 記者 郭妍希 報導

中國AI新創DeepSeek成為近來科技界最熱門的話題,該公司號稱旗下效能媲美OpenAI聊天機器人「ChatGPT」的AI模型「V3」,訓練的硬體費用只有557.6萬美元、僅使用2,048顆輝達(Nvidia)「H800」繪圖處理器(GPU),成本遠低於美國科技巨擘,引起全球嘩然。然而,晶片顧問機構Semianalysis最新分析卻發現,DeepSeek的硬體支出其實「遠超過5億美元」。

CNBC、Tom`s Hardware報導,Semianalysis 1月31日發表研究報告指出,DeepSeek使用了50,000顆輝達Hopper架構GPU,當中包括10,000顆H800及10,000顆「H100」,還有輝達特供中國的「H20」。這些GPU主要用於AI訓練、研究及財務模型。

換算下來,DeepSeek的總資本支出約為16億美元,其中營運成本估計有9.44億美元,而對GPU的投資額超過5億美元。

Semianalysis指出,DeepSeek是由中國聚焦AI的對沖基金「幻方量化」(High-Flyer)於2023年成立的新創公司。與其他必須仰賴外部雲端供應商的AI新創不同,DeepSeek擁有自己的資料中心,能完全掌控實驗與AI模型的優化流程,相較於傳統業者更具效率,並能不受外部限制、快速迭代模型。

此外,DeepSeek招聘的人才主要來自北京大學、浙江大學等中國機構,並未從台灣或美國挖角,同時提供極具競爭力的薪資。Semianalysis研究顯示,一些DeepSeek的AI研究員薪資超過130萬美元,遠高於中國其他頂尖AI公司如Moonshot的薪資水準。

DeepSeek宣稱,使用6,710億個參數進行訓練的「V3」模型,只用2,048顆輝達「H800」GPU、費時2個月就訓練完成,相當於280萬個GPU小時。不過,DeepSeek指出,這個數字僅涵蓋「正式訓練」模型的費用,並未納入跟「架構、演算法或資料研究與消融實驗(ablation experiment)」有關的成本。

相較之下,Facebook母公司Meta Platforms使用4,050億個參數訓練的「Llama 3」模型,花費的運算資源卻是V3的11倍(3,080萬個GPU小時),採用的超級電腦內建16,384顆「H100」GPU、費時54天。

觀察人士相信,DeepSeek效能媲美OpenAI先進模型「o1」的AI模型「R1」,消耗的資源也少於競爭模型,但其訓練的GPU叢集應比V3強大。

SemiAnalysts強調,R1是「非常優秀的模型」,客觀來說,其推論技術能以這麼快的速度趕上科技前沿,確實令人印象深刻。

(圖片來源:shutterstock)

*編者按 :本文僅供參考之用,並不構成要約、招攬或邀請、誘使、任何不論種類或形式之申述或訂立任何建議及推薦,讀者務請運用個人獨立思考能力,自行作出投資決定,如因相關建議招致損失,概與《精實財經媒體》、編者及作者無涉。

個股K線圖-
瀏覽其它分類
熱門推薦

loading