Copyright 2017-2025 北方報 版權(quán)所有 京ICP備16071829-1號
北京時間11月11日,人工智能初創(chuàng)公司月之暗面Kimi CEO楊植麟等人在社交平臺Reddit上解答網(wǎng)友提問,回應(yīng)關(guān)于模型訓(xùn)練成本等問題。
Kimi近半年時間持續(xù)投入開源模型的研發(fā)與更新。11月6日發(fā)布了最新版本的開源思考模型Kimi K2 Thinking。彼時有消息稱,Kimi K2 Thinking的訓(xùn)練成本為460萬美元,低于DeepSeek V3模型的560萬美元和OpenAI GPT-3的數(shù)十億美元。
針對該數(shù)據(jù),楊植麟在此次對話中回應(yīng)稱:(460萬美元)不是官方數(shù)字,由于大部分投入都花在研究與實(shí)驗(yàn)上,因此訓(xùn)練成本很難量化。
網(wǎng)友也提出Kimi K2 Thinking推理長度過長、榜單成績與實(shí)際體驗(yàn)不符等質(zhì)疑,楊植麟表示現(xiàn)階段該模型優(yōu)先考慮絕對性能,token效率會在后續(xù)得到改善,榜單高分與實(shí)測的脫節(jié)問題也會在模型通用能力得到補(bǔ)齊后被逐漸消解。
當(dāng)下,越來越多的中國開源大模型在國際市場中被調(diào)用。記者搜索OpenRouter模型調(diào)用榜單,最新一周內(nèi),排名前二十名的模型產(chǎn)品中,中國開源模型產(chǎn)品占五席,具體包括MiniMax M2、DeepSeek V3、GLM4.6、DeepSeek V3.1、DeepSeek V3.2 Exp。Kimi因OpenRouter平臺接口問題,目前只能以API形式被使用。
持續(xù)的模型更新與龐大訓(xùn)練量需要算力資源支持,Kimi團(tuán)隊表示所使用的芯片是攜帶InfiniBand(一種面向高性能計算和AI訓(xùn)練的網(wǎng)絡(luò)互連技術(shù))的H800 GPU,性能雖然比不上美國的高端卡,數(shù)量也處于劣勢,但每張卡都被用到了極致。
圖片
整體來看,月之暗面Kimi未來很長一段時間內(nèi)仍將堅持開源策略,重點(diǎn)推進(jìn)Kimi K2 Thinking模型的應(yīng)用與優(yōu)化。在優(yōu)先文本模型前提下兼顧多模態(tài)模型推進(jìn),避開與OpenAI等頭部廠商在AI瀏覽器等具體賽道的直接競爭,通過架構(gòu)創(chuàng)新、開源策略與成本控制嘗試建立差異化優(yōu)勢。