亚洲中文字乱码免费播放,精品国产日韩专区欧美第一页,亚洲中文有码字幕青青,亚洲综合另类专区在线

          首頁 > 新聞 > 科技

          分享到微信

          打開微信,點擊底部的“發(fā)現(xiàn)”,
          使用“掃一掃”即可將網(wǎng)頁分享至朋友圈。

          性能匹敵GPT-4o的國產(chǎn)模型在海外火了,訓練僅花費558萬美元

          第一財經(jīng) 2024-12-27 17:36:06 聽新聞

          作者:劉曉潔    責編:寧佳彥

          與之相比,GPT-4o等模型的訓練成本約為1億美元。

          12月27日,海外社交媒體平臺X被來自中國的大模型DeepSeek-V3刷屏了,科技圈驚嘆的點在于,這一模型能力對標頭部模型,但訓練的預(yù)算卻非常低,“2048個GPU、2個月、近600萬美元”,相比之下,GPT-4o等模型的訓練成本約為1億美元,至少在萬個GPU量級的計算集群上訓練。

          “Llama 3 405B 使用了3080萬GPU小時,而DeepSeek-V3 看起來是一個更強大的模型,僅使用了280萬GPU 小時(計算量約為十分之一)。”前Open AI 聯(lián)合創(chuàng)始人、Tesla AI 團隊負責人Andrej Karpathy在X上發(fā)文表示,如果該模型的優(yōu)良表現(xiàn)能夠得到廣泛驗證,這一模型將是在資源受限的情況下,在研究和工程方面讓人印象深刻的一次展示。

          12月26日晚,幻方量化旗下AI公司深度求索(DeepSeek)宣布,全新系列模型DeepSeek-V3上線并同步開源,API服務(wù)已同步更新,接口配置無需改動,登錄官網(wǎng)(chat.deepseek.com)即可與最新版 V3 模型對話。當前版本的 DeepSeek-V3 暫不支持多模態(tài)輸入輸出。

          具體來說,DeepSeek-V3是一個具有6710億總參數(shù)的MoE(混合專家)模型,每token激活參數(shù)為370億,在14.8萬億token上進行了預(yù)訓練。

          官方給出的數(shù)據(jù)顯示,DeepSeek-V3 多項評測成績超越了阿里通義的 Qwen2.5-72B 和Meta的Llama-3.1-405B 等其他開源模型,并在性能上和世界頂尖的閉源模型 GPT-4o 以及 Claude-3.5-Sonnet 不分伯仲。

          與此同時,DeepSeek表示,通過算法和工程上的創(chuàng)新,DeepSeek-V3 的生成吐字速度提高了三倍,從20 TPS提高至60 TPS,API服務(wù)價格也同步做了調(diào)整,目前為每百萬輸入tokens 0.5元(緩存命中)/2元(緩存未命中),每百萬輸出tokens 8元。但全新模型有45天的優(yōu)惠價格體驗期,為每百萬輸入tokens 0.1元(緩存命中)/1元(緩存未命中),每百萬輸出tokens 2元。

          這一價格在目前頭部模型市場中有一定的競爭力。例如OpenAI的GPT 4o定價為輸入:5美元/百萬Token,輸出:15美元/百萬Token,加總成本是20美元,約合人民幣145元。

          DeepSeek此前一直走的是性價比路線,在訓練上做了一些調(diào)整。據(jù)此次發(fā)布的技術(shù)報告,DeepSeek-V3仍然采用多頭潛在注意力(MLA)以實現(xiàn)高效推理,并采用 DeepSeek MoE以實現(xiàn)經(jīng)濟的訓練。這兩種架構(gòu)在 DeepSeek-V2中得到了驗證,證明了它們在保持強大模型性能的同時,能夠?qū)崿F(xiàn)高效的訓練和推理。

          除了基本架構(gòu)外,DeepSeek還實施了兩項額外策略以進一步增強模型能力。首先是采用了無輔助損失的負載平衡策略,其次采用了多token預(yù)測訓練目標,這可以提升評估基準的整體性能。

          在已開源的論文中,DeepSeek強調(diào)了其訓練成本較低——通過對算法、框架和硬件的優(yōu)化協(xié)同設(shè)計,在預(yù)訓練階段,模型每訓練1萬億token僅需要18萬個GPU小時,即在團隊配備2048個H800 GPU的集群上只需3.7天,也就是說,團隊的預(yù)訓練在不到2個月的時間內(nèi)完成。

          此外,加上用于擴展上下文長度所需的11.9萬個 GPU小時和5000個 GPU小時的后訓練,DeepSeek-V3完整訓練消耗了278.8萬個GPU小時。

          假設(shè)H800 GPU的租用價格為每塊GPU 2美元/小時,DeepSeek-V3的全部訓練成本總計僅為557.6萬美元。DeepSeek表示,該成本僅包括DeepSeek-V3的正式訓練,不包括與先前在架構(gòu)、算法或數(shù)據(jù)上的研究和消融實驗相關(guān)的成本。

          Karpathy在發(fā)文中肯定了這一訓練成本的突破,他提到,作為參考,要達到V3這種級別的能力,通常需要約1.6萬個GPU的計算集群。不僅如此,當前業(yè)界正在部署的集群規(guī)模甚至已經(jīng)達到了10萬個GPU。

          但這是否意味著前沿LLM不需要大型 GPU 集群?在Karpathy看來,也并非如此,“但你必須確保不浪費你所擁有的資源,這看起來是一個很好的證明,表明在數(shù)據(jù)和算法方面還有很多工作要做” 。

          Karpathy同時夸贊了DeepSeek在開源網(wǎng)站上公布的技術(shù)報告,“這是非常好且詳細的技術(shù)報告,值得一讀。”一位來自Menlo Venture的投資人也感慨,“53 頁的技術(shù)論文是黃金”(53-page technical paper is GOLD)。

          英偉達高級研究科學家Jim Fan在X上轉(zhuǎn)發(fā)Karpathy的推文表示,資源限制是一件美好的事情。在殘酷的人工智能競爭環(huán)境中,生存本能是取得突破的主要動力。“我關(guān)注 DeepSeek 很久了。去年他們推出了最好的開源模型之一,卓越的OSS模型給商業(yè)前沿 LLM 公司帶來了巨大壓力,迫使它們加快步伐。”

          Lepton AI 創(chuàng)始人、 前阿里巴巴副總裁賈揚清也參與了這一話題的討論,他認為,DeepSeek 的成功是簡單的智慧和實用主義在起作用,在計算和人力有限的情況下,通過智能研究產(chǎn)生最佳結(jié)果。

          此前DeepSeek一直被冠以“AI界拼多多”的名頭,也是年中引發(fā)中國大模型價格戰(zhàn)的源頭。今年5月,DeepSeek發(fā)布的一款名為DeepSeek V2的開源模型,提供了一種史無前例的性價比:推理成本被降到每百萬token僅 1塊錢,在當時約等于Llama3 70B的七分之一,GPT-4 Turbo的七十分之一。隨后,字節(jié)、騰訊、百度、阿里等大廠紛紛降價,大模型價格戰(zhàn)由此一觸即發(fā)。

          公開信息顯示,DeepSeek成立于2023年7月,由知名量化資管巨頭幻方量化創(chuàng)立,幻方量化創(chuàng)始人梁文峰在量化投資和高性能計算領(lǐng)域具有深厚的背景和豐富的經(jīng)驗。

          在這次DeepSeek-V3發(fā)布時,大模型生態(tài)社區(qū)OpenCSG(開放傳神)創(chuàng)始人陳冉第一時間關(guān)注到的是訓練數(shù)據(jù),他對第一財經(jīng)表示,“一切都是數(shù)據(jù),數(shù)據(jù)質(zhì)量決定模型質(zhì)量”,Deepseek-V3基于14萬億token的數(shù)據(jù)訓練,這些數(shù)據(jù)應(yīng)該非常有價值。

          舉報
          第一財經(jīng)廣告合作,請點擊這里
          此內(nèi)容為第一財經(jīng)原創(chuàng),著作權(quán)歸第一財經(jīng)所有。未經(jīng)第一財經(jīng)書面授權(quán),不得以任何方式加以使用,包括轉(zhuǎn)載、摘編、復(fù)制或建立鏡像。第一財經(jīng)保留追究侵權(quán)者法律責任的權(quán)利。 如需獲得授權(quán)請聯(lián)系第一財經(jīng)版權(quán)部:021-22002972或021-22002335;banquan@yicai.com。

          文章作者

          一財最熱
          點擊關(guān)閉