分享到微信打開微信,點(diǎn)擊底部的“發(fā)現(xiàn)”, |
第一財(cái)經(jīng) 2025-02-04 18:25:40 聽新聞
作者:陳楊園 ? 鄭栩彤 責(zé)編:樂琰
AI 公司 DeepSeek 旗下大模型 DeepSeek-R1“爆火”后,多個(gè)云平臺宣布上線 DeepSeek旗下模型。
2月4日,火山引擎宣布,將支持 V3、R1 等不同尺寸的 DeepSeek 開源模型,可以通過在火山引擎機(jī)器學(xué)習(xí)平臺 veMLP 中部署和在火山方舟中調(diào)用模型兩種方式使用模型。2月2日,騰訊云宣布騰訊云高性能應(yīng)用服務(wù) HAI 支持 DeepSeek-R1 一鍵部署,2月4日又宣布騰訊云 TI上架 DeepSeek系列模型。2月3日晚,百度智能云則宣布,百度智能云千帆平臺已正式上架 DeepSeek-R1 和 DeepSeek-V3 模型。阿里云PAI Model Gallery 目前也已經(jīng)支持 DeepSeek-V3、DeepSeek-R1 以及所有蒸餾小參數(shù)模型(DeepSeek-R1-Distill)的一鍵部署。
DeepSeek-R1 是一款開源模型,也提供了 API(接口)調(diào)用方式。據(jù) DeepSeek介紹,DeepSeek-R1 后訓(xùn)練階段大規(guī)模使用了強(qiáng)化學(xué)習(xí)技術(shù),在只有極少標(biāo)注數(shù)據(jù)的情況下提升了模型推理能力,該模型性能對標(biāo) OpenAl o1 正式版。DeepSeek-R1 推出后,該模型熱度持續(xù)攀升。1月 27 日,DeepSeek應(yīng)用曾登頂蘋果中國地區(qū)和美國地區(qū)應(yīng)用商店免費(fèi) APP 下載排行榜。
面向潛在的算力需求,騰訊云 TI平臺上架了"滿血"的 V3、R1 原版模型,這兩個(gè)模型參數(shù)量都達(dá)到 671B(B 即十億),并上架了基于 DeepSeek-R1 蒸餾得到的系列模型,參數(shù)規(guī)模從1.5B到70B不等。騰訊云 TI平臺還提供模型服務(wù)管理、監(jiān)控運(yùn)營、資源伸縮等能力,幫助企業(yè)和開發(fā)者將 DeepSeek模型接入實(shí)際業(yè)務(wù)。
在這背后,是云廠商們不愿在 DeepSeek的火爆中缺席,賣起了自身的產(chǎn)品、服務(wù)以及算力。盡管DeepSeek-R1 是開源模型,但云廠商們在各自平臺提供的適配服務(wù),可以讓用戶更輕松地實(shí)現(xiàn)從訓(xùn)練到部署再到推理的全過程,簡化模型開發(fā)流程,“收攏”部分DeepSeek用戶的需求。
記者了解到,目前百度智能云千帆平臺上架的DeepSeek-R1和 DeepSeek-V3模型則已全面融合千帆推理鏈路,集成百度獨(dú)家內(nèi)容安全算子,實(shí)現(xiàn)模型安全增強(qiáng)與企業(yè)級高可用保障,同時(shí)支持完善的BLS日志分析和BCM告警。
阿里云也面向開發(fā)者提供了蒸餾過后的DeepSeek-R1-Distill-Qwen-7B模型,基于 DeepSeek-R1 的推理能力,通過蒸餾技術(shù)將推理模式遷移到較小的 Qwen (通義)模型上,以便更高性價(jià)比地實(shí)現(xiàn)DeepSeek系列模型與現(xiàn)有業(yè)務(wù)的高效融合。阿里云相關(guān)人士對記者表示,部署DeepSeek-R1-Distill-Qwen-7B模型的價(jià)格約為11.1元/小時(shí)(以A10機(jī)型為例,其余機(jī)型的價(jià)格參考阿里云官網(wǎng));部署DeepSeek-R1模型的價(jià)格約為316元/小時(shí)。
同時(shí),不少云廠商都給出了低于DeepSeek官方刊例價(jià)的折扣。目前,DeepSeek-R1的官方刊例價(jià)為輸入4元/M tokens,輸出16元/M tokens,DeepSeek-V3的官方刊例價(jià)為輸入2元/M tokens,輸出8元/M tokens。記者從百度云了解到,百度云上架的對應(yīng)模型調(diào)用價(jià)格為DeepSeek-V3官方刊例價(jià)的3折、DeepSeek-R1官方刊例價(jià)的5折,并提供限時(shí)2周的免費(fèi)服務(wù)。阿里云百煉上架的DeepSeek-R1和DeepSeek-V3也宣布限時(shí)免費(fèi)。火山引擎也在公開信息中表示,通過全棧自研推理系統(tǒng)對 DeepSeek 的優(yōu)化和降本,火山引擎為通過方舟調(diào)用 DeepSeek 模型 API 的企業(yè)提供有競爭力的價(jià)格,并提供全網(wǎng)最高的限流。
值得一提的是,2024年,DeepSeek-V2的發(fā)布曾引發(fā)了一輪大模型價(jià)格戰(zhàn),字節(jié)、百度、騰訊、阿里等大模型廠商都曾跟進(jìn)降價(jià)。如今,有“AI界拼多多”之稱的DeepSeek是否會掀起大模型的下一輪價(jià)格戰(zhàn)受到業(yè)界關(guān)注。
業(yè)界對大模型價(jià)格競爭已有預(yù)期。今年1月,騰訊集團(tuán)副總裁、政企業(yè)務(wù)總裁李強(qiáng)在接受第一財(cái)經(jīng)等媒體采訪時(shí)表示,價(jià)格變化如果不是基于技術(shù)創(chuàng)新就很難長期持續(xù),騰訊對低效率的純粹價(jià)格競爭未必完全認(rèn)同,預(yù)計(jì)2025年傳統(tǒng)云計(jì)算領(lǐng)域的價(jià)格競爭會趨緩,但與大模型相關(guān)的部分還是會有價(jià)格競爭。
而云平臺積極上線DeepSeek旗下模型背后,更深層次的行業(yè)變化是,大模型算力需求正在經(jīng)歷變遷。DeepSeek被認(rèn)為正在探索壓縮大模型訓(xùn)練成本,其備受關(guān)注的DeepSeek-R1更偏重推理部分。DeepSeek曾公開DeepSeek-V3的訓(xùn)練預(yù)算為“2048個(gè)GPU、2個(gè)月、近600萬美元”,外界認(rèn)為DeepSeek-R1訓(xùn)練成本可能也偏低。這或許意味著,大模型訓(xùn)練不一定能為云廠商持續(xù)帶來大量算力需求,但開發(fā)者部署偏重推理的大模型,可能會為云廠商帶來更多算力需求。
李強(qiáng)表示,大模型本身帶來的收入占整體市場的規(guī)模還比較小,但長期看,大模型行業(yè)化應(yīng)用將更多帶來推理相關(guān)的計(jì)算需求。隨著越來越多企業(yè)用戶和創(chuàng)業(yè)公司轉(zhuǎn)向大模型應(yīng)用,預(yù)計(jì)應(yīng)用爆發(fā)將帶來大量推理需求。
農(nóng)歷25年開盤,AI應(yīng)用領(lǐng)域迎來開門紅!截至13:06,計(jì)算機(jī)指數(shù)漲7.00%、軟件服務(wù)指數(shù)漲8.53%,計(jì)算機(jī)指數(shù)成分股衛(wèi)寧健康漲20.06%、金山辦公漲19.68%、潤和軟件漲14.70%。
截至發(fā)稿,安凱微、安恒信息、每日互動(dòng)等9股漲停,昆侖萬維、海光信息、萬興科技跟漲。
DeepSeek火爆有望提升春季行情的AI風(fēng)偏
本周A股、人民幣開市在即,將迎來美國非農(nóng)就業(yè)報(bào)告、科技巨頭財(cái)報(bào)和持續(xù)的關(guān)稅擾動(dòng)。
中國AI公司DeepSeek的低成本精品出爐,一下子打破了全球AI領(lǐng)域的競爭態(tài)勢,并給美國資本市場帶來劇烈震動(dòng),這一刻當(dāng)之無愧是中國創(chuàng)新的高光時(shí)刻。