分享到微信打開微信,點擊底部的“發(fā)現(xiàn)”, |
第一財經(jīng) 2025-02-04 18:25:40 聽新聞
作者:陳楊園 ? 鄭栩彤 責(zé)編:樂琰
AI 公司 DeepSeek 旗下大模型 DeepSeek-R1“爆火”后,多個云平臺宣布上線 DeepSeek旗下模型。
2月4日,火山引擎宣布,將支持 V3、R1 等不同尺寸的 DeepSeek 開源模型,可以通過在火山引擎機器學(xué)習(xí)平臺 veMLP 中部署和在火山方舟中調(diào)用模型兩種方式使用模型。2月2日,騰訊云宣布騰訊云高性能應(yīng)用服務(wù) HAI 支持 DeepSeek-R1 一鍵部署,2月4日又宣布騰訊云 TI上架 DeepSeek系列模型。2月3日晚,百度智能云則宣布,百度智能云千帆平臺已正式上架 DeepSeek-R1 和 DeepSeek-V3 模型。阿里云PAI Model Gallery 目前也已經(jīng)支持 DeepSeek-V3、DeepSeek-R1 以及所有蒸餾小參數(shù)模型(DeepSeek-R1-Distill)的一鍵部署。
DeepSeek-R1 是一款開源模型,也提供了 API(接口)調(diào)用方式。據(jù) DeepSeek介紹,DeepSeek-R1 后訓(xùn)練階段大規(guī)模使用了強化學(xué)習(xí)技術(shù),在只有極少標(biāo)注數(shù)據(jù)的情況下提升了模型推理能力,該模型性能對標(biāo) OpenAl o1 正式版。DeepSeek-R1 推出后,該模型熱度持續(xù)攀升。1月 27 日,DeepSeek應(yīng)用曾登頂蘋果中國地區(qū)和美國地區(qū)應(yīng)用商店免費 APP 下載排行榜。
面向潛在的算力需求,騰訊云 TI平臺上架了"滿血"的 V3、R1 原版模型,這兩個模型參數(shù)量都達(dá)到 671B(B 即十億),并上架了基于 DeepSeek-R1 蒸餾得到的系列模型,參數(shù)規(guī)模從1.5B到70B不等。騰訊云 TI平臺還提供模型服務(wù)管理、監(jiān)控運營、資源伸縮等能力,幫助企業(yè)和開發(fā)者將 DeepSeek模型接入實際業(yè)務(wù)。
在這背后,是云廠商們不愿在 DeepSeek的火爆中缺席,賣起了自身的產(chǎn)品、服務(wù)以及算力。盡管DeepSeek-R1 是開源模型,但云廠商們在各自平臺提供的適配服務(wù),可以讓用戶更輕松地實現(xiàn)從訓(xùn)練到部署再到推理的全過程,簡化模型開發(fā)流程,“收攏”部分DeepSeek用戶的需求。
記者了解到,目前百度智能云千帆平臺上架的DeepSeek-R1和 DeepSeek-V3模型則已全面融合千帆推理鏈路,集成百度獨家內(nèi)容安全算子,實現(xiàn)模型安全增強與企業(yè)級高可用保障,同時支持完善的BLS日志分析和BCM告警。
阿里云也面向開發(fā)者提供了蒸餾過后的DeepSeek-R1-Distill-Qwen-7B模型,基于 DeepSeek-R1 的推理能力,通過蒸餾技術(shù)將推理模式遷移到較小的 Qwen (通義)模型上,以便更高性價比地實現(xiàn)DeepSeek系列模型與現(xiàn)有業(yè)務(wù)的高效融合。阿里云相關(guān)人士對記者表示,部署DeepSeek-R1-Distill-Qwen-7B模型的價格約為11.1元/小時(以A10機型為例,其余機型的價格參考阿里云官網(wǎng));部署DeepSeek-R1模型的價格約為316元/小時。
同時,不少云廠商都給出了低于DeepSeek官方刊例價的折扣。目前,DeepSeek-R1的官方刊例價為輸入4元/M tokens,輸出16元/M tokens,DeepSeek-V3的官方刊例價為輸入2元/M tokens,輸出8元/M tokens。記者從百度云了解到,百度云上架的對應(yīng)模型調(diào)用價格為DeepSeek-V3官方刊例價的3折、DeepSeek-R1官方刊例價的5折,并提供限時2周的免費服務(wù)。阿里云百煉上架的DeepSeek-R1和DeepSeek-V3也宣布限時免費?;鹕揭嬉苍诠_信息中表示,通過全棧自研推理系統(tǒng)對 DeepSeek 的優(yōu)化和降本,火山引擎為通過方舟調(diào)用 DeepSeek 模型 API 的企業(yè)提供有競爭力的價格,并提供全網(wǎng)最高的限流。
值得一提的是,2024年,DeepSeek-V2的發(fā)布曾引發(fā)了一輪大模型價格戰(zhàn),字節(jié)、百度、騰訊、阿里等大模型廠商都曾跟進(jìn)降價。如今,有“AI界拼多多”之稱的DeepSeek是否會掀起大模型的下一輪價格戰(zhàn)受到業(yè)界關(guān)注。
業(yè)界對大模型價格競爭已有預(yù)期。今年1月,騰訊集團(tuán)副總裁、政企業(yè)務(wù)總裁李強在接受第一財經(jīng)等媒體采訪時表示,價格變化如果不是基于技術(shù)創(chuàng)新就很難長期持續(xù),騰訊對低效率的純粹價格競爭未必完全認(rèn)同,預(yù)計2025年傳統(tǒng)云計算領(lǐng)域的價格競爭會趨緩,但與大模型相關(guān)的部分還是會有價格競爭。
而云平臺積極上線DeepSeek旗下模型背后,更深層次的行業(yè)變化是,大模型算力需求正在經(jīng)歷變遷。DeepSeek被認(rèn)為正在探索壓縮大模型訓(xùn)練成本,其備受關(guān)注的DeepSeek-R1更偏重推理部分。DeepSeek曾公開DeepSeek-V3的訓(xùn)練預(yù)算為“2048個GPU、2個月、近600萬美元”,外界認(rèn)為DeepSeek-R1訓(xùn)練成本可能也偏低。這或許意味著,大模型訓(xùn)練不一定能為云廠商持續(xù)帶來大量算力需求,但開發(fā)者部署偏重推理的大模型,可能會為云廠商帶來更多算力需求。
李強表示,大模型本身帶來的收入占整體市場的規(guī)模還比較小,但長期看,大模型行業(yè)化應(yīng)用將更多帶來推理相關(guān)的計算需求。隨著越來越多企業(yè)用戶和創(chuàng)業(yè)公司轉(zhuǎn)向大模型應(yīng)用,預(yù)計應(yīng)用爆發(fā)將帶來大量推理需求。
向老師學(xué)習(xí),老師的智能就是天花板;向自然學(xué)習(xí),就可以突破人類智能的極限。所以AI的優(yōu)勢在可擴展性,它發(fā)展的絕對瓶頸常在數(shù)據(jù)和能源。
怎么才能用好如今“百模大戰(zhàn)”之下各種層出不窮的AI模型?關(guān)鍵就是要分清楚它們所處的層次,以匹配你想達(dá)到的目的。
隨著DeepSeek免費開源崛起,數(shù)據(jù)問題成為阻礙大模型落地進(jìn)程新的攔路虎。很多央企國等大型企業(yè)業(yè)務(wù)數(shù)據(jù)分散且格式多樣,需解決非結(jié)構(gòu)化數(shù)據(jù)的清洗、標(biāo)注和知識化問題。
國合署:打造數(shù)字經(jīng)濟(jì)、人工智能等援外新品牌;英特爾新任首席執(zhí)行官計劃對制造和人工智能業(yè)務(wù)進(jìn)行全面改革;百度文小言全面接入文心最新大模型和DeepSeek。
過去小模型能力有限,難以覆蓋眾多碎片化場景,現(xiàn)在開源模型帶來的機會正在改變工業(yè)領(lǐng)域。