亚洲中文字乱码免费播放,精品国产日韩专区欧美第一页,亚洲中文有码字幕青青,亚洲综合另类专区在线

首頁 > 新聞 > 科技

分享到微信

打開微信，點擊底部的“發(fā)現(xiàn)”，
使用“掃一掃”即可將網(wǎng)頁分享至朋友圈。

阿里發(fā)布并開源千問3，稱成本僅需DeepSeek-R1三分之一

第一財經(jīng) 2025-04-29 08:31:54 聽新聞

作者：陳楊園責(zé)編：李娜

阿里云方面表示，性能大幅提升的同時，千問3的部署成本大幅下降，僅需4張H20即可部署千問3滿血版，顯存占用僅為DeepSeek-R1的三分之一。

4月29日凌晨，阿里巴巴宣布推出新一代通義千問模型Qwen3（千問3）并進(jìn)行開源。阿里云方面表示，千問3是國內(nèi)首個“混合推理模型”，將“快思考”與“慢思考”集成進(jìn)同一個模型，參數(shù)量僅為DeepSeek-R1的1/3，成本大幅下降，并在ChatBot Arena等榜單中性能全面超越R1、OpenAI-o1等全球頂尖模型，登頂全球最強(qiáng)開源模型。知情人士對記者表示，這是今年上半年阿里云最核心的技術(shù)產(chǎn)品發(fā)布。

具體來看，通義千問官方發(fā)布的技術(shù)博客顯示，千問3采用混合專家（MoE）架構(gòu)，總參數(shù)量235B，激活僅需22B。預(yù)訓(xùn)練數(shù)據(jù)量達(dá)36T ，并在后訓(xùn)練階段多輪強(qiáng)化學(xué)習(xí)。同時將非思考模式無縫整合到思考模型中，對簡單需求可“快思考”，低算力“秒回”答案，對復(fù)雜問題可多步驟“深度思考”，兩種模式的結(jié)合增強(qiáng)了模型實現(xiàn)穩(wěn)定且高效的“思考預(yù)算”控制能力。

阿里云方面表示，性能大幅提升的同時，千問3的部署成本大幅下降，僅需4張H20即可部署千問3滿血版，顯存占用僅為DeepSeek-R1的三分之一。

目前，千問3已開源了2款30B、235B的MoE模型，以及0.6B、1.7B、4B、8B、14B、32B等6款密集模型，阿里云透露，千問3的30B參數(shù)MoE模型實現(xiàn)了10倍以上的模型性能杠桿提升，僅激活3B就能實現(xiàn)上代Qwen2.5-32B模型性能。所有千問3模型都是混合推理模型，API可按需設(shè)置“思考預(yù)算”（即預(yù)期最大深度思考的tokens數(shù)量），靈活滿足AI應(yīng)用和不同場景對性能和成本的多樣需求。

開源后，用戶可在魔搭社區(qū)、HuggingFace等平臺下載模型并商用，也可以通過阿里云百煉調(diào)用千問3的API服務(wù)。個人用戶可通過通義APP體驗千問3，記者了解到，夸克也即將全線接入千問3。

未來，千問3將通過優(yōu)化模型架構(gòu)和訓(xùn)練方法等提升模型，以實現(xiàn)幾個關(guān)鍵目標(biāo)：擴(kuò)展數(shù)據(jù)規(guī)模、增加模型大小、延長上下文長度、拓寬模態(tài)范圍，并利用環(huán)境反饋推進(jìn)強(qiáng)化學(xué)習(xí)以進(jìn)行長周期推理。通義千問團(tuán)隊在技術(shù)博客中表示，“Qwen3 代表了我們在通往通用人工智能（AGI）和超級人工智能（ASI）旅程中的一個重要里程碑。我們認(rèn)為，我們正從專注于訓(xùn)練模型的時代過渡到以訓(xùn)練 Agent 為中心的時代。”

舉報

第一財經(jīng)廣告合作，請點擊這里

此內(nèi)容為第一財經(jīng)原創(chuàng)，著作權(quán)歸第一財經(jīng)所有。未經(jīng)第一財經(jīng)書面授權(quán)，不得以任何方式加以使用，包括轉(zhuǎn)載、摘編、復(fù)制或建立鏡像。第一財經(jīng)保留追究侵權(quán)者法律責(zé)任的權(quán)利。
如需獲得授權(quán)請聯(lián)系第一財經(jīng)版權(quán)部：banquan@yicai.com

文章作者

陳楊園

相關(guān)閱讀

獨家丨黃仁勛已結(jié)束中國之行，知情人士稱全程未與DeepSeek會面

第一財經(jīng)記者從了解黃仁勛中國之行細(xì)節(jié)的人士方面證實，黃仁勛全程未與DeepSeek會面。

502 04-19 11:24

基辛格：當(dāng)AI開始定義人類，如何守護(hù)自身價值｜書摘

人工智能的迅猛發(fā)展引發(fā)了對人類價值和尊嚴(yán)的深刻思考，如何界定人與機(jī)器的本質(zhì)區(qū)別成為關(guān)鍵問題。

生數(shù)科技朱軍：視頻模型更期待“ChatGPT時刻”

廠商期待視頻模型更加可控與好用，步入視頻領(lǐng)域的“ChatGPT時刻”。

DeepSeek-V3模型升級，編程與數(shù)學(xué)能力大幅提升

據(jù)悉該模型參數(shù)為6850億。

240 03-25 07:58

DeepSeek沖擊后AI六小龍分化：收縮、賺錢、產(chǎn)品端“巷戰(zhàn)”

DeepSeek出現(xiàn)后，AI六小龍最后還能剩下幾家？

1004 03-21 18:01

一財最熱

點擊關(guān)閉

<rt id="iotzm"></rt>

<rp id="iotzm"><th id="iotzm"></th></rp>

<source id="iotzm"><del id="iotzm"></del></source>