分享到微信

打開微信，點擊底部的“發(fā)現(xiàn)”，
使用“掃一掃”即可將網(wǎng)頁分享至朋友圈。

一個向左一個向右， OpenAI與DeepSeek 誰能主導(dǎo)AI競爭格局？

第一財經(jīng) 2025-02-28 13:40:50 聽新聞

作者：劉曉潔 ? 鄭栩彤責(zé)編：李娜

OpenAI 發(fā)布了昂貴的GPT-4.5，而DeepSeek進行著最后一天的代碼開源分享。

北京時間2月28日凌晨，OpenAI發(fā)布GPT-4.5。“這是我們迄今為止最大、最好的聊天模型，是在擴大預(yù)訓(xùn)練和后訓(xùn)練道路上邁出的一步。” OpenAI介紹，這款新模型面向GPT Pro用戶，下周起將向Plus用戶和Team用戶推出。

OpenAI CEO山姆·奧爾特曼（Sam Altman）因為“在醫(yī)院照顧孩子”并沒有出現(xiàn)在發(fā)布現(xiàn)場，但他在X上發(fā)布了帖子造勢，強調(diào)GPT-4.5是一個“高情商”更像人的模型，不會超越基準測試，是一種“不同類型的智能”。

從目前業(yè)界的反應(yīng)來看，這一代模型的能力提升并不算大，但令人驚訝的是GPT-4.5的價格，每百萬Tokens輸入為75美元，相比GPT-4o的2.5美元上漲30倍，同時，OpenAI表示，GPT-4.5無法完全替代GPT-4o。

與此同時，DeepSeek 26日剛在海內(nèi)外宣布了API 錯峰時間段的降價，V3模型和 R1模型的每百萬Tokens輸入只要0.035美元，相比原價分別下調(diào)50%和75%，GPT-4.5是這個價格的2000多倍。就在28日，DeepSeek還放出了“開源周”最后一個代碼庫，將開源進行到底，這一攪動AI圈的“鯰魚”，正在改寫AI競爭格局。

好消息和壞消息

GPT-4.5是奧爾特曼此前預(yù)告將“在幾周內(nèi)”發(fā)布的模型。奧爾特曼彼時稱，除了發(fā)布GPT-4.5，幾個月時間內(nèi)OpenAI還將發(fā)布下一代基座模型GPT-5。如此看，GPT-4.5很可能是GPT-5面世前的最后一個過渡模型。

與OpenAI此前發(fā)布新模型時的慣常做法不同，此前OpenAI通常會強調(diào)新模型在各領(lǐng)域的基準測試分數(shù)，此次OpenAI則表示，學(xué)術(shù)基準并不總是反映現(xiàn)實世界的有用性，OpenAI轉(zhuǎn)而強調(diào)了GPT-4.5的“情商”。

奧爾特曼在發(fā)帖中提到了“好消息”和“壞消息”，前者是，“這是第一個讓人感覺像是在跟一個有思想的人說話的模型。”他表示，曾多次驚訝地發(fā)現(xiàn)能從人工智能那里得到很好的建議。

壞消息則是，“這是一個龐大而昂貴的模型”，甚至沒辦法同時推到plus用戶那里，奧爾特曼表示，“GPU已經(jīng)不夠了”，下周將添加數(shù)萬個GPU，然后將其推廣到plus。

奧爾特曼還特別提到，GPT-4.5不是一個推理模型，也不會在基準測試中取得壓倒性優(yōu)勢。它是一種“不同類型的智能”。在新模型發(fā)布前不久，OpenAI首席研究官Mark Chen接受播客采訪稱，新模型并未被命名為GPT-5，這是因為OpenAI內(nèi)部對這款模型的評估還沒有到達整整一代的性能提升。

OpenAI表示，早期測試表明，用戶與GPT-4.5交互更自然，該模型有更廣泛的知識基礎(chǔ)、理解用戶意圖的更強能力和更強大的“情商”，這使得GPT-4.5在寫作、編程、解決實際問題等任務(wù)上很有用。在訓(xùn)練過程中，OpenAI則使用了擴大（Scaling）無監(jiān)督學(xué)習(xí)和推理的方法。

OpenAI特別強調(diào)了GPT-4.5幻覺率降低、與人類協(xié)作表現(xiàn)更佳。OpenAI通過用簡單但具有挑戰(zhàn)性的知識問題測試模型，結(jié)果顯示，GPT-4.5的幻覺率為37.1%，低于GPT-4o的61.8%、o1的44%、o3-mini的80.3%。在與人類協(xié)作的能力方面，OpenAI稱，GPT-4.5在日常查詢、專業(yè)查詢、創(chuàng)造性智能這3個方面表現(xiàn)都比GPT-4o更強，GPT-4.5能更好地理解人類微妙的暗示或隱含的期望。

為了展示GPT-4.5的能力，OpenAI舉了個例子。問GPT-4.5“世界上第一種語言是什么”，GPT4.5的回答是“我們不知道確切的第一種語言是什么，科學(xué)家認為我們可能永遠不知道確切的答案，因為口語的出現(xiàn)遠早于書面記錄”，并解釋了沒有單一的第一種語言、口語可能最早在非洲出現(xiàn)。

同樣的問題問GPT-4的4T版本，回答則是“確定人類使用的第一種語言極具挑戰(zhàn)性”，并解釋稱，語言學(xué)家假設(shè)有許多語言的共同祖先，但這種祖先不是第一種語言。直觀感受上，GPT-4.5的表達更接近人類，GPT-4T的語言表達顯得有些機械。

此外，OpenAI還強調(diào)了GPT-4.5與o1這類長思維鏈推理模型不同。例如，GPT-4.5在做出反應(yīng)前不需要經(jīng)過思考，因此更通用，也更智能。不過，OpenAI也說明，推理仍將是未來模型的核心能力，更強的推理能力即將出現(xiàn)。

在附錄部分，OpenAI才放出GPT-4.5的基準測試分數(shù)。在反映科學(xué)、數(shù)學(xué)、多語言、編碼的GPQA、AIME’24、MMMLU、SWE-Lancer基準測試上，GPT-4.5得分分別為71.4%、36.7%、85.1%、32.6%，超過GPT-4o的53.6%、9.3%、81.5%、23.3%，但部分得分低于o3-mini。

這一代的能力提升并不明顯，而與此相對的是，能力定價上，GPT-4.5預(yù)覽版的API調(diào)用價格為每百萬Tokens輸入（input）75美元，輸出（output）150美元，分別是GPT-4o價格的30倍、15倍。

即便相比自家模型，這個價格也過于昂貴，而進一步與 DeepSeek 進行對比，差距更大。近期非波峰時間段，V3 模型和 R1 模型的每百萬Tokens輸入為0.035美元（原價分別是0.07美元/0.14美元），每百萬 token Tokens輸出只需要 0.55 美元（原價分別是1.1美元/2.19美元），GPT-4.5分別是上述價格的2000多倍和270多倍。

OpenAI說明，由于GPT-4.5是一個非常大且計算密集的模型，所以價格比GPT-4o更貴。同時，OpenAI提到GPT-4.5 還無法完全替代 GPT-4o?？紤]到要在支持現(xiàn)有功能和開發(fā)未來的模型之間取得平衡，OpenAI還在評估是否長期在API（接口）使用該模型。

“鯰魚”攪動AI圈

除了拼性價比，DeepSeek另一個方向是堅定開源路線。

就在OpenAI新品發(fā)布的這一天，DeepSeek正進行著本周第五項代碼開源——Fire-Flyer文件系統(tǒng)（3FS）。它是“所有 DeepSeek 數(shù)據(jù)訪問的動力引擎”，一個高性能的并行文件系統(tǒng)，專門優(yōu)化AI數(shù)據(jù)訪問，為 AI 工作負載提供卓越的存儲基礎(chǔ)設(shè)施。

據(jù)DeepSeek，3FS是專為AI場景設(shè)計的高性能存儲解決方案，通過架構(gòu)創(chuàng)新和硬件適配顯著提升了數(shù)據(jù)處理效率，與傳統(tǒng)的云存儲掛載工具（如s3fs）在目標場景和技術(shù)實現(xiàn)上存在顯著差異。

除了3FS，DeepSeek本周陸續(xù)開源了讓大模型在GPU上跑得更快的MLA解碼核FlashMLA，用于MoE模型訓(xùn)練和推理的DeepEP通信庫，可支持MoE的FP8 GEMM代碼庫DeepGEMM，一系列優(yōu)化并行策略等底層代碼，在GitHub上，DeepSeek詳細展開了DeepSeek-V3和R1模型背后的優(yōu)化技術(shù)，教社區(qū)如何最大限度利用GPU能力。

“相當于以前DeepSeek是直接給一輛車，告訴大家這輛車續(xù)航900公里，但是現(xiàn)在DeepSeek在深挖，用什么方式能夠開到900公里。”大模型生態(tài)社區(qū)OpenCSG（開放傳神）創(chuàng)始人陳冉此前對第一財經(jīng)舉例表示。

陳冉認為，DeepSeek現(xiàn)在發(fā)布的算法某種意義上屬于“腳手架”，這些“腳手架”的開源有利于之后的生態(tài)搭建。社區(qū)和開發(fā)者可以基于DeepSeek的技術(shù)路線繼續(xù)往前走，最終行業(yè)能基于此將生態(tài)做起來。

長期來看，DeepSeek這一開源動作的意義在于，有模型標準，也有工具標準，也有生態(tài)基石，生態(tài)就能長起來。也有從業(yè)者認為，如果把大模型比作更底層的操作系統(tǒng)，那OpenAI可能是相對封閉的IOS生態(tài)，而DeepSeek就是開放的安卓。

DeepSeek或許改寫了AI圈的競爭格局和方向。奧爾特曼在2月o3-mini發(fā)布當天表示，OpenAI的開源政策站在了“歷史錯誤的一邊”，需要想出一個不同的開源策略。

在國內(nèi)，一貫堅持閉源路線的百度也“倒戈”向開源。去年，百度董事長李彥宏還表示，大模型開源的意義不大，閉源模型在能力上會持續(xù)領(lǐng)先。今年2月14日，百度就宣布將在未來幾個月陸續(xù)推出文心大模型4.5系列，并于6月30日正式開源。

從開源的沖擊看，能力不如開源模型的閉源模型面臨尷尬境地。既然開源模型可以被開發(fā)者自行下載、微調(diào)乃至私有化部署，就不需要為了使用閉源大模型付費了。

DeepSeek將算力用到極致，在低成本的基礎(chǔ)上進行模型的訓(xùn)練和推理，此前也一度帶崩芯片股，將壓力給到海外大廠，規(guī)模越來越大的數(shù)據(jù)中心相關(guān)資本支出是否合理？這成為投資人對大廠的疑慮。

1月以來，海外AI巨頭近期新品發(fā)布密集，谷歌發(fā)布了Gemini2.0系列，xAI發(fā)布了馬斯克口中“地球上最聰明的人工智能”Grok 3，OpenAI緊接著拿出了GPT-4.5。

從全球知名AI模型評測平臺Chatbot Arena（大模型競技場）的最新榜單來看，最新發(fā)布的Gemini2.0系列旗艦?zāi)Ｐ团cGrok 3確實排在前列，但與排在第5位的DeepSeek-R1并沒有拉開實質(zhì)性的差距，以大模型競技場的評分來看，差距在15分-40分之間。

在2025年達沃斯論壇上，AI科技初創(chuàng)公司Scale AI創(chuàng)始人亞歷山大·王（Alexandr Wang）公開表示， DeepSeek的AI大模型性能大致與美國最好的模型相當。他認為，過去十年來，美國可能一直在人工智能競賽中領(lǐng)先于中國，但DeepSeek的AI大模型發(fā)布可能會“改變一切”。

在國內(nèi)，DeepSeek同樣給大模型廠商不小的壓力。去年C端大模型應(yīng)用做得聲量最大的國內(nèi)廠商中，一定有豆包和Kimi。但如果最近再看蘋果中國區(qū)免費版APP排行，會發(fā)現(xiàn)，第一名是DeepSeek，騰訊元寶搭載DeepSeek并大方投流后，也沖到了榜單第二名。

AI業(yè)內(nèi)人士表示，DeepSeek的技術(shù)實力過硬且選擇開源，這對一些閉源公司造成了沖擊，一些大模型團隊需要反思自身的做法。

DeepSeek-R1不是大模型競爭的終局，有消息稱，DeepSeek正尋求鞏固自身優(yōu)勢，盡早推出R2模型，消息提到DeepSeek原本計劃在5月初發(fā)布R2模型，目前會加快這一速度。DeepSeek目前并未對此回應(yīng)。

此前DeepSeek在R1論文中提到，R1的性能將在下一個版本得到改善，因為相關(guān)的RL（強化學(xué)習(xí)）訓(xùn)練數(shù)據(jù)還很少。隨著RL數(shù)據(jù)的增加，模型解決復(fù)雜推理任務(wù)的能力持續(xù)穩(wěn)定提升，且會自然涌現(xiàn)出一些復(fù)雜行為能力。

同時，OpenAI的下一代推理模型o3計劃融入GPT-5并在幾個月內(nèi)推出。雖然OpenAI還在持續(xù)推出GPT-4o、GPT-4.5這類帶有過渡色彩的模型，但目前距離GPT-4推出已有近兩年時間。發(fā)布GPT-4.5之后，OpenAI還需盡快證明自己仍是全球最先進的大模型公司，接下來推出GPT-5將是重要一步。

DeepSeek能否贏得下一局對弈仍存變數(shù)，但可以確定的是，它為行業(yè)競爭帶來了更深遠的影響，在2025年初以壓倒性的聲勢冒頭，打亂了AI圈的格局，競爭對手或許需要思考，如何走贏下一步棋。

舉報

第一財經(jīng)廣告合作，請點擊這里

此內(nèi)容為第一財經(jīng)原創(chuàng)，著作權(quán)歸第一財經(jīng)所有。未經(jīng)第一財經(jīng)書面授權(quán)，不得以任何方式加以使用，包括轉(zhuǎn)載、摘編、復(fù)制或建立鏡像。第一財經(jīng)保留追究侵權(quán)者法律責(zé)任的權(quán)利。
如需獲得授權(quán)請聯(lián)系第一財經(jīng)版權(quán)部：banquan@yicai.com