亚洲中文字乱码免费播放,精品国产日韩专区欧美第一页,亚洲中文有码字幕青青,亚洲综合另类专区在线

          首頁 > 新聞 > 科技

          分享到微信

          打開微信,點擊底部的“發(fā)現(xiàn)”,
          使用“掃一掃”即可將網(wǎng)頁分享至朋友圈。

          李飛飛團隊低成本復(fù)刻DeepSeek-R1模型?算力成本桎梏正在被打破

          第一財經(jīng) 2025-02-07 12:28:13 聽新聞

          作者:陳楊園    責(zé)編:李娜

          李飛飛團隊嘗試將模型成本“打下來”的背后,開源、數(shù)據(jù)和技術(shù)的突破都是關(guān)鍵環(huán)節(jié)。

          近日,有消息稱,華裔科學(xué)家、“AI教母”李飛飛的團隊研究人員以不到50美元的費用訓(xùn)練了一個能力比肩DeepSeek-R1的s1模型。記者從相關(guān)人士處了解到,這個s1模型的訓(xùn)練并非從零開始,而是基于阿里云通義千問(Qwen)模型進行監(jiān)督微調(diào)。

          李飛飛團隊發(fā)表的公開論文顯示,基于 Qwen2.5-32B-Instruct 語言模型進行監(jiān)督微調(diào)后的 s1-32B 模型,在競賽數(shù)學(xué)問題上的表現(xiàn)超過了 o1-preview,最高提升了 27%(MATH 和 AIME24), 取得了與OpenAI的o1和DeepSeek的R1等尖端推理模型數(shù)學(xué)及編碼能力相當?shù)男Ч?。這個過程中,李飛飛團隊主要使用了一個包含 1000 個問題及其推理軌跡的小型數(shù)據(jù)集 s1K并開發(fā)了預(yù)算強制(budget forcing)技術(shù)延長模型思考,以超低成本構(gòu)建了一個高質(zhì)量模型。

          如何用最簡單的方法實現(xiàn)模型測試時擴展(即允許人工智能模型在回答問題之前進行更多思考)和強大推理性能?李飛飛團隊嘗試將模型成本“打下來”的背后,開源、數(shù)據(jù)和技術(shù)的突破都是關(guān)鍵環(huán)節(jié)。

          如何實現(xiàn)?

          從技術(shù)的角度來看,李飛飛團隊證明的是數(shù)據(jù)樣本的高質(zhì)量以及簡單的測試時間擴展可能帶來的模型訓(xùn)練效率大幅提升。

          根據(jù)公開論文,研究團隊首先構(gòu)建了一個由 1000 個經(jīng)過精心篩選的問題組成的 S1K 數(shù)據(jù)集,這些問題配有從 Gemini Thinking Experimental提煉出的推理過程和答案。基于這個數(shù)據(jù)集,對Qwen2.5-32B-Instruct 語言模型進行監(jiān)督微調(diào),李飛飛團隊僅在 16 個 H100 GPU 上花 26 分鐘完成了模型訓(xùn)練。

          事實上,這僅包含1000個問題的數(shù)據(jù)集遠低于行業(yè)通常的大模型訓(xùn)練數(shù)據(jù)量,李飛飛團隊印證的是高質(zhì)量、高難度和多樣性數(shù)據(jù)所帶來的強大“張力”。研究人員首先遵循質(zhì)量、難度和多樣性三個原則從16個不同的來源收集來59029個問題,包括現(xiàn)有的數(shù)學(xué)問題數(shù)據(jù)集、以及研究人員自己創(chuàng)建的概率問題集、腦筋急轉(zhuǎn)彎問題集,再進行樣本檢查、篩選掉格式不佳的數(shù)據(jù)集,選擇推理鏈路長的問題,才最終創(chuàng)建了這個包含50個不同領(lǐng)域的小數(shù)據(jù)集。

          2024年,李飛飛曾在接受媒體采訪時反駁“人工智能模型正在耗盡用于訓(xùn)練的數(shù)據(jù)”這一觀點,她認為當前AI訓(xùn)練數(shù)據(jù)并不存在短缺的問題,仍有大量的差異化的數(shù)據(jù)等待挖掘。她強調(diào)的是,高質(zhì)量數(shù)據(jù)正變得前所未有的重要,創(chuàng)建高質(zhì)量的數(shù)據(jù)集是人工智能研究的核心。

          另一方面,李飛飛團隊還在S1模型的訓(xùn)練中開發(fā)了一項 “預(yù)算強制” 技術(shù)來控制模型在測試時所花費的計算量,來影響模型的推理深度和最終答案。

          簡單來說,這個“預(yù)算強制”分為兩種情況:若模型生成的推理token超過設(shè)定的上限,則強制結(jié)束推理過程,并附加思維結(jié)束(end-of-thinking)token,促使模型進入答案生成階段。若希望模型在問題上投入更多測試時計算資源,則抑制思維結(jié)束token的生成,并在推理軌跡中追加 「Wait」,鼓勵模型進行更深入的推理探索。研究團隊表示,他們驗證了這種方法還可以使模型重新檢查其答案,通常能修正錯誤的推理步驟,提高推理性能。

          目前,s1模型及其訓(xùn)練數(shù)據(jù)和代碼已在GitHub上開源,研究團隊表示,他們希望能夠激發(fā)未來關(guān)于簡單推理的研究。

          開源大模型的進擊

          隨著大模型“燒錢”的降溫,如何用更低的成本訓(xùn)練高性能模型,正在成為業(yè)內(nèi)的關(guān)注重心之一。

          與李飛飛團隊所做的“監(jiān)督微調(diào)”不同的是,此前,DeepSeek在發(fā)布DeepSeek-R1時,還通過 DeepSeek-R1 的輸出,蒸餾了 6 個小模型開源給社區(qū)。DeepSeek表示,基于Qwen-32B和Llama-70B蒸餾的模型,在多項能力上實現(xiàn)了對標 OpenAI o1-mini 的效果。

          一位業(yè)內(nèi)人士對記者表示,無論是李飛飛團隊提煉精華數(shù)據(jù)在Qwen上做監(jiān)督微調(diào),還是DeepSeek的蒸餾,即將DeepSeek-R1 作為教師模型,把Qwen作為學(xué)生模型,將教師模型的能力蒸餾給學(xué)生模型,都實現(xiàn)了新模型的高性能。這是兩種不同的技術(shù)路線,但都降低了高性能模型的訓(xùn)練成本。

          伴隨著DeepSeek的火爆和s1模型基于通義千問監(jiān)督微調(diào)的低成本訓(xùn)練,開源大模型對行業(yè)格局的影響正在加深。根據(jù)開源社區(qū)HuggingFace的數(shù)據(jù)統(tǒng)計,海內(nèi)外開源社區(qū)中Qwen的衍生模型數(shù)量已突破9萬,2024年,僅視覺理解Qwen-VL及Qwen2-VL兩款模型全球下載量就突破3200萬次。大模型開源生態(tài)正在迅速發(fā)展中。

          在模型訓(xùn)練“性價比”受關(guān)注的當下,開源大模型正在給閉源大模型帶來持續(xù)挑戰(zhàn)。廣發(fā)證券研究指出,隨著DeepSeek全球下載量登頂,基于R1的完全開源,API服務(wù)定價遠低于OpenAI,海外市場總體認為,訓(xùn)練和推理成本下降可能帶來更快的創(chuàng)新、模型的普及,以及更多推理需求。同時,算力的敘事會受到一定影響,開源和閉源模型性能差距的縮小可能對基礎(chǔ)模型開發(fā)公司(閉源)帶來挑戰(zhàn),因為更便宜的開源選項會吞噬市場需求。

          而隨著更多開源大模型的發(fā)展以及模型訓(xùn)練技術(shù)、數(shù)據(jù)質(zhì)量提升的探索,行業(yè)的更多玩家也將受到影響。廣發(fā)證券同時提到,未來,大模型成本、效率的提升可能給AI應(yīng)用類公司帶來利好,因為這類公司正在尋求機會在LLM(大語言模型)以及新模型的基礎(chǔ)上開發(fā)產(chǎn)品,因此成本效率提升會帶來這些公司資本回報率的回升。此外,云廠商間的競爭也在加速關(guān)注DeepSeek等開源大模型的生態(tài)服務(wù),搶食開源大模型算力需求。

          在這場大模型技術(shù)“普惠”與技術(shù)升級的多徑賽跑上,更多DeepSeek、s1般的故事正被業(yè)界期待,也將有更多快速迭代、追趕的壓力給到從業(yè)者。

          舉報
          第一財經(jīng)廣告合作,請點擊這里
          此內(nèi)容為第一財經(jīng)原創(chuàng),著作權(quán)歸第一財經(jīng)所有。未經(jīng)第一財經(jīng)書面授權(quán),不得以任何方式加以使用,包括轉(zhuǎn)載、摘編、復(fù)制或建立鏡像。第一財經(jīng)保留追究侵權(quán)者法律責(zé)任的權(quán)利。 如需獲得授權(quán)請聯(lián)系第一財經(jīng)版權(quán)部:021-22002972或021-22002335;banquan@yicai.com。

          文章作者

          一財最熱
          點擊關(guān)閉