分享到微信打開(kāi)微信,點(diǎn)擊底部的“發(fā)現(xiàn)”, |
當(dāng)?shù)貢r(shí)間12月6日,OpenAI公布第二日活動(dòng)主題:推出了強(qiáng)化微調(diào)(Reinforcement Fine-Tuning),幫助開(kāi)發(fā)者和機(jī)器學(xué)習(xí)工程師打造針對(duì)特定復(fù)雜領(lǐng)域任務(wù)的專家模型。OpenAI CEO Sam Altman在X發(fā)帖稱,強(qiáng)化微調(diào)的效果非常棒,是他今年最大的驚喜之一,期待看到大家利用這種功能的創(chuàng)造。
該項(xiàng)目通過(guò)全新的模型定制技術(shù),讓開(kāi)發(fā)者可以使用高質(zhì)量任務(wù)集對(duì)模型進(jìn)行微調(diào),并利用參考答案評(píng)估模型的響應(yīng),從而提升模型在特定領(lǐng)域任務(wù)中的推理能力和準(zhǔn)確性。
OpenAI的研究員稱,強(qiáng)化微調(diào)并不是只教模型模型輸出,它的運(yùn)作方式是,當(dāng)模型發(fā)現(xiàn)一個(gè)問(wèn)題的時(shí)候,研究者給模型空間區(qū)仔細(xì)思考這個(gè)問(wèn)題,然后評(píng)估模型給出的最終解答,運(yùn)用強(qiáng)化學(xué)習(xí),研究者可以強(qiáng)化產(chǎn)生正確答案的思路,抑制產(chǎn)生錯(cuò)誤答案的思路,只需要“幾十個(gè)例子”甚至12個(gè)例子,模型就能以有效的新方式學(xué)習(xí)特定領(lǐng)域的推理。
OpenAI研究員演示,強(qiáng)化微調(diào)后的o1 mini測(cè)試通過(guò)率甚至比正式版o1高24%,比未強(qiáng)化微調(diào)的o1 mini提高了82%。
OpenAI CEO山姆·奧爾特曼認(rèn)為,2025年人們將會(huì)看到第一批AI智能體“加入勞動(dòng)力大軍”。
這款智能體可以處理重復(fù)的瀏覽器任務(wù),比如填寫(xiě)表格、訂購(gòu)雜貨、創(chuàng)建表情包等。
OpenAI首席執(zhí)行官Sam Altman公布了2025年即將發(fā)布的技術(shù)產(chǎn)品。
“進(jìn)入2025 年,我們必須不僅僅是一家實(shí)驗(yàn)室和一家初創(chuàng)公司,我們還必須成為一家經(jīng)久不衰的公司?!?/p>
OpenAI已討論制造一款人形機(jī)器人。