分享到微信打開微信,點(diǎn)擊底部的“發(fā)現(xiàn)”, |
2024-05-14 09:38:15 聽新聞
作者:鄭栩彤 ? 錢童心 責(zé)編:劉佳
當(dāng)?shù)貢r(shí)間5月13日,OpenAI通過直播展示了產(chǎn)品更新。與此前傳出的市場(chǎng)消息不同,OpenAI并未推出搜索引擎,也未推出GPT-4.5或GPT-5,而是發(fā)布了GPT-4系列新模型GPT-4o以及AI聊天機(jī)器人ChatGPT的桌面版本,聚焦多模態(tài)和端側(cè)應(yīng)用。
此前OpenAI公司CEO奧爾特曼(Sam Altman)就已經(jīng)否認(rèn)了公司將會(huì)發(fā)布GPT-5,他表示新版GPT非常"神奇"。根據(jù)OpenAI官方網(wǎng)站介紹,GPT-4o中的"o"代表Omni,也就是"全能"的意思。
據(jù)介紹,GPT-4o文本、推理、編碼能力達(dá)到GPT-4 Turbo水平,速度是上一代AI大模型GPT-4 Turbo的兩倍,但成本僅為GPT-4 Turbo的一半,視頻、音頻功能得到改善。OpenAI CEO奧爾特曼(Sam Altman)在博客中表示,ChatGPT免費(fèi)用戶也能用上新發(fā)布的GPT-4o。此外,OpenAI還與蘋果走到一起,推出了適用于macOS的桌面級(jí)應(yīng)用。
OpenAI技術(shù)負(fù)責(zé)人Mira Murati在直播中表示:"這是我們第一次在易用性方面真正邁出的一大步。"
語音助手要被顛覆了?
OpenAI研究員Mark Chen表示,新模型具有"感知情緒"的能力,能輸出笑聲、歌唱或表達(dá)情感,還可以處理用戶打斷它的情況。
在直播中,OpenAI演示了一段OpenAI員工與GPT-4o對(duì)話的視頻,模型反應(yīng)速度與人類相近,GPT-4o可利用手機(jī)攝像頭描述其"看到"的東西。
另一段展示視頻里,GPT-4o被裝在兩個(gè)手機(jī)上,其中一個(gè)代表人類與電信公司打電話溝通設(shè)備更換事項(xiàng),另一個(gè)GPT-4o扮演電信公司客服人員。OpenAI還展示了GPT-4o搭載在手機(jī)上的實(shí)時(shí)翻譯能力。
GPT-4o具有3D視覺內(nèi)容生成能力。演示人員手寫"3X+1=4"數(shù)學(xué)題給GPT-4o看,GPT-4o便能在線語音指導(dǎo)如何一步步解題。
演示人員將電腦上的代碼發(fā)給GPT-4o,大模型就能很快描述這些代碼的目的是為了獲取特定位置和時(shí)間段的每日天氣數(shù)據(jù),并描述這些代碼構(gòu)建出的是何種功能。在電腦桌面上,將桌面呈現(xiàn)圖表內(nèi)容分享給GPT-4o,大模型還可以理解所呈現(xiàn)的內(nèi)容并回答關(guān)于圖表數(shù)據(jù)變化的問題。
演示人員打開攝像頭對(duì)準(zhǔn)自己并讓GPT-4o描述所看到的內(nèi)容,GPT-4o一開始說看到的是木制表面的東西,演示人員提示稱自己不是一張桌子之后,GPT-4o才表示其看到的是一個(gè)帶著大大笑臉的人,看上去心情很好。
圖像生成能力上,OpenAI提供了一些案例。例如,輸入一段文字并要求生成整潔的書寫插圖,還帶有涂鴉,GPT-4o就生成了一張書寫插圖,而且還可以根據(jù)要求繼續(xù)調(diào)整內(nèi)容。
3D圖片生成方面,可以要求GPT-4o生成一張帶有"OpenAI"徽標(biāo)的圖片,并繼續(xù)要求GPT-4o對(duì)其進(jìn)行3D重建,可以看到最后生成的是3D的"OpenAI"徽標(biāo)。
此外,還可以要求GPT-4o生成一張逼真的人臉,再向GPT-4o提出背景、基調(diào)等要求,讓GPT-4o將這張圖片改為漫畫風(fēng)格。
演示人員還演示了GPT-4o實(shí)時(shí)翻譯的能力,一名演示人員講意大利語,一名演示人員講英語,大模型充當(dāng)翻譯人員角色,反應(yīng)迅速,翻譯看不出卡頓現(xiàn)象。
根據(jù)OpenAI介紹,GPT-4o與GPT-3.5、GPT-4的語音對(duì)談機(jī)制不同。GPT-3.5和GPT-4會(huì)先將音頻轉(zhuǎn)換為文本,再接收文本生成文本,最后將文本轉(zhuǎn)換為音頻,經(jīng)歷這三個(gè)過程,音頻中的情感表達(dá)等信息會(huì)被折損,而GPT-4o是跨文本、視覺和音頻的端到端模型,是OpenAI第一個(gè)綜合了這些維度的模型,可更好進(jìn)行對(duì)談。
OpenAI將GPT-4o定位為GPT-4性能級(jí)別的模型。據(jù)介紹,GPT-4o在傳統(tǒng)基準(zhǔn)測(cè)試中,文本、推理、編碼能力達(dá)到GPT-4 Turbo的水平。該模型接收文本、音頻和圖像輸入時(shí),平均320毫秒響應(yīng)音頻輸入,與人類對(duì)話中的響應(yīng)時(shí)間相似,英文文本和代碼能力與GPT-4 Turbo相當(dāng),在非英文文本上有改善,提高了ChatGPT針對(duì)50種不同語言的質(zhì)量和速度,并通過OpenAI的API提供給開發(fā)人員,使其即時(shí)就可以開始使用新模型構(gòu)建應(yīng)用程序。
第一財(cái)經(jīng)記者在OpenAI官網(wǎng)看到,GPT-4o輸入、輸出每1M token(文本單位)收費(fèi)0.005美元、0.015美元,GPT-4 Turbo輸入、輸出每1M token收費(fèi)0.01美元、0.03美元。
"在過去兩年中,我們花了大量精力在堆棧的每一層上提高-效率,作為這項(xiàng)研究的第一個(gè)成果,我們能使GPT-4級(jí)別的模型更廣泛應(yīng)用,GPT-4o即日起擴(kuò)展紅隊(duì)訪問權(quán)限。"OpenAI官網(wǎng)稱,GPT-4o的文本和圖像功能今日在ChatGPT中推出,"我們計(jì)劃在未來幾周內(nèi)在API中向一小部分值得信賴的合作伙伴推出對(duì)GPT-4o新音頻和視頻功能的支持。"
第一財(cái)經(jīng)記者在ChatGPT網(wǎng)站看到,ChatGPT已接入GPT-4o有限訪問權(quán)限,但免費(fèi)用戶還不能使用圖片生成功能。
記者使用了GPT-4o來描述圖片,發(fā)現(xiàn)其生成結(jié)果較準(zhǔn)確,5秒左右就能生成描述圖片的文字。
此外,OpenAI還宣布推出一款適用于macOS的桌面級(jí)應(yīng)用,使用鍵盤快捷鍵就可向ChatGPT提問。用戶可通過電腦與ChatGPT語音對(duì)話,GPT-4o的新音頻和視頻功能后續(xù)將推出。OpenAI已向Plus用戶推出macOS應(yīng)用程序,今年晚些時(shí)候還將推出Windows版本。
值得注意的是,近日還有消息傳出蘋果與OpenAI商談,以便在下一代iPhone操作系統(tǒng)使用ChatGPT功能。此次OpenAI重點(diǎn)展示了大模型在手機(jī)端側(cè)應(yīng)用的能力。
不過,此次OpenAI并未發(fā)布關(guān)于新模型的論文或技術(shù)文檔。
今日,OpenAI特別強(qiáng)調(diào)了新模型的風(fēng)險(xiǎn)和局限性。該公司稱:"GPT-4o的音頻模式帶來了各種新的風(fēng)險(xiǎn)。在接下來的幾周和幾個(gè)月里,我們將更關(guān)注技術(shù)基礎(chǔ)設(shè)施、培訓(xùn)后的可用性以及發(fā)布其他模式所需的安全性。例如,在發(fā)布時(shí),音頻輸出將僅限于選擇預(yù)設(shè)的聲音,并將遵守我們現(xiàn)有的安全政策。"
發(fā)力端側(cè)應(yīng)用
不少科技界人士發(fā)表了對(duì)OpenAI此次產(chǎn)品更新的看法。"我沒想到GPT-4o會(huì)接近GPT-5。傳聞中OpenAI的‘Arrakis’模型就采用多模態(tài)輸入。事實(shí)上,它可能是GPT-5的一個(gè)早期檢查點(diǎn)(checkpoint),尚未完成訓(xùn)練。"英偉達(dá)高級(jí)科學(xué)家Jim Fan在社交媒體上評(píng)論稱。
Jim Fan認(rèn)為,在谷歌召開I/O大會(huì)前,OpenAI寧愿發(fā)布超過人們對(duì)GPT-4.5心理預(yù)期的產(chǎn)品,也不愿因?yàn)橥瞥鲞_(dá)不到人們期望的GPT-5,而讓人感到失望。此外,誰先贏得蘋果,誰就將大獲全勝,與iOS整合有幾個(gè)層次,例如拋棄Siri,OpenAI為iOS提煉出一個(gè)更小層級(jí)、設(shè)備上運(yùn)行的GPT-4o。雖然此次未公開相關(guān)論文,加利福尼亞大學(xué)圣克魯茲分校教授Xin Eric Wang還是評(píng)論認(rèn)為,一個(gè)演示勝過千篇論文。
"比較讓人失望的是,這次OpenAI沒有發(fā)布GPT-5,連GPT-4.5都沒看到。OpenAI發(fā)布了一系列應(yīng)用,最重要的是發(fā)布了語音助手,由于使用了端到端大模型技術(shù),體驗(yàn)遠(yuǎn)超Siri。OpenAI發(fā)布應(yīng)用,恰恰說明應(yīng)用在人工智能領(lǐng)域大有可為。目前看來,GPT-5可能還要‘難產(chǎn)’一段時(shí)間。"獵豹移動(dòng)董事長(zhǎng)兼CEO傅盛表示。
近期業(yè)內(nèi)對(duì)大模型在既有參數(shù)下推動(dòng)應(yīng)用落地、商業(yè)變現(xiàn)多有討論。OpenAI在繼續(xù)研發(fā)下一代更大參數(shù)模型GPT-5的同時(shí),也在推動(dòng)價(jià)格下降、應(yīng)用場(chǎng)景和用戶群體擴(kuò)大。
從API價(jià)格看,GPT-3.5 Turbo輸入、輸出每1M token(文本單位)收費(fèi)0.0005美元、0.0015美元,GPT-4為0.03美元、0.06美元,GPT-4之后定價(jià)就持續(xù)下降。今年4月,OpenAI還宣布ChatGPT無需注冊(cè)便可使用,此舉被業(yè)界解讀為擴(kuò)大用戶群體的努力,或其算力成本得到一定下降。此次產(chǎn)品更新后,奧爾特曼在其博客中強(qiáng)調(diào),OpenAI使命的一個(gè)關(guān)鍵部分是讓強(qiáng)大的人工智能工具免費(fèi),或以一個(gè)不錯(cuò)的價(jià)格推出。
包括OpenAI推出macOS桌面級(jí)應(yīng)用在內(nèi),業(yè)內(nèi)近期對(duì)大模型落地端側(cè)多有期待。蘋果就多次傳出與大模型廠商洽談合作,蘋果自身還在端側(cè)小模型領(lǐng)域布局,并推出可支持AI運(yùn)行、性能更強(qiáng)的M4芯片。
近日一場(chǎng)對(duì)談中,金沙江創(chuàng)投主管合伙人朱嘯虎也判斷,此前Meta發(fā)布的Llama3系列兩個(gè)小模型性能強(qiáng)大,iPad Pro則用了M4芯片,以后端側(cè)可能就直接跑一個(gè)小模型了。幾百億參數(shù)的小模型也可在端側(cè)直接跑,尤其是今年下半年iPhone新品可能就類似功能推出,明年應(yīng)用層將會(huì)爆發(fā)。
一些人形機(jī)器人廠商此前走上與大模型公司合作的道路。
DeepSeek的出現(xiàn)正在改變?nèi)斯ぶ悄艿母窬郑尮灸軌蛞詷O低的成本使用該技術(shù),并可能推動(dòng)其他人工智能公司改進(jìn)他們的模型并降低價(jià)格。
數(shù)據(jù)蒸餾是一種業(yè)內(nèi)常見的技術(shù)做法,是指通過一系列算法和策略,將原始的、復(fù)雜的數(shù)據(jù)進(jìn)行去噪、降維、提煉等操作,從而得到更為精煉、有用的數(shù)據(jù)。
OpenAI CEO山姆·奧爾特曼認(rèn)為,2025年人們將會(huì)看到第一批AI智能體“加入勞動(dòng)力大軍”。
這款智能體可以處理重復(fù)的瀏覽器任務(wù),比如填寫表格、訂購(gòu)雜貨、創(chuàng)建表情包等。