亚洲中文字乱码免费播放,精品国产日韩专区欧美第一页,亚洲中文有码字幕青青,亚洲综合另类专区在线

首頁 > 新聞 > 科技

分享到微信

打開微信，點(diǎn)擊底部的“發(fā)現(xiàn)”，
使用“掃一掃”即可將網(wǎng)頁分享至朋友圈。

記者實(shí)測(cè)|速度更快成本更低，人機(jī)交互更自然，OpenAI新模型免費(fèi)開放

2024-05-14 09:38:15 聽新聞

作者：鄭栩彤 ? 錢童心責(zé)編：劉佳

第一財(cái)經(jīng)記者使用GPT-4o來描述圖片，發(fā)現(xiàn)其生成結(jié)果較準(zhǔn)確，5秒左右就能生成描述圖片的文字。

當(dāng)?shù)貢r(shí)間5月13日，OpenAI通過直播展示了產(chǎn)品更新。與此前傳出的市場(chǎng)消息不同，OpenAI并未推出搜索引擎，也未推出GPT-4.5或GPT-5，而是發(fā)布了GPT-4系列新模型GPT-4o以及AI聊天機(jī)器人ChatGPT的桌面版本，聚焦多模態(tài)和端側(cè)應(yīng)用。

此前OpenAI公司CEO奧爾特曼（Sam Altman）就已經(jīng)否認(rèn)了公司將會(huì)發(fā)布GPT-5，他表示新版GPT非常"神奇"。根據(jù)OpenAI官方網(wǎng)站介紹，GPT-4o中的"o"代表Omni，也就是"全能"的意思。

據(jù)介紹，GPT-4o文本、推理、編碼能力達(dá)到GPT-4 Turbo水平，速度是上一代AI大模型GPT-4 Turbo的兩倍，但成本僅為GPT-4 Turbo的一半，視頻、音頻功能得到改善。OpenAI CEO奧爾特曼（Sam Altman）在博客中表示，ChatGPT免費(fèi)用戶也能用上新發(fā)布的GPT-4o。此外，OpenAI還與蘋果走到一起，推出了適用于macOS的桌面級(jí)應(yīng)用。

OpenAI技術(shù)負(fù)責(zé)人Mira Murati在直播中表示："這是我們第一次在易用性方面真正邁出的一大步。"

語音助手要被顛覆了？

OpenAI研究員Mark Chen表示，新模型具有"感知情緒"的能力，能輸出笑聲、歌唱或表達(dá)情感，還可以處理用戶打斷它的情況。

在直播中，OpenAI演示了一段OpenAI員工與GPT-4o對(duì)話的視頻，模型反應(yīng)速度與人類相近，GPT-4o可利用手機(jī)攝像頭描述其"看到"的東西。

另一段展示視頻里，GPT-4o被裝在兩個(gè)手機(jī)上，其中一個(gè)代表人類與電信公司打電話溝通設(shè)備更換事項(xiàng)，另一個(gè)GPT-4o扮演電信公司客服人員。OpenAI還展示了GPT-4o搭載在手機(jī)上的實(shí)時(shí)翻譯能力。

GPT-4o具有3D視覺內(nèi)容生成能力。演示人員手寫"3X+1=4"數(shù)學(xué)題給GPT-4o看，GPT-4o便能在線語音指導(dǎo)如何一步步解題。

演示人員將電腦上的代碼發(fā)給GPT-4o，大模型就能很快描述這些代碼的目的是為了獲取特定位置和時(shí)間段的每日天氣數(shù)據(jù)，并描述這些代碼構(gòu)建出的是何種功能。在電腦桌面上，將桌面呈現(xiàn)圖表內(nèi)容分享給GPT-4o，大模型還可以理解所呈現(xiàn)的內(nèi)容并回答關(guān)于圖表數(shù)據(jù)變化的問題。

演示人員打開攝像頭對(duì)準(zhǔn)自己并讓GPT-4o描述所看到的內(nèi)容，GPT-4o一開始說看到的是木制表面的東西，演示人員提示稱自己不是一張桌子之后，GPT-4o才表示其看到的是一個(gè)帶著大大笑臉的人，看上去心情很好。

圖像生成能力上，OpenAI提供了一些案例。例如，輸入一段文字并要求生成整潔的書寫插圖，還帶有涂鴉，GPT-4o就生成了一張書寫插圖，而且還可以根據(jù)要求繼續(xù)調(diào)整內(nèi)容。

3D圖片生成方面，可以要求GPT-4o生成一張帶有"OpenAI"徽標(biāo)的圖片，并繼續(xù)要求GPT-4o對(duì)其進(jìn)行3D重建，可以看到最后生成的是3D的"OpenAI"徽標(biāo)。

此外，還可以要求GPT-4o生成一張逼真的人臉，再向GPT-4o提出背景、基調(diào)等要求，讓GPT-4o將這張圖片改為漫畫風(fēng)格。

演示人員還演示了GPT-4o實(shí)時(shí)翻譯的能力，一名演示人員講意大利語，一名演示人員講英語，大模型充當(dāng)翻譯人員角色，反應(yīng)迅速，翻譯看不出卡頓現(xiàn)象。

根據(jù)OpenAI介紹，GPT-4o與GPT-3.5、GPT-4的語音對(duì)談機(jī)制不同。GPT-3.5和GPT-4會(huì)先將音頻轉(zhuǎn)換為文本，再接收文本生成文本，最后將文本轉(zhuǎn)換為音頻，經(jīng)歷這三個(gè)過程，音頻中的情感表達(dá)等信息會(huì)被折損，而GPT-4o是跨文本、視覺和音頻的端到端模型，是OpenAI第一個(gè)綜合了這些維度的模型，可更好進(jìn)行對(duì)談。

OpenAI將GPT-4o定位為GPT-4性能級(jí)別的模型。據(jù)介紹，GPT-4o在傳統(tǒng)基準(zhǔn)測(cè)試中，文本、推理、編碼能力達(dá)到GPT-4 Turbo的水平。該模型接收文本、音頻和圖像輸入時(shí)，平均320毫秒響應(yīng)音頻輸入，與人類對(duì)話中的響應(yīng)時(shí)間相似，英文文本和代碼能力與GPT-4 Turbo相當(dāng)，在非英文文本上有改善，提高了ChatGPT針對(duì)50種不同語言的質(zhì)量和速度，并通過OpenAI的API提供給開發(fā)人員，使其即時(shí)就可以開始使用新模型構(gòu)建應(yīng)用程序。

第一財(cái)經(jīng)記者在OpenAI官網(wǎng)看到，GPT-4o輸入、輸出每1M token（文本單位）收費(fèi)0.005美元、0.015美元，GPT-4 Turbo輸入、輸出每1M token收費(fèi)0.01美元、0.03美元。

"在過去兩年中，我們花了大量精力在堆棧的每一層上提高-效率，作為這項(xiàng)研究的第一個(gè)成果，我們能使GPT-4級(jí)別的模型更廣泛應(yīng)用，GPT-4o即日起擴(kuò)展紅隊(duì)訪問權(quán)限。"OpenAI官網(wǎng)稱，GPT-4o的文本和圖像功能今日在ChatGPT中推出，"我們計(jì)劃在未來幾周內(nèi)在API中向一小部分值得信賴的合作伙伴推出對(duì)GPT-4o新音頻和視頻功能的支持。"

第一財(cái)經(jīng)記者在ChatGPT網(wǎng)站看到，ChatGPT已接入GPT-4o有限訪問權(quán)限，但免費(fèi)用戶還不能使用圖片生成功能。

記者使用了GPT-4o來描述圖片，發(fā)現(xiàn)其生成結(jié)果較準(zhǔn)確，5秒左右就能生成描述圖片的文字。

此外，OpenAI還宣布推出一款適用于macOS的桌面級(jí)應(yīng)用，使用鍵盤快捷鍵就可向ChatGPT提問。用戶可通過電腦與ChatGPT語音對(duì)話，GPT-4o的新音頻和視頻功能后續(xù)將推出。OpenAI已向Plus用戶推出macOS應(yīng)用程序，今年晚些時(shí)候還將推出Windows版本。

值得注意的是，近日還有消息傳出蘋果與OpenAI商談，以便在下一代iPhone操作系統(tǒng)使用ChatGPT功能。此次OpenAI重點(diǎn)展示了大模型在手機(jī)端側(cè)應(yīng)用的能力。

不過，此次OpenAI并未發(fā)布關(guān)于新模型的論文或技術(shù)文檔。

今日，OpenAI特別強(qiáng)調(diào)了新模型的風(fēng)險(xiǎn)和局限性。該公司稱："GPT-4o的音頻模式帶來了各種新的風(fēng)險(xiǎn)。在接下來的幾周和幾個(gè)月里，我們將更關(guān)注技術(shù)基礎(chǔ)設(shè)施、培訓(xùn)后的可用性以及發(fā)布其他模式所需的安全性。例如，在發(fā)布時(shí)，音頻輸出將僅限于選擇預(yù)設(shè)的聲音，并將遵守我們現(xiàn)有的安全政策。"

發(fā)力端側(cè)應(yīng)用

不少科技界人士發(fā)表了對(duì)OpenAI此次產(chǎn)品更新的看法。"我沒想到GPT-4o會(huì)接近GPT-5。傳聞中OpenAI的‘Arrakis’模型就采用多模態(tài)輸入。事實(shí)上，它可能是GPT-5的一個(gè)早期檢查點(diǎn)（checkpoint），尚未完成訓(xùn)練。"英偉達(dá)高級(jí)科學(xué)家Jim Fan在社交媒體上評(píng)論稱。

Jim Fan認(rèn)為，在谷歌召開I/O大會(huì)前，OpenAI寧愿發(fā)布超過人們對(duì)GPT-4.5心理預(yù)期的產(chǎn)品，也不愿因?yàn)橥瞥鲞_(dá)不到人們期望的GPT-5，而讓人感到失望。此外，誰先贏得蘋果，誰就將大獲全勝，與iOS整合有幾個(gè)層次，例如拋棄Siri，OpenAI為iOS提煉出一個(gè)更小層級(jí)、設(shè)備上運(yùn)行的GPT-4o。雖然此次未公開相關(guān)論文，加利福尼亞大學(xué)圣克魯茲分校教授Xin Eric Wang還是評(píng)論認(rèn)為，一個(gè)演示勝過千篇論文。

"比較讓人失望的是，這次OpenAI沒有發(fā)布GPT-5，連GPT-4.5都沒看到。OpenAI發(fā)布了一系列應(yīng)用，最重要的是發(fā)布了語音助手，由于使用了端到端大模型技術(shù)，體驗(yàn)遠(yuǎn)超Siri。OpenAI發(fā)布應(yīng)用，恰恰說明應(yīng)用在人工智能領(lǐng)域大有可為。目前看來，GPT-5可能還要‘難產(chǎn)’一段時(shí)間。"獵豹移動(dòng)董事長(zhǎng)兼CEO傅盛表示。

近期業(yè)內(nèi)對(duì)大模型在既有參數(shù)下推動(dòng)應(yīng)用落地、商業(yè)變現(xiàn)多有討論。OpenAI在繼續(xù)研發(fā)下一代更大參數(shù)模型GPT-5的同時(shí)，也在推動(dòng)價(jià)格下降、應(yīng)用場(chǎng)景和用戶群體擴(kuò)大。

從API價(jià)格看，GPT-3.5 Turbo輸入、輸出每1M token（文本單位）收費(fèi)0.0005美元、0.0015美元，GPT-4為0.03美元、0.06美元，GPT-4之后定價(jià)就持續(xù)下降。今年4月，OpenAI還宣布ChatGPT無需注冊(cè)便可使用，此舉被業(yè)界解讀為擴(kuò)大用戶群體的努力，或其算力成本得到一定下降。此次產(chǎn)品更新后，奧爾特曼在其博客中強(qiáng)調(diào)，OpenAI使命的一個(gè)關(guān)鍵部分是讓強(qiáng)大的人工智能工具免費(fèi)，或以一個(gè)不錯(cuò)的價(jià)格推出。

包括OpenAI推出macOS桌面級(jí)應(yīng)用在內(nèi)，業(yè)內(nèi)近期對(duì)大模型落地端側(cè)多有期待。蘋果就多次傳出與大模型廠商洽談合作，蘋果自身還在端側(cè)小模型領(lǐng)域布局，并推出可支持AI運(yùn)行、性能更強(qiáng)的M4芯片。

近日一場(chǎng)對(duì)談中，金沙江創(chuàng)投主管合伙人朱嘯虎也判斷，此前Meta發(fā)布的Llama3系列兩個(gè)小模型性能強(qiáng)大，iPad Pro則用了M4芯片，以后端側(cè)可能就直接跑一個(gè)小模型了。幾百億參數(shù)的小模型也可在端側(cè)直接跑，尤其是今年下半年iPhone新品可能就類似功能推出，明年應(yīng)用層將會(huì)爆發(fā)。

舉報(bào)

第一財(cái)經(jīng)廣告合作，請(qǐng)點(diǎn)擊這里

此內(nèi)容為第一財(cái)經(jīng)原創(chuàng)，著作權(quán)歸第一財(cái)經(jīng)所有。未經(jīng)第一財(cái)經(jīng)書面授權(quán)，不得以任何方式加以使用，包括轉(zhuǎn)載、摘編、復(fù)制或建立鏡像。第一財(cái)經(jīng)保留追究侵權(quán)者法律責(zé)任的權(quán)利。如需獲得授權(quán)請(qǐng)聯(lián)系第一財(cái)經(jīng)版權(quán)部：021-22002972或021-22002335；banquan@yicai.com。

文章作者

鄭栩彤

錢童心

相關(guān)閱讀

Figure AI與OpenAI“分手”，人形機(jī)器人公司與大模型公司重新劃定邊界

一些人形機(jī)器人廠商此前走上與大模型公司合作的道路。

251 昨天 11:40

DeepSeek繁榮了歐洲AI生態(tài)，有初創(chuàng)公司已棄用ChatGPT

DeepSeek的出現(xiàn)正在改變?nèi)斯ぶ悄艿母窬郑尮灸軌蛞詷O低的成本使用該技術(shù)，并可能推動(dòng)其他人工智能公司改進(jìn)他們的模型并降低價(jià)格。

284 02-04 16:13

DeepSeek的“蒸餾模型”超越原創(chuàng)？美國(guó)要對(duì)“蒸餾技術(shù)”下手

數(shù)據(jù)蒸餾是一種業(yè)內(nèi)常見的技術(shù)做法，是指通過一系列算法和策略，將原始的、復(fù)雜的數(shù)據(jù)進(jìn)行去噪、降維、提煉等操作，從而得到更為精煉、有用的數(shù)據(jù)。

1052 01-30 12:40

OpenAI發(fā)布能訂餐、購(gòu)物的Operator，高管稱智能體之年來了

OpenAI CEO山姆·奧爾特曼認(rèn)為，2025年人們將會(huì)看到第一批AI智能體“加入勞動(dòng)力大軍”。

171 01-24 11:39

能填寫在線表單、自主網(wǎng)購(gòu)，OpenAI首個(gè)AI智能體發(fā)布

這款智能體可以處理重復(fù)的瀏覽器任務(wù)，比如填寫表格、訂購(gòu)雜貨、創(chuàng)建表情包等。

一財(cái)最熱

點(diǎn)擊關(guān)閉