分享到微信打開微信,點(diǎn)擊底部的“發(fā)現(xiàn)”, |
圖像生成領(lǐng)域傳來了新進(jìn)展,OpenAI在攻克“生成圖像中的文字”方面的難題。北京時(shí)間3月26日凌晨,OpenAI進(jìn)行了直播,對GTP-4o和Sora進(jìn)行更新,在ChatGPT和Sora中推出GPT-4o的圖像生成功能。OpenAI此次強(qiáng)調(diào)了新功能在精準(zhǔn)理解文本描述、準(zhǔn)確生成文本方面的優(yōu)勢。
據(jù)OpenAI介紹,GPT-4o圖像生成功能擅長準(zhǔn)確呈現(xiàn)文本,并精準(zhǔn)遵循提示詞,該功能還會(huì)將GPT-4o的知識(shí)庫和聊天上下文作為靈感來源,這有助于使用者與圖像生成工具更有效地溝通并提高生成圖像的質(zhì)量。該功能供ChatGPT Plus、Pro、Team和免費(fèi)用戶使用,并計(jì)劃隨后向企業(yè)、教育和API使用者推出。
在OpenAI的示例中,要求大模型生成一名女子在一個(gè)俯瞰海灣大橋的房間里用筆在白板上寫字,衣服上印有OpenAI字樣,白板映著攝影師的身影,并描述了白板上所寫的文字。GPT-4o生成的圖像都體現(xiàn)了以上要求。隨后,OpenAI要求攝影師走到鏡頭前與女子擊掌,GPT-4o也呈現(xiàn)了這一畫面,且白板上的字不會(huì)變得凌亂,女子的身形和發(fā)型也與前一張圖像呈現(xiàn)的背影一致。
在其他示例中,OpenAI要求大模型生成上世紀(jì)中葉一個(gè)家庭中冰箱上貼著的詩歌短句,并要求畫面中的人手拿著特定的幾個(gè)詞,GPT-4o可以精準(zhǔn)還原。GPT-4o還能生成漫畫,但需要人準(zhǔn)確地描述畫面中的情節(jié)。OpenAI還展示了這個(gè)圖像生成功能在科學(xué)實(shí)驗(yàn)中的用途,該功能可以生成牛頓棱鏡實(shí)驗(yàn)的示意圖。此外,OpenAI還展示了該圖像生成功能在生成路牌、菜單、游戲畫面時(shí)的效果,以及生成雞尾酒配方、天氣信息圖像時(shí),大模型生成的專業(yè)配方和天氣文本描述。
就如何訓(xùn)練GPT-4o圖像生成功能,OpenAI解釋,OpenAI使用了網(wǎng)絡(luò)上的圖像和文本訓(xùn)練模型,讓模型學(xué)習(xí)圖像與文字、圖像與圖像之間的關(guān)系,使模型具有視覺流暢性,生成的圖片是有用的、具備上下文連貫性的。
就GPT-4o圖像生成功能的特點(diǎn),OpenAI還表示,用戶可以通過自然對話與大模型交流,要求大模型改進(jìn)圖像,在這個(gè)過程中圖像中的人物等要素會(huì)保持一致性。使用者與大模型的交流也更順暢,可以同時(shí)要求大模型處理10到20個(gè)不同的對象,以便圖像中各要素呈現(xiàn)出相關(guān)性。OpenAI對比其他圖像生成系統(tǒng)時(shí)稱,其他系統(tǒng)只能同時(shí)處理5到8個(gè)對象。
不過,OpenAI也指出,GPT-4o圖像生成功能也具備一些限制,例如存在幻覺、難以呈現(xiàn)太多依賴知識(shí)庫的圖像要素(例如元素周期表)、圖表準(zhǔn)確性不足、呈現(xiàn)非拉丁語言時(shí)可能容易出現(xiàn)幻覺、要求修改圖像中的錯(cuò)別字時(shí)難以精準(zhǔn)編輯。
生成圖像中的文字,此前是圖像生成領(lǐng)域的一個(gè)難題。國內(nèi),去年豆包升級文生圖能力,支持一鍵生成指定文本。今年3月,智譜AI發(fā)布了首個(gè)支持生成漢字的開源文生圖模型CogView4。不過,記者試用發(fā)現(xiàn),相關(guān)模型生成文字的能力還不太穩(wěn)定。
3月26日,記者使用豆包APP和智譜清言APP生成圖像,其中智譜清言用的模型是CogView4。記者輸入“生成一張圖片,一個(gè)人在看墻上歌手演唱會(huì)的海報(bào),海報(bào)用中文寫著演唱會(huì)日期、演唱會(huì)主題描述、歌曲名稱”。智譜清言生成的海報(bào)中出現(xiàn)不少亂碼。豆包生成的中文文字準(zhǔn)確,但理解有所偏差,呈現(xiàn)的是“演唱會(huì)日期”“演唱會(huì)主題”這些字樣。
隨后記者將提示詞改為“一個(gè)人在看墻上歌手演唱會(huì)的海報(bào),海報(bào)用中文寫著演唱會(huì)日期為2025年3月29日、演唱會(huì)主題為星空旅行、歌曲名稱《太空翱翔》”,豆包呈現(xiàn)出了正確的日期和“星空旅行”字樣,仍有一些字是亂碼,智譜清言也生成了一些亂碼。
更新GPT-4o的圖像生成功能之后,OpenAI更大的產(chǎn)品更新將是推出GPT-5。今年2月,OpenAI首席執(zhí)行官山姆·奧爾特曼表示,OpenAI將會(huì)在ChatGPT和API服務(wù)中搭載新模型GPT-5,GPT-5將集成公司多項(xiàng)技術(shù),包括推理模型o3的技術(shù),GPT-5可能會(huì)在未來幾個(gè)月內(nèi)推出。
深度思考模型是構(gòu)建Agent的基礎(chǔ),模型要有能力做好思考、計(jì)劃和反思。
OpenAI宣布GPT-4.5正式面向所有ChatGPT Plus用戶開放;并擬推月費(fèi)14.5萬元的AI Agent。
DeepSeek首次公布模型推理系統(tǒng)優(yōu)化細(xì)節(jié),披露理論利潤率達(dá)545%;騰訊元寶上線電腦客戶端版本;OpenAI擬將Sora整合進(jìn)ChatGPT。
對于DeepSeek的現(xiàn)象級熱度,梁汝波如去年一般反思團(tuán)隊(duì)的反應(yīng)速度問題。
Altman透露,GPT-5模型將整合OpenAI的大量技術(shù),包括o3。此外,o3將不再作為獨(dú)立模型發(fā)布。