亚洲中文字乱码免费播放,精品国产日韩专区欧美第一页,亚洲中文有码字幕青青,亚洲综合另类专区在线

          首頁 > 新聞 > 科技

          分享到微信

          打開微信,點(diǎn)擊底部的“發(fā)現(xiàn)”,
          使用“掃一掃”即可將網(wǎng)頁分享至朋友圈。

          OpenAI GPT-4o推出圖像生成功能,攻克“生成圖像中的文字”難題

          第一財(cái)經(jīng) 2025-03-26 11:53:00 聽新聞

          作者:鄭栩彤    責(zé)編:寧佳彥

          OpenAI表示,公司用了網(wǎng)絡(luò)上的圖像和文本訓(xùn)練模型,讓模型學(xué)習(xí)圖像與文字、圖像與圖像之間的關(guān)系。

          圖像生成領(lǐng)域傳來了新進(jìn)展,OpenAI在攻克“生成圖像中的文字”方面的難題。北京時(shí)間3月26日凌晨,OpenAI進(jìn)行了直播,對GTP-4o和Sora進(jìn)行更新,在ChatGPT和Sora中推出GPT-4o的圖像生成功能。OpenAI此次強(qiáng)調(diào)了新功能在精準(zhǔn)理解文本描述、準(zhǔn)確生成文本方面的優(yōu)勢。

          據(jù)OpenAI介紹,GPT-4o圖像生成功能擅長準(zhǔn)確呈現(xiàn)文本,并精準(zhǔn)遵循提示詞,該功能還會(huì)將GPT-4o的知識(shí)庫和聊天上下文作為靈感來源,這有助于使用者與圖像生成工具更有效地溝通并提高生成圖像的質(zhì)量。該功能供ChatGPT Plus、Pro、Team和免費(fèi)用戶使用,并計(jì)劃隨后向企業(yè)、教育和API使用者推出。

          在OpenAI的示例中,要求大模型生成一名女子在一個(gè)俯瞰海灣大橋的房間里用筆在白板上寫字,衣服上印有OpenAI字樣,白板映著攝影師的身影,并描述了白板上所寫的文字。GPT-4o生成的圖像都體現(xiàn)了以上要求。隨后,OpenAI要求攝影師走到鏡頭前與女子擊掌,GPT-4o也呈現(xiàn)了這一畫面,且白板上的字不會(huì)變得凌亂,女子的身形和發(fā)型也與前一張圖像呈現(xiàn)的背影一致。

          在其他示例中,OpenAI要求大模型生成上世紀(jì)中葉一個(gè)家庭中冰箱上貼著的詩歌短句,并要求畫面中的人手拿著特定的幾個(gè)詞,GPT-4o可以精準(zhǔn)還原。GPT-4o還能生成漫畫,但需要人準(zhǔn)確地描述畫面中的情節(jié)。OpenAI還展示了這個(gè)圖像生成功能在科學(xué)實(shí)驗(yàn)中的用途,該功能可以生成牛頓棱鏡實(shí)驗(yàn)的示意圖。此外,OpenAI還展示了該圖像生成功能在生成路牌、菜單、游戲畫面時(shí)的效果,以及生成雞尾酒配方、天氣信息圖像時(shí),大模型生成的專業(yè)配方和天氣文本描述。

          就如何訓(xùn)練GPT-4o圖像生成功能,OpenAI解釋,OpenAI使用了網(wǎng)絡(luò)上的圖像和文本訓(xùn)練模型,讓模型學(xué)習(xí)圖像與文字、圖像與圖像之間的關(guān)系,使模型具有視覺流暢性,生成的圖片是有用的、具備上下文連貫性的。

          就GPT-4o圖像生成功能的特點(diǎn),OpenAI還表示,用戶可以通過自然對話與大模型交流,要求大模型改進(jìn)圖像,在這個(gè)過程中圖像中的人物等要素會(huì)保持一致性。使用者與大模型的交流也更順暢,可以同時(shí)要求大模型處理10到20個(gè)不同的對象,以便圖像中各要素呈現(xiàn)出相關(guān)性。OpenAI對比其他圖像生成系統(tǒng)時(shí)稱,其他系統(tǒng)只能同時(shí)處理5到8個(gè)對象。

          不過,OpenAI也指出,GPT-4o圖像生成功能也具備一些限制,例如存在幻覺、難以呈現(xiàn)太多依賴知識(shí)庫的圖像要素(例如元素周期表)、圖表準(zhǔn)確性不足、呈現(xiàn)非拉丁語言時(shí)可能容易出現(xiàn)幻覺、要求修改圖像中的錯(cuò)別字時(shí)難以精準(zhǔn)編輯。

          生成圖像中的文字,此前是圖像生成領(lǐng)域的一個(gè)難題。國內(nèi),去年豆包升級文生圖能力,支持一鍵生成指定文本。今年3月,智譜AI發(fā)布了首個(gè)支持生成漢字的開源文生圖模型CogView4。不過,記者試用發(fā)現(xiàn),相關(guān)模型生成文字的能力還不太穩(wěn)定。

          3月26日,記者使用豆包APP和智譜清言APP生成圖像,其中智譜清言用的模型是CogView4。記者輸入“生成一張圖片,一個(gè)人在看墻上歌手演唱會(huì)的海報(bào),海報(bào)用中文寫著演唱會(huì)日期、演唱會(huì)主題描述、歌曲名稱”。智譜清言生成的海報(bào)中出現(xiàn)不少亂碼。豆包生成的中文文字準(zhǔn)確,但理解有所偏差,呈現(xiàn)的是“演唱會(huì)日期”“演唱會(huì)主題”這些字樣。

          隨后記者將提示詞改為“一個(gè)人在看墻上歌手演唱會(huì)的海報(bào),海報(bào)用中文寫著演唱會(huì)日期為2025年3月29日、演唱會(huì)主題為星空旅行、歌曲名稱《太空翱翔》”,豆包呈現(xiàn)出了正確的日期和“星空旅行”字樣,仍有一些字是亂碼,智譜清言也生成了一些亂碼。

          更新GPT-4o的圖像生成功能之后,OpenAI更大的產(chǎn)品更新將是推出GPT-5。今年2月,OpenAI首席執(zhí)行官山姆·奧爾特曼表示,OpenAI將會(huì)在ChatGPT和API服務(wù)中搭載新模型GPT-5,GPT-5將集成公司多項(xiàng)技術(shù),包括推理模型o3的技術(shù),GPT-5可能會(huì)在未來幾個(gè)月內(nèi)推出。

          舉報(bào)
          第一財(cái)經(jīng)廣告合作,請點(diǎn)擊這里
          此內(nèi)容為第一財(cái)經(jīng)原創(chuàng),著作權(quán)歸第一財(cái)經(jīng)所有。未經(jīng)第一財(cái)經(jīng)書面授權(quán),不得以任何方式加以使用,包括轉(zhuǎn)載、摘編、復(fù)制或建立鏡像。第一財(cái)經(jīng)保留追究侵權(quán)者法律責(zé)任的權(quán)利。
          如需獲得授權(quán)請聯(lián)系第一財(cái)經(jīng)版權(quán)部:banquan@yicai.com

          文章作者

          一財(cái)最熱
          點(diǎn)擊關(guān)閉