亚洲中文字乱码免费播放,精品国产日韩专区欧美第一页,亚洲中文有码字幕青青,亚洲综合另类专区在线

<i id="a5xeg"><del id="a5xeg"></del></i>

<rt id="a5xeg"><del id="a5xeg"><bdo id="a5xeg"></bdo></del></rt>

<track id="a5xeg"></track>

<i id="a5xeg"></i>

<span id="a5xeg"></span><label id="a5xeg"><th id="a5xeg"></th></label>

首頁 > 新聞 > 科技

分享到微信

打開微信，點(diǎn)擊底部的“發(fā)現(xiàn)”，
使用“掃一掃”即可將網(wǎng)頁分享至朋友圈。

OpenAI GPT-4o推出圖像生成功能，攻克“生成圖像中的文字”難題

第一財(cái)經(jīng) 2025-03-26 11:53:00 聽新聞

作者：鄭栩彤責(zé)編：寧佳彥

OpenAI表示，公司用了網(wǎng)絡(luò)上的圖像和文本訓(xùn)練模型，讓模型學(xué)習(xí)圖像與文字、圖像與圖像之間的關(guān)系。

圖像生成領(lǐng)域傳來了新進(jìn)展，OpenAI在攻克“生成圖像中的文字”方面的難題。北京時(shí)間3月26日凌晨，OpenAI進(jìn)行了直播，對GTP-4o和Sora進(jìn)行更新，在ChatGPT和Sora中推出GPT-4o的圖像生成功能。OpenAI此次強(qiáng)調(diào)了新功能在精準(zhǔn)理解文本描述、準(zhǔn)確生成文本方面的優(yōu)勢。

據(jù)OpenAI介紹，GPT-4o圖像生成功能擅長準(zhǔn)確呈現(xiàn)文本，并精準(zhǔn)遵循提示詞，該功能還會(huì)將GPT-4o的知識(shí)庫和聊天上下文作為靈感來源，這有助于使用者與圖像生成工具更有效地溝通并提高生成圖像的質(zhì)量。該功能供ChatGPT Plus、Pro、Team和免費(fèi)用戶使用，并計(jì)劃隨后向企業(yè)、教育和API使用者推出。

在OpenAI的示例中，要求大模型生成一名女子在一個(gè)俯瞰海灣大橋的房間里用筆在白板上寫字，衣服上印有OpenAI字樣，白板映著攝影師的身影，并描述了白板上所寫的文字。GPT-4o生成的圖像都體現(xiàn)了以上要求。隨后，OpenAI要求攝影師走到鏡頭前與女子擊掌，GPT-4o也呈現(xiàn)了這一畫面，且白板上的字不會(huì)變得凌亂，女子的身形和發(fā)型也與前一張圖像呈現(xiàn)的背影一致。

在其他示例中，OpenAI要求大模型生成上世紀(jì)中葉一個(gè)家庭中冰箱上貼著的詩歌短句，并要求畫面中的人手拿著特定的幾個(gè)詞，GPT-4o可以精準(zhǔn)還原。GPT-4o還能生成漫畫，但需要人準(zhǔn)確地描述畫面中的情節(jié)。OpenAI還展示了這個(gè)圖像生成功能在科學(xué)實(shí)驗(yàn)中的用途，該功能可以生成牛頓棱鏡實(shí)驗(yàn)的示意圖。此外，OpenAI還展示了該圖像生成功能在生成路牌、菜單、游戲畫面時(shí)的效果，以及生成雞尾酒配方、天氣信息圖像時(shí)，大模型生成的專業(yè)配方和天氣文本描述。

就如何訓(xùn)練GPT-4o圖像生成功能，OpenAI解釋，OpenAI使用了網(wǎng)絡(luò)上的圖像和文本訓(xùn)練模型，讓模型學(xué)習(xí)圖像與文字、圖像與圖像之間的關(guān)系，使模型具有視覺流暢性，生成的圖片是有用的、具備上下文連貫性的。

就GPT-4o圖像生成功能的特點(diǎn)，OpenAI還表示，用戶可以通過自然對話與大模型交流，要求大模型改進(jìn)圖像，在這個(gè)過程中圖像中的人物等要素會(huì)保持一致性。使用者與大模型的交流也更順暢，可以同時(shí)要求大模型處理10到20個(gè)不同的對象，以便圖像中各要素呈現(xiàn)出相關(guān)性。OpenAI對比其他圖像生成系統(tǒng)時(shí)稱，其他系統(tǒng)只能同時(shí)處理5到8個(gè)對象。

不過，OpenAI也指出，GPT-4o圖像生成功能也具備一些限制，例如存在幻覺、難以呈現(xiàn)太多依賴知識(shí)庫的圖像要素（例如元素周期表）、圖表準(zhǔn)確性不足、呈現(xiàn)非拉丁語言時(shí)可能容易出現(xiàn)幻覺、要求修改圖像中的錯(cuò)別字時(shí)難以精準(zhǔn)編輯。

生成圖像中的文字，此前是圖像生成領(lǐng)域的一個(gè)難題。國內(nèi)，去年豆包升級文生圖能力，支持一鍵生成指定文本。今年3月，智譜AI發(fā)布了首個(gè)支持生成漢字的開源文生圖模型CogView4。不過，記者試用發(fā)現(xiàn)，相關(guān)模型生成文字的能力還不太穩(wěn)定。

3月26日，記者使用豆包APP和智譜清言APP生成圖像，其中智譜清言用的模型是CogView4。記者輸入“生成一張圖片，一個(gè)人在看墻上歌手演唱會(huì)的海報(bào)，海報(bào)用中文寫著演唱會(huì)日期、演唱會(huì)主題描述、歌曲名稱”。智譜清言生成的海報(bào)中出現(xiàn)不少亂碼。豆包生成的中文文字準(zhǔn)確，但理解有所偏差，呈現(xiàn)的是“演唱會(huì)日期”“演唱會(huì)主題”這些字樣。

隨后記者將提示詞改為“一個(gè)人在看墻上歌手演唱會(huì)的海報(bào)，海報(bào)用中文寫著演唱會(huì)日期為2025年3月29日、演唱會(huì)主題為星空旅行、歌曲名稱《太空翱翔》”，豆包呈現(xiàn)出了正確的日期和“星空旅行”字樣，仍有一些字是亂碼，智譜清言也生成了一些亂碼。

更新GPT-4o的圖像生成功能之后，OpenAI更大的產(chǎn)品更新將是推出GPT-5。今年2月，OpenAI首席執(zhí)行官山姆·奧爾特曼表示，OpenAI將會(huì)在ChatGPT和API服務(wù)中搭載新模型GPT-5，GPT-5將集成公司多項(xiàng)技術(shù)，包括推理模型o3的技術(shù)，GPT-5可能會(huì)在未來幾個(gè)月內(nèi)推出。

舉報(bào)

第一財(cái)經(jīng)廣告合作，請點(diǎn)擊這里

此內(nèi)容為第一財(cái)經(jīng)原創(chuàng)，著作權(quán)歸第一財(cái)經(jīng)所有。未經(jīng)第一財(cái)經(jīng)書面授權(quán)，不得以任何方式加以使用，包括轉(zhuǎn)載、摘編、復(fù)制或建立鏡像。第一財(cái)經(jīng)保留追究侵權(quán)者法律責(zé)任的權(quán)利。
如需獲得授權(quán)請聯(lián)系第一財(cái)經(jīng)版權(quán)部：banquan@yicai.com

文章作者

鄭栩彤

相關(guān)閱讀

火山引擎發(fā)布深度思考模型，豆包發(fā)力“看圖思考”

深度思考模型是構(gòu)建Agent的基礎(chǔ)，模型要有能力做好思考、計(jì)劃和反思。

174 04-17 21:06

AI進(jìn)化速遞丨中國團(tuán)隊(duì)發(fā)布通用型AI Agent產(chǎn)品Manus

OpenAI宣布GPT-4.5正式面向所有ChatGPT Plus用戶開放；并擬推月費(fèi)14.5萬元的AI Agent。

AI進(jìn)化速遞｜DeepSeek首次披露理論利潤率達(dá)545%

DeepSeek首次公布模型推理系統(tǒng)優(yōu)化細(xì)節(jié)，披露理論利潤率達(dá)545%；騰訊元寶上線電腦客戶端版本；OpenAI擬將Sora整合進(jìn)ChatGPT。

速度又慢了？字節(jié)跳動(dòng)全員會(huì)反思DeepSeek影響

對于DeepSeek的現(xiàn)象級熱度，梁汝波如去年一般反思團(tuán)隊(duì)的反應(yīng)速度問題。

501 02-14 22:19

OpenAI將在未來幾個(gè)月內(nèi)發(fā)布GPT-5

Altman透露，GPT-5模型將整合OpenAI的大量技術(shù)，包括o3。此外，o3將不再作為獨(dú)立模型發(fā)布。

一財(cái)最熱

點(diǎn)擊關(guān)閉

<li id="rnslj"><th id="rnslj"></th></li>