ChatGPT文生圖大升級(jí)，非自回歸模型引領(lǐng)AI作圖新潮流

發(fā)布時(shí)間：2025-03-26 19:02 來源：鈦媒體APP 作者：沈瑾瑜

近日，OpenAI在其人工智能技術(shù)中邁出了重要的一步，更新了ChatGPT的文生圖功能，這一變動(dòng)標(biāo)志著AI圖像生成領(lǐng)域的一次小幅度革新。以往，ChatGPT依賴DALL-E模型來完成圖像生成任務(wù)，但此次更新后，這一功能被直接整合進(jìn)了ChatGPT本身。

新升級(jí)后的ChatGPT在圖像生成上表現(xiàn)出了更高的準(zhǔn)確性。所謂準(zhǔn)確性，即指其生成的圖像更加貼近用戶的實(shí)際需求。例如，當(dāng)用戶要求生成一張戴眼鏡的貓咪圖片時(shí)，ChatGPT會(huì)先進(jìn)行分析，然后輸出一張細(xì)節(jié)豐富的、符合要求的圖片。ChatGPT還增加了圖像修改功能，用戶可以根據(jù)需要對(duì)生成的圖像進(jìn)行調(diào)整，直至滿意。

在OpenAI的官方直播活動(dòng)中，研究人員展示了ChatGPT在圖像生成方面的幾個(gè)實(shí)例。其中，一張普通的研究人員與奧特曼的合影被ChatGPT輕松轉(zhuǎn)換為動(dòng)畫風(fēng)格的畫作。另一個(gè)示例中，ChatGPT成功地在生成的圖像上添加了指定的文字，如“Feel The AGI”。

為了親自體驗(yàn)這一新功能，作者在朋友聚會(huì)后進(jìn)行了嘗試。作者通過設(shè)定一個(gè)詳細(xì)的提示詞，要求ChatGPT和另一款名為即夢AI的圖像生成軟件分別生成一張賽博朋克風(fēng)格的城市圖片。結(jié)果顯示，兩款軟件生成的圖片都捕捉到了賽博朋克的精髓，但在細(xì)節(jié)上各有千秋。不過，從圖像清晰度的可控性來看，GPT略遜一籌。即夢AI提供了便捷的細(xì)節(jié)修復(fù)和超清功能，能夠顯著提升圖像的清晰度，而GPT在多次嘗試后仍未達(dá)到作者的預(yù)期。

盡管在清晰度控制上有所欠缺，但ChatGPT在其他方面展現(xiàn)出了其獨(dú)特的優(yōu)勢。例如，在調(diào)整圖片尺寸時(shí)，ChatGPT會(huì)提供多個(gè)解決方案，并詢問用戶更傾向于哪一種。這種互動(dòng)性為用戶提供了更多的選擇空間。

ChatGPT還新增了世界知識(shí)功能，這一功能使得AI在生成圖片時(shí)能夠更好地理解并應(yīng)用現(xiàn)實(shí)世界的知識(shí)，從而生成更加符合邏輯和實(shí)際情況的圖片。例如，在繪制雪山時(shí)，ChatGPT不會(huì)錯(cuò)誤地添加熱帶植物；在描繪古代場景時(shí)，也不會(huì)出現(xiàn)現(xiàn)代科技產(chǎn)品。

為了測試這一新功能，作者設(shè)定了一個(gè)提示詞，要求ChatGPT生成一張通過兩個(gè)站在滑板上的人推對(duì)方的動(dòng)作來解釋牛頓第三定律的圖片。結(jié)果顯示，ChatGPT能夠準(zhǔn)確地展示兩個(gè)人在滑板上互相推開的關(guān)系，并添加了箭頭和英文解釋來增強(qiáng)直觀性。然而，作者認(rèn)為這一功能在某種程度上類似于一個(gè)圖像PPT功能，缺乏一些創(chuàng)新性和深度。

在后續(xù)的測試中，作者還分別生成了人的頭部骨骼和身體骨骼圖片。盡管這些圖片在質(zhì)量上并不算頂尖，但已經(jīng)能夠滿足大部分基本需求。與此同時(shí)，國內(nèi)的一些AI圖像生成模型如字節(jié)、騰訊的文生圖模型也具備了類似的功能。

OpenAI的首席執(zhí)行官Sam Altman對(duì)這次更新表示了高度贊賞，認(rèn)為ChatGPT生成的圖片質(zhì)量令人難以置信，并期待用戶能夠利用這一功能創(chuàng)作出更多富有創(chuàng)意的內(nèi)容。同時(shí)，他也強(qiáng)調(diào)了OpenAI在平衡創(chuàng)作自由和控制權(quán)方面的努力，以確保AI的發(fā)展符合社會(huì)的期望和道德標(biāo)準(zhǔn)。

然而，作者認(rèn)為，與ChatGPT目前的生成能力相比，更值得關(guān)注的是其為何要替代DALL-E模型。作為OpenAI在2021年發(fā)布的模型，DALL-E本應(yīng)持續(xù)迭代以變得更加強(qiáng)大。然而，事實(shí)上，DALL-E模型的核心架構(gòu)是自回歸模型，這種模型在生成圖像時(shí)存在速度慢和難以調(diào)整的問題。因此，OpenAI選擇采用非自回歸模型來替代它。

非自回歸模型的工作方式是先理解整個(gè)圖像的結(jié)構(gòu)和細(xì)節(jié)，然后一次性生成整個(gè)圖像。這種模型具有更高的效率和更強(qiáng)的整體表現(xiàn)，特別是在處理復(fù)雜場景時(shí)能夠更自然地處理多個(gè)物體之間的關(guān)系和光影效果。非自回歸模型還具有更強(qiáng)的靈活性和可擴(kuò)展性，能夠融合到多模態(tài)中生成更多樣化的內(nèi)容。

值得注意的是，非自回歸模型并非OpenAI的獨(dú)創(chuàng)。早在2018年的ICLR會(huì)議上就有人提出了這一概念，并最初應(yīng)用于神經(jīng)機(jī)器翻譯領(lǐng)域。近年來，國內(nèi)的一些企業(yè)如阿里巴巴、科大訊飛等也已經(jīng)引入了這一技術(shù)。因此，OpenAI此次的更新可能是看到了國內(nèi)在這一領(lǐng)域的成熟應(yīng)用并開始反思和調(diào)整自己的策略。

更多>同類內(nèi)容