亚洲精品成人福利网站,无码伊人66久久大杳蕉网站谷歌,亚洲变态另类天堂av手机版,性猛交富婆╳xxx乱大交小说,无码精品国产va在线观看dvd

媒體界 - 推動(dòng)中國媒體行業(yè)創(chuàng)新,促進(jìn)業(yè)內(nèi)人士交流分享!

ChatGPT文生圖大升級(jí),非自回歸模型引領(lǐng)AI作圖新潮流

   發(fā)布時(shí)間:2025-03-26 19:02 作者:沈瑾瑜

近日,OpenAI在其人工智能技術(shù)中邁出了重要的一步,更新了ChatGPT的文生圖功能,這一變動(dòng)標(biāo)志著AI圖像生成領(lǐng)域的一次小幅度革新。以往,ChatGPT依賴DALL-E模型來完成圖像生成任務(wù),但此次更新后,這一功能被直接整合進(jìn)了ChatGPT本身。

新升級(jí)后的ChatGPT在圖像生成上表現(xiàn)出了更高的準(zhǔn)確性。所謂準(zhǔn)確性,即指其生成的圖像更加貼近用戶的實(shí)際需求。例如,當(dāng)用戶要求生成一張戴眼鏡的貓咪圖片時(shí),ChatGPT會(huì)先進(jìn)行分析,然后輸出一張細(xì)節(jié)豐富的、符合要求的圖片。ChatGPT還增加了圖像修改功能,用戶可以根據(jù)需要對(duì)生成的圖像進(jìn)行調(diào)整,直至滿意。

在OpenAI的官方直播活動(dòng)中,研究人員展示了ChatGPT在圖像生成方面的幾個(gè)實(shí)例。其中,一張普通的研究人員與奧特曼的合影被ChatGPT輕松轉(zhuǎn)換為動(dòng)畫風(fēng)格的畫作。另一個(gè)示例中,ChatGPT成功地在生成的圖像上添加了指定的文字,如“Feel The AGI”。

為了親自體驗(yàn)這一新功能,作者在朋友聚會(huì)后進(jìn)行了嘗試。作者通過設(shè)定一個(gè)詳細(xì)的提示詞,要求ChatGPT和另一款名為即夢AI的圖像生成軟件分別生成一張賽博朋克風(fēng)格的城市圖片。結(jié)果顯示,兩款軟件生成的圖片都捕捉到了賽博朋克的精髓,但在細(xì)節(jié)上各有千秋。不過,從圖像清晰度的可控性來看,GPT略遜一籌。即夢AI提供了便捷的細(xì)節(jié)修復(fù)和超清功能,能夠顯著提升圖像的清晰度,而GPT在多次嘗試后仍未達(dá)到作者的預(yù)期。

盡管在清晰度控制上有所欠缺,但ChatGPT在其他方面展現(xiàn)出了其獨(dú)特的優(yōu)勢。例如,在調(diào)整圖片尺寸時(shí),ChatGPT會(huì)提供多個(gè)解決方案,并詢問用戶更傾向于哪一種。這種互動(dòng)性為用戶提供了更多的選擇空間。

ChatGPT還新增了世界知識(shí)功能,這一功能使得AI在生成圖片時(shí)能夠更好地理解并應(yīng)用現(xiàn)實(shí)世界的知識(shí),從而生成更加符合邏輯和實(shí)際情況的圖片。例如,在繪制雪山時(shí),ChatGPT不會(huì)錯(cuò)誤地添加熱帶植物;在描繪古代場景時(shí),也不會(huì)出現(xiàn)現(xiàn)代科技產(chǎn)品。

為了測試這一新功能,作者設(shè)定了一個(gè)提示詞,要求ChatGPT生成一張通過兩個(gè)站在滑板上的人推對(duì)方的動(dòng)作來解釋牛頓第三定律的圖片。結(jié)果顯示,ChatGPT能夠準(zhǔn)確地展示兩個(gè)人在滑板上互相推開的關(guān)系,并添加了箭頭和英文解釋來增強(qiáng)直觀性。然而,作者認(rèn)為這一功能在某種程度上類似于一個(gè)圖像PPT功能,缺乏一些創(chuàng)新性和深度。

在后續(xù)的測試中,作者還分別生成了人的頭部骨骼和身體骨骼圖片。盡管這些圖片在質(zhì)量上并不算頂尖,但已經(jīng)能夠滿足大部分基本需求。與此同時(shí),國內(nèi)的一些AI圖像生成模型如字節(jié)、騰訊的文生圖模型也具備了類似的功能。

OpenAI的首席執(zhí)行官Sam Altman對(duì)這次更新表示了高度贊賞,認(rèn)為ChatGPT生成的圖片質(zhì)量令人難以置信,并期待用戶能夠利用這一功能創(chuàng)作出更多富有創(chuàng)意的內(nèi)容。同時(shí),他也強(qiáng)調(diào)了OpenAI在平衡創(chuàng)作自由和控制權(quán)方面的努力,以確保AI的發(fā)展符合社會(huì)的期望和道德標(biāo)準(zhǔn)。

然而,作者認(rèn)為,與ChatGPT目前的生成能力相比,更值得關(guān)注的是其為何要替代DALL-E模型。作為OpenAI在2021年發(fā)布的模型,DALL-E本應(yīng)持續(xù)迭代以變得更加強(qiáng)大。然而,事實(shí)上,DALL-E模型的核心架構(gòu)是自回歸模型,這種模型在生成圖像時(shí)存在速度慢和難以調(diào)整的問題。因此,OpenAI選擇采用非自回歸模型來替代它。

非自回歸模型的工作方式是先理解整個(gè)圖像的結(jié)構(gòu)和細(xì)節(jié),然后一次性生成整個(gè)圖像。這種模型具有更高的效率和更強(qiáng)的整體表現(xiàn),特別是在處理復(fù)雜場景時(shí)能夠更自然地處理多個(gè)物體之間的關(guān)系和光影效果。非自回歸模型還具有更強(qiáng)的靈活性和可擴(kuò)展性,能夠融合到多模態(tài)中生成更多樣化的內(nèi)容。

值得注意的是,非自回歸模型并非OpenAI的獨(dú)創(chuàng)。早在2018年的ICLR會(huì)議上就有人提出了這一概念,并最初應(yīng)用于神經(jīng)機(jī)器翻譯領(lǐng)域。近年來,國內(nèi)的一些企業(yè)如阿里巴巴、科大訊飛等也已經(jīng)引入了這一技術(shù)。因此,OpenAI此次的更新可能是看到了國內(nèi)在這一領(lǐng)域的成熟應(yīng)用并開始反思和調(diào)整自己的策略。

 
 
更多>同類內(nèi)容
全站最新
熱門內(nèi)容
本欄最新