人工圖像生成器在夢想和現實的交匯處創造出奇幻的場景,在網絡的每個角落冒泡。它們的娛樂價值體現在不斷擴大的異想天開和隨機圖像的寶庫中,這些圖像是人類設計師大腦的間接門戶。一個簡單的文字提示,就會產生一個幾乎瞬間的圖像,滿足我們原始的大腦,這種大腦天生就有瞬間的滿足感。
雖然看起來很新,但人工智能產生的藝術領域可以追溯到20世紀60年代。前期嘗試用基于符號規則的方法制作技術圖像。盡管解決和解析單詞的模型的開發變得越來越復雜,但生成藝術的爆炸式增長引發了圍繞版權、虛假信息和偏見的辯論,所有這些都陷入了炒作和爭議。
電氣和計算機科學系博士生、麻省理工學院計算機科學和人工智能實驗室(CSAIL)下屬的Yilun Du最近開發了一種新方法,使DALL-E 2等模型更具創意,并具有更好的場景理解能力。在這里,杜描述了這些模型是如何工作的,這種技術基礎設施是否可以應用于其他領域,以及我們如何在人工智能和人類創造力之間劃清界限。
問:人工智能生成的圖像使用一種稱為“穩定擴散”的模型,在短短幾分鐘內將文字變成令人震驚的圖像。但每一個被使用的圖像,背后通常都有一個人。那么人工智能和人類創造力的界限是什么?這些模型是如何工作的?
答:想象一下你在谷歌搜索上能看到的所有圖片及其相關模式。這就是這些模特喂的飲食。他們接受了所有這些圖像及其標題的訓練,以生成類似于它在互聯網上看到的數十億張圖像的圖像。
假設一個模特看過很多狗的照片。它經過訓練,當它收到類似的文本輸入提示(如“狗”)時,它能夠生成一張看起來與它已經看到的許多狗的照片非常相似的照片。現在,在方法論上,這一切是如何運作的,可以追溯到一個非常古老的模型,叫做“基于能源的模型”,它起源于20世紀70年代或80年代。
在基于能量的模型中,構建圖像上的能量景觀來模擬物理耗散以生成圖像。當你將一種墨水滴入水中時,它會消散,例如,在最后,你會得到這種均勻的紋理。但如果你試圖逆轉這種消散過程,你會逐漸重新獲得水中原有的墨點。
或者假設你有一個非常復雜的積木塔。如果你用球打它,它會塌成一堆積木。然后,這堆積木很雜亂,沒有太多的結構。要恢復塔,你可以嘗試逆轉這一折疊過程,以生成原始的積木。這些模型以非常相似的方式生成圖像。最初,你有這個非常好的形象。你從這個隨機噪聲開始,你基本上學會了如何模擬如何逆轉這個過程,從噪聲回到原始圖像。你試著迭代優化這個圖像,讓它越來越逼真。
就人工智能和人類創造力的界限而言,你可以說這些模型實際上是根據人的創造力來訓練的?;ヂ摼W上有人們過去創作的各種繪畫和圖像。這些模型可以被訓練來總結和生成互聯網上的現有圖像。所以這些模型更像是人們花費了幾百年的創造力的結晶。
同時,由于這些模型是根據人類設計的內容進行訓練的,所以它們可以制作出與人類過去所做的非常相似的藝術作品。他們可以找到藝術領域的人制作的圖案,但這些模型很難自己實際生成有創意的照片。
如果你試圖輸入“抽象藝術”或者“獨特藝術”這樣的提示,它并沒有真正理解人類藝術的創造性方面,相反,這些模型可以說是總結了人們過去所做的事情,而不是產生新的創造性藝術。
由于這些模型是在互聯網上的大量圖像上訓練的,所以它們中的許多可能受到版權保護。你并不知道模型在生成一張新圖片的時候到底在檢索什么,所以有一個很大的問題,就是如何確定模型是否在使用有版權的圖片。如果模型在某種意義上依賴于一些有版權的圖片,那么這些新圖片有版權嗎?這是另一個需要解決的問題。
麻省理工學院學生解釋人工智能圖像生成器。鳴謝:麻省理工學院
問:你認為擴散模型生成的圖像編碼了對自然或物理世界的某種理解,無論是動態的還是幾何的?有沒有努力“教”圖像生成器嬰兒很久以前就已經學會的宇宙基礎知識?
答:他們理解代碼中對自然和物理世界的一些掌握嗎?我確定。如果你讓一個模型生成一個穩定的塊配置,它一定會生成一個穩定的塊配置。如果你告訴它生成一個不穩定的塊配置,它看起來確實很不穩定?;蛘吣阏f“湖邊的一棵樹”,大致能產生。
從某種意義上說,這些模型似乎抓住了很大一部分常識。然而,讓我們遠離真正理解自然和物理世界的問題是,當你試圖生成你或我在工作中很容易想象的不尋常的單詞組合時,這些模型是無法想象的。
例如,如果你說,“把叉子放在盤子上”,這種情況經常發生。如果你要求模型生成這個,那就簡單了。如果你說,“在叉子上放一個盤子”,我們很容易想象它會是什么樣子。然而,如果你把它放入這些大模型中的任何一個,你將永遠不會在叉子上得到一個盤子。相反,你會在盤子的頂部得到一個叉子,因為模型正在學習總結它已經訓練過的所有圖像。用沒見過的詞組合也不能很好的概括。一個眾所周知的例子是宇航員騎馬,模型可以很容易地完成。但是你說一個宇航員騎馬,還是會產生一個騎馬的人。這些模型似乎捕捉到了它們訓練的數據集中的大量相關性,但它們實際上并沒有捕捉到世界的潛在因果機制。
另一個常見的例子是,如果你得到一個非常復雜的文本描述,比如一個物體在另一個物體的右邊,第三個物體在前面,第三個或第四個物體在飛。它實際上只能滿足一兩個對象。這可能部分是因為訓練數據,因為很少有非常復雜的標題,但也可能表明這些模型不是非常結構化。
可以想象,如果得到非常復雜的自然語言提示,模型是無法準確表示所有組件細節的。
問:你最近提出了一種新方法,使用多種模型來創建更復雜的圖像,以便更好地理解生成藝術。這個框架在圖像或文本領域之外有潛在的應用嗎?
答:這些模型的局限性讓我們深受啟發。當你為這些模型提供非常復雜的場景描述時,它們實際上無法生成與之正確匹配的圖像。
一種想法是,既然是固定計算圖的單個模型,就意味著你只能用固定的計算量來生成圖像。如果您收到極其復雜的提示,您將無法使用更多的計算能力來生成圖像。
如果我向一個人描述一個場景,比方說,100行長,而不是一個場景長,人類藝術家可以花更長的時間在前者上。這些模型真的沒有做到這一點的敏感度。然后,我們建議,給定非常復雜的提示,你實際上可以將許多不同的獨立模型組合在一起,并讓每個單獨的模型代表你想要描述的場景的一部分。
我們發現這使得我們的模型能夠生成更復雜的場景,或者更準確地生成場景的不同方面的場景。此外,這種方法通??梢詰糜诟鞣N領域。雖然圖像生成可能是目前最成功的應用,但生成模型實際上已經在各個領域看到了所有類型的應用。
你可以使用它們來生成不同的機器人行為,合成3D形狀,更好地理解場景或設計新材料。您可以將多個所需因素結合起來,生成特定應用所需的精確材料。
我們一直非常感興趣的一件事是機器人技術。就像你可以生成不同的圖像一樣,你也可以生成不同的機器人軌跡(路徑和時間表)。通過組合不同的模型,可以生成不同技能組合的軌跡。如果我有一個跳躍和避障的自然語言規范,你也可以把這些模型結合起來,生成一個可以跳躍和避障的機器人軌跡。同樣的,如果我們想要設計蛋白質,我們可以指定不同的功能或方面——類似于我們使用語言指定圖像內容的方式——用類似的語言描述,比如蛋白質的類型或功能。然后,我們可以將它們結合在一起,產生一種新的蛋白質,滿足所有這些功能。
我們還探索了擴散模型在三維形狀生成中的應用。您可以使用此方法來生成和設計3D資源。通常,3D資產設計是一個非常復雜和費力的過程。通過將不同的模型組合在一起,生成形狀變得更容易,例如“我想要一個具有這種風格和高度的四條腿的3D形狀”,這可能會使3D資產設計的某些部分自動化。
特別聲明:文章僅代表作者個人觀點,不代表麗泰的觀點和立場。如果侵犯到您的權益,版權或其他問題請及時聯系我們,我們會第一時間處理。