
近日,谷歌介紹了一種自回歸文本到圖像生成模型Pavti(帕蒂),可實現高保真照片級圖像輸出,并支持涉及復雜構圖和豐富知識內容的合成。
比如,用文字描述“一只浣熊穿著正裝,拿著拐杖和垃圾袋”和“老虎戴著火車售票員的帽子,拿著一塊滑板”,就能分別生成類似圖片。
除了細節栩栩如生外,對于各種風格,帕蒂也是駕輕就熟,能夠根據描述生成梵高、抽象立體主義、埃及墓象形文字、插圖、雕像、木刻、兒童蠟筆畫、中國水墨畫等多種多樣風格的畫作。
2022年6月22日,相關研究論文以《縮放自回歸模型以實現內容豐富的文本到圖像生成》提交在arXiv上(編者注:一個專門收錄科學文獻預印本的在線數據庫)。
研究人員在谷歌官方博文表示:“用帕蒂輸出圖像是一個序列到序列的建模問題,與機器翻譯相似。因此可受益于大語言模型的進步,特別是通過擴展數據和模型大小來解鎖的功能。此外,目標輸出是圖像標記序列,而不是其他語言中的文本標記。并利用圖像分詞器ViT-VQGAN將圖像編碼為離散標記序列,以重建成高質量、風格多樣化的圖像。”
值得一提的是,谷歌在一個多月前推出的另一個文本到圖像生成模型Imagen,在研究基準上也表現得十分亮眼。帕蒂和Imagen分別是自回歸模型和擴散模型,兩者不同但互補,代表了谷歌的不同探索方向。

此外,研究人員還探索并突出了帕蒂模型的局限性,給出了進一步改進的關鍵示例重點領域。
然后,他們還訓練了3.5億、7.5億、30億和200億參數四個版本的帕蒂,并將它們進行了詳細比較,參數越大的模型在功能和輸出圖像質量方面有著實質性改進。在比較30億和200億參數的帕蒂時,發現后者更擅長抽象的提示。
下面是四個模型對“一個綠色的標志,上面寫著‘非常深度學習’,位于大峽谷的邊緣,天空中有浮起的白云”的圖片生成效果。
帕蒂要想識別冗長而復雜的提示,需要它準確反映世界知識、遵守特定的圖像格式和樣式,并通過細粒度的細節和交互組成眾多參與者和對象,進而輸出高質量的圖像。但該模型存在的一定局限性,仍會讓其生成一些故障示例。

比如說按照如下文字生成圖像:“一幅阿努比斯雕像的肖像,穿著一件黃色的 T恤,上面畫著一架航天飛機,背景中有一面白色的磚墻?!陛敵龅膱D像中航天飛機在墻上,而不是T恤,顏色也有所滲出。

故障圖像
值得一提的是,本次研究人員還采用一種新的測試基準帕蒂2(簡稱P2),該基準可從各種類別和挑戰方面來衡量模型的能力。
然后,研究人員表示,用文本生成圖像非常有趣,它允許我們創建從未見過甚至不存在的場景。但這帶來許多益處的同時,也存在一定風險,并對偏見和安全、視覺傳達、虛假信息以及創造力和藝術產生潛在影響。
此外,一些潛在的風險與模型本身的開發方式有關,對于訓練數據尤其如此。像帕蒂這樣的模型,通常是在嘈雜的圖像文本數據集上進行訓練的。這些數據集已知包含對不同背景的人的偏見,從而導致帕蒂等模型產生刻板印象。比如,在將模型應用于視覺傳達(例如幫助低識字率的社會群體輸出圖片)等用途時,會帶來額外的風險和擔憂。
文本到圖像模型為人們創造了許多新的可能性,本質上是充當畫筆創造獨特且美觀的圖像,可助力提高人類的創造力和生產力。但模型的輸出范圍取決于訓練數據,這可能會偏向西方圖像,并進一步阻止模型表現出全新的藝術風格。
出于以上原因,研究人員在沒有進一步保護措施的情況下,暫時不會發布帕蒂模型的代碼或數據供公眾使用。并在已生成的所有圖像上添加了“帕蒂”水印。
接下來,研究團隊將專注于進一步研究模型偏差測量和緩解策略,例如提示濾波、輸出濾波和模型重新校準。
他們還認為,有望使用文本到圖像生成模型來大規模理解大型圖像文本數據集中的偏差,方法是明確探測它們是否存在一套已知的偏差類型,并可能揭示其他形式的隱藏偏差。另外,研究人員還計劃與藝術家合作,使高性能文本到圖像生成模型的功能適應其作品。
最后,相比前段時間Open AI發布的DALL-E2和谷歌自家的Imagen(兩者都是擴散模型),研究人員提到,帕蒂表明自回歸模型功能強大且普遍適用。