葉佩

前段時間“狗屁文章生成器”這個詞語因為調侃娛樂八卦新聞火了一把,吃瓜群眾也了解到了“機器會寫較為成型的文章了”這一新鮮事物。OpenAI在上個月還正式放出GPT-2最后一個部分的完整代碼——包含15億參數的最大版本。
今年涌現出了許多機器學習的精彩應用,令人目不暇接,OpenAI 的 GPT-2 就是其中之一。它在文本生成上有著驚艷的表現,其生成的文本在上下文連貫性和情感表達上都超過了人們對目前階段語言模型的預期。僅從模型架構而言,GPT-2 并沒有特別新穎的架構,它和只帶有解碼器的 transformer 模型很像。然而,GPT-2 有著超大的規模,它是一個在海量數據集上訓練的基于 transformer 的巨大模型。
俄勒岡州波特蘭市的藝術家達里烏斯·卡茲米觀看了來自準小說家的大量推文,11月是“全國小說寫作月”,這個時期人們渴望在幾周的時間里寫下50000個單詞。對于計算藝術家卡茲米(其首選媒體是Twitter機器人)來說,這個想法聽起來有些曲折。他說:“我當時以為自己永遠不會那樣做。”“但是,如果一臺計算機可以寫作,我會試一試。”
卡茲米發出了這樣的推文,一群志趣相投的藝術家迅速投入了行動。他們在Github(面向開源及私有軟件項目的托管平臺)上建立了一個倉庫,人們可以在其中發布他們的項目并交換想法和工具,幾十個人開始編寫可以編寫文本的代碼。卡茲米編寫了一個程序,該程序抓取了適合特定模板的推文,還進行了一些有趣的對話,但并沒有滿足作者的要求。
Github倉庫逐漸包含數百個項目,但“小說”的定義很松散。一些參與者為經典的敘事感到疑惑,比如古典小說通過算法轉化為超現實主義的模仿。文章按情感進行匯總和排列,總以奇怪的組合方式進行混搭。
但是經過數十億個單詞訓練,新型機器學習模型使計算機能夠開始生成讀起來很像人類撰寫的文本。訓練模型以遵循語言的統計模式,學習語法的基本結構,即使它們沒有故意的含義,它們也會生成完全可讀(至少在語法上)的句子甚至段落。
關于AI寫作,還有很多方法可以提升代碼生成的文本,今年麻省理工學院數字媒體教授尼克·蒙福特提出了Nano-NaNoGenMo(一個小說寫作大賽項目)的想法,要求使用不超過256個字符的代碼段制作新文章的挑戰。
他說,這可以追溯到“密碼朋克”時代,將編碼器在20世紀80年代對Commodore 64進行處理時遇到的種種限制,而不需要花哨的機器學習代碼。除了懷舊之外,蒙福特還是讀取和解釋代碼和數據集的愛好者。他更喜歡避免使用新語言模型的黑匣子,黑匣子產生的文本植根于海量數據集的統計變化中。他說:“我期待閱讀代碼以及小說,我確實從頭到尾徹底閱讀了計算機小說。”
從字面上看,在某些情況下。蒙福特已出版并裝訂了幾本NaNoGenMo小說,其他小說最終通過重新調整基本代碼以產生其他語言的文本來對其進行“翻譯”。他用165行Python代碼花了幾個小時編寫了程序,下一個努力的目標是建立在塞繆爾·貝克特(Samuel Beckett)的小說《瓦特》(Watt)的基礎上的,這個版本更加穩定,幾乎可以讀成是計算機化的。他認為通過生成自己的版本,找到合適的特征和樣式進行擴充,他可能會成為貝克特的更好讀者。
OpenAI在博客中表示:過去九個月以來,我們在GPT-2開發方面的經驗,幫助我們為AI模型負責任發布工作中存在的挑戰與機遇建立起寶貴的見解。我們也參與到Partnership on AI的“機器學習負責任發布規范”項目當中,希望通過合作關系與研究界的同行們共同討論,為解決模型發布問題貢獻力量。
HackerNews網站上,有關GPT-2的討論一直沒有停止。在15億參數版本發布后,更多參與者加入了話題討論中,目前的討論者分為兩個主要陣營:
這一類討論者主要在研究GPT-2的實用性,一些開發者也附上了自己做的測試模型,感興趣的讀者可以前去體驗。
當然也有一些討論者提出:GPT-2開放代碼的可讀性較差,有不少意義不明的內容,在生成文本的時候,甚至會出現一些常識性的錯誤等等。這些問題讓部分討論者質疑OpenAI放出的有可能是微調過的“閹割版”。
這一派討論者主要將目光聚焦在GPT-2的安全性上,畢竟官方也已經承認:確實存在安全隱患,這部分討論者的觀點都認為GPT-2完全開放后,必然會引發一陣濫用風潮。