與ChatGPT締造者的獨家對話帶我們走進這一文化現象的幕后故事。
2022年11月下旬,當OpenAI在沒有任何前期宣傳的情況下推出ChatGPT時,這家總部位于舊金山的人工智能公司幾乎沒有抱什么期待。毫無疑問,OpenAI內部沒有人能預料到ChatGPT后來能像病毒那樣廣泛傳播。從那以后,這家公司就一直在努力利用ChatGPT的成功。
在OpenAI從事政策工作的桑蒂尼 · 阿加瓦爾(Sandhini Agarwal)說,當初發布ChatGPT時,公司內部更多把它看作“預研項目”。這顯然是一種調侃,實際上,ChatGPT在公開之前兩年就已經誕生了,只是正式向大眾發布的版本更加完善而已,更重要的是,開發團隊希望通過收集公眾的反饋來消除它的一些缺陷。參與ChatGPT開發的OpenAI科學家利亞姆 · 費杜斯(Liam Fedus)說:“我們不想把它夸大為一項重大的基礎進步。”
為了了解ChatGPT背后的故事——它是如何制作的;自發布以來,OpenAI是如何更新它的;開發團隊對這款聊天機器人的成功有何感想——我采訪了四位相關人士,他們都參與開發了這款堪稱有史以來最受歡迎互聯網應用程序之一的杰作。除了阿加瓦爾和費杜斯,我還采訪了OpenAI的聯合創始人約翰 · 舒爾曼(John Schulman)和OpenAI合作團隊負責人簡 · 雷克(Jane Leike),他們的工作是讓人工智能程序按照用戶的要求做事(僅此而已)。
采訪結束后,我的感覺是, OpenAI團隊仍然對ChatGPT這個“預研項目”的成功感到困惑,但他們已經抓住機會推動這項技術向前發展,觀察數百萬人如何使用它,并努力解決出現的最嚴重問題。
從去年11月開始,OpenAI已經對ChatGPT進行了數次更新。研究人員正在使用一種叫作“對抗性訓練”的技術阻止用戶通過欺騙手段誘使ChatGPT做出不良行為(這種現象叫作“越獄”)。這項技術讓多個聊天機器人互相對抗:一個聊天機器人扮演對手,通過生成文本來攻擊另一個聊天機器人,誘使后者違背常規約束進而作出開發團隊不希望看到的反應。成功的攻擊文本會被添加到ChatGPT的訓練數據中,以期它能學會忽略這些欺騙手段。
OpenAI還與微軟簽署了數十億美元的協議,并宣布與全球管理咨詢公司貝恩結盟,后者計劃在包括可口可樂在內的客戶營銷活動中使用OpenAI的生成式AI模型。在OpenAI之外,圍繞ChatGPT的熱議掀起了圍繞大型語言模型的又一波淘金熱,全球范圍內的公司和投資者都爭先恐后加入了這一行動。
這一切都發生在ChatGPT發布后短短三個月的時間內,可謂聲勢浩大。ChatGPT從何而來?OpenAI采取了哪些措施確保它做好了發布準備?他們下一步又要怎么走?以下就是我的采訪內容。
雷克:說實話,ChatGPT如此成功讓我不知所措。我們很驚訝,也一直在努力迎頭趕上。
舒爾曼:在ChatGPT發布后的幾天里,我經常查看各類手機社交應用。最瘋狂的一段時期,推送里到處都是ChatGPT的截圖。在發布之前,我期待它能做到在公眾看來的直觀,期待它能收獲一些擁躉,但我絕對沒有想到它竟然能這么受歡迎。
阿加瓦爾:竟然有這么多人開始使用ChatGPT,這對我們所有人來說都絕對是驚喜。我們在相關模型的細節上投入了太多的精力,以至于有時會忘記它們能給外界帶來多么大的驚喜。
費杜斯:大家對ChatGPT的反響如此熱烈,我們真的非常驚訝。之前也有很多通用聊天機器人領域的嘗試,所以,發布之前,我覺得我們的勝算不大。不過,內部測試給了我們信心,我們有了一些人們可能真正喜歡的東西。
雷克:我很想深入了解是什么推動了這一切——是什么推動了ChatGPT的病毒式傳播。老實說,我們也不明白。我們不知道。
開發團隊困惑不解的部分原因在于ChatGPT使用的大部分技術都不是新的。ChatGPT是GPT-3.5的微調版本,而GPT-3.5則是OpenAI在ChatGPT公開前幾個月發布的一系列大型語言模型。GPT-3.5本身則是GPT-3的更新版本,后者誕生于2020年。OpenAI公司將這些模型作為應用程序編程接口(API)發布在網站上,于是,其他軟件的開發人員就可以輕松將模型插入自己的代碼。2022年1月,OpenAI還發布了GPT-3.5之前的一個微調版本,名為InstructGPT。不過,ChatGPT之前的這些技術版本都沒有公開。
費杜斯:ChatGPT使用的語言模型與InstructGPT基本相同,只不過做了一些微調——實際上,我們微調所有模型時使用的方法都是類似的。我們增加了一些會話數據,并調整了部分訓練過程。所以我們不想把這夸大為一項重大基礎進步。當然,事實證明,會話數據確實對ChatGPT產生了很大的積極影響。
舒爾曼:根據標準基準測試的評估,各個模型的原始技術能力其實并沒有很大差異,但ChatGPT更容易訪問和使用。
雷克:從某種角度上說,你可以把ChatGPT理解為某個AI系統的一個版本,而這個AI系統我們已經推出多時了。ChatGPT在本質上并不比我們之前開發的模型功能更強大。在ChatGPT出現之前的近一年時間中,類似的基本模型已經以API的形式可為軟件編寫工作人員使用了。從另一種角度上說,我們讓ChatGPT變得更適合完成人類向它下達的任務。它和你對話,它在聊天界面中很容易訪問,它努力為你提供幫助。這是驚人的進步,我認為人們正在逐漸意識到這一點。
舒爾曼:ChatGPT更容易推斷出用戶的意圖。用戶可以通過反復詢問來獲得他們想要的東西。
從內容上說ChatGPT的訓練方式與InstructGPT非常相似,使用的是一種叫作人類反饋強化學習(RLHF)的技術。這就是ChatGPT的秘密武器。這項技術的基本思想是采用一個大型語言模型,這個模型總是會給出任何ChatGPT想要的東西——在訓練ChatGPT的過程中,使用的是GPT-3.5——并且教授ChatGPT人類用戶真正喜歡的回應是什么樣的,從而作進一步調整。
雷克:我們讓一大群人閱讀ChatGPT的提示和回應,接著讓他們判斷某種回應是否比另一種更可取。然后,我們把所有這些數據合并到訓練過程中。大部分訓練過程和我們對InstructGPT做的一樣。你希望它能變得有用,你希望它能變得真實,你希望它給出的回應無害。再之后,還有一些東西是為產生對話并幫助人類解決問題而特別設計的:比如,如果用戶的詢問含義不清,它應該進一步追問。它還應該澄清,自己是一個AI系統。它不應該假設自己擁有某種實際并不具備的身份,它不應該聲稱擁有某種實際并不具備的能力,當用戶要求它完成不應該執行的任務時,它必須撰寫拒絕信息。在這次訓練中出現的一句用語是“作為一個由OpenAI訓練的語言模型……”,雖然這句話起初并不是如此明確,但后來的確成了人類評分員高度評價的細節之一。
阿加瓦爾:是的,我覺得就是這樣。人類評分員必須根據各種不同標準對模型排名,比如真實性。但他們現在也開始偏愛那些他們認為是好的做法,比如不偽裝身份。
因為ChatGPT是OpenAI開發團隊用之前使用過的技術構建的,所以在準備向公眾發布這個模型時,開發團隊并沒有做任何特別的事情。他們覺得自己為之前的模型設定的標準已經足夠了。
阿加瓦爾:準備發布ChatGPT的時候,我們并沒有把這個模型看作全新的風險。GPT-3.5之前就出現并投入應用了,我們知道它足夠安全。而且通過ChatGPT接受的人類偏好訓練,這個模型自動學習了拒絕行為,因而會“自主”拒絕很多請求。
雷克:我們確實為ChatGPT做了一些額外的“審查”工作,OpenAI的每個人都靜下心來,思考這個模型可能存在的漏洞在哪兒。同時我們請了外部團隊做同樣的事情。我們還開辟了一個早期試用項目,讓那些值得信賴的用戶給出有價值的反饋。
阿加瓦爾:我們確實發現ChatGPT會給出一些我們不希望看到的回應,但這些也都是GPT-3.5會產生的東西。因此,就風險而言,作為“預研項目”——我們當初向公眾發布ChatGPT本來就是為了這個目的——它給我們的感覺已經足夠好。
舒爾曼:不能等到你的系統完美了之后才發布。我們對ChatGPT的早期版本進行了幾個月的Beta測試,測試者對產品的印象很好。我們最擔心的是真實性,因為這個模型喜歡捏造東西。但是我們已經擁有了InstructGPT和其他大型語言模型,而且它們并沒有捅什么大簍子,所以我們認為只要ChatGPT在真實性和其他安全問題上比那些模型更好,它就具備了向公眾發布的條件。在正式發布之前,根據相對有限的評估,我們確認了ChatGPT的模型確實比其他模型看上去更真實、更安全,所以我們決定大膽向公眾發布。
自推出ChatGPT以來,OpenAI一直在觀察人們的使用方式,開發團隊第一次看到了大型語言模型在數千萬量級用戶手中時的表現——其中必然有某些用戶希望測試它的極限并發現它的缺陷。OpenAI開發團隊目光緊緊盯住ChatGPT產出的最有問題的內容——從內容不良的歌曲到竊取信用卡號碼的惡意軟件代碼——并以這些錯得離譜的結果作為調試所用模型未來版本的基準。
阿加瓦爾:下一步,我們還有很多事要做。我絕對相信,ChatGPT的病毒式傳播會讓我們之前就知道存在的許多問題真正浮出水面,并且成為后續改進的關鍵——那些一定都是我們希望盡快解決的重要問題。例如,我們知道這個模型仍然存在很大偏見。是的,ChatGPT非常擅長拒絕糟糕的請求,但它也很容易在接受用戶提示后不再拒絕我們希望它拒絕的東西。
費杜斯:看到用戶根據ChatGPT開發的各種創新應用程序令人興奮,但我們一直專注于需要改進的領域。我們認為,通過積極部署、獲取反饋和不斷改進的迭代過程,我們可以生產出最通用、最強大的技術。當然,隨著技術的發展,不可避免地會出現各種新問題。
阿加瓦爾:在ChatGPT發布后的幾周里,我們研究了用戶發現的一些最糟糕的例子,人們在實際使用過程中找到的最嚴重的問題。我們評估了每一個問題,并討論了應該如何修復。
雷克:有時候是一些在社交應用上瘋傳的問題,但我們其實也安排了一些人員靜悄悄地把發現的問題反饋給我們。
阿加瓦爾:我們發現很多問題本質上都是越獄,這絕對是我們需要解決的問題。不過,因為用戶必須嘗試那種折騰到令人費解的方法才能讓ChatGPT模型說出不好的內容,所以嚴格來說,對于這些問題的出現,我們并沒有感到特別驚訝,實際上在開發過程中也并沒有完全忽略這些缺陷。當然,我們現在正在積極解決這類問題。發現越獄問題時,我們會把它們添加到訓練和測試數據中。所有這些數據都會輸入到未來的模型中。
雷克:每當開發出更好的模型,我們都想把它公布出來進行測試。我們非常樂觀,一些有針對性的對抗性訓練可以大大改善越獄的情況。目前還不清楚這些問題是否會完全消失,但我們認為應該可以讓很多越獄方法變得更難奏效。還是要強調一下,在正式發布之前,我們并不是不知道存在可以越獄的漏洞。我覺得,一旦部署了系統,就很難預料真正的安全問題在哪里。所以我們非常重視監測人們使用這個系統的目的,看看實際會發生什么,然后再做出反應。這并不是說,當我們預見到安全問題時,不應該主動采取緩解措施。但是,沒錯,當一個系統進入現實世界時,我們很難預見實際會發生的一切。
2023年1月,微軟公布了Bing Chat,這是一款搜索聊天機器人,很多人認為它是OpenAI官方未公布的GPT-4的一個版本。(OpenAI表示:“為Bing Chat提供支持的是我們為微軟定制開發的一款專用于搜索的新一代模型。它融合了ChatGPT和GPT-3.5的先進技術?!保碛袛凳畠|美元聲譽的科技巨頭使用聊天機器人,給那些負責構建底層模型的人帶來了新的挑戰。
阿加瓦爾:現在的賭注肯定比六個月前高了很多,但仍然低于一年后可能達到的水平。很明顯,這些模型真正重要的一點是它們的使用環境。同谷歌和微軟的搜索引擎一樣,即使有一件事不符合事實也會成為一個大問題,因為用戶使用它們的目的本來就是搜索事實信息。為像搜索這樣的任務而開發的大型語言模型需要實現的功能與設計目的僅僅是跟用戶閑聊的有趣聊天機器人顯然大相徑庭。我們需要弄清楚如何在滿足各種需要的過程中實現平衡,如何創造一些對身處各種環境中的用戶都有用的東西。要知道,在不同環境中,用戶期望ChatGPT作出的回應很可能會有差異。這當然讓我們背上了更多壓力。因為我們現在知道,我們現在構建這些模型的目的是讓它們轉化為產品。ChatGPT現在已經是一個產品了,因為我們有了API。我們現在構建的是一種通用技術,我們需要確保它在任何情況下都能很好地工作。這也是我們目前面臨的主要挑戰之一。
舒爾曼:我低估了人們探究和關心ChatGPT政治的程度。我們本可以在收集訓練數據時做出更好的決策,這樣就可以減少這方面的問題。當然,我們現在正在努力思索應對方法。
雷克:我個人認為,ChatGPT在很多方面都難言成功——還有太多的事要做。我覺得我們還沒有徹底解決這些問題。我們內部所有人都必須非常清楚這項技術的局限性——同時還要讓廣大用戶知曉這一點。我的意思是,語言模型已經存在了一段時間,但它仍然處于發展的早期階段。我們知道它們存在的所有問題。在我看來,我們必須非常坦率地讓公眾知曉這些問題,不要讓大家產生不切實際的期待,并且明確ChatGPT仍處于發展之中,并非成品。
資料來源 MIT Technology Review
本文作者威爾 · 道格拉斯·海文(Will Douglas Heaven)是《麻省理工技術評論》(MIT Technology Review)的高級編輯,主要寫作方向為人工智能