文/郭全中 張金熠

2022年11月30日,人工智能研究實驗室OpenAI上線了新一代對話式自然語言識別(Natural Language Processing,NLP)模 型ChatGPT,該模型一經面世,首先引發了科技界的巨大關注,后迅速在社會層面形成廣泛熱議,在短短5天突破百萬用戶。毫無疑問,ChatGPT表現出對話生成式NLP模型在多場景、多行業、多領域的落地潛能與應用前景,然而利用人工智能技術生成內容(AI Generated Content,縮寫AIGC)乃至所有深度合成內容當前所隱含的經濟、文化、社會風險也不容忽視。因此,有必要對ChatGPT技術特征及GPT(Generative Pre-Training)發展歷程展開梳理,在展望其應用前景的同時,關注其現存風險并思考治理之道。
ChatGPT可以理解為由AI驅動的聊天機器人,盡管在專業知識與基礎常識方面經常犯錯,與人聊天過程中表現出的連續且自洽的邏輯水平與快速響應能力足以令人咋舌,而這些都來自于ChatGPT背后的強大技術支持,即GPT-3.5與整個GPT系列。
就ChatGPT本身而言,其象征了OpenAI技術路線的方向性轉變,既集合了前幾代GPT的技術優勢,又具有其獨特之處,具體包括:
第一,單一模態。與OpenAI的另一條知名多模態領域研究線,即人工智能圖像生成器DALL-E2不同,GPT系列始終貫徹了以語言模型為任務核心的宗旨,且GPT-2時期,所適用的任務開始鎖定在語言模型。因此,ChatGPT所使用的模態類型也是僅有文字語言,并未涉及視覺、聽覺等模態類型。
第二,巨量數據。AI模型的邏輯能力與輸出能力建立在以海量數據為基礎的計算機學習與虛擬生成之上。GPT系列的模型訓練參數量也可以體現出來,從GPT-1的1.17億到GPT-2的15億,再到GPT-3的1750億,參數量從億級躍升至千億級,而以GPT-3.5為基礎模型微調生成的ChatGPT目前訓練參數尚未公開。但可想而知,一向奉行“指數力量”的OpenAI,在GPT-3.5以及即將推出的GPT-4上至少可以達到千億級的訓練參數量。盡管ChatGPT的訓練策略與GPT系列奉行的半監督學習或無監督學習有所不同,更加關注對參數的標注與強化學習,但在零樣本學習(Zero-Shot Learning,ZSL)成熟之前[1],人工智能通過巨量數據實現模型訓練與迭代的發展路線依舊難以撼動。
第三,人工標注。GPT全稱為Generative Pre-trained Transformer,即生成型預訓練變換模型。預訓練模型的顯著特征是先運用大規模語料訓練語言模型,將訓練結果參數保存并作為之后的模型初始化參數,從而使新的模型以小規模訓練與少量時間得出較好模型。OpenAI的GPT系列都是采用Transformer的預訓練模式,以避免NLP模型訓練過程中需要大規模高質量標注數據且泛化能力不足等局限。但ChatGPT在GPT系列技術路線上發生了顛覆式迭代,在GPT-3.5大規模語言模型的基礎上,開始依托大量人工標注數據,通過專業標注人員(據OpenAI稱,是40位專業博士)為ChatGPT提供人類指令的高質量答案,從而優化GPT-3.5無法理解人類指令含義、無法判斷輸入的情況。
第四,強化學習。在如何更好理解人類指令方面,ChatGPT還采用了來自人類反饋的強化學習(Reinforcement Learning from Human Feedback,RLHF)進行訓練。強化學習,即通過獎懲分明的系統打分,來更新參數以產生越來越高質量的回答。據OpenAI官網Blog介紹,其創建了一個強化學習的獎勵模型:通過人工智能培訓師對兩個或多個模型基于同一問題的對話響應進行排序。運用這些獎勵模型,OpenAI可以采取近端策略優化對ChatGPT進行微調,并對這一過程進行了多次迭代。因此,在與ChatGPT的互動過程中,人們發現它會承認錯誤、修復自己的答案,這是源于它從RLHF訓練中獲取的強化學習并重新思考的能力。
ChatGPT不是憑空出現的,而是建立在OpenAI對于語言模型,尤其NLP模型領域的持續研究與創造性探索。ChatGPT已經再次引爆社會對人工智能的多方討論,但對于生成式AI而言,ChatGPT不是開始,也不會成為終點。生成式AI的應用將如何展開,會帶來怎樣的影響,可以從GPT系列發展歷程中窺得些許啟示。
第一,GPT-1:選擇半監督學習模式。2018年,OpenAI推出了第一代生成式預訓練模型GPT-1,該模型采取的是生成式預訓練Transformer模型,這是由谷歌公司在2017年提出的一種采用自注意力機制的深度學習模型。目前發布的整個GPT系列(包括GPT-1、GPT-2、GPT-3、GPT-3.5)都貫徹了這一預訓練模式。在GPT-1之前,NLP任務需要通過大規模、高質量標注數據集來進行有監督的學習。而GPT-1采取了一種截然不同的深度學習模式,即半監督學習。半監督學習是先通過無監督學習的預訓練,運用大量未標注數據增強模型的語言能力,再進行有監督的微調,與大規模數據集集成以提高模型在NLP任務中的表現。這種方式減少了模型訓練對數據標注工作的依賴,使GPT-1僅需要極少微調,就能夠強化其NLP任務能力,但也存在明顯的數據局限與泛化能力不足。
第二,GPT-2:驗證無監督學習模式的力量。相信數據力量的OpenAI在2019年推出的GPT-2中,并沒有轉變技術策略,而是重點關注上一代出現的泛化能力不足問題,在訓練數據與參數量上進行調整,使用了更大的數據集WebText(取自Reddit上高贊的文章,約40GB文本數據、800萬個文檔),為模型添加了更多參數(達到15億個,是GPT-1的近13倍),提升了數據質量與數據規模,從而使得GPT-2在任務遷移方面展現出更優性能以及更驚人的生成能力。GPT-2的出現與性能提升,進一步驗證了無監督學習的力量,即通過海量數據與大規模參數訓練而成的NLP模型能夠無須額外訓練具備遷移到其他類別任務的能力。
第三,GPT-3與GPT-3.5:在海量訓練參數基礎上加入人工標注與強化學習。2020年發布的GPT-3被認為是目前最強大的語言模型,能夠撰寫人類難以判別的文章,甚至編寫SQL查詢語句。而其強大性能依賴于海量訓練參數的喂養。相比于GPT-2,GPT-3則是將大規模數據的力量發揮到極致,OpenAI為其提供了1750億的參數量,是GPT-2的10倍、GPT-1的100倍以上,45 TB的訓練數據以及1200萬美元的訓練費用更是不在話下。在技術路線上,GPT-3刪去微調步驟,直接輸入自然文本作為指令,提升了GPT在閱讀文本后可接續問題的能力以及任務主題的廣泛性。GPT-3.5的主要杰作就是近期大火的ChatGPT。ChatGPT使用了微軟Azure AI超級計算基礎設施上的文本和代碼數據進行訓練,在訓練參數上增加到GPT-3的10倍以上,延續了OpenAI對大規模數據的追求。此外,顛覆性地使用大量人工標注數據與有人類反饋的強化學習,使得ChatGPT表現出出色的上下文對話能力甚至編程能力。
縱觀GPT系列的發展,OpenAI始終貫徹了大規模數據與生成式預訓練Transformer模型的技術路線,并通過不斷微調進行模型迭代優化,創造了ChatGPT的一鳴驚人。正如前文所說,ChatGPT不會是終點,OpenAI即將發布的GPT-4會將生成式AI帶向何方,還需拭目以待。
ChatGPT盡管在自然語言文本的處理上仍有不足,會寫出看似合理但不正確且荒謬的答案,例如將劉強東寫作阿里巴巴集團的聯合創始人,但其所表現出的強大基礎模型能力,能夠通過針對特定專業或行業進行微調,以提供優質的專業性服務。因此,ChatGPT的應用前景包括但不限于智能機器人、行業智能助手、輿情分析等領域。
在2C場景中,智能機器人基于NLP的人機交互能力是產品發展的剛需。其中人形機器人在現實場景中與人對話,對流暢的語言交互能力更加依賴。只有機器人能夠理解人類指令并做出準確合理的需求響應,才能推動人形機器人完成后續的各項任務,因此NLP技術水平直接影響著人形機器人的技術發展與產品落地。
然而NLP模型的構建與訓練需要花費大量時間、精力以及算力,持續優化NLP模式所需的算法、算力、算據都較為龐大,對于專注于實體機器人領域的技術來說,在保證人形機器人的各項軟硬件技術發展前提下投入大量成本進行NLP模型的迭代并不現實。而ChatGPT的出現,進一步提升了NLP技術前沿,若接入人形機器人應用后,有望為人形機器人的2C場景提供更加仿真的人機互動,加速人形機器人的產品落地。
此外,虛擬空間中的智能機器人也能夠依靠更為前沿的NLP技術增進其與用戶的聊天體驗,如游戲NPC、虛擬智能主播等,從而以此為基點探索新的用戶交互服務。
從GPT-3兩年的商業化嘗試可以看出,GPT系列并不能徹底取代某些職業,而更適合作為輔助生產力工具展開商業化實踐。在人工智能助手領域,智能客服、語音工作助手、智能翻譯等產業正在不斷成熟,但當前的人工智能助手面臨著邏輯性不強、響應不準確等問題。這正是NLP技術能夠補足的行業短板。
在實踐過程中,大量用戶表示ChatGPT的對話體驗要明顯優于QQ小冰、Siri等智能助手的交互體驗,盡管在生活常識性問題的準確性上遠不及后者,ChatGPT能夠通過強化學習的方式進行自我糾錯,在后續對話中糾正之前的錯誤。此外,作為前沿NLP技術的模型代表,ChatGPT在代碼糾錯、文學創作等方面表現出的生成性能與需求響應能力,體現出其發展為行業智能助手的潛力。各行各業能夠通過對ChatGPT的微調實現特定行業的專業化迭代,從而基于NLP能力提供更準確的助手服務。
ChatGPT的最大優勢在于全球領先的NLP處理能力。出色的上下文對話能力背后的詞向量模型性能能夠適應NPL任務,這也就意味著ChatGPT在最基礎的文本分類、詞性判斷、命名實體識別等NLP任務上表現不俗。對于輿情分析而言,由于中文文本語義多元、語法特殊、寓意隱晦等特點,準確判斷文本色彩是輿情分析的重要難點。
利用強化學習模型,ChatGPT基于用戶互動與反饋能夠對文本屬性進行更新,從而優化其內容理解與生成能力。這不僅為智能輿情分析提供了更為前沿的NLP技術,也為智能輿情分析模型的搭建提供了參考思路。