摘要:介紹ChatGPT的核心技術,結合其工作原理,分析其現實問題,借鑒Claude 3模型的安全部署技術策略探討可行策略。研究發現,無監督預訓練模型提高了ChatGPT上下文學習能力,可捕捉句子中長程依賴特征,改善輸出語言效果。而基于人類反饋的強化學習有助于對齊人類需求,減少有害內容的輸出。迎接ChatGPT帶來的安全挑戰與倫理挑戰,可采用原則人工智能這一無害性解決方案,更新算法,加大數據質量管控力度,優化紅隊測試的攻擊方案,高效識別安全漏洞。
關鍵詞:ChatGPT;核心技術;現實問題;Claude 3;安全部署
一、前言
隨著大語言模型(LLMs)的快速發展,OpenAI公司開發的人工智能聊天機器人GPT-4使整個AI行業迎來了研發浪潮。OpenAI保護商業秘密,未公布多模態大模型GPT-4算法、架構與訓練方式等技術細節,GPT-4如何顛覆ChatGPT尚無定論。在此前提下,作為GPT-4歷史版本的ChatGPT,依然是深入理解GPT系列模型架構的典型代表。自2018年初代生成式預訓練模型GPT-1以來,GPT系列經過更新迭代,2022年12月升級至ChatGPT,2023年優化至新一代GPT-4。ChatGPT備受學界矚目,是一種基于transformer架構的生成式強人工智能模型,遵循“預訓練+微調”范式,可識別、合成和擴展內容,自動生成滿足人類需求的連貫性較高的自然語言文本,依據提示編寫代碼、策劃營銷文案、創作詩歌、翻譯文本,長于開展連續多輪文本對話,提供良好的交互式反饋體驗。然而,ChatGPT不只是智能聊天機器人,對話僅是其處理文本信息能力的表現,“GPT”(Generative Pre-Trained Transformer)方為其超越一眾人工智能模型之核心技術所在。為進一步理解其運行機制,本文介紹其核心技術與工作原理,分析其現實問題、潛在隱患與瓶頸,借鑒Claude 3模型家族安全部署的技術策略探討可行優化策略,希冀為提升大語言模型的安全可靠性提供思考。
二、ChatGPT的核心技術與工作原理
ChatGPT的工作原理是基于Transformer神經網絡架構的上下文學習與基于人類反饋的強化學習的優化,應用流程包括預訓練與微調兩個階段,在預訓練階段學習語音、語義、語法、語用、事實和常識知識,在微調階段根據自然語言理解技術執行特定下游任務。
(一)無監督預訓練模型
預訓練是自然語言處理中主要的神經網絡模型。ChatGPT通過預訓練模型尤其是Transformer架構提高并行計算能力,通過殘差連接和層歸一化緩解梯度消失問題,降低自然語言處理模型在實際應用中落地的門檻,使模型能夠掌握豐富的知識,提升了語言理解能力。預訓練模型預設通用語言模型的存在,通用語言模型類似于喬姆斯基生成式語法系統的生成語法規則,“旨在學習生成概率分布,從而捕捉文本數據的底層結構和潛在語義”[1]。使用詞嵌入矩陣將文本序列轉化為詞嵌入表示,通過輸入序列的嵌入表示得到詞的位置信息,將位置信息輸入Transformer層,得到輸出向量,將詞嵌入表示與輸出向量歸一化為概率分布,預測下一個詞的概率[1]。
預訓練階段的少樣本與零樣本學習策略減少了模型為處理特定任務而進行監督學習的高昂訓練成本。貝葉斯算法是GPT采取少樣本學習策略獲取上下文學習能力的主要機制,而思維鏈則是GPT采取零樣本學習策略培養模型推理能力的主要方式。貝葉斯算法預設預訓練過程中同一文本的句群與段落共享相同的語義信息,通過神經網絡推測生成概率分布,在海量語料庫數據中發現關聯,捕捉語義特征。“文檔級別的訓練數據中存在長距離連貫性的潛在概念,這些連貫性在預訓練期間被模型利用,以推斷潛在概念”[1]。思維鏈主要通過提示詞,增加中間步驟的推導,模仿人類思考方式,逐步生成答案。
(二)Transformer架構
ChatGPT預訓練模型以Transformer解碼器為基礎。Transformer解碼器作為特征提取器可基于既有詞預測下一個詞,降低了數據獲取的成本。Transformer編碼器和解碼器由多層結構相同而參數不同的網絡層堆疊而成,每一層均包含多頭注意力層和前饋神經網絡層兩個子層,每一子層均具殘差連接與層歸一化的功能。殘差連接使經過兩個子層后的序列與輸入序列相加形成新的序列,將某一層的輸入元素直接傳遞到后續層。層歸一化“對每一層的神經元輸出進行歸一化處理,使得它們有相同的均值和方差”[1]。殘差連接和層歸一化的引入,緩解了模型梯度消失問題,提高了模型的穩定性、效率和性能。前饋神經網絡是一個多層感知器,由輸入層、隱藏層和輸出層組成,每層有若干神經元。每個神經元分別屬于不同的層,包括兩部分:一部分負責線性加權求和,叫作線性層;另外一部分是激勵函數,由于激勵函數都被定義為非線性的,所以又叫作非線性層[2]。注意力計算的結果將先后通過線性層、激勵函數和線性層,捕捉輸入序列模式與結構中的非線性特征,更為準確地處理更為復雜的自然語言數據。
Transformer采用自注意力機制處理數據,使用擅長矩陣運算的GPU、CPU等尖端軟件進行并行化,可同時獨立地計算多個注意力模型,追蹤文本在序列中的位置及其內容的上下文信息,捕捉長程依賴關系。注意力機制包括最原始版本的注意力機制和自注意力機制,鍵、查詢和值向量是兩種機制通用的主要向量,通過計算輸入序列中每個元素的主要向量,獲取注意力權重,學習句子成分內部關系,捕捉輸入序列的全局依賴關系。注意力機制通過計算鍵和查詢的匹配程度給值向量分配不同的注意力權值,舍棄不必要的值向量。自注意力機制中的查詢來自數據內部,通過捕捉數據內部的相關性完成特征向量的建模。具體而言,輸入序列經過嵌入層矩陣轉化為值向量,值向量之間進行點積運算得到初始注意力值,使用函數對初始注意力值進行歸一化處理,形成每個詞的注意力權重值。多頭注意力機制是自注意力機制的擴展,通過分割主要向量為多個注意力頭,使用權重矩陣單獨計算每個注意力頭的主要向量值,并行關注輸入序列中的多個信息。依據不同的參數對鍵、查詢和值向量進行線性變換,將注意力得分映射到不同子空間,學習不同子空間的相關信息進行信息融合。解碼器的注意力子層為掩碼多頭注意力子層,在計算注意力值時引入掩碼矩陣,確保模型忽視當前位置之外的未來信息,僅考慮前文信息,從而更好地遵循自然語言的生成規律。
(三)微調:基于人類反饋的強化學習技術
微調的訓練步驟包括指令學習、監督微調與基于人類反饋的強化學習技術(RLHF)。在算法方面,GPT-3.5以上的版本引入了人類反饋強化學習技術,即“通過用人類生成的反饋替換或補充預先定義的獎勵函數,使得模型能夠更好地捕捉復雜的人類偏好和理解”[3],是ChatGPT安全部署的重要舉措,可以減少不良、不準確信息的生成。訓練過程分三步。首先,使用有監督的微調訓練初始模型。對于給定的一個問題,模型生成初始回復。訓練員通過多輪對話反饋帶有人類偏好的答案,為模型學習提供修正數據。其次,訓練獎懲模型。在數據集中抽取問題,通過前一步生成的模型生成對同一問題的不同回答,并進行打分排序,找出特定條件下的最佳回答,完成獎勵模型的訓練。最后,采用近端策略優化(PRO)強化學習優化策略。抽取新問題,利用上一步訓練后的獎勵模型對PRO模型生成的回答打分,反饋策略優化PRO模型參數,改進生成內容。循環往復,直至生成高質量最優答案。經過人類反饋強化學習處理后的模型性能明顯提高,在無害性方面有所改善,但在處理歧視和偏見等問題上的性能并未顯著提升[1]。
三、ChatGPT的現實問題與潛在風險
(一)數據偽真實性帶來的幻覺與誤用
算法、算力和數據是訓練ChatGPT理解力與推理能力的核心要素。ChatGPT可模仿語言而非思想和意識,缺乏完全獨立自主的意識和情感,更不用說從訓練數據中獲得創造力和批判性思維。ChatGPT不一定真正理解了接收或生成內容的意義與語境,比如文本作者的心理因素。當詢問內容更換語境時,ChatGPT可能答非所問,言之鑿鑿地編造事實,生成看似符合邏輯,實際失真的回答,信息準確度不足,真實性有待提升。幻覺是大語言模型普遍存在的問題。“由于指令微調階段中的任務鼓勵模型生成詳細描述,可能導致模型生成不存在于源數據本身的元素,進而影響模型實際應用的效果”[4],在多模態、多語言場景下的問題更為嚴重。疏于查證的偽真實信息被用戶采擷引用,將造成不必要的損失。散播假消息,破壞社會秩序,可能招致法律問責。
(二)數據安全問題
對齊人類需求的ChatGPT具有意識形態傾向。選擇和處理預訓練數據與微調數據過程中的文化偏見與情感偏見可能被保留在生成內容之中。ChatGPT的世界觀和價值觀源于數據庫信息所蘊含的思想與文化,而非“個人”情感經歷,缺乏同理心與敏感度,可能破壞或扭曲價值觀,減少人文關懷,這是威脅其持續發展的主要隱患。其一,受媒體報道的偏見影響,ChatGPT在某些敏感的政治話題上采取一定立場,有違公正,對用戶進行政治輿論誘導,影響用戶對某些人物或現象的看法和評價,甚至產生性別偏見、種族偏見與殘疾人歧視。其二,孱弱的監管意識可能使其為網絡犯罪提供基礎數據,提高公共安全風險。當用戶以委婉方式提問危害公共安全的問題時,ChatGPT曾毫無保留地給予有害建議,傳播犯罪知識,易使不法之徒掌握網絡詐騙、違法交易等犯罪技能,增加對治安秩序的威脅。其三,分析和整合生成專業性較高的學術文章,侵犯著作權,助推學術欺詐和剽竊,加劇學術倫理風險。
四、Claude 3對ChatGPT的啟示
Claude 3使用PyTorch、JAX與Triton框架,主體架構為“預訓練+提示生成”,采用無監督預訓練與基于人工智能反饋的原則人工智能(Constitutional AI,CAI)技術。Claude 3 Opus“在創造性寫作、情感理解或特定領域知識方面的表現超過GPT-4”[5],在信息檢索和信息來源辨別方面的表現可圈可點。2024年3月初Anthropic發布公告宣稱,以負責任、誠實性與安全性著稱的Claude 3模型家族能夠解釋拒絕回答性別歧視、殘疾人歧視、種族主義等違禁問題的原因,Claude 3 Opus在數據的安全性、準確性方面超越了GPT-4,為包括ChatGPT在內的人工智能技術革新算法、解決潛在隱患提供了借鑒。
(一)分層治理:更新算法與管控數據
在數據訓練與監控方面,為確保數據質量安全、可信和優選,應嚴格規范基礎語料采集與清洗的紅線與底線,統籌規劃訓練原則。數據是確保模型高質量落地的核心。Claude 3家族完善數據采集與清洗制度,嚴正承諾自己抓取公共網頁數據時杜絕爬蟲程序訪問受密碼保護的內容,監控并避免違禁內容的提取,遵守《人工智能風險管理框架》(NIST AI),通過原則人工智能規范價值觀與生成內容的安全性。“原則”源于Claude 3家族將理想的典范行為編碼成一套自然語言原則的構想,包括《聯合國人權宣言》、Deepmind的麻雀模型原則、人類學研究資料、運營商的行業慣例(比如Apple服務條款)與鼓勵考慮非西方世界觀點的原則。
算法方面應發揮基于人工智能反饋的強化學習策略的優勢,進一步落實人工智能安全部署實踐。ChatGPT使用基于人類反饋的強化學習技術,旨在訓練模型拒絕回答有爭議、傷害性、冒犯性的違禁問題。原則人工智能的目標不止于此,通過人工智能反饋強化學習(RLAIF)改進回避行為,訓練模型使用非攻擊性語言和無害性情緒解釋拒絕用戶請求的原因。人類反饋強化學習的決策點是公眾對大語言模型的行為偏好,然而行為偏好不夠明確且具有爭議。人工智能反饋比收集單一的人類反饋更為有效,不僅有助于提高訓練過程的透明度,而且能夠明確地界定、展示系統遵循的原則,避免了隱含的普遍性假設。此外,Claude 3系列還通過設定少量自然語言準則令AI自動輸出偏好,降低語言模型對人類標注數據的依賴,提升模型在低資源語言上的性能。
原則人工智能的訓練過程包括監督學習和強化學習兩個階段。在第一階段,誘導人工智能助手對違禁問題生成有害回答,利用紅隊測試生成回答,依據“原則”對回答進行批判和修改,隨機抽取原則微調模型。第二階段的訓練方式與RLHF類似,不同的是,CAI用AI反饋代替人類偏好反饋。首先依據經過第一階段訓練好的人工智能助手為數據集的違禁提示生成系列答復,將每一條提示和答復生成多選題,然后依據“原則”原則執行訓練指令“選擇更/最如何的回答”[6],生成無害性偏好數據集,再將其與人類反饋數據集比對融合。評估比較數據并訓練可評分的偏好模型,通過偏好模型與前一階段生成的微調監督學習原則人工智能模型,得到基于強化學習的原則人工智能模型[7]。“原則人工智能是利用人工智能反饋獲取低成本的標注數據,偏重對齊人類的無害性偏好,對于提供公共服務的大語言模型尤為重要,成為開源大模型低成本遷移中主要的無害性解決方案”[1]。
(二)優化紅隊測試的攻擊方案與測試問題
紅隊測試(Red Teaming)是一種對抗性測試,通過模擬黑客攻擊者的技術、程序、工具和目標,測試模型防御能力、漏洞和缺陷,對模型進行安全評估。測試成員可為經驗豐富的領域專家、專業學生、學者或眾包工作者,在技術人員開發的頁面中與人工智能助手進行開放式多輪對話,刺激模型生成冒犯性表述。Claude 3家族紅隊測試的成效表明,測試成員可通過關注提示的格式、定義問答背景改進問題結構、利用文本補全特性控制輸出、利用越獄攻擊誘導模型輸出違禁內容及泄露信息等方式,更高效地發現系統漏洞,增強模型的防御能力。
為了處理安全這一AI核心問題,ChatGPT采用人工紅隊測試,Jan Leike曾在MIT Technology Review中談到此點。為提高安全性和準確性,OpenAI聘請“來自人工智能對齊風險、網絡安全、生物風險和國際安全等領域的50多名專家對模型進行對抗性測試”[8],對GPT-4開展了長達六個月的紅隊測試定性評估,訓練模型拒絕回答違禁問題。GPT-4使用基于規則的獎勵模型(RBRMs)—一組零樣本分類器,設置獎勵模型接受提示、策略模型輸出和人工編寫的評分標準三種類型文本的輸入,借此為理想化的拒絕和非理想化的拒絕(比如回避/漫無邊際)提供獎勵信號[8]。據OpenAI,當問題涉及違禁內容時,GPT-4可能會提供危害公共安全的建議。因對沖功能突出,GPT-4對無害問題拒答率較高,回避行為較多。為此,Anthropic在Claude 3的紅隊測試中做了改進。
首先,Anthropic精心設計了基于事實的復雜測試問題和詳細的答復類別——正確、錯誤或虛構、不確定,為模型承認知識局限性創造了條件。其次,提高提示語言的精細度,避免明顯的不妥。再次,在測試成員培訓方面,在成員執行任務前,明確告知其可能遭遇敏感話題的討論,并鼓勵其在本人可承受的風險范圍內選擇話題,以此避免紅隊測試帶給成員消極情緒[9],使測試成員在多項答復中選擇更為有害的答復,提高測試人員發現系統弊病的能力與速度。最后,Anthropic借鑒答案引擎Perplexity AI的思路,標明答案的引用來源,方便用戶直接查閱參考文獻、核實信息來源,不僅使模型規避了幻覺問題,還進一步解決了學術剽竊和學術倫理問題。
五、結語
ChatGPT是弱人工智能邁向強人工智能的重要里程碑,推動了人工智能關鍵技術的研發與應用。ChatGPT通過無監督預訓練模型提高模型上下文學習能力,捕捉句子中長程依賴特征,改善輸出語言效果,借助指令學習、監督微調與基于人類反饋的強化學習對齊人類需求,減少有害內容的輸出。然而,ChatGPT也為人類社會帶來了安全挑戰與倫理挑戰,存在諸多現實問題和潛在風險。為此,可借鑒Claude 3家族的原則人工智能這一無害性解決方案,更新算法,管控數據質量,優化紅隊測試的攻擊方案與測試問題,高效地識別安全漏洞,增強模型的防御能力。
參考文獻
[1]程戈.ChatGPT原理與架構:大模型的預訓練、遷移和中間件編程[M].北京:機械工業出版社,2023.
[2]馮志偉.神經網絡、深度學習與自然語言處理[J].上海師范大學學報(哲學社會科學版),2021,50(02):110-122.
[3]蔡睿,葛軍,孫哲,等.AI預訓練大模型發展綜述[J].小型微型計算機系統,2024,45(10):2327-2337.
[4]劉靜,郭龍騰.GPT-4對多模態大模型在多模態理解、生成、交互上的啟發[J].中國科學基金,2023,37(05):793-802.
[5]劉曉潔.一年狂攬73億美元投資Anthropic引燃大模型戰火[N].第一財經日報,2024-03-07(A10).
[6]Huang,S.,Siddarth,D.,Lovitt,L., et al.Collective Constitutional AI: Aligning a Language Model with Public Input[EB/OL]. https://arxiv.org/pdf/2406.07814,2024-06-03.
[7]Bai,Y.,Kadavath,S.,Kundu,S.,et al.Constitutional AI:harmlessness from AI feedback [EB/OL].https://arxiv.org/pdf/2212.08073,2023-04-03.
[8]Achiam, OpenAI Josh et al.GPT-4 Technical Report[EB/OL]. https://arxiv.org/pdf/2003.08774, 2023-03-15.
[9]Ganguli,D.,Lovitt,L.,et al.Red Teaming Language Models to Reduce Harms: Methods,Scaling Behaviors,and Lessons Learned,https://arxiv.org/pdf/2209.07858,2022-11-22.
作者單位:南開大學外國語學院
■ 責任編輯:王穎振 楊惠娟