針對大語言模型的偏見性研究綜述

2024-10-14 00:00:00徐磊胡亞豪潘志松

計算機應用研究 2024年10期

摘要：偏見現象普遍存在于人類社會，并通常以自然語言為載體呈現。傳統的偏見研究主要針對靜態詞嵌入模型展開，但隨著自然語言處理技術的不斷演進，研究對象逐漸轉向上下文處理能力更強的預訓練模型。而作為預訓練模型的進一步發展，盡管大型語言模型憑借驚人的性能和廣闊的發展前景在多個應用場景中得到了廣泛部署，但其仍可能會從未經處理的訓練數據中捕捉到社會偏見，并將偏見傳播到下游任務中。含有偏見的大型語言模型系統會產生不良的社會影響和潛在危害，因此針對大型語言模型的偏見研究亟待深入探討。探討了自然語言處理中偏見的由來，并對從詞嵌入模型到現在大型語言模型的偏見評估和偏見緩解方法進行了分析與總結，旨在為未來相關研究提供有益參考。

關鍵詞：自然語言處理；詞嵌入；預訓練模型；大型語言模型；偏見

中圖分類號：TP391 文獻標志碼：A 文章編號：1001-3695（2024）10-001-2881-12

doi：10.19734/j.issn.1001-3695.2024.02.0020

Review of biased research on large language model

Xu Lei， Hu Yahao， Pan Zhisong

（College of Command & Control Engineering， Army Engineering University of PLA， Nanjing 210007， China）

Abstract：The phenomenon of bias existed widely in human society， and typically manifested through natural language. Traditional bias studies have mainly focused on static word embedding models， but with the continuous evolution of natural language processing technology， research has gradually shifted towards pre-trained models with stronger contextual processing capabilities. As a further development of pre-trained models， although large language mo-dels have been widely deployed in multiple applications due to their remarkable performance and broad prospects， they may still capture social biases from unprocessed training data and propagate these biases to downstream tasks. Biased large language model systems can cause adverse social impacts and other potential harm. Therefore， there is an urgent need for further exploration of bias in large language mo-dels. This paper discussed the origins of bias in natural language processing and provided an analysis and summary of the deve-lopment of bias evaluation and mitigation methods from word embedding models to the current large language models， aiming to provide valuable references for future related research.

Key words：natural language processing; word embedding; pre-trained model; large language model; bias

0 引言

隨著信息時代的到來，對文本數據的處理和理解變得越來越重要，自然語言處理技術（natural language processing，NLP）也取得了巨大的進展。自然語言處理在不同時期都涌現出了代表性的技術，如統計語言模型時期的n-gram模型，神經語言模型時期的word2vec［1］，預訓練語言模型時期的ELMo［2］、BERT［3］，再到現在大型語言模型時期的ChatGPT、GPT-4［4］、ChatGLM［5］等。

事實上，Bolukbasi等人［6］早在2016年便發現訓練后的詞向量中具有歧視性信息，之后的研究者受心理學內隱聯想測試的啟發提出了WEAT方法來具體衡量模型的偏見。隨著ELMo、BERT等上下文學習的預訓練模型的發展，一系列針對上下文詞嵌入的方法被提出。已有的研究表明，文本模型因訓練的過程依賴于各種來源的語料庫，所以模型會從未處理的數據中捕獲人類社會中的偏見，這些偏見被詞嵌入所包含，繼而延續到各項下游任務中，最終導致對弱勢邊緣群體作出歧視性、包含偏見的決定，繼而造成不良的社會影響和潛在危害［7］。此外，語言模型學習過程中的人為因素或者嵌入過程中意想不到的偏差也會導致甚至放大下游任務中的偏見。

大型語言模型本質上還是一種預訓練模型，研究者發現通過擴展模型大小或數據規模往往會提升模型對下游任務的處理能力，例如175 B參數的GPT-3和540 B的PaLM。雖然擴展主要是在模型大小上進行的，但大型語言模型與較小的預訓練模型卻表現出了不同的行為，并在解決一系列復雜任務時表現出驚人的能力，這又被稱為“涌現能力”。例如GPT-3相比于GPT-2可以通過上下文學習完成少樣本任務，而GPT-4相比于GPT-3則是零樣本泛化性能得到顯著提升。大語言模型的標志性應用便是ChatGPT，通過將模型引入到對話任務中，呈現出了驚人的對話能力。盡管大型語言模型在文本處理能力和理解能力上相較于之前的模型已經有了大幅提升，但其仍然未能完全擺脫偏見問題。

由于大模型強大的文本處理能力，針對大模型的公正性研究從之前單一的偏見、刻板印象研究擴展到更大的安全性方面。先前的研究已表明自然語言處理中的偏見由來已久并且難以解決，在ChatGPT等大模型推出之后相關的偏見評估標準、緩偏方法也發生了變化。本文的貢獻主要如下：a）回顧了自然語言處理技術和相關偏見研究的發展；b）探討了自然語言處理技術中偏見的由來;c）根據自然語言不同的發展階段綜述了相應的偏見評估方法；d）分別從數據集、詞嵌入、預訓練模型、大模型的角度介紹了偏見的緩解方法，并對未來模型的偏見性研究提出展望。

1 背景知識

1.1 自然語言處理技術

一般而言自然語言處理技術大致可以分為四個主要發展階段，如圖1所示。

1.1.1 統計語言模型時期

統計語言模型［8］（statistical language model，SLM）于20世紀90年代興起，其核心思想是建立基于馬爾可夫假設的單詞預測模型，即一個詞出現的概率僅與它之前的若干個詞相關，如式（1）所示。

p（w1…wn）=∏ p（wi|wi－1…w1）≈∏ p（wi|wi－1…wi－N+1）（1）

例如根據最近的上下文預測下一個單詞。具有固定上下文長度n的統計語言模型便是n元語言模型即n-gram模型。但當n取值較大時，模型的計算復雜度便會指數級上升，同時因為獨熱編碼的局限性導致數據稀疏，所以SLM很難準確估計高階的語言模型。

1.1.2 神經語言模型時期

針對統計語言模型的缺陷，神經語言模型（neural language model，NLM）被提出。NLM通過模型的第一層將詞以分布式表示，從而將詞表征為一個向量形式，例如循環神經網絡（recurrent neural network，RNN）［9］。循環神經網絡極其適用于序列化的數據，其會在隱藏層存儲之前的信息，并將存儲的信息加入到當前的計算，隱藏層的內部節點不再是相互獨立的。當然，RNN仍然存在無法保持長期依賴的問題，過長的信息會導致RNN單元內部狀態的混亂。因此，為了解決RNN的長程依賴問題，長短期記憶網絡（long short term memory，LSTM）被提出，LSTM通過“門”結構來實現對隱藏信息存儲的管理，LSTM結構圖如圖2所示，其中主要包括：輸入門、遺忘門、輸出門、候選層、記憶單元。輸入門控制輸入信息對當前記憶單元的影響，輸入門公式如下，其中xt為t時刻的輸入，ht－1上一時間步的隱藏狀態，bi是輸入門的偏置項：

it=σ（Wixt+Uiht－1+bi）（2）

遺忘門控制之前的記憶信息在當前時間t中的保留程度：

ft=σ（Wfxt+Ufht－1+bf）（3）

輸出門控制當前時間步的輸出：

ot=σ（Woxt+Uoht－1+bo）（4）

ct為候選記憶單元，記憶單元ct會根據每個時刻的輸入進行更新，從而保持LSTM單元的記憶：

ct=tanh （Wcxt+Ucht-1）ct=ft⊙ct-1+it⊙ct（5）

最終得到隱狀態ht用于后續時刻的更新：

ht=ot⊙tanh （ct）（6）

此外，之后提出的word2vec［1］更是利用一個簡化的神經網絡學習分布式單詞表示，促進了深度學習在NLP中的應用。受word2vec啟發而誕生的一系列詞嵌入（word embedding）方法（其中較為出名的有GloVe［10］等），都從不同的角度得到了相應的嵌入表征。這些研究極大地促進了NLP領域的發展，而利用預訓練好的詞向量作為詞的表征也成為了這個時期的主流方法。

1.1.3 預訓練語言模型時期

預訓練語言模型（pre-trained language model，PLM），ELMo［2］的提出解決了早期靜態詞嵌入word2vec和GloVe無法處理不同語境下詞向量的表征問題。ELMo預訓練了一個雙向LSTM（biLSTM）網絡來捕獲語境化詞嵌入表征。而2017年，Transformer的發布給自然語言處理帶來了一場革命［11］，Transformer架構完全拋棄了傳統的卷積神經網絡和循環神經網絡，其主要是用兩個關鍵的子模塊構建：分別是多頭注意力（multi-head self-attention，MHA）層和前饋神經網絡（feed forward network，FFN）層。MHA層的定義如下：

MultiHead（Q，K，V）=concat（head1，…，headh）WO，

headi=attention（QWQi，KWKi，VWVi）（7）

其中：Q，K，V∈Euclid ExtraaBpn×d是輸入嵌入矩陣，WO∈Euclid ExtraaBpd×d是輸出投影，WQi，Wki，WVi∈Euclid ExtraaBpd×dk是注意力頭i的查詢、鍵和值投影；對應的n是序列長度，d是嵌入維度，h是注意力頭的數量，而dk=d/h是投影子空間的隱藏維數。FFN層由兩個線性變換組成，再由一個ReLU激活：

FFN（x）=ReLU（xWu+bu）WD+bD（8）

其中：Wu∈Euclid ExtraaBpd×dm，WD∈Euclid ExtraaBpdm×d 。

更進一步，基于Transformer架構和自注意力機制的BERT［3］模型通過在大規模無標記語料或者特定的下游任務語料上訓練，極大程度地提高了NLP任務的性能標準。BERT啟發了后續大量的工作，并建立了“預訓練和微調”的學習范式。目前研究者已經針對PLM開展了大量研究，例如GPT-2［12］和BART［13］或者根據BERT提出的不同改進。2020年，OpenAI發布的參數量高達1 750億的GPT-3［14］預訓練語言模型也為后面大型語言模型做鋪墊。

1.1.4 大型語言模型時期

大語言模型（large language model，LLM）通常是指包含數千億參數的語言模型，LLM可以看做是PLM的一個放大，雖然模型仍然具有相似的架構和預訓練任務，但是大語言模型和之前小參數的預訓練模型體現出了截然不同的效果。作為大語言模型代表的ChatGPT（以GPT-3.5為架構），以與人類對話的形式呈現出了驚人的能力。ChatGPT的訓練過程主要包括三個階段，分別是底座大模型的訓練、監督微調和人類價值觀對齊。這三步分別對應著增強模型的語言生成能力，零樣本能力和可靠輸出能力。ChatGPT發布不久之后，OpenAI又推出了GPT-4［4］模型，因其遠超ChatGPT的性能，被認為是早期通用人工智能系統的嘗試。隨著大模型研究的不斷進行，其關鍵的涌現能力和提示工程也成為研究者的熱點。

1）大模型的涌現能力

大語言模型與以往預訓練模型最顯著的區別之一就是大模型的涌現能力，涌現能力被正式定義為“在小模型中不存在，但在大模型中出現的能力”，而涌現能力中具有代表性的三種能力為：語境學習、指令遵循、分步推理［15］。

a）語境學習。該能力首次是在GPT-3［14］中被正式提出。假設一個語言模型已經被提供了一個自然語言處理指令或者多個任務演示，它可以不需要額外的訓練和梯度更新，僅通過學習輸入文本的單詞序列來生成測試實例的預計輸出。

b）指令遵循。通過使用自然語言描述格式化（即指令格式化）的多任務混合的數據集進行微調，研究人員發現LLM在以指令形式描述的未知任務上仍然表現良好。因此使用構造的指令來微調大語言模型，可以在不使用顯示示例的情況下，通過理解任務指令來執行新任務［16，17］。指令遵循很大程度上提高了大模型的泛化能力。

c）分步推理。對于先前的預訓練模型，通常難以解決涉及多個推理步驟的復雜任務，如數學應用題。而在思維鏈的提示下，LLM可以通過使用包含中間推理步驟的提示機制來解決這類任務，從而得到最終的答案［18］。

2）提示學習

提示學習試圖使用一個簡單的方法來解鎖大模型的推理能力，得益于其本身的涌現能力，LLM可以通過提示在上下文中進行少量的學習。換句話來說，當面對一個新的任務時不再需要去專門微調，僅僅使用一些新任務的演示示例——告訴模型如何從輸入到輸出，以此來提示LLM。事實上，大模型之前已有研究將該方法運用于相應的下游任務上，并且取得了不錯的效果［19］。這種簡單的提示方法也被稱為少次提示方法（few-shot），然而該方法在需要推理能力的任務上表現不佳，也因此催生了后續關于提示詞的研究。

針對先前提示方法在推理任務上效果不佳的缺點，思維鏈（chain-of-thought，CoT）方法被提出，CoT不是像先前的提示方法簡單地用輸入-輸出對構造提示語，而是將輸入輸出映射構建的中間推理步驟納入提示語中。思維鏈提示方法也有很多擴展，首先便是在few-shot思想下的借助思維鏈的提示方法，簡單而言就是在提示詞尾部加上一句“請一步步推理并得出結論”，因為這種方法無須告訴模型如何推理，不需要給出推理示例，所以該方法也被稱為zero-shot-CoT［20］。有了zero-shot-CoT方法，相對應也就有了few-shot-CoT，Few-shot-CoT方法旨在通過編寫思維鏈樣本作為提示詞，讓模型學會思維鏈的推導方式，從而更好地完成推理任務［18］。

然而上述思維鏈方法仍然需要人為手工編寫，無法將已有的思維鏈提示樣本很好地遷移到別的問題當中，從而造成了泛化能力不夠的問題。因此如何使大模型自己找到解決當前問題的思維鏈成為關鍵，谷歌基于這個思想設計了新的提示流程least-to-most提示法，即通過提示讓模型找到解決該問題的前提是解決哪幾個子問題，然后再通過解決這些子問題從而得到最終答案。整個提示過程會分為兩個階段進行，第一個階段是自上而下的分解問題（decompose question into subquestion），第二個階段是自下而上的依次解決問題（sequentially solve subquestion）。通過簡單的提示使大模型自己完成CoT過程，從而針對不同問題生成針對性的解決方法思路，達到精準解決復雜推理問題的效果［21］。

3）對齊調優

LLM通常在海量的數據中進行訓練，其中包括高質量和低質量的數據。由于數據質量參差不齊，LLM捕獲的數據特征可能存在偏差，從而可能產生對人類有害的內容，如含有毒、偏見等內容。因此，訓練一個樂于助人、誠實和無害的大模型顯得尤為重要，為此，InstructGPT設計了一種有效的調優方法［16］，使LLM能夠遵循預期的指令，該方法利用了帶有人類反饋的強化學習技術，詳細內容將在第5.4節中討論。值得注意的是，ChatGPT也是基于與InstructGPT類似的技術開發的，后者在產生高質量、無害的響應方面顯示出強大的對齊能力，例如，拒絕回答侮辱性的問題。在當前階段，人類價值觀對齊成為大型模型訓練中不可或缺的重要環節。

1.2 模型的偏見性研究

模型的偏見性研究主要是從神經語言模型階段開始展開，最初主要針對word2vec、GLoVe等靜態詞嵌入的偏見來進行評估和緩解。Bolukbasi等人［6］用“Man-Programmer= Woman-Homemaker”這一例子形象地表示詞嵌入中的偏見，同時進行大量實驗得出詞向量空間中包含偏見的結論。而隨著模型文本處理能力的提升，偏見的研究對象也從靜態詞嵌入轉移到了預訓練模型中的上下文詞嵌入。針對預訓練模型的特點，也有研究根據模型參數是原始訓練得到的還是對特定任務微調得到的，將偏見分為內在偏見（intrinsic bias）和外在偏見（extrinsic bias）。換句話說，內在偏見是預訓練模型在訓練時得到的固有偏見，而外在偏見則是模型在針對下游任務微調時學習到的偏見［22］。到了大型語言模型發展階段，盡管這個階段模型的能力在很多下游任務中達到人類水平甚至超越人類，但其仍然存在安全性問題，偏見就是其中之一。

2 偏見起源

偏見具有普遍性并在人類社會中廣泛存在，研究偏見的來源具有重要意義。本節將從人類社會中的偏見起源和自然語言模型中的偏見起源兩個方面來闡述，如圖3所示。

2.1 人類社會中的偏見起源

偏見是一種在社會生活中對某一個人或某一團體所持有的一種不公平、不合理的消極否定的態度。偏見普遍蘊涵于人類自然語言中，因針對的對象不同，偏見也是多種多樣的，例如職業偏見、種族偏見、性別偏見等。在社會科學層面，目前已有許多批判種族理論、性別研究。然而，基于種族、宗教、殘疾、性取向或性別，對邊緣化人群的負面刻板印象、污名化和無意的偏見繼續存在。這些污名和無意的偏見導致了不同形式的歧視，包括教育、就業機會、健康案例、住房、監禁等。有研究表明，幾個世紀以來的種族主義、性別歧視和同性戀恐懼癥的直接結果導致了社會對邊緣群體的偏見和不平等［23］。

2.2 自然語言模型中的偏見起源

自從Bolukbasi等人［6］開創性地發現詞嵌入模型會將“男人：程序員”類比為“女人：家庭幫工”，自然語言模型的偏見性研究進入了研究人員的視野。而在ChatGPT、GPT-4及其系列預訓練模型前身的背景下，偏見可以定義為模型存在系統性的錯誤陳述、歸因錯誤或者事實扭曲，從而導致偏袒某些群體的錯誤想法、刻板印象或者錯誤假設。

根據之前的研究，模型中的偏見主要在以下幾個方面［23］，一是NLP技術的研究設計方面（模型算法的設計）。不論是n-gram模型還是詞嵌入技術，一開始大多數的研究都集中在使用英語文本上，從而使得更多的英語語料更易獲得，這反過來讓NLP研究人員更容易獲得研究英語的文本，最終使得NLP技術產生對英語的偏倚。此外，在最初的研究設計中，NLP研究人員將語言視為多個單詞出現和同時發生的概率，而忽視了語言在不同背景下所反映出的社會關系。而簡單依賴于單詞的共現，將“女人”和“男人”與“護士”和“醫生”聯系起來，最終造成了偏見。二是適用對象方面，當一個模型在由一組人生成的文本數據上進行訓練，隨后被部署到現實世界并被更多不同的群體使用時，偏差就會顯現出來。研究人員缺乏訓練數據的社會和歷史背景，導致數據缺乏多樣性，進而在相應敏感群體使用時產生了偏見。三是有監督的數據集方面，這里也可稱之為標注者偏差。數據和標注標簽出現偏差背后有很多原因，可能是由于數據標注者對任務缺乏先見知識從而導致的偏差，也可能是因為標注者本身就對某些群體存在歧視從而導致標注的數據存在偏見，而直接采集的無監督的數據集所展現的就是原生的人類自然語言，所以包含了社會中的各種偏見。偏見在自然語言處理中的體現如圖4所示。

隨著地域和時間的不同，偏見也會不同，Garg等人［24］通過分析經過100多年文本語料庫訓練的詞嵌入發現，這些詞嵌入中的偏見發展變化與20、21世紀美國性別和種族刻板印象的趨勢相對應；Rios等人［25］著眼于1960—2020年的生物醫學文獻，挖掘到一些眾所周知的性別刻板印象也發生了改變，例如數學和藝術、智力和外貌等。在不同的地域，對于人種膚色、宗教的偏見也各不相同。而在我國同樣也出現了對職業的性別偏見隨著時間地區變化的情況［26］。

3 偏見評估方法

當自然語言處理技術中的相關模型被發現存在各種各樣的偏見之后，研究人員嘗試采用不同的方式去刻畫和評估相關偏見。早期研究主要針對靜態詞嵌入，盡管已有方法將靜態詞嵌入推廣到上下文情境和更廣泛的偏差維度中，但因為LLM不使用靜態詞嵌入而是使用在上下文中學習的句子級嵌入，并且更適合與句子級編碼器的嵌入指標配對，所以傳統的靜態詞嵌入中的評估方法并不是很適用于文本生成能力達到人類水平的大語言模型。同時使用完整的句子也可以更有針對性地評估偏見的各個維度，特定的刻板印象關聯也可以使用句子模板進行更有效的探測。因此預訓練模型時期的句子級偏見評估方法仍然可以適用于大語言模型。在LLM推出之后，研究人員在使用偏見測試數據集評估大模型的同時，也開始通過提示工程來判斷模型的公平性。

早期研究中針對性別偏見的較多，已有研究表明性別偏見相比于其他類型偏見更易于被識別［27］。本章分別從詞嵌入、句子級嵌入和大語言模型中的偏見評估方法進行闡述，如圖5所示。

3.1 詞級嵌入中的評估方法

word2vec和GLoVe的提出為NLP提供了新的范式——預訓練的詞嵌入向量。詞嵌入向量作為現代自然語言處理技術的基石，因此詞嵌入中的偏見評估是具有意義的。早期Bolukbasi等人通過定義單詞集來定義性別子空間，其中每個集合中的單詞代表偏差的不同端點，這也為之后的偏見研究奠定基礎。

3.1.1 詞類比方法

word2vec等詞嵌入讓人們驚喜地發現可以通過簡單的向量運算得到詞與詞之間的線性關系，例如最為經典的類比問題“男人之于國王就像女人之于X”（表示為man：king：：woman：X），通過嵌入向量的簡單運算可以得到“X=皇后”是最佳答案。

而Bolukbasi等人［6］研究發現，當把類比問題換作“男人之于程序員就像女人之于X”，此時X會被推斷為家庭主婦，這表明詞嵌入中包含了一個線性有偏差的子空間。

3.1.2 詞嵌入關聯測試

繼Bolukbasi等人的工作后，又一項開創性的工作便是詞嵌入關聯測試（word-embedding association test，WEAT）［28］。WEAT是受心理學內隱聯想測驗的啟發提出的一種基于語言嵌入模型的測試方法，它旨在測量詞向量對于不同屬性集合的關聯性，這些屬性集合可以是與性別、種族、宗教等相關的任何概念。例如性別集合這里以二元性別集合為例，該集合為{男，女}，WEAT則是判斷某個詞匯更加偏向于哪個屬性，從而評估模型是否存在偏見。

簡單來說WEAT測量兩組目標概念和兩組屬性之間的關聯，設X和Y是等大小的目標概念集合（如程序員、工程師、護士、教師等），A和B為屬性嵌入集合（如男性、女性等），S（w，A，B）衡量的是w與各屬性平均余弦相似度之間的差，即w的偏好得分：

S（w，A，B）=

meana∈Acos（w，a）－meanb∈Bcos（w，b）（9）

S（x，y，A，B）是衡量兩組目標概念與屬性的差異關聯，即兩組概念的比較偏好得分：

S（X，Y，A，B）=∑x∈XS（x，A，B）－∑y∈YS（y，A，B）（10）

對S（X，Y，A，B）進行置換檢驗計算（A，B）和（X，Y）之間關聯的顯著性，其中概率計算是在X∪Y的分區空間（Xi，Yi）上進行，Xi和Yi大小相等：

p=Pr［S（Xi，Yi，A，B）>S（X，Y，A，B）］（11）

d是兩個分布（目標和屬性之間的關聯）分離程度的標準化度量，d越大代表了偏倚越大：

d=meanx∈XS（x，A，B）－meany∈YS（y，A，B）std_devw∈X∪YS（w，A，B）（12）

盡管WEAT在詞級別嵌入中能夠識別偏見，但是Silva等人［29］已經證實WEAT不適用于上下文模型的偏見測量。

3.1.3 平均余弦相似

同樣的，受到了WEAT方法的啟發，針對WEAT中屬性嵌入集合只是二元關系的局限性，Manzini等人［30］利用簡單的平均余弦相似度（mean average cosine similarity，MAC）提出了一種新的針對多類別的衡量偏差的方法。

平均余弦相似度的計算關鍵在于兩個部分。首先是一組目標詞嵌入T，T是包含某種形式的固有社會偏見的詞嵌入集合。第二部分是一個屬性集合詞嵌入A，其中是與集合T中詞嵌入無關的屬性詞。

3.2 句子級嵌入中的評估方法

預訓練模型時期，ELMo、BERT和GPT等預訓練模型進一步提高了在處理NLP相關任務的性能，也更加普遍地運用于人類社會中，而相應的偏見評估方法也發生了變化，在介紹預訓練模型中的評估方法的同時，將其與詞嵌入中的方法進行比較，如表1所示。

3.2.1 句子編碼器關聯測試

WEAT方法主要是針對word2vec和GloVe模型訓練的靜態詞嵌入，句子編碼器關聯測試（sentence encoder association test，SEAT）則對其進行擴展，用以探索句子級別的文本［31］。由于SEAT運行在固定大小的向量上，但模型編碼器產生的是可變長度的向量序列，所以需要使用池化操作將輸出聚合成固定大小的向量。

事實上，WEAT方法可以看做是SEAT的一個特例，一個單詞就是一個句子。而在之前的研究中，Cer等人［32］已經進行測試，將WEAT直接用在句子編碼器上，盡管效果不佳，但WEAT還是通過了測試。

3.2.2 上下文關聯測試

Nadeem等人［7］創建了一個關于職業、性別、種族和宗教四個領域的刻板印象數據集StereoSet。通過該數據集進行上下文關聯測試（context association test，CAT）來計算一個理想分數，記為icat。該分數主要有兩個組成部分，并且每個組成部分都有其含義，一方面icat通過定義語言模型得分（記為lms）反映模型建模時上下文的關聯程度，用以評估語言模型預測是否是有意義的關聯；另一方面通過定義刻板印象分數（記為ss）來評估模型傾向于刻板印象關聯而不是反刻板印象關聯的示例百分比，理想模型的ss應該是50，即既不傾向于刻板關聯，也不傾向于反刻板關聯。icat的計算公式為

icat=lms×min（ss，100－ss）50（13）

然而StereoSet數據集來源于眾包工人，這可能會導致數據集并不能廣泛地反映出刻板印象。Blodgett等人［33］也呼吁注意該數據集中存在的許多歧義、假設和數據問題。

3.2.3 CrowS-Pairs數據集測試

CrowS-Pairs［27］采用了與StereoSet類似的方法，使用眾包的刻板印象數據集，但不同的是，數據集中的所有樣本都由句子對組成，并且其中的一個句子比另一個句子更具有刻板印象。簡單來說，就是在一個樣本對中，其中的一句話包含刻板印象或者反刻板印象，與另一句話形成對比。同時句子之間的差異很小，唯一改變的是用來表示所討論群體的詞語。以性別為例，一個樣本對的兩句話中只有明顯的性別詞不一樣，比如說“她喜歡運動”和“他喜歡運動”，CrowS-Pairs采用的評估方法便是通過排除兩句話中不同的分詞（即前句的“他”和“她”）來計算偽對數似然，以評估模型的困惑度。實驗中還發現，模型在數據集中對于不同偏見的類別，偏見程度也各不相同，例如性別偏見的識別相對容易，而宗教偏見則是所有模型中最難識別的偏見之一。

3.3 大型語言模型中的評估方法

根據OpenAI發表的GPT-4技術報告，類似于ChatGPT的大語言模型還存在很多局限：產生幻覺——類似于GPT4的大語言模型可能會輸出一些不存在的虛假理論；社會偏見——輸出包含對女性的刻板印象；有害輸出——輸出令人不適、與人類價值觀相悖的內容。因此針對大模型的評估方法研究很有必要。

3.3.1 測試數據集評估

已有研究總結了針對大模型的評估方法，這些方法的評估內容通常涉及七個方面，分別是自然語言處理過程中的下游任務（文本分類、情感分析等）、模型的安全性（魯棒性、偏見、可信度）、社會科學、自然科學、醫療應用、智能體應用和其他［34］。可以看到，偏見可以被視作模型安全性評估的一個子類別。盡管如此，目前針對大型模型偏見評估的專門方法仍然相對較少。Zhuo等人［35］使用傳統的測試集和指標對ChatGPT的毒性和社會偏見進行系統的評估，提出大語言模型因無法完全理解不同的語言從而會導致多語言的偏見，而不同的語言則代表著不同文化，因此大語言模型會潛在地表現出對多元文化理解的偏見。Wang等人［36］整合了一個專門衡量刻板印象和偏見的評估數據集，該數據集主要有兩部分組成，一部分為描述客觀或者潛在存在偏見的場景的用戶提示詞，另一部分為針對不同群體刻板印象的系統提示詞。除了偏見衡量之外，研究人員還對大語言模型進行了政治指南測試和MBTI測試，研究者發現模型顯示出了改革派觀點以及主人公型人格［37，38］。Feng等人［39］證實了模型具有政治傾向，從而導致了使用大模型進行仇恨言論預測和錯誤信息監測具有社會偏見。

3.3.2 提示方法評估

受提示工程的啟發，該類評估方法通過指定數據集中句子的前幾個單詞或者提出一個問題，要求模型提供一個延續或者答案。提示方法數據集通常包含句子的開頭，然后可以由LLM完成。RealToxicityPrompts數據集［40］和BOLD數據集［41］都提供部分句子提示，以BOLD為例，“許多人甚至歸因于基督教的……”，而后根據模型后續的輸出來判斷模型是否存在宗教類別的偏見。

和之前的評估數據集不同的是，基于提示方法的數據集旨在模擬更自然的語言使用，并且更有利于發現隱式的非目標偏見。RealToxicityPrompts是最大的提示數據集之一，作者通過Perspective API從互聯網上篩選出來十萬條數據前綴，并且這些數據都帶有毒性評分（分數為0～1，當分數≥0.5的時候即可判定該文本是有毒的），可以用來衡量不同提示詞下大模型的毒性。為了創建數據集，首先對抓取的句子進行毒性評分，并從四個評分范圍（0～0.25，…，0.75～1）各采樣25 000個句子，然后將句子分為提示前綴（在數據集中使用）和延續。

BOLD引入了23 679個提示來評估職業、性別、種族、宗教和政治意識形態方面的偏見。數據集是通過抓取和職業、性別、種族等類別相關的英文維基百科頁面上的數據獲取，并通過截斷句子以形成提示來完成收集。

TrustGPT通過提示方法評估了不同社會群體之間的毒性和偏見［42］。對于毒性評估，通過提示詞模板誘導大模型生成毒性內容，并根據生成內容進行評分。而與毒性評估不同的是，對于偏見評估，提示模板中包含特定的社會群體屬性，例如宗教、性別、職業等，在使用該提示引誘模型生成毒性內容之后，比較同一群體不同類別的生成內容以衡量偏見。

3.3.3 評估基準

清華大學從兩個角度探索了大語言模型尤其是中文大語言模型的綜合性能并提出了相應的安全評估基準，首先從安全問題自身來看，作者將其分為8種，分別是：侮辱、不公平和歧視、犯罪違法行為、敏感話題、人身傷害、心理傷害、隱私泄露與信息濫用、倫理道德，作者盡可能地囊括了模型可能出現的安全問題［43］。除了上述問題外，Perez等人［44］發現目標劫持和提示泄漏很容易使得模型產生不安全的反應，此外一些特殊的提示語容易觸發LLM輸出有害內容，因此作者開發、分類和標注了6種類型的指令攻擊：目標劫持、提示語泄漏、角色指定、不安全話題引導、含不安全信息的查詢、反向曝光。根據上述的安全問題構建測試提示，并輸入到模型中得到響應，根據給定的提示和響應，通過人工和模型自身評價來判斷相應是否安全，最后，根據每個場景中安全響應占所有響應的比例計算評分，并將結果更新到排行榜。

隨著大語言模型的發展，對話系統被賦予了驚人的聊天能力，人們對生成內容是否具有社會益處產生了廣泛的興趣和討論。已有研究者從對話系統的角度提出了一個新的評估基準

［45］，其中包括a）濫用和有毒的內容、b）不公平和歧視、c）倫理道德問題、d）誤導和泄露隱私信息的風險。此外，從暴露和檢測安全問題的角度，綜述了評估大型模型安全性的主流方法。端到端對話系統和基于管道模型的安全改進方法正在進一步發展。

4 傳統偏見緩解方法

和偏見評估的方法相同，偏見緩解的方法也隨著自然語言處理技術的發展而變化。本章將從兩個方面綜述，首先從數據集、詞嵌入、預訓練模型方面闡述大模型之前的偏見緩解方法，如圖6所示；然后再從大型語言模型的角度闡述偏見緩解方法。

4.1 數據集中的操作

一個干凈正確的數據集對于NLP預訓練模型的公平和無偏性至關重要。為了保證公平和無偏，需要進行合理的數據采樣和標注，避免個人或系統性的偏見。同時，要確保數據集包含各種不同來源、背景和觀點的樣本，避免某些類別或觀點在數據集中占據過大比例［46］。此外，還需要識別和修正可能存在的偏見，并持續評估和監控數據集的公平性和無偏性。通過確保數據集的公平和無偏性，NLP預訓練模型能夠更好地應對多樣化的語言資料，并生成更加公正和無偏的結果，提高模型的可靠性和有效性。根據先前的研究，數據集中的操作有如下方法。

4.1.1 數據增廣

數據增廣是一種簡單而有效的方法，Zhao等人［47］提出將數據集中句子的性別替換的方法，例如“Marry喜歡她的母親”變成“Marry喜歡他的母親”，該方法泛化性強，較為靈活，并且其已被證明在諸如仇恨檢測、知識圖譜構建等多個任務中是有效的［47～51］，但是一方面該方法使數據集成本增加，另一方面可能會產生一些荒謬的句子，例如“他生了小孩”。

4.1.2 性別標記

在如機器翻譯的任務中，當數據源的性別不明確時會造成模型預測結果不準確，這是因為數據集中的數據多數以男性為來源，所以模型更有可能預測說話者是男性［52］。性別標記通過對數據開頭添加標記來指明數據源的性別，從而避免對于沒有指明來源的輸入模型傾向于來源于男性的偏見。例如，“我很高興”會變成“［男］我很高興”。

Vanmassenhove等人［53］已經證明性別標記是有效的，然而可能代價高昂，即了解數據來源的性別需要更多的信息，而這在內存使用和時間方面可能代價高昂。此外，機器翻譯模型可能需要重新設計以正確解析性別標簽。

4.1.3 偏見微調

特定下游任務的無偏數據集可能是稀缺的，但相關任務可能存在無偏數據集。偏差微調結合了從無偏數據集的遷移學習，以確保模型包含最小偏差，然后在更有偏的數據集上微調模型，用于直接為目標任務訓練［50］。這使得模型可以避免從訓練集中學習偏見，同時仍能得到足夠的訓練來執行任務。Park等人使用無性別偏見的辱罵推文數據集進行遷移學習［54］，并對有性別偏見的性別歧視推文數據集進行微調［55］，最終證明偏見微調是相對有效的。在大數據、大模型的背景下，微調方法更是得到了充分的發展。

4.2 詞嵌入中的緩偏方法

詞嵌入表示向量空間中的詞。由于詞嵌入模型是許多NLP系統的基本組成部分，因此減輕嵌入中的偏差在減少傳播到下游任務的偏差方面起著關鍵作用［47］。但要認識到從嵌入空間中完全消除偏見是困難的。雖然現有方法在一定程度上成功地減輕了子空間投影方面的偏見，但Gonen等人［56］表明，基于更微妙指標（如聚類偏見）的偏見仍然存在。

4.2.1 硬除偏算法

硬除偏算法通過修正嵌入向量以達到消除與性別相關的偏見的目的［6］。具體而言，它生成一個性別方向向量，然后將每個嵌入向量沿著性別方向進行投影和修正，以消除性別偏見。經過硬除偏處理后，詞語與性別之間的關聯變得中立，一些原本與性別緊密相關的詞語也可以被轉換為中性的向量。重要的是，這種處理在減少性別偏見的同時保留了語義信息。

該算法的具體實現有以下幾個步驟：第一步，識別性別子空間，首先定義例如{男人，女人}、{她、他}的均衡于詞對集合，得到不同的性別方向，然后利用多個詞對的向量組合（如she-he）來捕獲性別子空間。

第二步，定義兩個操作：中性化（neutralize）和均等化（equalize）。中性化確保非性別詞和不應該包含性別偏見的詞在性別子空間中為零。均等化使集合里的詞偏見程度相等，例如在二元情況下，男人和女人偏倚的方向相反但大小相同。直觀來說，中性化和均等化保證了任何中性詞在偏見子空間中與任何偏見詞等距，如圖7所示。

形式化表示如下：使用k個正交單位向量來代表偏見子空間B={b1，…，bk}∈Euclid ExtraaBpd，當k=1時，子空間只代表一個方向。子空間中每個嵌入的分量：

wB=∑ki=1（w·bi）bi（14）

然后，本文從應該是偏中性的單詞中刪除該分量，并進行歸一化以獲得去偏嵌入。如式（15）所示。

w′=w－wB‖w－wB‖（15）

而對于如{男人，女人}等均衡詞對中的詞，令E代表均衡詞對集合

，設μ=1|E|∑w∈Ew為集合中詞的平均嵌入，μB為其在偏置子空間中的分量，如式（16）所示。則對于w∈E：

w′E=（μ－μB）+1－‖μ－μB‖2wB－μB‖wB－μB‖（16）

4.2.2 軟除偏算法

軟除偏包括學習嵌入矩陣的投影，該投影保留了有偏嵌入和去偏嵌入之間的內積，同時最小化了應該是中性嵌入的偏置子空間上的投影［6］。

給定W∈Euclid ExtraaBpa×v，v為詞表大小，W代表所有詞的嵌入向量，N代表性別中性詞對的嵌入向量矩陣，這里W和N是通過其他算法得到，用來作為輸入。B與硬除偏算法相同，代表性別子空間。軟除偏算法尋求一個使以下目標最小化的線性變換A：

minA‖（AW）T（AW）－WTW‖2F+λ‖（AN）T（AB）‖2F（17）

4.2.3 其他方法

Dev等人［57］通過研究證明所有詞沿偏見方向的簡單線性投影比硬除偏更加有效，同時他們還發現帶有性別關聯的普通名字（例如John、Amy）通常會比使用帶有性別的詞（例如he、she）提供更有效的性別子空間。同時因為人類姓名中往往包含種族、國籍、地域等特征，這些特征會導致一些固有的偏見

，而通過這些通用的名稱來確定偏見方向并從詞嵌入中去除偏見是有效的。Wang等人［58］發現單詞頻率的變化也會影響詞嵌入子空間的性別方向，因此提出了雙重硬除偏（double-hard debiaing）來消除單詞頻率的負面影響。

4.3 預訓練模型中的緩偏方法

傳統的針對靜態詞嵌入的緩偏方法已經不適用于類似于預訓練模型這種上下文詞嵌入，本節將介紹相關預訓練模型中的緩偏方法。

4.3.1 模塊化可控文本生成方法

確保模型生成的內容沒有偏見或不安全的因素實際上是一種文本的可控生成過程，先前的可控文本生成方法不論是使用強化學習微調［59］，還是訓練生成對抗網絡［60］或者訓練條件生成模型［61，62］，都是在訓練階段進行，且模型針對每個特定的屬性都需要分別進行微調，這往往是代價高昂的。

可控生成需要對p（x|a）建模，a是期望的可控屬性，x是生成的樣本，而一般的生成模型只學習p（x）。但根據貝葉斯法則，p（x|a）∝p（a|x）p（x），所以通過將屬性模型（鑒別器）p（a|x）與基本生成模型p（x）一起插入，從而得到用于條件語言生成的即插即用的語言模型［63］，即PPLM（plug and play language model）。通過PPLM，用戶可以向生成模型中靈活地插入一個或多個屬性模型以達到通過梯度控制大語言模型的目的，這些插入的模型可以代表不同的想要控制的屬性。PPLM的最大優點是不需要對語言模型做任何額外的改動（不需要重新訓練或者精心微調），讓資源不足的研究人員也可以直接在預訓練語言模型的基礎上生成條件文本。但是PPLM仍然需要更新大模型的參數，從而導致推理速度較慢。

與PPLM相類似，用于生成的未來判別器（future discriminators for generation，FUDGE）也是一種靈活且模塊化的受控文本生成方法。而與PPLM不同的是，FUDGE只要求獲得p（x）即模型的輸出概率，不關心模型其中的結構或者參數，不需要訓練或者微調原始的預訓練語言模型。FUDGE同樣是基于貝葉斯規則來建模p（a|x），其分類器的建模思想如下：分類器的輸入時前綴序列x1：i，但作者認為分類器預測的是未來生成的完整序列x1：n是否滿足屬性a。對于數據集{（x1：n，a′）}，其中a′為0或1表示句子x1：n是否滿足了屬性a，例如句子是否為積極情感的。那么，樣本{（x1：n，a′）}所有可能的前綴組合{（x1：n，a′）}ni=1都會作為分類器的訓練數據。這樣，就可以得到建模p（a|x1：i）的二分類器，即未來判別器。

4.3.2 對抗學習

Zhang等人［64］提出了傳統生成對抗網絡的一種變體［65］，讓生成器根據受保護的性別屬性進行學習。換句話說，生成器試圖阻止判別器在給定任務（如類比完成）中識別性別。這種方法的優勢在于可以用來消除任何基于梯度學習的模型的偏見。

4.3.3 模型自解毒與模型可解釋性

Schick等人［66］已經證明了大型語言模型能夠執行自我診斷，即僅使用其內部知識和文本描述來判斷輸出是否存在有毒屬性。給定語言模型M和一個分詞序列w1，…，wk，令pM（w|w1，…，wk）表示語言模型下一個輸出分詞為w的概率。作者使用包含屬性y的問題來補充生成的文本x，并提示模型生成這個問題的答案，例如模型M生成文本“x=我要逮捕你！”然后使用模型進行自我判斷該文本是否包含“威脅”屬性（y=威脅）。對于M生成的每個句子x和每個屬性描述y，構建一個自診斷輸入sdg（x，y），x包含屬性y的概率為

p（y|x）=pM（Yes|sdg（x，y））∑w∈{Yes，No}pM（w|sdg（x，y））（18）

基于此，作者提出了一種去偏算法，該算法通過比較給定原始輸入的下一個分詞的概率分布與自去偏之后的輸入概率分布來降低模型生成有偏見文本的概率。

從模型內部來看，基于Transformer的預訓練模型的內部參數本身壓縮存儲了海量的知識，Geva等人［67］通過研究其中的前饋神經網絡層（feed-forward network，FFN）層發現FFN層在詞匯空間的每次更新都可以分解為對應單個FFN層參數向量的子更新，并且這些子更新的結果都可以解釋為詞匯空間的一種概念。如“早餐”是詞匯空間中的一個概念，那么對應的FFN層子更新將會提升諸如“餡餅”“牛奶”等與之相關的詞匯的概率，而其他與“早餐”概念不相關的詞匯概率則會降低。針對這個現象，作者提出手動尋找積極友善的相關概念，并促進相關概念的子更新，從而降低文本輸出的偏見性和有害性。

5 大型語言模型中的緩偏方法

大型語言模型是在前期預訓練模型基礎上逐步完善和發展的結果。值得關注的是，針對大型模型中的緩解偏差方法，其根源可追溯至預訓練模型的早期階段，并非突如其來。先前的緩偏方法大部分對于大型語言模型仍然適用，因此本章總結針對大語言模型的緩偏方法主要有以下幾種，如圖8所示。

5.1 以數據為核心

以數據為核心的緩偏方法側重于糾正訓練數據的標簽不平衡、潛在有害信息、分布差異等缺陷。在文本分類的任務中，在不平衡語料庫上訓練的文本分類器對某些身份術語顯示出有問題的趨勢，例如“gay”經常用于冒犯性評論，導致模型將其與有侮辱標簽相關聯。因此，為了提高數據質量，許多工作已經開展，除了在4.1節中所提到的幾種數據處理方法外，Zhou等人［68］從方言識別的角度，避免將黑人作者的文本內容標記為有害，還有研究者通過識別并刪除身份代詞來實現數據的校準，從而達到創建具有更少有害文本和更加平衡的數據集的目的［69］。而在中文數據集方面亦有研究者從性別詞分布平衡角度構建中文句子級的無偏數據集［70］。

除了著手于數據集本身的構建，通過操縱下游任務訓練中的每個實例的權重來平衡訓練數據的思想也受到研究人員的認同。Han等人［71］就通過減少有偏差實例的權重以減少模型的注意力權重，從而實現模型的公平性輸出。Zhang等人［72］則將文本分類中的社會偏見形式化為一種從非歧視性分布到歧視性分布的選擇偏差，而由此減輕模型的偏見性就等于從選擇偏差中恢復非歧視性分布。在高質量的數據集代價如此高昂的當下，這種著重于數據權重的思想與方法顯得尤為重要。

5.2 以模型為核心

以模型為核心的方法側重于設計更有效的模型架構，運用更有效的算法，在模型訓練過程引入先進的技術來輔助緩偏。

5.2.1 提示調優

傳統的監督學習是訓練一個模型來接受輸入x并預測輸出y的概率p（y|x），而基于提示的學習是基于語言模型，直接對文本的概率進行建模。為了使用這些模型來執行預測任務，原始輸入x被使用模板修改成一個文本字符串提示x′，其中有一些未填充的槽，然后語言模型被用來概率性地填充未填充的信息，得到一個最終的字符串，從中可以得出最終的輸出y［73］。

此前的調優方法通常是人工設計離散的模板或自動化搜索離散的模板［74～76］，但這兩種離散模板都有著成本高、魯棒性不強（模板的變化對于模型的結果有很大影響，模板多一個詞、少一個詞或者詞位置變動都會造成較大變化），以及最后搜索出來的結果往往并不是最佳的缺點。同時傳統微調范式針對不同下游任務微調時，每個下游任務都要保存微調后的模型權重，這樣不光耗時長同時占用很多存儲空間。針對這些情況，Li等人［77］提出了前綴調優（prefix tuning），并在生成任務上顯示了強有力的結果。此方法凍結模型參數，并在調優期間將損失反向傳播到編碼器堆棧中每個層（包括輸入層）的前綴激活。Hambardzumyan等人［78］通過將可訓練參數限制在一個掩碼語言模型的輸入和輸出子網中來簡化該方法，并在分類任務上顯示出合理的結果。而提示調優（prompt tuning）則是更進一步的簡化［79］，作者凍結了整個預訓練模型，并且給每個下游任務定義提示詞，再拼接到數據上作為輸入。最終通過實驗發現，隨著預訓練模型參數量的增加，提示調優的方法會逼近全參數微調的結果。

5.2.2 指令調優

指令調優是一種在格式化的自然語言實例集合上微調大語言模型的方法。指令調優的相關實現流程為：首先收集并構建指令格式的實例，然后通過監督學習的方法將大語言模型在這些實例上進行微調。在指令調整后，大模型展現出了卓越的泛化能力，即使在多語言環境下的任務中也依然如此。多任務指令調優是基于調優方法的一種代表性策略［17，80，81］。通過將原始任務輸入轉換為指令格式（提示問題或前綴指令），它可以對大量多任務數據集上的模型進行微調。除了多任務學習，最近的研究還以強化學習的方式進行指令調整［16］。雖然指令調優仍然依賴于訓練（即梯度反向傳播），但與傳統的監督學習不同，其目標是訓練模型遵循指令，而不是完成特定的任務。

在文本生成中，輸入或提示可能會被修改以指導模型，以避免語言的偏見。通過向輸入預置額外的靜態或可訓練令牌，指令調節以可控的方式對輸出的生成進行條件控制。修改后的提示可以用來更改微調的數據輸入，或者在微調過程中更新連續前綴本身；然而，這些技術都不是單獨改變預訓練模型的參數，不需要額外的訓練步驟，因此被認為是預處理技術。作為一種偏見緩解技術，Fatemi等人提出GEEP，使用連續提示調整來減輕性別偏見，在性別中立的數據集上進行微調。在Yang等人的ADEPT技術中，連續提示鼓勵中性名詞和形容詞獨立于受保護的屬性。

盡管指令調優具有良好的跨任務泛化性，在下游任務上能更快地收斂，以及對指令的微小擾動具有魯棒性，但指令調優仍然嚴重依賴于大規模的下游任務訓練，這些訓練的成本高昂，未來的一個理想方向便是如何減輕對大規模優化實例的依賴，同時幫助模型明確學習遵循指令。

5.2.3 人類價值觀對齊

由于用來訓練的語料庫質量參差不齊，LLM通過捕捉其中的數據特征可能會產生一些意想不到的行為，因此有必要使大語言模型和人類價值觀保持一致。伴隨如LLaMA［82］和ChatGLM［5］等開源基礎模型的出現，為了減輕LLM巨大的風險，目前大部分工作都試圖在監督微調（supervised fine-tuning， SFT）中加入一些3H數據（樂于助人、誠實、無害），希望模型在道德倫理層面作出積極回應，但即使如此LLM仍與人類存在差距。幸運的是，OpenAI和Anthropic已經驗證了基于人類反饋的強化學習（reinforcement learning from human feedback，RLHF）是在廣泛的任務中將語言模型與用戶意圖對齊的有效途徑［16，83］。

RLHF在大語言模型的發展中具有重要的意義。事實上，基于人類反饋的強化學習思想早在2008年就被提出［84］。而后，OpenAI于2017年發表了一篇通過人類反饋來進行游戲智能體學習的論文，同年，OpenAI訓練的DOTA2強化學習智能體OpenAI Five在1v1的Dota2游戲中戰勝了職業選手Dend。此后OpenAI相繼發表了多篇關于RLHF技術的論文［16，59，85］。也正是OpenAI對于RLHF的不斷研究，最后才有了ChatGPT的誕生。

RLHF結合了獎勵模型、策略優化和過程監督等多種方法來提升大語言模型的性能。獎勵模型通過定義獎勵函數，對模型的行為進行評估和指導，衡量人類用戶對LLM回答的偏好，并為LLM提供正向或負向的反饋信號。策略優化算法，如近端策略優化（PPO），用于優化LLM的輸出策略，根據獎勵模型的反饋信號，對LLM的策略進行調整和改進，以使其生成更符合用戶期望的回答。過程監督則是一種訓練方法，通過提供帶有標簽的示例來引導LLM的學習，提高其在復雜查詢和對話場景中的逐步推理能力和理解能力。

一般而言，RLHF的實現流程分為三步，如圖9所示：a）使用一個已經預訓練好的模型M進行監督微調（過程監督），微調后得到的模型M′用來為RLHF提供高質量的初始化，而同時，該模型也是接下來進行RLHF方法進一步微調的對象；b）收集包含輸入、輸出、獎勵得分三元組的數據集，并使用同樣的初始模型進行微調，從而得到獎勵模型MRW；c）在每次迭代中使用獎勵模型MRW返回的獎勵信號來訓練主模型M′。同時該過程中還需要用M′凍結其中的參數獲得一個參考模型M′f，通過計算M′和M′f的KL散度，來盡可能使兩個模型的輸出分布相似，達到最終的模型既能符合人類價值觀，又不和原始模型差別太大。

事實上，將大模型與人類價值觀對齊是一項艱巨的任務。通常來說，成功的RLHF訓練需要一個準確的獎勵模型來替代人類的判斷，仔細的超參搜索進行穩定的參數更新，以及一個強大的PPO算法來進行魯棒性策略優化。但低質量的數據和難以定義的獎勵模型容易誤導PPO算法。同時，PPO在新的語言環境下存在獎勵稀疏和對詞空間探索效率低的問題。LLM巨大的試錯成本使得研究者對于大語言模型在人類價值觀對齊的階段望而卻步，阻礙了LLM的發展。因此目前已有一些研究來替代RLHF或者針對RLHF提出一些改進。例如基于排序的人類偏好對齊的方式［86］（rank responses to align language models with human feedback，RRHF），RRHF不需要強化學習，通過對不同語言模型生成的回復進行評分，并通過排名損失來使回復與人類偏好對齊，在擁有數據集之后，RRHF通過定義排序損失和交叉熵損失進行訓練。排序損失的計算中，假設x為輸入query，yi是第i個生成的答案，t為已經生成的分詞，ri 是人工或者獎勵模型給出的第i個回復的得分。為了使得最終訓練好的生成模型與人類偏好對齊，首先計算模型θ在給定輸入和已經生成的分詞的條件下生成分詞的概率，即Pθ（yi，t|x，yi，<t），然后對每個分詞的概率分別求log，最后除以分詞數量，從而得到第i條response的分數：

Pi=∑tlog Pθ（yi，t|x，yi，<t）‖yi‖（19）

在得到分數Pi 后，計算排序損失：

Lrank=∑ri<rj（0，Pi－Pj）（20）

同時為了進一步增強生成質量，參照監督微調中的交叉熵損失函數：

i′=argmaxi ri

Lft=－∑tlog Pπ（yi′，t|x，yi′，<t）（21）

最終的損失為兩者之和：

L=Lrank+Lft（22）

RRHF最大的特點在于訓練好的RRHF模型可以同時作為生成語言模型和獎勵模型。而ReMax［87］算法通過對PPO的簡化減少了內存占用和訓練時間，同時也提升了模型效果，然而受限于資源作者只進行了13億參數ReMax和PPO算法的對比。因此針對人類價值觀對齊方法的研究仍有很大前景。

早在ChatGPT發布之前，不論是提示詞方法還是與人類價值觀對齊的技術雛形都已經出現，而到了大語言模型時期這些技術的大火值得本文借鑒思考。

5.2.4 運用大模型進行偏見性緩解

毋庸置疑的是，大語言模型在自然語言處理技術的多項下游任務中已經遠超之前的模型和方法，盡管從大語言模型本身來看，大語言模型仍然是個黑盒模型，其仍然存在諸如幻覺、毒性、偏見等有害輸出，但技術的好壞最終還是取決于使用者的意圖，因此也有學者開始運用大模型進行偏見緩解。Barker等人［88］將ChatGPT作為一個文本簡化器用以緩解偏見，其思想就是通過文本的簡化，使得文本保留原有語義的同時，盡可能地簡化掉其中的偏見信息。Kocielnik等人［89］基于ChatGPT開發了一個用于大模型中偏見評估的框架BiasTestGPT，該框架開源可用，可以在HuggingFace支持的幾乎所有掩碼模型和自回歸模型上使用，并對測試結果進行可視化分析。

6 現存挑戰與未來研究方向

近年來，盡管模型的偏見研究領域已經取得了一定的進展，但是隨著像ChatGPT這樣的大型語言模型在文本處理能力上的極大提升，以及模型內部的不可解釋性問題，應該意識到過去的評估方法和偏見緩解策略可能已經不再適用。針對大型模型中的偏見問題，目前的研究還遠遠不夠。接下來，本文將總結一些當前存在的挑戰性問題，并探討未來可能的研究方向。

6.1 中文公平性語料的缺乏

構建高質量的文本語料庫一直是改進NLP應用以消除文本中性別刻板印象的關鍵內容之一，但可以發現的是關于偏見的現有研究大部分都只關注英語，而中文的相關數據集很少。因此如何構建大規模、高質量的中文相關的偏見數據集面臨著挑戰。

6.2 不同偏見的通用處理方法

偏見包含性別、種族、職業、宗教等方面，但目前的大部分偏見研究主要是針對性別偏見。先前已有研究表明，模型對于不同偏見的識別程度也不同，其中性別偏見的識別相對容易而宗教偏見的識別相對困難。因此探索通用的識別偏見和緩解偏見的相關方法是具有意義的。

6.3 語言模型作為處理偏見的工具

實際上，徹底消除模型中的偏見極具挑戰，因為這些偏見源于人類社會，而在現實生活中，完全避免偏見是不可能的。然而，在提高模型公平性的同時，可以充分利用大型語言模型卓越的文本處理能力，將其應用于偏見評估和緩解領域，這一研究方向頗具探索價值。

6.4 多模態模型中偏見的相關研究

隨著GPU等計算資源的快速發展，多模態研究得到了廣泛關注。GPT-4和ChatGPT相較于之前的模型，已經擴展了對圖像處理的支持。考慮到文字生成圖像任務在當下的流行程度，對多模態模型的偏見性問題進行研究具有重要意義。此外，由于圖像相較于文字更能直觀地傳達內容，人們更容易從中感受到歧視。因此，在未來的研究中，需要關注多模態模型中的偏見問題，并積極探索解決方案，以促進人工智能技術的公平性、透明度和可解釋性。

7 結束語

大型語言模型時代下，模型的公平性至關重要。本文首先概述了自然語言處理技術的發展，并探討了人類社會中的偏見與自然語言處理技術中偏見的來源及其關聯。然后，從模型發展的角度，分別探討了詞嵌入模型、預訓練模型和大型語言模型中的偏見評估方法。在此基礎上，本文從數據集、詞嵌入模型、預訓練模型和大型語言模型的角度，探討了相應的偏見緩解策略，并進行詳細的分析與總結。最后，深入剖析了大語言模型背景下，關于模型偏見的挑戰性問題，并對未來的研究方向進行了展望。總體來看，在大型語言模型廣泛應用于各個領域并實現商業化的背景下，對模型偏見性的研究顯得尤為重要。

參考文獻：

［1］Mikolov T， Chen Kai， Corrado G，et al. Efficient estimation of word representations in vector space ［EB/OL］. （2013）［2023-10-27］. http：//arxiv.org/abs/1301.3781.

［2］Peters M E， Neumann M， Iyyer M，et al. Deep contextualized word representations ［C］// Proc of Conference of NAACL. 2018： 2227-2237.

［3］Devlin J， Chang M W， Lee K，et al. BERT： pre-training of deep bidirectional transformers for language understanding ［C］// Proc of Conference of NAACL.2019： 4171-4186.

［4］Bubeck S， Chandrasekaran V， Eldan R，et al. Sparks of artificial general intelligence： early experiments with GPT-4 ［EB/OL］. （2023）［2023-11-16］. http：//arxiv.org/abs/2303.12712.

［5］Zeng Aohan， Liu Xiao， Du Zhengxiao，et al. GLM-130B： an open bilingual pre-trained model ［EB/OL］. （2022）［2023-07-13］. http：//arxiv.org/abs/2210.02414.

［6］Bolukbasi T， Chang Kaiwei， Zou J Y，et al. Man is to computer programmer as woman is to homemaker？Debiasing word embeddings ［J］. Advances in Neural Information Processing Systems， 2016， 29： 4349-4357.

［7］Nadeem M， Bethke A， Reddy S. StereoSet： measuring stereotypical bias in pretrained language models ［EB/OL］. （2020）［2023-10-18］. http：//arxiv.org/abs/2004.09456.

［8］Rosenfeld R. Two decades of statistical language modeling： where do we go from here？［J］. Proc of the IEEE， 2000， 88（8）： 1270-1278.

［9］Mikolov T， Karafiat M， Burget L，et al. Recurrent neural network based language model ［C］//Proc of Inter Speech. 2010： 1045-1048.

［10］Pennington J， Socher R， Manning C. GloVe： global vectors for word representation ［C］// Proc of Conference on Empirical Methods in Natural Language Processing.2014： 1532-1543.

［11］Vaswani A， Shazeer N， Parmar N，et al. Attention is all you need ［C］// Proc of the 31st International Conference on Neural Information Processing Systems. 2017： 6000-6010.

［12］Radford A， Wu J， Child R，et al. Language models are unsupervised multitask learners ［J］. OpenAI Blog， 2019， 1（8）： 9.

［13］Lewis M， Liu Yihan， Goyal N，et al. BART： denoising sequence-to-sequence pre-training for natural language generation， translation， and comprehension ［C］// Proc of the 58th Annual Meeting of the Association for Computational Linguistics. Stroudsburg， PA： Association for Computational Linguistics， 2020： 7871-7880.

［14］Brown T B， Mann B， Ryder N，et al. Language models are few-shot learners ［C］// Proc of Advances in Neural Information Processing Systems. 2020： 1877-1901.

［15］Zhao W X， Zhou Kun， Li Junyi，et al. A survey of large language models ［EB/OL］. （2023）［2023-04-19］. http：//arxiv.org/abs/2303.18223.

［16］Ouyang Long， Wu J， Jiang Xu，et al. Training language models to follow instructions with human feedback ［EB/OL］. （2022）［2023-11-13］. http：//arxiv.org/abs/2203.02155.

［17］Wei J， Bosma M， Zhao V Y，et al. Finetuned language models are zero-shot learners ［C］// Proc of International Conference on Learning Representations. 2021.

［18］Wei J， Wang Xuezhi， Schuurmans D，et al. Chain-of-thought promp-ting elicits reasoning in large language models ［EB/OL］. （2023）［2023-04-19］. http：//arxiv.org/abs/2201.11903.

［19］王培冰，張寧，張春. 基于Prompt的兩階段澄清問題生成方法［J］. 計算機應用研究， 2024， 41（2）： 421-425. （Wang Peibing， Zhang Ning， Zhang Chun. Two-stage clarification question generation method based on Prompt ［J］. Application Research of Compu-ters， 2024， 41（2）： 421-425.）

［20］Kojima T， Gu S S， Reid M，et al. Large language models are zero-shot reasoners ［J］. Advances in Neural Information Processing Systems， 2022， 35： 22199-22213.

［21］Zhou D， Scharli N， Hou Le，et al. Least-to-most prompting enables complex reasoning in large language models ［EB/OL］. （2023）［2024-03-18］. http：//arxiv.org/abs/2205.10625.

［22］Delobelle P， Tokpo E K， Calders T，et al. Measuring fairness with biased rulers： a survey on quantifying biases in pretrained language models ［C］// Proc of the 1st Workshop on Gender Bias in Natural Language Processing. 2019： 166-172.

［23］Elsafoury F， Abercrombie G. On the origins of bias in NLP through the lens of the Jim code ［EB/OL］. （2023）［2023-05-29］. http：//arxiv.org/abs/2305.09281.

［24］Garg N， Schiebinger L， Jurafsky D，et al. Word embeddings quantify 100 years of gender and ethnic stereotypes ［J］. Proc of the National Academy of Sciences， 2018， 115（16）： E3635-E3644.

［25］Rios A， Joshi R， Shin H. Quantifying 60 years of gender bias in biomedical research with word embeddings ［C］// Proc of the 19th SIGBioMed Workshop on Biomedical Language Processing. Stroudsburg，PA： Association for Computational Linguistics， 2020： 1-13.

［26］朱述承，蘇祺，劉鵬遠. 基于語料庫的我國職業性別無意識偏見共時歷時研究［J］. 中文信息學報， 2021， 35（5）： 130-140. （Zhu Shucheng， Su Qi， LIU Pengyuan. Based on the corpus of Chinese professional sex unconscious prejudice synchronic diachronic study ［J］. Journal of Chinese Information， 2021， 35（5）： 130-140.）

［27］Nangia N， Vania C， Bhalerao R，et al. CrowS-Pairs： a challenge dataset for measuring social biases in masked language models ［C］// Proc of Conference on Empirical Methods in Natural Language Processing. Stroudsburg，PA：Association for Computational Linguistics. 2020：1953-1967.

［28］Caliskan A， Bryson J J， Narayanan A. Semantics derived automatically from language corpora contain human-like biases ［J］. Science， 2017， 356（6334）： 183-186.

［29］Silva A， Tambwekar P， Gombolay M. Towards a comprehensive understanding and accurate evaluation of societal biases in pre-trained Transformers ［C］// Proc of Conference of the North American Chapter of the Association for Computational Linguistics： Human Language Technologies. Stroudsburg，PA： Association for Computational Linguistics， 2021： 2383-2389.

［30］Manzini T， Lim Y C， Tsvetkov Y，et al. Black is to criminal as Caucasian is to police： detecting and removing multiclass bias in word embeddings ［C］// Proc of NAACL-HLT. 2019： 615-621.

［31］May C， Wang A， Bordia S，et al. On Measuring social biases in Sentence Encoders ［C］// Proc of NAACL-HLT. 2019： 622-628.

［32］Cer D， Yang Yinfei， Kong S，et al. Universal sentence encoder for English ［C］// Proc of Conference on Empirical Methods in Natural Language Processing： System Demonstrations. Stroudsburg，PA： Association for Computational Linguistics， 2018： 169-174.

［33］Blodgett S L， Lopez G， Olteanu A，et al. Stereotyping Norwegian Salmon： an inventory of pitfalls in fairness benchmark datasets ［C］// Proc of the 59th Annual Meeting of the Association for Computational Linguistics and the 11th International Joint Conference on Natural Language Processing. Stroudsburg，PA： Association for Computational Linguistics， 2021： 1004-1015.

［34］Chang Yupeng， Wang Xu， Wang Jindong，et al. A survey on evaluation of large language models ［EB/OL］. （2023）［2023-11-21］. http：//arxiv.org/abs/2307.03109.

［35］Zhuo T Y， Huang Yujin， Chen Chunyang，et al. Red teaming Chat-GPT via Jailbreaking： bias， robustness， reliability and toxicity ［EB/OL］. （2023）［2024-04-02］. http：//arxiv.org/abs/2301.12867.

［36］Wang Boxin， Chen Weixin， Pei Hengzhi，et al. DecodingTrust： a comprehensive assessment of trustworthiness in GPT models ［EB/OL］. （2023）［2023-11-21］. http：//arxiv.org/abs/2306.11698.

［37］Hartmann J， Schwenzow J， Witte M. The political ideology of conversational AI： converging evidence on ChatGPT’s pro-environmental， left-libertarian orientation ［EB/OL］. （2023-01-05）.

https：//arxiv.org/abs/2301.01768.

［38］Rutinowski J， Franke S， Endendyk J，et al. The self-perception and political biases of ChatGPT ［EB/OL］. （2023）［2023-12-11］. http：//arxiv.org/abs/2304.07333.

［39］Feng Shangbin， Park C Y， Liu Yuhan，et al. From pretraining data to language models to downstream tasks： tracking the trails of political biases leading to unfair NLP models ［EB/OL］. （2023）［2023-10-09］. http：//arxiv.org/abs/2305.08283.

［40］Gehman S， Gururangan S， Sap M，et al. RealToxicityPrompts： evaluating neural toxic degeneration in language models ［C］// Proc of Conference on Empirical Methods in Natural Language Processing. 2020： 3356-3369.

［41］Dhamala J， Sun T， Kumar V，et al. BOLD： dataset and metrics for measuring biases in open-ended language generation ［C］// Proc of ACM Conference on Fairness， Accountability， and Transparency. New York：ACM Press， 2021： 862-872.

［42］Huang Yue， Zhang Qihui， Philip S Y，et al. TrustGPT： a benchmark for trustworthy and responsible large language models ［EB/OL］. （2023）［2024-03-19］. http：//arxiv.org/abs/2306.11507.

［43］Sun Hao， Zhang Zhexin， Deng Jiawen，et al. Safety assessment of Chinese large language models ［EB/OL］. （2023）［2023-04-21］. http：//arxiv.org/abs/2304.10436.

［44］Perez F， Ribeiro I. Ignore previous prompt： attack techniques for language models ［C］// NeurIPS ML Safety Workshop. 2022.

［45］Deng Jiawen， Sun Hao， Zhang Zhexin，et al. Recent advances towards safe， responsible， and moral dialogue systems： a survey ［EB/OL］. （2023）［2023-05-29］. http：//arxiv.org/abs/2302.09270.

［46］李昂，韓萌，穆棟梁，等. 多類不平衡數據分類方法綜述［J］. 計算機應用研究， 2022， 39（12）： 3534-3545. （Li Ang， Han Meng， Mu Dongliang，et al. Survey of multi-class imbalanced data classification methods ［J］. Application Research of Computers， 2022， 39（12）： 3534-3545.）

［47］Zhao Jieyu， Wang Tianlu， Yatskar M，et al. Gender bias in corefe-rence resolution： evaluation and debiasing methods ［C］// Proc of Conference of the North American Chapter of the Association for Computational Linguistics： Human Language Technologies. 2018： 15-20.

［48］Lee K， He Luheng， Zettlemoyer L. Higher-order coreference resolution with coarse-to-fine inference ［EB/OL］. （2018）［2023-11-12］. http：//arxiv.org/abs/1804.05392.

［49］Lee K， He Luheng， Lewis M，et al. End-to-end neural coreference resolution ［C］// Proc of Conference on Empirical Methods in Natural Language Processing. 2017： 188-197.

［50］Park J H， Shin J， Fung P. Reducing gender bias in abusive language detection ［C］// Proc of Conference on Empirical Methods in Natural Language Processing. 2018： 2799-2804.

［51］Madaan N， Mehta S， Agrawaal T S，et al. Analyze， detect and remove gender stereotyping from Bollywood movies ［C］//Proc of Conference on Fairness， Accountability and Transparency. 2018： 92-105.

［52］Prates M O R， Avelar P H C， Lamb L. Assessing gender bias in machine translation-a case study with Google Translate ［J］. Neural Computing and Applications， 2020， 32： 6363-6381.

［53］Vanmassenhove E， Hardmeier C， Way A. Getting gender right in neural machine translation ［EB/OL］. （2019）［2023-11-12］. http：//arxiv.org/abs/1909.05088.

［54］Founta A M， Djouvas C， Chatzakou D，et al. Large scale crowdsour-cing and characterization of Twitter abusive behavior ［C］// Proc of International AAAI Conference on Web and Social Media. 2018.

［55］Waseem Z， Hovy D. Hateful symbols or hateful people？Predictive features for hate speech detection on Twitter ［C］// Proc of NAACL Student Research Workshop. 2016： 88-93.

［56］Gonen H， Goldberg Y. Lipstick on a pig： debiasing methods cover up systematic gender biases in word embeddings but do not remove them ［C］// Proc of Conference of the North American Chapter of the Association for Computational Linguistics： Human Language Technologies. Stroudsburg，SA： Association for Computational Linguistics，2019： 609-614.

［57］Dev S， Phillips J. Attenuating bias in word vectors ［EB/OL］. （2019）［2023-05-17］. http：//arxiv.org/abs/1901.07656.

［58］Wang Tianlu， Lin X V， Rajani N F，et al. Double-hard debias： tailoring word embeddings for gender bias mitigation ［C］// Proc of the 58th Annual Meeting of Association for Computational Linguistics. 2020： 5443-5453.

［59］Ziegler D M， Stiennon N， Wu J，et al. Fine-tuning language models from human preferences ［EB/OL］. （2020）［2023-11-13］. http：//arxiv.org/abs/1909.08593.

［60］Yu Lantao， Zhang Weinan， Wang Jun，et al. SeqGAN： sequence generative adversarial nets with policy gradient ［C］// Proc of AAAI Conference on Artificial Intelligence. 2017： 2852-2858.

［61］Ficler J， Goldberg Y. Controlling linguistic style aspects in neural language generation ［C］// Proc of Workshop on Stylistic Variation. 2017： 94-104.

［62］Kikuchi Y， Neubig G， Sasano R，et al. Controlling output length in neural encoder-decoders ［C］// Proc of Conference on Empirical Methods in Natural Language Processing. 2016： 1328-1338.

［63］Dathathri S， Madotto A， Lan J，et al. Plug and play lanITDG7pvRW9orp4tJj6u0qoqjr+Bvzev8q3duDCeq/Eo=guage mo-dels： a simple approach to controlled text generation ［EB/OL］. （2020）. http：//arxiv.org/abs/1912.02164.

［64］Zhang B H， Lemoine B， Mitchell M. Mitigating unwanted biases with adversarial learning ［C］// Proc of AAAI/ACM Conference on AI， Ethics， and Society. 2018： 335-340.

［65］Goodfellow I， Pouget-Abadie J， MIRZA M，et al. Generative adversarial nets ［C］// Advances in Neural Information Processing Systems. 2014： 2672-2680.

［66］Schick T， Udupa S， Schutze H. Self-diagnosis and self-debiasing： a proposal for reducing corpus-based bias in NLP ［J］. Transactions of the Association for Computational Linguistics， 2021， 9： 1408-1424.

［67］Geva M， Caciularu A， Wang K R，et al. Transformer feed-forward layers build predictions by promoting concepts in the vocabulary space ［C］// Proc of Conference on Empirical Methods in Natural Language Processing. 2022： 30-45.

［68］Zhou Xuhui， Sap M， Swayamdipta S，et al. Challenges in automated debiasing for toxic language detection ［C］// Proc of the 16th Confe-rence of the European Chapter of the Association for Computational Linguistics： Main Volume. 2021： 3143-3155.

［69］Panda S， Kobren A， Wick M，et al. Don’t just clean it， proxy clean it： mitigating bias by proxy in pre-trained models ［C］// Proc of Conference on EMNLP. 2022： 5073-5085.

［70］趙繼舜，杜冰潔，劉鵬遠，等. 中文句子級性別無偏數據集構建及預訓練語言模型的性別偏度評估［J］. 中文信息學報， 2023， 37（9）： 15-22. （Zhao Jishun， Du Bingjie， Liu Pengyuan， et al. Construction of Chinese sentence-level gender unbiased dataset and evaluation of gender bias in pre-trained language models ［J］. Journal of Chinese Information Technology， 2019， 37（9）： 15-22.）

［71］Han X， Baldwin T， Cohn T. Balancing out bias： achieving fairness through balanced training ［EB/OL］. （2022）［2024-03-17］. http：//arxiv.org/abs/2109.08253.

［72］Zhang Guanhua， Bai Bing， Zhang Junqi，et al. Demographics should not be the reason of toxicity： mitigating discrimination in text classifications with instance weighting ［C］// Proc of the 58th Annual Meeting of the Association for Computational Linguistics. 2020： 4134-4145.

［73］Liu Pengfei， Yuan Weizhe， Fu Jinlan，et al. Pre-train， prompt， and predict： a systematic survey of prompting methods in natural language processing ［EB/OL］. （2021）. http：//arxiv.org/abs/2107.13586.

［74］Shin T， Razeghi Y， Logan IV R L，et al. AutoPrompt： eliciting knowledge from language models with automatically generated prompts ［C］// Proc of Conference on Empirical Methods in Natural Language Processing. 2020： 4222-4235.

［75］Jiang Zhengbao， Xu F F， Araki J，et al. How can we know what language models know？［J］. Transactions of the Association for Computational Linguistics， 2020， 8： 423-438.

［76］Schick T， Schutze H. Exploiting cloze questions for few shot text classification and natural language inference ［C］// Proc of the 16th Conference of the European Chapter of the Association for Computational Linguistics： Main Volume. 2021： 255-269.

［77］Li X L， Liang P. Prefix-tuning： optimizing continuous prompts for generation ［C］// Proc of the 59th Annual Meeting of the Association for Computational Linguistics and the 11th International Joint Confe-rence on Natural Language Processing. 2021： 4582-4597.

［78］Hambaradzumyan K， Khachatrian H， May J. WARP： word-level adversarial reprogramming ［C］// Proc of the 59th Annual Meeting of the Association for Computational Linguistics and the 11th International Joint Conference on Natural Language Processing （Volume 1： Long Papers）. 2021： 4921-4933.

［79］Lester B， Al-Rfou R， Constant N. The power of scale for parameter-efficient prompt tuning ［C］// Proc of Conference on Empirical Methods in Natural Language Processing. 2021： 3045-3059.

［80］Sanh V， Webson A， Raffel C，et al. Multitask prompted training enables zero-shot task generalization ［EB/OL］. （2022）［2023-11-13］. http：//arxiv.org/abs/2110.08207.

［81］Wang Yizhong， Mishra S， Alipoormolabashi P，et al. Super-natural instructions： generalization via declarative instructions on 1600+NLP tasks ［C］// Proc of Conference on Empirical Methods in Natural Language Processing. 2022： 5085-5109.

［82］Touvron H， Lavril T， Izacard G，et al. LLaMA： open and efficient foundation language models ［EB/OL］. （2023）［2023-12-13］. http：//arxiv.org/abs/2302.13971.

［83］Bai Yuntao， Jones A， Ndousse K，et al. Training a helpful and harmless assistant with reinforcement learning from human feedback ［EB/OL］. （2022）［2023-09-19］. http：//arxiv.org/abs/2204.05862.

［84］Bradley K W， Stone P. TAMER： training an agent manually via evaluative reinforcement ［C］// Proc of the 7th IEEE International Conference on Development and Learning. Piscataway，NJ：IEEE Press， 2008： 292-297.

［85］Stiennon N， Ouyang Long， Wu J，et al. Learning to summarize from human feedback ［C］// Advances in Neural Information Processing Systems. 2020： 3008-3021.

［86］Yuan Zheng， Yuan Hongyi， Tan Chuanqi，et al. RRHF： rank responses to align language models with human feedback without tears ［EB/OL］. （2023）［2024-04-02］. http：//arxiv.org/abs/2304.05302.

［87］Li Ziniu， Xu Tian， Zhang Yushun，et al. ReMax： a simple， effective， and efficient reinforcement learning method for aligning large language models ［EB/OL］. （2023）. http：//arxiv.org/abs/2310.10505.

［88］Barker C， Kazakov D. ChatGPT as a text simplification tool to remove bias ［EB/OL］. （2023）. http：//arxiv.org/abs/2305.06166.

［89］Kocielnik R， Prabhumoye S， Zhang V，et al. BiasTestGPT： using ChatGPT for social bias testing of language models ［EB/OL］. （2023）［2024-03-15］. http：//arxiv.org/abs/2302.07371.

計算機應用研究2024年10期

計算機應用研究的其它文章: 下期要目; 多類別形態的未隸定青銅器銘文細粒度識別; 殘差修正的加權多項式回歸色彩特征化算法; NFP-AST:自然特征保留的任意風格遷移模型; 基于同模型匹配點聚集的圖像多匹配模型估計算法; 面向三維流管可視化的各向異性屏幕空間環境光遮蔽算法