萬 巖,史書揚
(北京郵電大學 經濟管理學院,北京 100876)
偏見和歧視是一個長久以來存在于人類社會的問題,在法律上定義為基于收入、教育、性別或種族等特定特征對個人或群體的不公平或不平等待遇。當這些不公平或不平等待遇是通過智能代理或其他基于人工智能系統自動決策造成的時候,就是所謂的數字歧視[1]。
智能算法是為了創造一個類似人類反應與思考的模式,制定策略機制解決特定問題以滿足用戶個性化需求。Bradley[2]從人工智能的基本定義出發,明確表示如果智能算法中復刻了人的思維和邏輯及各種社會行為和觀點,將必然存在偏見。
由于智能算法構建于人類設計訓練的模型,設計者使用各種符合要求的數據進行訓練和改進,直至算法被接受,因此算法的構建方式也會直接影響其是否存在偏見。Yapo 等[3]認為算法偏見可能來源于不合理的數據與缺乏包容性的算法設計,但這些算法均由人類創造,通常不可避免或無意識地反映社會價值觀、偏見和歧視性做法。
同時,由于算法在數據訓練結果與實際意圖上存在一定偏差,可能會造成實際應用后的偏見進一步惡化。Tene等[4]在研究中雖然并未將算法描述為不可避免受到偏見與潛在不公平困擾的“黑盒”,但認為算法仍是人為產物,部分算法缺乏積極的推動作用,在特定情況下會反映出現有的社會偏見與歷史不平等。
基于對每個人在數字世界行為的大規模監控,算法已經與生活中的方方面面交織在一起,以各種不可見的方式影響著人的決策[2]。當算法滲透到社會生活中,越來越多的選擇與決策權被授權給基于機器學習等智能技術,使偏見與歧視問題更加頻繁。此外,更令人擔憂的問題是算法缺乏透明性。
目前,算法應用場景十分廣泛,對算法偏見問題的研究將不再局限于算法設計缺陷、偏見原因界定、數據敏感性等方面,而呈現出分散化趨勢。為此,本文對該領域的研究進行系統梳理,以探討21 世紀以來國外對算法偏見的研究基礎、前沿內容、涉及主題、對現存算法偏見問題進行分類歸因和糾偏的方法。通過分析以上問題有利于把握該領域的整體研究動向。
為了解國外算法偏見的研究現狀,利用Web of Science核心數據庫檢索2000 年1 月-2021 年8 月的相關文獻,檢索式為TS=(“algorithmic bias” OR “algorithmic discrimination”)AND TS=(fairness),共獲得280 篇文獻,去重后有效文獻為262篇,時間分布如圖1所示。

Fig.1 Distribution of literature quantity by time圖1 文獻時間分布
由圖1 可見,262 篇文獻在2000-2021 年間的發表數量與被引頻次分布整體呈上升趨勢。文獻數量在2000-2013年間增長平緩,算法偏見問題尚未得到學界廣泛關注。2014 年后,隨著人工智能、大數據等技術迅速發展,倫理挑戰愈發激烈,算法引發的偏見和歧視問題收到了學術界的廣泛關注,文獻被引頻次隨文獻數量增加呈階梯式增長。尤其在2019-2021 年,文獻數據大幅增加,側面證明了隨著算法技術的發展與進步,算法偏見問題的研究熱度逐步上升。
文獻共被引(Co-citation)是測度文獻間關系程度的一種研究方法,當兩篇或多篇論文同時被一篇或多篇論文所引證時,此時論文將構成共被引關系。通過分析文獻共被引網絡中的聚類及關鍵節點,可探索研究領域的知識結構[5]。由于共被引網絡為參考文獻組成的網絡,因此能較好地揭示某一個研究主題的“先驗知識”,即通過獲取高被引文獻的網絡得到研究的基礎知識。表1 顯示了被引頻次最高的前10篇文獻。

Table 1 Highly cited literatures information表1 高被引文獻信息
被引頻次最高的為Hardt 等[6]提出監督學習中針對特定敏感屬性的判別標準,假設受保護群體的預測因子、目標和數據可用,根據自定義方法優化調整學習到的預測因子消除歧視,同時將不良分類的成本從弱勢群體轉移到決策者來改善激勵。Barocas 等[7]認為算法的好壞取決于處理的數據,通常數據并不完美,使算法繼承了先前決策者的偏見,如果不加思考地依賴數據挖掘,可能會使歷史上處于不利地位的弱勢群體無法充分參與社會中。Feldman等[8]建議涉及到計算機產生的偏差時,可根據流程使用的數據進行推斷,并展示了使數據無偏、消減偏見及保留數據相關信息的方法。Chouldechova[9]通過累犯預測工具(Recidivist Prediction Tool,RPI)利用算法評估刑事被告在未來某時間點再次犯罪的可能性,但引起了巨大爭議,部分爭議與評估中潛在的歧視性偏見相關。Zafar 等[10]討論了數據驅動的自動化決策系統的工作原理,經過訓練的系統將為不同社會群體進行決策,錯誤分類會使某些群體處于不公平。ProPublica 發布的調查報告認為[11],在刑事司法中使用算法評估預測犯罪者未來再犯罪的風險,能幫助法官進行量刑決策,但會增加不必要和不公正的差異。通過司法實例證實了該算法并不可靠,且存在種族差異。O'Neil[12]提出算法時代下,數學模型將越來越多地影響人類的生活決策,而如今使用的模型均不透明、不受監管,存在一定的爭議,甚至有一些是錯誤的模型,因此加劇了歧視問題。Zemel 等[13]表達了對依賴統計推斷和學習的決策系統存在偏見和歧視的擔憂,提出一種可能公平的分類學習算法。Larson 等[14]聚焦COMPAS 的AI司法量刑系統,基于已有犯罪記錄嘗試預測被告被再次逮捕的概率,報告發現COMPAS 在預測時存在種族歧視,可能是由于數據來自具有結構性不公的環境。Corbett-Davies 等[15]同樣聚焦司法系統,通過算法輔助決策等待審判的被告是否太危險而不能被釋放,研究同樣指出了司法評估中的種族歧視問題。
綜上,對實際算法偏見案例的分析幾乎都集中于司法領域的量刑或罪犯風險評估。司法領域以人類語言為主要工具,包含了大量復雜的專業知識,是進行人工智能和自然語言處理探索實踐的最佳場景。除偏見問題外,基于深度學習的司法預測方案最大問題在于模型的可解釋性,即只知道預測結果但無法給出預測依據。此外,這些高被引文獻還涉及到敏感性屬性判別與保護、偏差度量與影響預測、不同公平含義下的優化改進等內容,是國外算法偏見研究的關鍵路徑,能為后續研究提供理論支持和方向指引。
利用CiteSpace 的聚類功能可得出文獻共被引網絡,如圖2 所示(彩圖掃OSID 可見,下同)。其中,色調越暖代表文獻發表時間越新,聚類中核心文獻集代表該領域的研究前沿。

Fig.2 Clustering of literature co-citation圖2 文獻共被引聚類
由圖2 可見,聚類#0 包含60 篇文獻,中介中心性為0.756,文獻平均年份為2017 年,主要涉及算法公平或算法偏差概念的抽象性描述及提出初步的原因探索和偏差糾正辦法。對于數據科學專家來而言,緩解算法偏差一直是最困難的問題之一[16],從算法優化上解決偏差和歧視問題存在較大的技術挑戰。為此,研究者提出在算法設計、訓練和部署中嵌入道德和法律原則的新方法,以確保社會公平[17]。此外,部分研究者聚焦數據管理活動,包括算法設計、模型構建、用戶和系統設計等方面,評估哪些活動可處理偏差,哪些活動可能會增加偏差[18]。
聚類#1包含45篇文獻,中介中心性為0.863,文獻平均年份為2015 年,主要涉及算法中的種族平等與敏感隱私信息相關問題。數據表明,依賴數據驅動的預測模型進行自動化決策可能會使屬于某些類別或群體的人處于不利地位,即使計算過程保持公平、善意,但仍有可能發生這種情況[19]。例如,在刑事司法時必須考慮工具的程序正義及與司法系統中持久存在的種族維度的相互作用[20];在移民政策方面對公民的特征數據進行安全審查,可能會傳播一種算法形式的吉姆克勞(Algorithmic Jim Crow)[21]。
聚類#2包含35篇文獻,中介中心性為0.903,平均年份為2014,主要涉及個性化算法中的極化控制和公平檢測。算法個性化在網絡空間中無處不在,為用戶帶來便利的同時提升了平臺收益。然而,個性化算法會學習和傳播系統性偏見,尤其是推薦系統帶來的對抗偏見及由此產生的回聲室效應[22],引發了對算法本身和監管機制的呼吁。目前,利用經濟學中現有的不平等指數衡量不同個人或群體受益的不平等程度[23]。此外,基于測試衡量歧視行為的因果關系,從而確定軟件是否存在歧視,并衡量其歧視程度[24]。
聚類#3包含29篇文獻,中介中心性為0.901,平均年份為2017,主要涉及推薦系統中的排名算法及由此帶來的公平問題。推薦系統的工作過程可建模為一個預測問題,在這種情況下可能發生不同類型的偏差。這種不公平可追溯到數據、模型或算法和用戶間相互作用產生的偏差[25]。公平性體現在受保護類別的成員身份,這些受保護類別由用戶的性別、種族、多重利益相關者的收益等敏感屬性所定義[26]。研究表明,推薦系統的表現可能在具有不同人口特征的人群間存在顯著差異。例如,音樂推薦系統在男性與女性用戶群體間算法性能存在不公平[27],即使是先進的音樂推薦系統也更青睞于已流行的節目,容易造成流行度偏差[28];在工作推薦方面,在Facebook[29]、Google[30]上高薪工作通常推薦給男性;在圖書推薦方面,協同過濾算法通常會產生偏向男性作者的推薦結果[31];在電影推薦上,不同推薦算法可能會放大或抑制不同性別用戶對特定電影類型的偏好[32]。
聚類#4包含27篇文獻,中介中心性為0.848,平均年份為2018,主要涉及機器學習或人工智能中的倫理審查和公平干預問題。相較于前4 類內容,聚類#4 的內容上升到更抽象、宏觀的層面。近年來,人工智能出現了越來越多有偏見的結果、缺乏透明度、數據濫用等問題,要求對算法進行強制性道德審查的呼聲越來越高[33]。然而,關于算法道德評估的建議多數無法付諸實施,或專注于具體和技術性的公平或透明度概念,未考慮多個利益方或更廣泛的社會背景[34],但為了實現以人為中心的人工智能,需著重在隱私和數據所有權、問責和透明度及公平方面進行改進[35]。
從文獻共被引聚類中可見,算法偏見引發的問題主要集中在敏感或隱私信息、極化、推薦系統3 個方面,涉及種族平等、性別平等或其他與敏感隱私信息相關的問題是在算法偏見這一領域中最早被提出和廣泛討論的問題。Web2.0 時代后,移動互聯網迅速發展,個性化算法緩解了用戶信息過載的問題,然而算法的結果是否能平等地使人口中的不同個人或群體受益及信息提供者是否受到公平對待,仍需進行比較和考量。
網絡的開放性、分享性、聚合性、多元異構性催生了信息窄化的盛行,引發學界對算法極化控制與公平檢測問題的關注。尤其是在推薦系統中,該工作過程可建模為一個預測問題,在這種情況下能引發不同類型的公平問題。除了在某些用戶屬性上的偏見會使系統無法在同等意義上滿足用戶信息需求外,由于協同過濾的作用還存在流行度偏差。長此以往,流行的產品和服務越來越流行,結果趨同也導致用戶無法得到更好的個性化體驗。
隨著人工智能的浪潮和新一輪科技革命來襲,算法偏見的討論熱點逐漸提升到機器學習與人工智能領域的更深層面,對倫理公平、可控可信等問題的研究成為了前沿熱點。
統計學上偏差的概念通常指的是估計值與真實值間的差距,算法偏差可表示為利用算法評估或決策的結果與預期結果間的差異。偏見是一種更具哲學性的概念,是一種認知狀態[36],算法偏見可理解為在算法決策中產生的不合理或不公平判斷。歧視則是包含法律概念,算法歧視是在自動化決策中對特定群體產生的不公平對待行為,是根植在社會深層中的不平等現象在技術中的反映,是相較于算法偏見更進一步的概念。因此,本文更多使用算法偏見表述算法中的不合理現象。
從文獻分析可知,當前國外對算法偏見的研究主題主要集中在偏見概念描述原因探索、性別種族等敏感隱私信息引發的爭論、極化現象的控制和公平監測、推薦系統中排名算法、機器學習和人工智能中的宏觀性公平問題等。
盡管不少文獻初步探討了算法偏見的原因和可能的改善措施,但整體而言較為分散,難以形成完整的框架概念。因此,本文對算法偏見進行分類,從算法和人的角度探討不同類別偏見的來源。
目前,關于對算法進行道德評估或公平性修正的建議大多停留在較高的抽象層面,難以落地付諸實施,因此從相對具體的算法設計流程出發,以公平性為導向提出可行的糾偏方法,構建的算法偏見研究框架如圖3所示。
智能算法中偏見來源主要分為算法本身和人兩類[37]。
3.1.1 算法偏見

Fig.3 Research framework of algorithmic bias圖3 算法偏見研究框架
對算法本身而言,使用的數據和模型會不可避免地存在一定偏差,主要包括數據集偏差、建模偏差、訓練中的偏差。其中,數據集偏差為在算法訓練和測試的數據集創建的過程中可能由于數據采集的局限性或便利性而選擇特定類型的數據集,也有可能因為獲取數據時的某些固有習慣使獲取到的數據更偏向于所謂的“主流”,在敏感性特征方面代表性不足;建模偏差可能是因為問題定義和變量度量的細節有誤,或因為抽樣時樣本的代表性和普遍性權衡不合理,還有可能是機器學習偏差將相關關系誤讀為因果等;訓練中的偏差為算法通過學習過去決策的數據集對未來進行決策或預測,如果訓練目的數據集反映了原有偏見,將導致算法在學習后作出同樣偏見的決定。此外,如果數據不能正確代表不同人群的特征,隱含了不平等現象,也會產生有偏見的決策結果。
3.1.2 人為偏見
由人造成的偏差貫穿算法從設計到使用的全過程,主要包括標注偏差、使用偏差、解釋偏差。其中,數據標簽是幫助算法達成目標的判定因素,在訓練過程中需要接收來自人類的標簽,并根據人的偏好進行信息迭代優化,而人類在進行在線活動時對數據的標注和選擇行為高度隨機,不僅反映了他們對所呈現內容的看法,還反映了對呈現原因的推斷,因此算法接收到的標簽可能存在偏差;使用偏差為算法被使用在非預期的情況下時,可能會由于實際數據與訓練數據的偏差而導致偏見[1];解釋偏差為人類對算法輸出的潛在誤讀可能導致解釋偏差。
因此,即使證明一個算法過程是無偏的,也無法確保一個無偏或無歧視的算法輸出,因為偏見或歧視可能是訓練或使用中發生偏差的結果[38]。此外,即使存在各種偏差,算法是否真的會導致偏見或歧視還取決于其部署的環境和最終目的。
本文從算法設計流程出發,為了盡量使算法達到無偏狀態,從建模、數據和功能3方面入手。
3.2.1 建模無偏
要求算法的基本假設及其模型未存在偏差,從人工智能技術的價值觀角度,糾偏的目的將算法優化得更人性化和公平化。為此,在算法開發階段納入除開發者外,倫理學家或少數群體的代表意見,將道德原則嵌入其中,確保模型代表整個適用群體,著重于在公平性要求和算法的帕累托約束中尋找權衡。
3.2.2 數據無偏
要求算法的訓練和測試數據未存在偏見和歧視。在利用數據集進行訓練的過程中無法實現完全無偏,因此需要提前審查訓練數據,除了保證數據安全性外,在學習和訓練前審查有偏差、高噪聲等低質量的數據,經過加工處理提升數據集整體質量,提高算法的訓練效果和普遍適用性,也可通過開發新的、可調的算法減少訓練數據中隱藏的潛在偏見。例如,通過學習數據的潛在結構,在訓練時自適應地使用學到的潛在分布對特定數據點的重要性進行重新加權[39]。
3.2.3 功能無偏
要求算法能在特定的環境和任務下進行決策。在機器學習模型中,影響因素和噪聲通常難以區分,可能存在過擬合現象導致算法在訓練中表現出高性能,但新的數據集卻無法適用模型,因此需要對算法進行驗證,保證其功能性和公平性相對平衡。在應用階段,通過建立標準化治理框架,允許開發企業或監管機構定期監測算法,確保質量和安全。
Marr[40]認為人工智能既是問題的原因,也可能是問題的解決方案。谷歌在其開源網頁中推出了幫助開發者檢測算法公平性的工具。Facebook 宣布了Fairness Flow,當算法根據人的種族、性別或年齡作出不公平判斷時,將自動發出警告。IBM 研究了自動偏見檢測算法,經過訓練后可模仿人類作出決定的反偏見過程,以減輕自身內在偏見。領英推出公平工具包分析數據集的屬性(例如種族和性別構成),并將結果與算法結果進行比較以檢測公平性。由此可見,除了學術界對算法偏見進行越來越多的討論外,大型科技企業也投入大量精力研究人工智能技術,以期減少算法偏見。
學術界對如何定義和衡量偏見或公平一直存在分歧,絕對的公平必然不現實,所謂算法偏見和公平性需要在特定的研究問題和主題下進行闡述,僅從技術角度通常難以完全消除算法偏見。只有通過深入探索才能解釋算法如何改善個人和公共生活,算法在設計、操作、決策上的疏忽可能對人類造成的傷害,何種內容嵌入算法能保證公平,如何將人類價值觀傳遞到算法中等問題。
如同所有新興領域一樣,智能算法的問題在于知識匱乏與技術發展過快間的矛盾,要求人們制定全球性的指導方針和原則管理智能算法,需要全球政府、科技界、監管治理機構的共同努力,盡可能消除偏見。
未來,將以分析得出的算法偏見研究概覽為基礎開展深入研究,在多學科融合的背景下從不同角度出發,對算法偏見開展跨學科研究與合作,進一步討論其細分類別與優化方法,例如算法在不同領域的風險與偏見危害識別、透明可信算法的保障途徑等,以進一步避免算法的偏見與歧視。