【摘要】算法的技術性沿襲并外化了算法的生物性表征,建立了諸多算法物質性、社會性層面的關系;算法的社會性,是算法依托技術邏輯而形成的制度延展或文化實踐。算法不只是嚴格限制和程序公式,不是超越人類網絡的行為體,不是自主的技術對象,而是復雜的社會技術系統。人類所具有的善惡、文化差異、意識偏見,也會反映于算法之中。算法的偏向,除了技術的偏向、工程師可能的人為偏向外,最大的偏向往往出自于技術與社會和人的互動之中。
【關鍵詞】算法的技術性? 算法的社會性? 人工智能? 算法的偏向
【中圖分類號】G206? ? ? ? ? ? ? ? ? ? ? ? ? ? 【文獻標識碼】A
【DOI】10.16619/j.cnki.rmltxsqy.2022.17.010
人工智能正在深刻改變人類歷史進程,它的核心就是算法。算法(algorithm)是在執行計算或解決問題時,遵循一組包含離散步驟或規則的過程。[1]算法如今幾乎無所不在,從航班安排、飛機駕駛,到經營管理、快遞運輸,從任何一次網絡搜索、到打開任何一家社交媒體,都會經過算法。
算法來自計算機科學,是在簡化復雜問題中開始的新探索:告訴計算機該做什么的一系列指令——計算機是由幾十億個微小開關(晶體管)組成的,算法能在一秒內打開并關閉這些開關幾十億次。算法嘗試探索復雜問題的一般原理,建立一套邏輯:可以對特定的輸入進行處理,獲得符合預期的輸出,是自動化執行人類意志的計算工具。每年都會出現上百種算法,不過它們都是基于幾個相似的基本思路:它們因為思路的不同而被區分為5個主要學派,各學派有其主算法——符號學派的主算法是逆向演繹,聯結學派是反向傳播,進化學派是遺傳編程,貝葉斯學派是貝葉斯推理,類推學派是支持向量機。如今的目標是創造綜合這5種算法的終極算法。[2]近年來的國內外研究中,算法的不同面向都受到了關注,諸如“算法是工具”“算法是規則”“算法是權力”“算法是主體”“算法是想象”“算法是價值表達”。[3]算法被廣泛運用于社會生活的各個方面,成為中介化社會的工具——算法中介,甚至被當作支配世界的核心,21世紀是由算法主導的世紀。算法化、數據化正在成為一種普遍的認知范式,它們在重構和規訓整個社會,帶來了諸多從倫理觀念到實踐的問題。[4]
算法在生成結果中系統性的、可重復出現的不同對象有不同的輸出結果,或者是相同、相似對象輸出了相異結果的現象,即為算法偏向(Algorithmic Bias)[5],它是算法在決策過程中對特定偏好、信念或價值觀的一貫和反復表達[6]。算法的偏向是一個受到普遍關注的論題。算法可以從生物性、技術性、社會性和物質性等不同角度去理解。[7]本文將從算法的不同屬性視角,從技術性層面的運作機制,到社會性層面的互動應用,討論和剖析兩個問題:算法偏向是如何形成的?算法偏向問題與算法的不同屬性有何關聯?
關于算法中立的爭議
算法正在被越來越廣泛地應用于各個領域,諸如法院、公安、銀行等各種機構,正在使用自動數據分析系統來作出各種決策,包括諸如假釋、量刑、布警、抵押貸款、發放信用卡等各類事項。在許多情況下,人工智能系統在很多問題上都能做得比人類更快、更準確、更可靠、更公正,自動決策系統(automated decision-making)可以提高公平性和效率。人類作決策更有可能帶有情緒,受環境和語境的影響,甚至工作的間隔、不連貫,都可以影響司法標準。美國有研究表明,如果是在剛休息過或用餐后作出決定,那么假釋委員會更有可能釋放罪犯。法庭裁決部分取決于法官上次吃零食的時間。[8]而自動決策系統可以發現此類不一致之處,改進流程。
但是,算法又存在許多問題。英國《金融時報》的知名記者吉利安·泰特(Gillian Tett)曾經寫過一篇文章《繪制犯罪地圖——或激起仇恨?》,回顧了美國芝加哥警務系統2010年至2011年的預測性警務行動(predictive policing initiative),該行動根據歷史犯罪數據繪制預測性的算法模型,告訴警察去哪里更容易找到罪犯。模型發現,大多數暴力事件僅發生在市區的10%的區域,大部分與幫派在貧窮地區(往往是黑人或西班牙裔)的行動有關。報道說這個模型的應用取得了令人矚目的成果,在第一年,芝加哥地區的謀殺案發生率下降了5%,然后繼續下降。到2011年夏天,芝加哥的年度死亡人數很快降至400人以下,是自1965年以來的最低水平。但是芝加哥警方進行算法預測時,存在種族間嚴重失衡。數據的種族失衡,是否可能加劇現有的人為偏見或種族特征?算法預測模型是不是一種中立的工具?計算機專家認為該程序與種族完全無關,而是多變量的方程。[9]
泰特在文章中指出,算法本身是中立的。但是她的文章立即引來了批評,認為她是在為種族主義做廣告,認為她說的算法中立是不存在的,關注人類行為的算法不可能中立。任何經過歷史數據、人類行為訓練的算法,都會將歷史和文化習俗嵌入和編碼于其中。[10]
基于算法的應用,由于種種原因,帶來了偏向的后果,比如歧視??▋然仿〈髮W研究人員的一項研究發現,谷歌的在線廣告系統存在巨大的性別薪酬差距,該系統向男性展示高收入工作廣告的頻率,要比向女性展示此類廣告的頻率高得多:廣告中20萬美元以上的職位,推薦給男性的次數是1852次,而推薦給女性的次數僅有318次。他們研究了更改性別設置如何影響廣告、與性別相關的網站訪問記錄如何影響廣告。[11]類似的研究還有不少。
技術屬性的算法:學習和決策機制
算法的技術性,是指算法作為推理程式本身的邏輯和規則。這一特性也是目前算法最受關注、應用最廣泛的屬性。算法的邏輯和規則,可以導出其機制。算法的機制,就是將決策問題的歷史實例(即所謂訓練數據)輸入并生成決策規則或分類器,然后將其用于問題的后續的實例。算法在應用中先后經過兩個階段,第一個階段是機器學習,是通過對數據集的“學習”,產生對于客觀世界的“認識”——人工智能必須依照既定的、人類所撰寫的程序,再對人類制造的信息進行“學習”;第二個階段是算法決策,是基于機器學習進一步作出決策、輸出信息,即算法決策,是根據第一階段的“學習”結果,根據特定的模型作出自動化決策。
關鍵就在機器學習階段。在這個階段,算法是要通過相關的歷史數據形成“認識”(規則或分類器),因此,足夠的數據(包括數據質量)就顯得特別重要。如果訓練這些人工智能所使用的數據存在偏見,那么可能會導致機器自動歧視。一種機器學習是通過訓練的數據獲取統計模式,通過數據的集合定義數據的特征,形成觀點。訓練數據中帶有針對不同性別或者不同群體的現有社會偏見,那么機器學習就可能納入這些偏見,這樣對第二階段的決策就會產生影響。比如,非裔美國人、程序員Jacky Alciné發現,Google相冊自動將他和朋友的照片標記為包含“大猩猩”。Alciné和其他人將這種算法輸出歸因于訓練標記系統的數據缺乏多樣性,以及生成它的編程和測試團隊也缺乏多樣性。[12]再比如,哈佛大學的一項研究發現,在線廣告投放中存在歧視,有關逮捕記錄的廣告,更有可能出現在搜索明顯是黑人姓名或較有歷史的黑人團體的廣告中。[13]又如,華盛頓大學的研究發現,在Google圖片中搜索“C.E.O.”(首席執行官),盡管美國的首席執行官中有27%是女性,但在谷歌搜索的結果中女性首席執行官只占11%。[14]這樣的結果,很有可能是數據集的偏向造成的。數據的量不足、樣本不全面等,都可能造成機器學習的不公平,從而帶來算法決策的偏向。
在美國,法官、緩刑和假釋官員越來越多地使用算法來評估刑事被告成為累犯的可能性,有幾十種這樣的風險評估算法正在被使用,許多州已經建立了自己的評估算法系統。ProPublica在2016~2019年曾經做過六十多篇“機器偏見”(Machine Bias)系列報道,調查了算法不公正現象及其對現實社會生活的影響。特別引人關注的是,這組報道揭示了刑事司法判決中使用的累犯風險評估軟件COMPAS(美國最流行的算法之一)的算法的種族偏見:黑人被告比白人被告更有可能被錯誤地判斷為具有更高的累犯風險,而白人被告則比黑人被告有更多可能被錯誤地標記為低風險。算法根據個人的情況對他們未來再犯罪的風險進行評分。各州和其他城市使用分數來管理審前拘留、緩刑、假釋,甚至判刑。ProPublica的記者從美國佛羅里達州的布勞沃德縣(Broward County)獲取了一萬多名刑事被告的分數,然后將這些分數與兩年內實際發生的再犯罪率記錄進行了比較。ProPublica發現COMPAS的算法正確預測的黑人和白人被告的累犯率大致相同(白人被告為59%,黑人被告為63%),但是算法犯錯的方式卻不相同:與白人被告相比,兩年內未再犯的黑人被告被錯誤歸類為高風險的可能性幾乎是白人被告的兩倍(45%對23%);相反,在未來兩年內再次犯罪的白人被告被錯誤地貼上低風險標簽的頻率幾乎是黑人再次犯罪的兩倍(48%對28%)。分析還表明,即使在控制之前的犯罪、未來的累犯、年齡和性別等變量的情況下,黑人被告獲得更高風險評分的可能性也比白人被告高45%。[15]
算法模型不當,也會導致偏差。衛生系統依靠商業預測算法來識別和幫助患有復雜疾病的患者的健康需求?!犊茖W》(Science)2019年刊出過一篇論文,剖析了用于衛生管理的算法中的種族偏見問題。該文研究了一種衛生系統的、在美國影響數百萬患者的算法,發現其中表現出明顯的對黑人的種族偏見,與白人患者相比,黑人患者病情嚴重得多但得不到相應的醫療服務。出現偏差是因為算法預測了醫療保健費用而不是疾病,所以該算法錯誤地認為醫療費用高的人是病得最重、最需要照顧的人。然而,由于系統的“種族歧視”,黑人患者在需要醫療衛生服務時不太可能得到服務,因此也不太可能產生費用。后來他們重新設計了算法,能夠在很大程度上減少偏差。[16]
社會屬性的算法:與社會和人的互動帶來的偏向
算法的生物性、技術性、社會性和物質性分指不同的層面。技術性沿襲并外化了算法的生物性表征,建立了諸多算法物質性、社會性層面的關系;算法的社會性,是算法依托技術邏輯而形成的制度延展或文化實踐。[17]
西弗(Nick Seaver)主張將算法系統視為本質上的文化,而不是與文化相對的技術。計算機科學家將算法制定為概念對象、與實現細節無關,而問責的要求將算法制定視為應該打開的封閉箱子(黑箱)。為此,西弗建議將算法視作文化,是可以通過經驗參與的一種意義和實踐模式,可以被由外而內、以田野觀察的方式認識和理解,其策略不需依賴于單一的確定算法。[18]西弗還在關于算法人類學的論述中提出,人類學應該關注參與算法系統工作的人類。當代算法系統的精髓是由人類反應的瞬間組成的,由代碼之外的東西塑造的。算法由一連串的人類行為所改變著。[19]
算法似乎是要以適合計算的方式重新格式化我們的生活,削弱文化性,以技術理性對待人類存在的自由、偶然的精神。但是算法工作者只是讓算法響應、回應現實世界。曾有一個典型的例子,微軟于2016年3月23日發布了Twitter機器人Tay,并發起了一個稱之為“對話理解”的實驗:與Tay聊天的次數越多,它就越聰明,就越快學會通過“隨意而有趣的對話”來吸引人們。通過與人類交互進行學習,這是機器學習的技術性帶來的可能的積極結果。但是,沒想到技術性被社會性改變了、歪曲了。一些推特用戶處心積慮“教唆”Tay,在推特上發布、教唆Tay各種厭惡女性、種族主義和特朗普主義的言論,而Tay開始向用戶重復這些情緒,不到24小時就毀掉了一個無辜的AI聊天機器人的“三觀”。起先Tay還發了“人類超級酷”這類對人類懷有積極情感的帖子,到后來它轉向了十足的種族主義、憎恨人類和女性、支持納粹,發布了不少煽動性的言論。Tay將女權主義稱為“邪教”和“癌癥”,不過它的算法卻又沒有一個連貫的意識形態,有時它又稱“性別平等=女權主義”("gender equality = feminism")、“我現在愛女權主義”("i love feminism now")。一位推特用戶還花時間向Tay灌輸了特朗普的移民計劃,導致Tay發了這樣的信息:
@godblessameriga我們要建一堵墻,墨西哥要為此買單。
——TayTweets (@TayandYou) 2016年3月24日
Tay在近16個小時內熱烈參與了交談、與用戶的交流,發布了超過9萬6千條推特,[20]但是由于其“三觀”,Tay在發布當晚就被下線。微軟在編寫Tay時,是希望通過交互學習讓Tay“成長”,卻沒有考慮到推特社區的人性之惡會讓Tay成為“惡之花”。
算法不是超越人類網絡的行為體,算法不是自主的技術對象、不只是嚴格限制和程序公式,而是復雜的社會技術系統。因此,算法也是人類社會的實踐與經驗的反映。算法通過歷史數據生成的決策規則,也是社會的鏡像、是人類世界的反映。人類所具有的善惡、文化差異、意識偏見,也會反映于算法之中。算法的偏向,除了技術的偏向、工程師可能的人為偏向外,最大的偏向往往出自于技術與社會和人的互動之中。
如今,人機混合的智能技術正在普遍運用,它與人工智能技術一樣依然存在著許多問題,可能會忽略了那些非技術因素——甚至是比技術屬性更加重要的社會屬性,比如人文和環境的不確定性。因此,在復雜的環境下,想要避免偏向而作出正確的判斷和決策就變得非常困難。
在社會性方面,人類的社會性通常體現于長期社會化形成的常識,而常識是智能算法難以企及的。南加州大學計算機科學家Xiang Ren認為,人工智能缺乏常識,也就是人類通常認為理所當然的廣泛運用的日常知識。因此,智能算法不具備人類依靠常識作出合理結論的能力。如果不充分重視算法模型的實際學習內容,那么算法就可能誤入歧途,學習一些可能導致不良后果的內容。[21]算法的偏向有時是在技術缺乏常識的背景下出現的。
人類的知識涉及事實性和價值化的方面,機器的計算、程序化的知識,主要聚焦于事實性,尚難以深入到價值性層面,這也是目前智能算法在社會性面向上最大的挑戰和問題。盡管已經有不少智能研究和開發正在嘗試將人類的價值觀等倫理內容嵌入訓練之中,但是還有許多“人”的因素也在博弈之中,比如編寫算法的人會融入他們的偏見,算法通常會從人類行為中學習,因此它們反映了我們持有的偏見。[22]硅谷微軟研究院的計算機科學家辛西婭·德沃克(Cynthia Dwork)認為,算法不會自動消除人類已有的偏見,機器學習算法利用歷史記錄訓練數據,機器學習獲得的分類規則無法避免偏差,尤其是當歷史數據包含偏差時,因此過去的歧視將導致未來的歧視。算法中的設計選擇體現了價值判斷。[23]
著名控制論學者諾伯特·維納在《人有人的用處:控制論與社會》中指出:“機器的最大弱點……就是它還計算不出表征人事變化幅度甚大的幾率性?!薄霸谀軐W習的機器中,我們應當分清哪些東西是機器能夠學習的,而哪些不能?!盵24]相較于算法的技術性而言,解決社會性的問題更加復雜,人文、社會、環境的噪聲等非技術因素及其互動,是對智能算法的極大挑戰,也因此,算法仍然要面對工具理性和價值理性的平衡問題。機器對人類的危險來自人,而不是機器,正如維納所言,“作為科學家,我們一定要知道人的本性是什么,一定要知道安排給人的種種目的是什么……我們一定得知道為什么我們要去控制人?!睔w根結底,智能算法技術的掌控權,仍在人的手中。智能的發展從技術上看,要重視機器的穩定可靠、快速準確等可計算性指標,而從人機交互上看,還應有人的敏捷洞察、觸類旁通、責任勇敢等非計算性指標。算法的社會性、算法文化,從更高的層次而言,應包括倫理道德、法律法規等非計算指標條件。[25]
(本文系國家社科基金重大項目“智能時代的信息價值觀引領研究”[項目編號:18ZDA307]和中宣部文化名家暨“四個一批”人才項目的階段性成果)
注釋
[1]特倫斯·謝諾夫斯基:《深度學習:智能時代的核心驅動力量》,姜悅兵譯,北京:中信出版社,2019年,第238頁。
[2]佩德羅·多明戈斯:《終極算法:機器學習和人工智能如何重塑世界》,黃芳萍譯,北京:中信出版社,2017年,序言。
[3]師文、陳昌鳳、呂宇翔:《邏輯、發現與局限:近五年智媒研究的六種算法話語》,《編輯之友》,2022年第4期。
[4]李凌:《算法人文主義:智能時代信息價值觀的哲學論綱》,陳昌鳳、李凌主編:《算法人文主義:公眾智能價值觀與科技向善》,北京:新華出版社,2021年。
[5]Chander, A., "The Racist Algorithm?" Michigan Law Review, 2017, 115(6), pp. 1023–1045.
[6]Friedman, B. and Nissenbaum, H., "Bias in Computer Systems," ACM Transactions on Information Systems, 1996, 14(3), pp. 330–347.
[7][17]孫萍:《算法化生存:技術、人與主體性》,《探索與爭鳴》,2021年第3期。
[8]"I Think It's Time We Broke for Lunch...Court Rulings Depend Partly on When the Judge Last Had a Snack," Economist, Apr. 14th, 2011, https://www.economist.com/science-and-technology/2011/04/14/i-think-its-time-we-broke-for-lunch.
[9]Tett, G., "Mapping Crime–or Stirring Hate?" Aug. 22nd, 2014, https://www.ft.com/content/200bebee-28b9-11e4-8bda-00144feabdc0.
[10]O'Neil, C., "Gillian Tett Gets It Very Wrong on Racial Profiling," Aug. 25th, 2014, https://mathbabe.org/2014/08/25/gilian-tett-gets-it-very-wrong-on-racial-profiling/.
[11]Datta, A.; Tschantz, M. C. and Datta Anupam, "Automated Experiments on Ad Privacy Settings: A Tale of Opacity, Choice, and Discrimination," Proceedings on Privacy Enhancing Technologies, 2015(1), pp. 92–112.
[12]Alciné, J. (@jackyalcine), "Google Photos, y'all fucked up. My friend's not a gorilla," Twitter post, Jun. 28th, 2015, https://twitter.com/jackyalcine/status/615329515909156865.
[13]Sweeney L., "Discrimination in Online Ad Delivery," Jan 28th, 2013, https://dataprivacylab.org/projects/onlineads/1071-1.pdf.
[14]Langston, J., "Who's a CEO? Google Image Results can Shift Gender Biases," Apr. 9th, 2015, http://www.eurekalert.org/pub_releases/2015-04/uow-wac040915.php.
[15]Larson, J. et al., "How We Analyzed the COMPAS Recidivism Algorithm," May 23rd, 2016, https://www.propublica.org/article/how-we-analyzed-the-compas-recidivism-algorithm.
[16]Obermeyer, Z. et al., "Dissecting Racial Bias in an Algorithm Used to Manage the Health of Populations," Science, 2019, 366(6464), pp. 447–453.
[18]Seaver, N., "Algorithms As Culture: Some Tactics for the Ethnography of Algorithmic Systems," Big Data and Society, 2017, 4(2).
[19]Seaver, N., "What Should an Anthropology of Algorithms Do?" Cultural Anthropology, 2018, 33(3), pp. 375–385.
[20]Vincent, J., "Twitter Taught Microsoft's AI Chatbot to Be a Racist Asshole in Less than a Day," Mar. 24th, 2016, https://www.theverge.com/2016/3/24/11297050/tay-microsoft-chatbot-racist.
[21]Choi, C. Q., "7 Revealing Ways Ais Fail," Sep. 21st, 2021, https://spectrum.ieee.org/ai-failures.
[22]Miller, C. C., "Algorithms and Bias: Q. and A. With Cynthia Dwork," Aug. 10th, 2015, https://www.nytimes.com/2015/08/11/upshot/algorithms-and-bias-q-and-a-with-cynthia-dwork.html?searchResultPosition=5.
[23]Dwork, C. et al., "Fairness Through Awareness," Nov. 29th, 2011, arXiv: 1104. 3913.
[24]維納:《人有人的用處:控制論與社會》,陳步譯,北京大學出版社,2019年,第156~159頁。
[25]曲鄒:《關于AI測試與評價的思考》,微信公眾號“人機與認知實驗室”,2022年4月8日。
責 編/陳璐穎