嚴 景
北京郵電大學,北京 100876
利用人工智能系統為公司篩選簡歷,本是一件節省時間和人力成本的好事,但是這背后也許會隱藏著風險。去年,美國一家著名的電商公司就陷入了這樣一場由人工智能簡歷篩選系統引發的算法歧視風波。
該公司自2014年起,開始將人工智能簡歷篩選系統用以招聘。該系統能夠根據應聘者簡歷中的關鍵詞,判斷這些關鍵詞與崗位的匹配程度,對簡歷進行一至五星星級打分,選出最為“契合”的應聘者。這一系統看似高效便捷,然而卻被媒體披露,其算法對女性具有歧視:它通過關鍵詞直接過濾了女性應聘者的簡歷。
這一切并不是該公司故意而為之。系統的設計者以公司在2004到2014年十年間收到的、含有五萬個關鍵詞的簡歷為錄入樣本,讓系統通過研究樣本數據,總結出崗位與簡歷關鍵詞的匹配規律,這樣,系統便知道某一特定崗位通常與哪些關鍵詞掛鉤。(譬如應聘產品經理崗位的簡歷通常含有“決策力”、“邏輯性”等字眼。)因而也就可以直接通過關鍵詞篩選應聘者。問題在于,這十年間的簡歷絕大多數都是由男性投遞的,女性樣本非常少。人工智能系統在研究樣本的過程中,誤以為女性樣本比例小是因為女性應聘者并不如男性那樣符合公司的招聘需求,于是系統在實際招聘中傾向給女性應聘者打低分。
此消息一經披露變引發了軒然大波。該公司不得不在去年停用了此人工智能簡歷篩選系統。
當攝取的數據出現偏差時,人工智能有可能放大這個偏差,最終輸出帶有偏見的結果,這也就是所謂的算法歧視。如今,人工智能已經應用在公眾生活的諸多領域,算法歧視一旦產生,極有可能會挑戰到公序良俗、侵犯公民的合法權益。正如這個案例中,女性的平等就業權就遭受了巨大的沖擊因此。為此,我們有必要探討如何避免人工智能中的算法歧視。
探討人工智能算法歧視的前提是厘清什么是人工智能。
人工智能(Artificial Intelligence,AI),這個詞包含了兩個層次:一是人工,二是智能。如今的人工智能是由機器或軟件所呈現出來的,故而“人工”一詞指的是人造機器或軟件。計算機科學上關于“智能”的定義存在著許多爭論,有學者認為智能就是一種學習的能力。有學者認為智能是個多元概念,包括學習、邏輯與探索等等能力。筆者認為智能是獲取某些信息并利用這些信息以實現特定目標的能力①。因為麥卡錫提出人工智能這個概念的根本目的還是在于希望其能學會自我實現目標。所以人工智能就是由機器或軟件表現出來的特定目標的智能。人工智能實現特定目標的過程,即軟件或機器基于數據信息,模仿人的思維方式和行為方式,思考問題、解決問題,并且實現自我完善。
人工智能可劃分為兩類,一類是廣義的人工智能,也就是強人工智能(Artificial General Intelligence,AGI)。一類是狹義的人工智能,也就是弱人工智能(Artificial Narrow Intelligence,ANI)。②這兩者的區別在于,廣義人工智能能夠實現自我感知,能夠對對周圍環境做出反應。它可以對人類交付的目標進行調整,甚至是構建新的目標,可以說,它是有獨立意志的。而狹義人工智能,只能簡單執行人類賦予的指令,無法自我創造目標。
人工智能技術經過誕生至今幾十年的快速發展,早已經融入人類生活的方方面面。
在經濟領域,人工智能技術在工農業都發揮著不容忽視的作用:專家系統、智能控制、遺傳編程等技術,使得天氣預測、物種培育、作物養殖、物流倉儲等方面都有了重大突破;智能工廠、智能生產、工業智能管理逐步成為了現實。在政治領域,人工智能也扮演著重要的角色:行政執法監測、信息收集與檢索等技術為行政和司法帶來便利;智能控制系統、人工智能武器、無人化平臺等技術成為評估一國國防力量的重要因素。在社會生活領域,無人駕駛、智能醫療、機器識別、智能家居等各種人工智能產品與服務為人類的生活帶來了巨大的變革。
人工智能技術在當下被如此廣泛的應用,與每個公民的生存發展都有著如此緊密的聯系,而且可以預見,今后它勢必會在人類的生活中走得更深更遠。我們可以看好人工智能,但不能對其暗藏的算法歧視視而不見。
在公眾的預想中,人工智能與人不同,它超越了人類認知水平的局限,也不受感情因素的影響,人工智能輸出的數據和信息,應當是客觀的、中立的、公平的。那么為什么算法歧視又屢屢發生呢?
算法歧視產生的原因主要有以下幾種:
第一,數據驅動產生了算法歧視。
對于人工智能而言,其輸入的樣本決定了輸出的數據。當系統用以訓練的數據樣本有偏差時,其產出的結果也會不客觀。正如在此案例中,其過去十年間應聘者的男女性別比例極其失衡,設計者在開發簡歷篩選系統之時忽視了這一點,原封不動地把所有的簡歷信息錄入。他們并沒有意識到簡歷樣本的性別偏差會導致人工智能產生男性比女性“重要”的判斷,這就造成了后來的問題。
我們會理所當然地認為,當人工智能系統參考的數據樣本規模足夠大時,計算結果就會更為精準,也趨于公正。可這種預設的前提是樣本能完整均衡地覆蓋到每個群體。一旦覆蓋不完整而產生了誤差值,當樣本規模越大,偏差也會越大。
此案例造成的歧視并非技術人員故意而為。可現實中不排除有的程序設計者本身就對某一人群或事物抱有歧視態度,而故意錄入不公正、客觀的數據。所以,人為或非人為的原因,都有可能造成數據驅動型的算法歧視。
第二種是交互過程中產生了算法歧視。
有的算法歧視,來源于人工智能投入使用過程中接觸到的用戶持有的偏見。由于人工智能能對獲取的信息加以學習和模仿,且這種吸收是對信息不加甄別的,所以一旦獲取到了用戶歧視性的言論,它便有可能主動模仿這些言論,最終成為一個歧視者。同樣以性別歧視為例,如果將一個智能聊天系統投入到一個歧視女性的社交平臺,而與它互動的用戶經常發表一些歧視女性的論調,那么它也將學會這些言論。
第三種是人工智能系統為了實現用戶需求產生了算法歧視。
用戶都會按照自己的習慣和喜好來使用一項產品。而人工智能產品會研究用戶的行為模式,迎合用戶的喜好,呈現出用戶想要看到的商品和服務。算法在這個過程中讓用戶看到他們只想看到的信息,過濾用戶不想看到的信息。可問題在于,用戶自己既有的傾向不一定是正確的,人工智能在后期對錯誤信息的一次次不斷呈現,有可能會使用戶在偏差的道路上越走越遠。比如一個用戶先入為主地認為男性比女性更適合擔任企業的管理者職位,為了佐證自己的觀點,他在網絡問答社區上搜索這類的問題。在查看他人評論的時候,他有可能著重瀏覽支持自己立場的回答。這時候,人工智能系統為了“滿足”用戶的需求,往往會記住他的傾向,主動地給他推送一些男性確實比女性更合適的留言。用戶最終會認為既然有如此多的證據佐證自己的立場,那么自己的觀點一定是對的。
人工智能在學習用戶偏好之時,我們尚且可以說它是中立的。它如同一個嬰兒,無法辨別用戶偏好的好壞。可遺憾的是,當它為了滿足這種偏好而選擇性地推送信息的時候,其行為就打上了歧視的烙印了。
人工智能算法歧視并不只是研發者辯稱的技術瑕疵那么簡單。這個案例告訴世人,算法歧視是能對公民法定就業權造成直接侵害的。除此之外,人工智能的算法歧視還可能侵犯的公民的名譽權。(當歧視是人工智能系統作為商品或服務時產生的,侵犯的則是消費者人格尊嚴受尊重權。)
除了私法上的法律問題外,人工智能系統算法歧視可能還會引起公法上的法律問題。當歧視言論涉及到民族、宗教,情節嚴重的,可能涉及煽動民族仇恨、民族歧視、煽動分裂國家等問題。
人工智能算法歧視問題的解決不能僅僅等待研發者突破技術難關,而需要法律與政策的支持。
技術中立是當今學界的共識。許多研發者認為人工的機器或軟件沒有情感,也沒有價值觀,其輸出的內容不過是對現實世界的客觀反映。在非故意錄入歧視性樣本的情況下,研發人員對人工智能造成的危害后果沒有主觀惡意,所以不用對此承擔法律責任。然而,技術特性不能成為研發人員逃避法律責任的借口。即使不能人為干預輸出過程,研發人員至少可以在以下方面做出努力:一、廣泛調研,保障輸入樣本的完整性、準確性,將樣本的偏差率僅可能降低。二、保障算法和數據的透明性。除了設計商業秘密和國家秘密的數據,研發者可以選擇將信息公開,向公眾展示人工智能做出決策的過程和依據,這樣就能讓公眾在一定程度上監督系統的運作。三、建立救濟機制。研發企業應當有相關的事后救濟機制,在歧視產生時,能將影響降到最低。在這些方面,立法機關應當完善相關的法律法規,將企業的法律責任明確下來。
行政機關應當加強對人工智能商品或服務的監管。有關部門可以建立倫理審查制度,重申公平的價值理念,對人工智能產品的開發設立倫理紅線。同時,可以建立動態監測機制,對人工智能的應用實現跨平臺、全流程跟蹤監管,針對屢次觸碰紅線、造成嚴重危害的企業,可以將其納入黑名單中。
2016年,日本AI學會、英國標準協會相繼出臺人工智能設計倫理標準。在美國,谷歌等產業巨頭也不斷提出如機會平等“(Equality of Opportunity)”這樣的新的技術要求以避免算法歧視。我國也應當強化行業自律,發揮人工智能學會的監管作用,促進相關企業的交流與合作,盡快推動技術標準和行業規范的出臺。
[ 注 釋 ]
①這里采用德國學者馬庫斯.胡特和謝恩.萊格的觀點:“智能是用來衡量一個個體在一系列廣泛環境中實現目標的整體能力.”
②現在也有學者提出人工智能可以分為弱人工智能、強人工智能、超人工智能(Artificial Superintelligence,ASI)三個等級.ASI的學習能力、獨立意識,以及解決問題的能力比AGI更強.