編者按:紐約大學社會學家莫娜·斯隆(Mona Sloane)致力于發現 AI 設計和政策方面的不平等問題。日前,她在《麻省理工科技評論》撰文指出,機器學習可能會對處于壓迫和弱勢的群體造成更大傷害,而科技界則一直沒有有效的解決方案。她呼吁,是時候面對壓榨思維帶來的挑戰了。

莫娜·斯隆
人工智能領域終于意識到,機器學習可能會對處于壓迫和弱勢的群體造成更大傷害。我們要感謝活動人士和組織者為此做出的努力。機器學習研究人員和學者們已經開始尋找使人工智能更加公平、更負責任和透明度更高的方法,并且最近開始注重參與性這一方面。
前不久在美國舉行的機器學習國際會議上,最令人感興趣、參與人數最多的活動之一,就是“機器學習的用戶參與”。這個研討會將用戶參與融入設計當中,以達到AI領域對建立更民主、更公平以及合作度更高的演算法系統的期望。這種方法可以讓那些使用一個算法系統并受其影響的人參與到設計過程中,例如,讓護士和醫生幫助開發敗血癥檢測工具。這是機器學習領域急需的一種介入方式,因為機器學習本身可能會過度分層和同質。但這個方法也不是什么靈丹妙藥,因為“用戶參與式改進”可能會成為該領域下一個有風險的行為。這就是我和伊曼紐爾·莫斯、奧萊坦·阿沃莫洛和勞拉·福拉諾在我們最近發表的論文《用戶參與不適合機器學習》中所主張的。
如果忽視系統對某些方面的壓制和優待,就會出現極其不透明和不公平的機器學習系統。在過去 30 年中,這些特征已經滲透到人工智能領域里了。與此同時,世界正在經歷貧富差距的指數級增長和化石燃料導致的氣候變化。這些問題都根源于驅動資本主義的關鍵動力:壓榨。用戶參與通常也是基于同樣的壓榨思維,尤其是在機器學習方面。
用戶參與已經成為機器學習的重要組成部分,但在途徑上存在問題。
一種途徑是工作式參與。不管參與者的工作是否被認可,他們都在產生用于訓練和評估機器學習模型的數據方面發揮了重要作用。人們把拍攝的照片發到網上,而亞馬遜的土耳其機器人等平臺上的低薪員工會對搜集來的這些照片進行注釋,使之成為訓練數據。普通的網站用戶在完成一個 reCAPTCHA(網站用于減少垃圾郵件和欺詐活動的工具)時也需要做這種注釋。讓一些看似是自動化的系統運行起來,需要大量的幕后工作,人類學家瑪麗·格雷用“幽靈般的工作”來形容它們。這種參與在很大程度上并沒有得到合適的補償,甚至在很多情況下都沒有得到承認。
另外一種趨勢是咨詢式參與,它在城市設計等領域很常見,在機器學習領域也越來越普遍。但是這種方法通常只會在短期內產生效果,無法長期保持。因為考慮到知識產權的問題,所以很難讓被咨詢人真正去檢測這些工具。因此,這種形式的參與往往只是口頭表述性的。
更有希望的是將用戶參與作為一種表達公正的理念。設計過程的所有成員在一起緊密地工作,并經常進行交流。公平公正的用戶參與是一項長期的承諾,它注重來自不同背景的、長期發揮主導作用的群體指導設計產品,包括殘疾人群體。這一概念具有社會和政治意義,但資本主義市場結構使其基本無法順利實施。
機器學習讓科技行業中的優先級情況更加普遍,其核心是規模和壓榨。這讓用戶參與式機器學習目前更像是一種矛盾修飾法。大多數機器學習系統都默認帶有監視、壓迫和要挾(包括在工作場所中)的作用。這些系統也會強迫用戶同意使用這些功能——例如,用戶為了使用某些技術而不得不選擇使用監視系統,一些默認設置也不利于用戶保護自己的隱私。有鑒于此,機器學習沒有考慮使用現有的動力機制,而是采用一種壓榨用戶的方式來進行協作,這就不足為奇了。如果我們不注意這方面的話,用戶參與式機器學習可能會觸犯人工智能倫理,成為另一種用來合法化不公正的趨勢。
我們怎樣才能避免這些風險呢?這個問題不太好回答,但我們給出了四條建議:承認用戶的參與也是一種工作。現在許多人都在日常生活中使用機器學習系統,他們的參與大幅度維護和改進了這些系統,因此對系統所有者來說是有價值的。要承認這些用戶帶來的價值,在使用所有用戶的貢獻前都應征求他們同意,并給其提供退出系統的途徑。
如果他們選擇參與,就應得到補償。這樣做可能意味著系統所有者需要公開何時以及如何將用戶行為生成的數據用于訓練目的;這也將意味著為內容版主提供適當的支持,以公平地補償那些幕后工作者,并開發貨幣或非貨幣獎勵系統來補償用戶的數據和勞動。
讓參與環境更加具體。技術人員必須清楚認識到他們所處的具體環境,而不是試圖采用“一刀切”的方法。例如,當設計一個預測青少年和團伙暴力的系統時,技術人員應該不斷重新評估他們在生活經驗和領域專業知識基礎上構建的方式,并與他們的目標對象合作。當項目所處的環境隨著時間變化時,這一點尤為重要。記錄過程和環境中的微小變化,可以形成長期有效用戶參與的知識庫。例如,在設計用于臨床護理的機器學習系統時,應該只咨詢醫生,還是應該同時咨詢護士和病人?明確特定群體參與的原因和方式,可以使決策和關系變得透明、可問責和可執行。
一開始就做好長期的參與計劃。隨著時間的推移,如果用戶能夠分享和獲得知識,而不單單是貢獻知識,他們就更有可能堅持參與過程。這在機器學習中很難實現,特別是在專有設計案例中。需要注意用戶長期參與機器學習變得復雜化的緊張關系,并認識到合作和公正的發展不會一帆風順。這些東西都需要不斷維護,并且必須在新的環境中反復地表達清楚。
從過去的錯誤中吸取教訓。重復產生有害技術的思維方式會造成更多的傷害。作為研究人員,我們需要提高跨應用和跨職業的橫向思維能力。
為了促進這一點,機器學習和設計人員可以開發一個可搜索的數據庫,以突出那些設計中失敗的參與項目。這些失敗可以與社會結構概念(如種族不平等問題)相互參照。這個數據庫應該涵蓋所有領域的設計項目,而不僅僅是機器學習領域,并且需要明確公開缺失值和異常值。我們通常可以從這類極端案例中學到很多教訓。
我們非常樂意看到機器學習領域開始思考與公平公正相關的問題。但答案不應該僅僅依賴于用戶參與。對有效解決方案的渴望困擾了科技界太久了,是時候面對壓榨思維帶來的挑戰了。(摘自美《深科技》)(編輯/萊西)