編譯 舒愉棉
作為數碼藝術項目和熱門自拍軟件,圖網輪盤(ImageNet Roulette)暴露了偏見如何滲入正改變我們生活的人工智能技術。
當塔邦·基馬(Tabong Kima)在周三清晨刷新推特時,當前的熱議話題是圖網輪盤。似乎每個人都把自己的自拍照上傳到名為“圖網輪盤”的網站,該網站可以用某種人工智能(AI)分析上傳照片的人臉,并對其進行文字描述。一名男性就被打上了“孤兒”的標簽,另一個則是“非吸煙者”,還有一個戴眼鏡的則被描述為“學癡、宅男、書呆子、工作狂、怪咖”。
在給基馬先生推送的推特信息里,這些有的準確、有的奇怪、有的毫無根據的標簽看起來只為博人一笑,于是他也加入其中,可24歲非裔美國人的基馬先生并不喜歡他看到的結果:當上傳了自己的微笑照片后,網站給他貼上的標簽是“滋事者”和“尋釁者”。
基馬先生在他的推特里寫道:“我可能沒啥幽默感,不過我真不覺得這個好笑。”
事實證明,他的反應正是該網站的目標。圖網輪盤是一個數字藝術項目,旨在揭示那些古怪、不健全和令人反感的行為,這些行為可能滲透到快速改變我們日常生活的人工智能技術中,包括互聯網公司、警察部門和其他政府機構使用的面部識別服務。
人臉識別和其他AI技術通過分析海量數據來習得自身的技能。這些數據來自舊的網站和學術研究項目,通常會含有多年來一直忽視的微妙偏見和其他瑕疵。由美國藝術家特雷弗·帕格倫(Trevor Paglen)和微軟研究員凱特·克勞福德( Kate Crawford)設計的“圖網輪盤”的初衷就是為了顯示這個問題的深度。
身處巴黎的帕格倫在接受電話采訪時說:“我們希望展示不同層面的偏見、種族主義和厭女癥如何在不同系統中傳遞,關鍵在于要讓人們看到幕后工作是如何進行的,要讓他們看到一直以來我們的信息是如何處理和分類的。”
2019年9月12日,“圖網輪盤”作為展覽的一部分在米蘭的普拉達基金會藝術館揭幕,其針對的主要是一個名為“圖網”(ImageNet)的大型可視化數據庫。十多年前,斯坦福大學的一組研究人員首次編寫了“圖網”,隨后“圖網”在深度學習(機器學習的一個子領域,一種能夠讓機器識別包括人臉在內的圖像的數學方法)的崛起中扮演了極為重要的角色。
“圖網”擁有從互聯網上收集的超過1 400多萬張照片,是用來訓練AI系統和評價其準確性的工具。通過分析各種各樣的圖像(例如花、狗和汽車的照片),這些AI系統學會如何去識別它們。
但在研究AI的群體里,人們鮮有提及的是:圖網同時也包含了成千上萬個人的照片,并且每張照片都進行了分類。這包括像“啦啦隊隊員”“電焊工”和“童子軍”這樣直白的標簽,也包括像“殘次品、失敗者、無望成功、碌碌無為”和“臭女人、蕩婦、邋遢女、婊子”這種含有強烈情感色彩的標簽。
不管這些標簽看上去是否無傷大雅,通過搭建運用這些標簽的藝術項目,帕格倫先生和克勞福德女士展示了人的觀念、偏見和有時候很冒犯人的觀點是如何驅動人工智能的產生。
圖網的分類標簽被數千個不知身份的人應用,這些人大多數身處美國,受雇于斯坦福研究團隊,他們通過勞務眾包平臺“亞馬遜土耳其機器人”(Amazon Mechanical Turk,簡稱AMT)標注照片,按張計費,能在1小時內標注上千個標簽。隨著他們對照片的標注,偏見就這樣融入數據庫。盡管我們無從得知這些進行標注的人是否帶有這樣的偏見,但正是這些人定義了“失敗者”“蕩婦”還有“滋事者”。
這些標簽最初來源于另一個名為“詞網”(WordNet)的龐大數據庫,這是由普林斯頓大學研究人員在20世紀80年代為機器建立的概念詞典。但是,隨著那些具有煽動性的標簽被收入其中,斯坦福大學的研究人員可能并沒有意識到他們在做什么。
人工智能常常用海量的數據集來進行訓練,即使它的制造者可能并不十分清楚這些數據集有哪些內容。“這樣的事情在宏觀尺度上時有出現,而這會導致系列后果。”在人工智能初創公司克拉里法伊(Clarifai)負責數據標注監督的利茲·奧沙利文(Liz O’Sullivan)說道。他現在是名為“監控技術監管項目”的民權和隱私組織的成員,該項目旨在提高人們對AI系統問題的認識。
圖網數據集中使用的許多標簽都是極端的,但同樣的問題也會出現在看似并不具有冒犯性的標簽中,畢竟用什么來定義“男性”或“女性”目前仍有爭議。
奧沙利文解釋道:“當在對女性或女孩的照片進行標記時,人們可能并不會將非二元性別者或短發女性歸于此;于是你獲得的AI模型就只會含有長發女性的數據。”
近幾個月來,研究人員向世人展示了:由像亞馬遜、微軟和IBM等公司提供的人臉識別服務會對女性和有色人種存有偏見。帕格倫先生和克勞福德女士希望通過這個項目能夠引起人們對這個問題的更多關注——他們的確做到了。在筆者撰文的這周內,隨著該項目在推特等網站逐漸流行,圖網輪盤一度在1小時內生成了超過10萬個標簽。
克勞福德女士評論說:“這個項目能夠像現在這樣成功,這對我們來說完全是個驚喜; 這能讓我們真正看到人們對這個項目的看法以及讓人們真正參與其中。”
對于有的人來說,這就是個玩笑,但對于其他像基馬先生這樣的人,則接收到了項目想要傳達的信息。“在展示存在什么問題方面,他們做得很好;而在我意識到這個問題之前的那個階段就有點糟糕了。”基馬先生評價道。
盡管如此,帕格倫先生和克勞福德女士認為,問題可能比人們意識到的還要嚴重。
很多數據集已經反復被科技巨頭、初創企業和學術實驗室用來訓練各種人工智能,而圖網只是其中之一。這些數據集的任何瑕疵都已經廣泛傳播。
如今,許多公司和研究人員正在努力消除這些瑕疵。為了應對關于偏見的投訴,微軟和IBM已經升級了他們的人臉識別服務。2019年1月,差不多在帕格倫先生和克勞福德女士首次探討圖網中使用奇怪標簽的同一時間,斯坦福大學的研究人員已經禁止了圖網數據集中所有人臉數據的下載,并在近期宣布他們將刪除大量人臉數據。該團隊發布在《紐約時報》上的聲明表示:他們的長期目標是“解決數據集和算法的公正性、可靠性和透明性”。
但對帕格倫先生而言,更大的問題浮出了水面。AI最基礎的本質是向人類學習,而人類就是有偏見的生物。他說:“我們對圖像進行分類的方式是我們世界觀的產物,任何類型的分類系統都會反映進行分類操作的人的價值觀。”