uck Dormehl在《算法時(shí)代》一書(shū)中講了一個(gè)名為羅伯特·摩西的設(shè)計(jì)者,在二十世紀(jì)20至70年代,為紐約設(shè)計(jì)并修建了多處道路、公園和橋梁。在羅伯特·摩西的設(shè)計(jì)下,進(jìn)入公園前的橋梁特別矮,只有2.7米左右,這就使得那些買(mǎi)得起轎車(chē)的有錢(qián)富人才能進(jìn)入公園,而乘坐公共汽車(chē)的窮人(其中有很多是黑人)只能繞道而行。這在當(dāng)時(shí)是一種有代表性的觀(guān)念,現(xiàn)在來(lái)看,則是難以容忍的偏見(jiàn)——這種偏見(jiàn)并不是訴諸文字法律,而是嵌入在城市的設(shè)計(jì)中了。
在數(shù)據(jù)的時(shí)代,數(shù)據(jù)的采集者和算法的設(shè)計(jì)人員很可能存在一些他們自己都意識(shí)不到的偏見(jiàn),這些偏見(jiàn)會(huì)影響他們對(duì)數(shù)據(jù)采集的重點(diǎn),并隱蔽地藏在他們的代碼中,最終產(chǎn)生有偏見(jiàn)的結(jié)果。
舉個(gè)例子,我們?cè)谂c某銀行就企業(yè)貸款的貸后管理進(jìn)行合作時(shí),注意到某個(gè)特定籍貫人員開(kāi)設(shè)的企業(yè)存在大量貸款償還延期甚至惡意支付的現(xiàn)象。在我們把數(shù)據(jù)分析的結(jié)果反饋給銀行的同事后,他們針對(duì)主要自然人股東中有相應(yīng)籍貫或者法人股東注冊(cè)在該地區(qū)的企業(yè),添加了新的需要提供的盡調(diào)內(nèi)容(更多的數(shù)據(jù)),并且人為收緊了放貸。這個(gè)結(jié)果是我們分析人員不可控的,也是一個(gè)典型的頭痛醫(yī)頭腳痛醫(yī)腳的方法,我個(gè)人認(rèn)為不會(huì)產(chǎn)生一個(gè)解決方案,而只是讓數(shù)據(jù)和模型變得復(fù)雜和丑陋。很可能這個(gè)地區(qū)之所以出現(xiàn)高風(fēng)險(xiǎn),是該地區(qū)特定經(jīng)濟(jì)形勢(shì)造成的,例如鄂爾多斯等地曾因能源價(jià)格下降發(fā)生過(guò)系統(tǒng)性經(jīng)濟(jì)風(fēng)險(xiǎn),溫州商人的現(xiàn)金流曾因非法集資遭受整體性的影響,等形勢(shì)過(guò)去后,問(wèn)題就會(huì)緩解甚至自動(dòng)消失。但是等到那個(gè)時(shí)候,銀行的這一批技術(shù)人員很可能已經(jīng)離職或者升職,下一批同事也許都不能理解這些與眾不同的數(shù)據(jù)采集和風(fēng)控模型背后的邏輯了,所以這個(gè)針對(duì)特定地區(qū)的風(fēng)控偏見(jiàn),可能會(huì)一直持續(xù)下去。
公共安全的管理也會(huì)存在類(lèi)似問(wèn)題。比如有豐富經(jīng)驗(yàn)的公安人員,對(duì)于什么樣的人會(huì)涉毒、什么樣的人有暴力犯罪的危險(xiǎn),都有自己的一套判斷方法,這和他個(gè)人曾經(jīng)成功的經(jīng)歷以及他自身的性格特點(diǎn)有關(guān)。因此,一個(gè)用來(lái)管理高風(fēng)險(xiǎn)人群并進(jìn)行提前預(yù)警的系統(tǒng),如果確認(rèn)第一批數(shù)據(jù)采集的方向和內(nèi)容,那么咨詢(xún)A專(zhuān)家和B專(zhuān)家,得到的結(jié)果一般是不同的。
讓我們不安的是,這種因?yàn)橄到y(tǒng)設(shè)計(jì)人員帶來(lái)的初始偏見(jiàn),有可能隨著數(shù)據(jù)的積累和算法的運(yùn)轉(zhuǎn)慢慢強(qiáng)化放大。舉個(gè)例子,如果現(xiàn)在我們有一套抓小偷的工具,而能夠抓到的小偷只是真實(shí)小偷總數(shù)的一小部分。如果說(shuō)中國(guó)的小偷主要來(lái)自于兩個(gè)地方:A地和B地,大約各占一半。設(shè)計(jì)這個(gè)系統(tǒng)的人以前抓過(guò)的小偷大部分來(lái)自A地,于是,算法一開(kāi)始就會(huì)把是否是A地人作為一個(gè)重要的參考特征,從而更多提醒警察關(guān)注A地人——這當(dāng)然會(huì)讓更多A地小偷落網(wǎng)。于是,這就進(jìn)一步證明了把A地人作為重點(diǎn)監(jiān)控對(duì)象是正確的,因此這個(gè)特征的權(quán)重會(huì)越來(lái)越大,算法中A地小偷的樣本數(shù)占比也會(huì)越來(lái)越大。由于最早在這個(gè)系統(tǒng)做驗(yàn)證時(shí),所有的數(shù)據(jù)都有一定偏差,于是偏見(jiàn)就積累并且被放大了。有的讀者會(huì)問(wèn):如果不是把“是否是A地人”作為特征,而是把戶(hù)籍作為一個(gè)特征,并且引入自適應(yīng)的機(jī)器學(xué)習(xí)機(jī)制,這個(gè)問(wèn)題是否就會(huì)得到解決呢?但是,真實(shí)情況比設(shè)計(jì)要復(fù)雜很多,設(shè)計(jì)人員在選擇特征的時(shí)候,往往會(huì)自以為做出了顯著正確的選擇,而事實(shí)上是受限于初始數(shù)據(jù)和個(gè)人經(jīng)驗(yàn)的局限性,而賦予了一個(gè)有偏見(jiàn)系統(tǒng)的第一推動(dòng)力。
即便完全去掉個(gè)人經(jīng)驗(yàn)的影響,看起來(lái)中立的技術(shù)本身,也可能帶來(lái)偏見(jiàn)。比如在美國(guó),面部識(shí)別技術(shù)對(duì)于男性的識(shí)別率高于女性,對(duì)于非白種人的識(shí)別率高于白種人,這就意味著一個(gè)犯罪現(xiàn)場(chǎng)出現(xiàn)過(guò)的白人女性,被識(shí)別出來(lái)的概率要小于非洲裔的男性。盡管算法不是有意為之,但是只要不是100%完美,總會(huì)存在自身的偏差,這些偏差投射在社會(huì)中,就可能成為算法導(dǎo)致的偏見(jiàn)。這種偏差甚至在一個(gè)人出生之前就可能遇到,因?yàn)殡S著B(niǎo)型超聲波技術(shù)的發(fā)展和普及,同樣嚴(yán)重等級(jí)的出生缺陷,凡是能從B超中檢查出來(lái)的,就很可能被人工流產(chǎn),而不能被B超檢查出來(lái)的,“活著生出來(lái)”的概率就大得多——盡管這不一定是一件幸事。
我從2007年開(kāi)始,就一直做個(gè)性化推薦方面的算法研究。個(gè)性化推薦系統(tǒng)的算法本身是沒(méi)有什么偏見(jiàn)可言的,無(wú)非是根據(jù)消費(fèi)者以前的購(gòu)買(mǎi)記錄,來(lái)預(yù)測(cè)他最可能購(gòu)買(mǎi)的東西,從而給他推薦。如果這位消費(fèi)者是一個(gè)窮人,以前買(mǎi)過(guò)的東西都是相應(yīng)品類(lèi)中單價(jià)最低的,那么他在系統(tǒng)畫(huà)像中有一個(gè)名為“價(jià)格敏感程度”的維度,分?jǐn)?shù)會(huì)頂呱呱得高!于是乎,當(dāng)他搜索一個(gè)關(guān)鍵詞時(shí),從前到后翻十頁(yè),看到的都是為他這樣的窮人量身定做的便宜貨。如果說(shuō)LV的店面上掛一個(gè)橫幅,寫(xiě)著“窮人與狗不得入內(nèi)”,那肯定會(huì)被砸了——因?yàn)檫@是不得了的偏見(jiàn)和歧視,但是在互聯(lián)網(wǎng)上,數(shù)據(jù)和算法帶來(lái)的偏見(jiàn)卻很隱蔽,而且,從綜合的算法效果來(lái)說(shuō),還很正確!
當(dāng)我們積累了越來(lái)越多的數(shù)據(jù),我們的喜好就會(huì)被刻畫(huà)得越來(lái)越清晰,于是乎算法會(huì)給出越來(lái)越精確符合我們需要的服務(wù)。逐漸地,我們會(huì)被計(jì)算機(jī)封鎖在一個(gè)狹窄的空間里面,因?yàn)槲覀兯x之書(shū)都符合以前的興趣,所試的衣服都符合以前的審美,所購(gòu)買(mǎi)的商品都符合以前的經(jīng)濟(jì)水平。這很可能也是一種無(wú)形的偏見(jiàn),而且人機(jī)互動(dòng)互為增益——不僅是偏見(jiàn),還是個(gè)性化的偏見(jiàn)。(作者為電子科技大學(xué)互聯(lián)網(wǎng)科學(xué)中心主任,教授)