999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

大數據技術如何顧及隱私與公平

2020-02-10 04:11:10黃湘
第一財經 2020年1期

黃湘

《倫理算法:具有社會意識的算法設計科學》

作者:[美]邁克爾·克恩斯(Michael Kearns)、亞倫·羅斯(Aaron Roth)

出版社:Oxford University Press

出版時間:2019年11月

定價:24.95美元

本書位于計算機科學與哲學的交叉地帶,深入淺出地介紹了通過特定的算法原則將社會規范嵌入大數據技術之中的前沿思路。

邁克爾·克恩斯、亞倫·羅斯分別是美國賓夕法尼亞大學計算機系教授和副教授。

眾所周知,人類社會已進入大數據時代。大數據技術在創造巨大便利和效益的同時,也引發了始料未及的問題和隱患。每一個人在享受大數據技術成果的同時,其私人生活的方方面面也都成為被大數據技術——諸如手機里的各種App、公共場所的監控視頻、每天的上網和刷卡記錄等等——所收集的數據。

一個備受關注的問題是隱私的泄露。在大數據時代,“匿名”并不能保護隱私。一個典型的例子是,Netflix網站曾經推出一個增強版的電影評分系統,每一位用戶都可以匿名地對看過的電影評分,所有評分數據公開。但是研究表明,在99%的情況下,倘若某位具有窺視欲的A知道其目標對象B在一段時間內看過的6部電影的名稱(不需要掌握B看某部電影的精確日期,可以有前后兩周的誤差),就可以確認B在Netflix上的賬號,了解B的電影評分記錄。由于一個人對于電影的偏好可以反映他在日常生活中往往刻意掩飾的政治傾向和性傾向,所以這樣一個電影評分系統會泄露不少人的隱私。事實上,一位隱藏同性戀傾向的母親就因此把Netflix告上了法庭,Netflix最終取消了這個系統。

另一個問題雖然不像泄露隱私那樣明顯,但后果更為嚴重。在大數據時代,很多包含了數據篩選的工作,例如銀行貸款和公司招聘員工,都是由機器代替人來作決定。這能否保障公平?2018年,亞馬遜公司就曾爆出丑聞,它用于篩選求職者簡歷的機器學習模式,對“女性”這個詞匯予以貶低性評價,那些在簡歷中提到自己曾擔任“女子國際象棋隊隊長”或畢業于“女子學院”的求職者都被自動降格——關鍵在于,這個歧視女性的篩選模式是機器在處理大數據的過程中自行發展出來的,而不是某位人類程序員編程的結果。就像圍棋程序“阿爾法狗”(AlphaGo)打遍天下無敵手,但開發這個程序的程序員并不是圍棋高手。換言之,即使一家公司并不歧視特定人群,也不能保證他們所開發和使用的大數據技術不會歧視特定人群。長此以往,會造成嚴重的不公平。

那么,人類社會應當如何減少大數據技術對隱私和公平造成的危害呢?傳統思路是制定法律,規范人類對大數據技術的使用,這在許多國家已經付諸實踐。而在計算機科學家群體內部,還有一條“從內部解決問題”的思路——把社會規范直接嵌入大數據技術之中,讓大數據技術本身顧及隱私與公平。

乍聽起來,這似乎是天方夜譚,怎么可能讓機器“理解”隱私和公平這種概念呢?事實上,所謂“讓大數據技術本身顧及隱私與公平”,是指通過特定的算法原則來指導機器如何處理大數據,而這些特定算法符合保護隱私和保障公平的倫理關懷。這正是美國兩位計算機科學家克恩斯(Michael Kearns)和羅斯(Aaron Roth)的《倫理算法:具有社會意識的算法設計科學》一書的主題。

先看隱私,傳統觀念認為匿名是保護隱私的利器,但是前述Netflix的例子說明,在大數據時代,匿名并不能真正保護隱私。另一個保護隱私的常見思路是對數據庫“上鎖”,只有掌握“鑰匙”的特定人士才能查閱相關數據,但是這樣就限制了數據的使用。而數據應當是開放共享的,如此方能用于各種科學研究,促進社會發展。那么,應該怎樣處理保護隱私和共享數據之間的矛盾呢?

在21世紀初期,計算機科學家建立了“差分隱私”(differential privacy)的概念。它的意思是,如果在數據庫里抹掉某個特定個體的數據,這個數據庫依然可以反映與保留該個體數據時完全一致的宏觀信息,那么這個數據庫就可以既保護該個體的隱私(通過抹掉),同時付諸研究者使用。

一個例子是調查一座城市里對婚姻不忠的人員的比例。這個問及“你是否曾經對婚姻不忠”的調查無疑涉及隱私。為了保護隱私,可以采用隨機化的方法。調查者先讓被調查人員扔一枚硬幣,但是不要告訴調查者扔硬幣的結果。如果硬幣呈正面,則被調查人員說真話;如果硬幣呈反面,被調查者需要再扔一次硬幣,如果硬幣呈正面則說“是”,反面則說“否”。這種方法保證了調查者不會了解每一位被調查人員是否真的曾經不忠,而在樣本數量足夠多的情況下,調查結果可以反映總體的人員比例。如果對婚姻不忠的人員比例是1/3,那么這次調查中說“是”的比例就是5/12。也就是說,通過隨機化調查可以反推出想知道的答案。對于通過“上鎖”來保護隱私的傳統方法來說,一旦“鑰匙”被破解,隱私就會被泄露。而隨機化方法建立的數據庫即使公開,也無法反推出某一個體的真實數據。

Google從2014年開始依據“差分隱私”原則來搜集用戶電腦中的惡意代碼(ma]ware)使用記錄,蘋果公司也從2016年開始依據此項原則來搜集iPhone用戶的使用記錄,它們的方法就是前文提到的隨機化,只是具體算法遠比它復雜。這是在大數據時代既保護隱私,又高效使用數據的兩全其美之道。

再看公平,這是一個遠比隱私復雜的概念。有一種觀點認為,保障公平的理想手段是屏蔽有可能導致歧視的相關信息,例如在公司招聘時,求職者不需要填寫自己的種族身份,以此避免種族歧視。但實際上,各類數據之間的相關性使得這種手段難以奏效。例如在美國,根據一個人住址的郵政編碼基本上就可以反推出他的種族身份、家庭收入和教育程度等信息。

因此,從限制數據輸入的角度來保障公平并非良策,要讓大數據技術顧及公平,關鍵在于通過特定算法來保證公平的數據輸出結果。而這首先需要確認“公平”的含義。

在最簡單的情況下,公平意味著統計上的均等。以劇院贈票為例,如果要向兩個群體A和B公平贈送10張票,A、B的人數之比是六比四,那么隨機在A群體中找6個人,在B群體中找4個人贈票就符合這種公平觀念。然而,即使是這樣簡單的公平觀念,將其嵌人大數據技術之中也并非易事。例如,假設贈票不僅要求A和B兩個群體公平,也要對男女公平,而兩個群體總人口中的男女比例也是六比四,那么將票隨機贈給A群體中的6個男人和B群體中的6個女人就能完全符合上述要求,但這就造成了對A群體中的女人和B群體中的男人的歧視。

問題在于,機器在通過自我學習處理大數據時,能夠執行開發者明確提出的要求,卻常常未必能夠回避開發者想要回避卻又未曾明示的后果。由于開發者事先不可能預見所有后果,因此也就不可能事先明示機器。如何讓機器自己懂得回避這類后果,是計算機科學的一項難題。

另一方面,在牽涉到其他因素時,就不能再把公平等同于統計上的均等。如果銀行對前述A、B兩個群體發放貸款,而兩個群體的信用有所不同,那么就不能根據其人口比例來分配貸款。在這種情況下,公平不是在兩個群體之間均等地分配貸款,而是均等地分配“錯誤”。如果A群體的信用比B群體高,那么在兩者違約率均等的情況下,A群體就能夠得到較多貸款。

這說明公平的內涵是和社會語境相關的,在處理不同的問題時,需要不同的算法。

關于算法的公平性,一個致命的問題在于,最初輸入的數據可能就是具有歧視性的。例如,政府要計算A、B兩區的犯罪率,但是并沒有真實的犯罪數據,只有警察逮捕的數據。假設A、B兩區的實際犯罪率相同,但警察在B區的逮捕記錄較多,這將導致政府認為B區犯罪率較高,因此加派更多警察,而警察越多,逮捕的犯人就越多,如此形成的反饋環就會造成B區犯罪率遠高于

A區的印象。一個更加微妙的例子是前述亞馬遜招聘模式的性別歧視,那是因為許多日常語言就隱含了對女性的歧視,而這些日常語言作為訓練數據被輸入機器,機器在識別語義的學習過程中對“女性”這個詞匯自動予以貶低性評價。如何回溯并校正這種歧視性的數據輸入,是大數據技術的一項關鍵任務。

在很多情況下,公平并非唯一的目標,效率與公平需要兼顧。如果把“效率損失”和“不公平程度”作為兩個量化指標,那么這種兼顧可以表示為如下指令:“在不增加效率損失的前提下盡可能減少不公平程度,在不增加不公平程度的前提下盡可能減少效率損失?!毙屎凸皆诤芏鄷r候常常是沖突的,在這種情況下,上述指令就相當于經濟學所說的“帕累托改進”,最終會達到所謂“帕累托邊界”,也就是不再存在改進的可能,不可能減少不公平程度而不增加效率損失,反之亦然。

“帕累托邊界”包含了眾多可能的組合。一種極端情況是效率損失為零,完全不考慮公平,這時減少不公平程度就會增加效率損失。另一種極端情況則是不公平程度為零,但完全不考慮效率。任何可以通過數據反映“效率損失”和“不公平程度”的問題,都可以利用程序推算出它的“帕累托邊界”,但是把該邊界上的哪一個點——即哪一種“效率”與“公平”的組合——作為結論,就需要由人來判斷,而非機器來決定。

以上討論的都是關于如何針對數據作出公平的決策。而在另外一些情境下由于存在人際之間的互動和博弈,保障公平不僅需要考慮如何處理數據,也需要考慮如何影響人的動機。

駕車上路就是一個重要的“百姓日用而不知”的多重博弈。每個司機選擇的車速和路線都不僅僅取決于主觀愿望,而是更多地受到路上其他車輛的速度和路線的影響?,F有導航App的功能,是通過對即時道路和行車數據的處理,為每個司機指出一條最快的行車路線。但每一個司機都試圖縮短時間抄近路的結果,就是司空見慣的車流擁堵。

本書提出的解決之道,是設計一種新的導航App,其算法不是最小化每一個司機的當前通行時間,而是最小化某一區域內所有車輛的平均通行時間。計算表明,這樣可以顯著降低所有車輛的總通行時間,對社會來說更為公平。

問題在于,怎么讓司機接受這樣一種新的導航App呢?本書指出,這種導航App的作用是為司機之間的多重博弈建立“相關均衡”(correlatedequilibrium)。所謂“相關均衡”的一個典型例子是交通信號燈。在沒有交通信號燈的情況下,車輛在通過路口時缺乏協調機制,只能盲目選擇或?;蛐?,容易沖撞。交通信號燈實則提供了一種協調機制,當大家遵循這套機制時,就可以相互判斷對方的選擇,從而作出自己的正確選擇,順利有序通過路口。同樣,以最小化所有車輛平均通行時間為目標的“公平”導航App,它所指示的路線也會成為一種協調機制,由此帶來的順利有序就是司機接受它的動機所在。

另一個例子是互聯網的內容推送,現在通行的算法是根據用戶的選擇和閱讀興趣推送內容,導致用戶的信息渠道日益囿于單一視角和立場,從而造成公共輿論場的碎片化,加劇社會分歧。本書的解決方案是改進算法,不僅推送用戶感興趣的內容,也要推送與用戶的慣常視角和立場相悖的內容,起到“兼聽則明”“聞者足戒”的作用。這也是一種公平。

本書在篇末指出,賦予抽象的價值觀念精密的數學定義,是將社會規范從內部嵌入大數據技術的起點。將來還需要讓大數據技術顧及更多的倫理觀念,諸如“透明”“可問責”“安全”“合乎道德”等等。這不僅需要計算機科學家的學術探索,更需要借鑒哲學家的思辨成果。以哈佛公開課《公正》而蜚聲國際的哲學家桑德爾(Michael Sandel)便深受兩位作者青睞。毫無疑問,標志著人類文明新紀元的大數據時代,將會賦予哲學全新的內涵。

解讀/延伸閱讀

《人之算法:人工智能如何重新定義我們是誰》

作者:[美]弗林·科爾曼(Flynn Coleman)

出版社:Counteroint

本書指出,如果能對機器學習的算法注入人性的倫理和價值,將會開啟一個新的啟蒙時代。

《數字超載:從Facebook和Google到假新聞與信息過濾氣泡——那些控制我們生活的算法》

作者:[瑞典]大衛·桑普特(David Sumpter)

出版社:Bloomsbury Sigma

本書從數學家的視角出發,簡明而敏銳地分析了大數據技術對人類社會的影響與改變。

主站蜘蛛池模板: 国内精品小视频福利网址| 久久人搡人人玩人妻精品一| 欧美日一级片| 毛片最新网址| 国外欧美一区另类中文字幕| 亚洲九九视频| 广东一级毛片| 久久96热在精品国产高清| 不卡网亚洲无码| 中国国产高清免费AV片| 激情综合网址| 国产白浆一区二区三区视频在线| 亚洲成年人片| 欧美怡红院视频一区二区三区| 亚洲最大福利网站| 高清国产va日韩亚洲免费午夜电影| 国产偷国产偷在线高清| 精品伊人久久久香线蕉 | 欧美天堂久久| 亚洲国产精品成人久久综合影院 | 亚洲第一成年网| 久久成人免费| 欧美精品1区| 国产男女免费视频| 亚洲精品第1页| 国产在线日本| 国产精品3p视频| 亚洲精品国产首次亮相| 国产激情无码一区二区APP| 日韩黄色精品| 亚洲全网成人资源在线观看| 亚洲国产一区在线观看| 国产综合色在线视频播放线视| 色婷婷啪啪| 亚洲欧洲一区二区三区| 在线观看视频99| 青青热久麻豆精品视频在线观看| 99手机在线视频| 国产熟女一级毛片| 欧美不卡视频在线观看| 亚洲激情99| 国产成人综合网| 99免费在线观看视频| 三级视频中文字幕| 日本不卡视频在线| 一本大道香蕉中文日本不卡高清二区| 欧美一区精品| 视频二区欧美| 99无码中文字幕视频| 99热这里只有精品国产99| 曰韩免费无码AV一区二区| 亚洲人成网18禁| 亚洲日韩AV无码一区二区三区人| 精品人妻AV区| 中文字幕2区| 91啦中文字幕| 成人午夜精品一级毛片| 免费国产黄线在线观看| 亚洲女人在线| 欲色天天综合网| 久久久久免费精品国产| 91久久偷偷做嫩草影院免费看 | 波多野结衣久久精品| 国产免费久久精品99re丫丫一 | 亚洲成a人片在线观看88| 日韩欧美一区在线观看| 狠狠色综合网| 伊人成人在线| 欧美国产日韩一区二区三区精品影视| 亚洲成AV人手机在线观看网站| 露脸一二三区国语对白| 国产精品亚洲一区二区在线观看| 亚洲国产精品久久久久秋霞影院| 福利姬国产精品一区在线| 国产精欧美一区二区三区| 国产aaaaa一级毛片| 999福利激情视频| 91视频日本| 亚洲精品成人福利在线电影| 亚洲色欲色欲www在线观看| 色哟哟色院91精品网站| 亚洲人免费视频|