梁玉成,張詠雪
中山大學 社會學與人類學學院,廣東 廣州 510275
得益于多元傳感器技術、云儲存技術以及大數據處理算法的發展,大量人類行為被數據化,形成大數據集合。大數據一般具有海量樣本、高速生產和高維特征的特點,它改變著人們對生活、組織和社會的理解。要對海量數據進行分析和建模,發現隱含其中的模式、關系,從而揭示規律,進行預測和干預,不得不依托于算法。算法越來越多地代替人們進行決策,對信息、勞動力和各種資源的分配進行管理,而這個過程涉及多方利益。算法提供了一種更加高效的決策可能性。
但是,發揮這種決策優勢的前提是算法作為一個獨立于各個利益群體的主體而存在。事實上,算法參與決策過程,不能完全獨立于各個利益群體。對于不同的利益群體,算法需要滿足不同的目的需要。廣義上,算法是算法、模型、目標、數據、訓練數據、應用程序、硬件這一系列要素組成的概念網絡[1]15;狹義上,算法將人類語言中的社會規范和法律規則轉化為計算機代碼[2]。從算法的工作邏輯來看,它只是一套需要遵循的指令,目標是最小化預測誤差。從這個角度出發,算法作為工具而存在,服務于不同主體。
算法作為一種工具,長期以來就在不同領域輔助人類通過數字進行決策。如今,大量不同種類數據的使用增強了算法的能力,并且讓某些自動化算法以超出人類理解的方式進行自我優化。算法決策邁向了一個更高的層次——算法治理。一般來說,算法治理有兩個含義:一是對算法進行治理,算法是治理的對象;二是運用算法進行社會治理。本文中的算法治理指的是第二種。如何理解并且合理運用算法治理來增進人類福祉,是社會科學專家需要解決的問題。社會科學需要提前對其可能后果進行盡可能的預測和準備。
本文從算法治理的內在邏輯出發,基于目前社會經驗現實,總結和提煉出算法治理面臨的三個問題,即算法透明度低、數據所有權不明晰以及算法欠缺公平性的問題。這三個問題加劇了算法社會的數據鴻溝。數據鴻溝是這三個問題的集中體現,也是這三個問題的社會后果。為了解決算法治理中的數據鴻溝問題,本文提出將數據基礎設施建設為一種公共資源的設想。
理解算法治理的內在邏輯,需要從“治理”“社會治理”和“數據治理”這三個概念開始,理解它們之間的區別和聯系。治理,可以理解為政府制定和執行規則以及提供服務的能力[3]。算法治理也基于這個概念。算法治理是政府運用算法進行治理。算法治理的對象是社會,算法治理的過程就是政府依托算法技術對社會實施管理。這與目前所強調的數據治理很相似,但是又不一樣。數據治理強調依靠數據,特別是大數據,輔助人類決策、提高人類決策水平;而算法治理是在數據治理的基礎上,讓算法參與到規則的制定和執行中,它強調決策直接依靠算法的結果[4]。可見,算法治理的基礎是數據治理,是數據治理的進一步自動化。與數據治理相比,算法治理自動化水平的提高在某種程度上減少了人為干預的可能性。
具體而言,算法治理的自動化過程就是在社會治理中引入算法,運用社會仿真技術對現實社會進行仿真建模,建成數字化的人工社會,再由算法進行自動化推算和決策。社會仿真能最大限度地接近實際的社會系統,結合數學模型能夠對社會情境進行沙盤推演,從而預測可能出現的治理行為和治理后果并采取相應的措施進行引導和優化,大大提高治理的效率和水平[5]。算法治理使得政府能夠提高服務的精準度,合理化決策,將信息和干預目標精確對準,做出最佳選擇。例如,美國各州使用預測算法來決定罪犯的量刑,計算囚犯構成的未來風險,決定公共服務的分配,識別弱勢兒童等[6]34。政府機構逐漸依賴算法系統分析和預測人的行為,從而做出決策。由此可見,預測能力是算法治理的一個重要特點,也是最主要的特點。預測能力優異說明算法治理具有強大的優越性。
但是,進行算法治理并不能只關注其預測能力,也需要關注其可解釋性。算法治理的底層邏輯是算法決策,可以分為解釋和預測兩種路徑。解釋路徑通常有一個明確的結構,產生基于變量的解釋,而預測路徑的目的是得出準確度高的預測結果,并不重視解釋[7]。解釋路徑傾向于簡單的表達,其中多個變量之間的關系可以簡單地理解和量化,然而如果所需要的只是準確預測未來,那么簡單的表達就不必要了。在兩種路徑并行的算法決策過程中,簡單可解與復雜準確之間產生了前所未有的張力。當算法只提供預測未來的機制,而不提供理解的方法時,運用算法替代人類決策是非常危險的。
算法的可解釋性分為兩種:以模型為中心和以主體為中心[8]。以模型為中心的解釋,指對算法本身進行理解,包括其設定、訓練數據組、性能等。以主體為中心的解釋,指分析算法給主體帶來的影響,重視其現實意義。以模型為中心的解釋應該摒棄,其既可能涉及知識產權問題和商業秘密,也無法提供一種對主體而言有意義的解釋,難以提供決策參考[9]。
自大數據分析出現以來,通過大數據學習并自主做出治理決策的人工智能系統漸漸成為一種趨勢,不同類型的算法被用在各行各業以指導社會中的數據分析和治理結果。其中機器學習算法的發展和運用勢頭尤為迅猛,其通過快速排序、分析和模式識別應用于人類無法分析的大量數據來解決復雜問題,比如圖像識別、語音識別、無人駕駛和人類行為預測等。
機器學習算法就屬于遵循預測路徑的典型算法決策,底層決策邏輯處在一個黑箱之中,可解釋性很弱。機器學習指的是賦予計算機無需明確編程就能學習的能力[10],讓機器像人類一樣,從經驗和數據中學習。無監督機器學習算法可以在數據集中找到與特定問題相關的模式和關系,無需經過訓練。有了更加豐富的數據集,機器學習對人類編碼算法的依賴大大減少。這又被稱為人工智能輔助決策,即依賴機器學習能力,并使用深度學習、自然語言處理、神經網絡和語音識別等技術來進行決策。
目前的算法決策在預測路徑的方向上越走越遠,而算法治理也依托這種算法決策路徑,因此由預測路徑的弱解釋性所帶來的一系列問題不可避免。這些問題涉及算法透明度、數據所有權(包括隱私問題等)以及算法公平性。總體而言,算法治理依賴兩個核心要素,分別是算法和數據,因此算法透明度低、數據所有權不明晰的問題也是算法治理的基礎問題和核心問題,而算法公平性關乎算法治理的社會后果,是檢驗算法治理合法性的標準。
第一,數字技術人員和公眾之間的認知不對稱。公眾很難理解代碼的命令和邏輯鏈。MacCormick[11]5將算法稱為“tricks”(一種把戲)、“tricks of the trade”(行業戲法)。外行人不能理解算法的運行邏輯,只能通過其輸入與輸出結果來猜測和理解算法的作用。Molnar①MOLNAR C.Interpretable machine learning-a guide for making black box models explainable[EB/OL].[2021-08-25].https://christophm.github.io/interpretable-ml-book/.試圖用通俗易懂的方式讓人們了解算法黑箱的運行邏輯,但他也只能闡明一般非復雜化的算法,至于像神經網絡算法等的復雜算法卻無能為力。
第二,算法和數據的復雜性。人們很難挑戰算法的處理技術和它們所做出的決策。即使是專家,如果不能獲得輸入的數據,也很難解釋到底發生了什么。簡單地列出算法的步驟是不夠的,這樣的解釋雖然在形式上是透明的,但是實際意義不大。換句話說,即使算法設計者自身企圖解釋算法的內在邏輯,他們也只能停留在數學表達和邏輯上的解釋,很難解釋不同場景中的具體決策結果。
第三,算法透明度還面臨著知識產權保護的問題。企業必須維護行業機密,這當然包括其用于決策的算法。谷歌、亞馬遜、Facebook 和微軟等公司將他們的算法作為行業機密,不允許公開他們對用戶做出的決定或提供的建議。保密只有在促進公共決策的優勢時,同時在公眾能夠參與討論的前提下才是正當的。建立公開機制的前提是確立保密機制。
Katzenbach 等[4]根據透明度和決策的自動化程度將算法治理系統劃分為四個類型,如圖1所示。“自治友好系統”提供了高透明度,并將決策權留給人類;“以信任為基礎的系統”雖然透明度低,但是將決策權留給人類;“授權系統”具有高透明度,但是自動進行決策;“失控系統”透明度低,同時還完全代替人類決策。目前,大多數的人類決策系統都屬于自治友好系統和以信任為基礎的系統這兩種,人類是決策的主體,但是不同系統之間有透明度的差異。而失控系統是算法治理的一個極端情形,人類徹底將決策權交由無法理解也無法控制的算法,這將會帶來嚴重的社會后果。理想的算法治理系統應該是授權系統,一方面具有高透明度,另一方面通過代替人類決策減少人工徇私枉法的可能性。

圖1 算法治理系統類型
算法透明度對于算法治理的實現非常重要,這是社會的要求。提高透明度能夠減少不同主體之間的信息差距,并為問責提供條件。在公眾的強烈要求下,很多企業提高透明度,但收效有限。例如,Facebook公開了總體審核流程的設計以及潛在的決策標準,但對流程的細節和刪除的詳細數據仍保密。政府在這個過程中需要肩負起向公眾提供信息的責任,也需要帶頭建立起相應的問責制度,監督企業的信息公開,這對建設廉潔政府和打擊腐敗也有重要意義。
數據資本化已經是一個公認的事實,數據所有權歸屬以及隱私保護問題不可避免地存在爭議。數據作為一種無形物,其產生于個人,同時也受到代碼和技術規則的控制,依賴各種儲存介質而存在。數據的產生主體是個人(用戶),但是其記錄者卻是企業(平臺)。數據所有權問題不僅涉及自然人的民事權益保護,也涉及企業的數據活動自由[12]。
原始的底層數據屬于個人,但是經過加工、處理、合成、隱去個人屬性的數據則屬于企業[13]。個人數據與非個人數據的區別在于其“可識別性”(identifiable),但是個人數據的匿名化是相對的,隨著數據源的豐富,原本無法識別出個人信息的數據也可能被識別[12]。雖然單個的數據隱含在海量的數據之中,但是通過合并數據源或者通過組合分析,私人信息就能被推斷出來。因此,數據所有權實際上牽涉到個人隱私保護的問題。
在個性化推薦和精準服務盛行的今天,隱私問題面臨巨大挑戰,政府和企業必須在尊重隱私的情況下存儲和共享數據。歐盟的《通用數據保護條例》(GDPR)就是一個例子。為了將數據所有權從隱私問題中解放出來,申衛星[14]提出數據用益權的概念,“數據用益權包括控制、開發、許可、轉讓四項積極權能和相應的消極防御權能”。數據用益權與數據所有權是分開的,數據用益權只涉及數據的采集和處理,數據所有權屬于用戶等數據原發者。
雖然數據用益權的概念既能保護數據生產主體的權益又不損害數據使用者的實際利益,但是數據主體在現實中往往非常被動。這一方面源于隱私利益的瑣細性、模糊性和雙重性,數據來源主體往往要么全部拒絕要么全部同意,處在一種兩難境地之中[12]。另一方面,用戶如果不提供自身的數據就無法享受服務,因此大多數人只能同意有關的用戶隱私條款。需要建立更細致的條例以及更加多元的選擇,比如用戶有權決定只提供哪一部分的數據,以及享受這部分數據所涉及的服務。
算法將患者與醫生、司機和乘客、應聘者和用人單位連接起來,它可以用于評估客服的績效,用于估算員工的辭職風險,甚至決定哪些人可以被保釋。算法并非理想中完全客觀中立的存在,算法決策中的公平性是一個關鍵問題。算法決策可能再現種族和性別差異[15]。
算法決策依賴用于訓練的數據集。算法產生偏差至少有兩個原因。第一個是抽樣原因,數據樣本本身產生了偏差①CRAWFORD K.The hidden biases in big data[EB/OL].(2013-04-01)[2021-10-07].https://hbr.org/2013/04/the-hidden-biases-in-bigdata.;第二個是數據集中反映了現有的社會偏見[16],例如逮捕率可能因種族而不同,當特定事件的發生率依賴群體從屬關系時,需要非常仔細的分析。雖然人們將算法決策視為更理性、更少主觀情感的決策主體,但是絕對的客觀理性并不適用于一切情境。因此,運用算法進行決策并且進一步實現算法治理,需要考慮到算法公平性的問題。
通過技術手段可以實現算法去偏見化(debiasing)[17],比如開發出能夠糾正歧視的算法。但是,并非所有的問題都能通過純技術方法解決,算法設計者的個人偏好也可能影響算法本身的運行,比如外賣平臺對騎手的任務分配和工資計算就會優先考慮平臺的收益[18]。不同主體的權威嵌入技術本身而不是傳統的治理形式中,治理算法就變成引導、挑撥、控制、操縱和約束人類行為的算法。在算法決策的規則制定中,除了需要技術手段對算法進行去偏見化處理,也需要一個規范來引導多方共同參與。
總體來說,算法決策的三個問題是相互聯系的,算法透明度需要依托數據所有權的確立來制定相關的隱私保護條例和保密原則,而算法公平性又依托算法透明度來實現。這三個問題的懸而不決,加劇了算法治理中的數據鴻溝。
算法透明度問題體現了數字技術人員和普通公眾對數字知識的認知不對稱,數據所有權問題體現了企業和個人之間對數據掌控能力的差異,算法公平性問題體現了這種認知不對稱和對數據掌控差異造成的現實社會問題。這三個問題的疊加,使得一條巨大的鴻溝橫亙在數字技術人員和普通公眾之間,也橫亙在互聯網平臺企業和其他組織之間。本文將算法治理中的數據鴻溝作為一種社會后果的集中體現進行探討,它體現了不同社會群體之間在數字知識認知、數據控制權上的差異和算法決策結果的不公。
21 世紀初,信息技術迅猛發展,有學者提出了數字鴻溝(digital divide)的問題。接觸機會差異會導致數字鴻溝,使用互聯網的差異會產生數字不平等,也導致數字紅利(digital dividends)的出現。人們將這種接觸機會差異轉化為互聯網資本,并且從中受益[19],“數字鴻溝”導致了“數字紅利”鴻溝的出現。如今,與信息技術相關的新的鴻溝形式出現——“數據鴻溝”,而這次,鴻溝不僅存在于個體之間,也存在于組織之間以及個體和組織之間。
數據鴻溝,區別于數字鴻溝,更強調個人或組織對大數據掌控能力的差異。在算法治理的過程中,誰掌握了數據和算法的控制權,誰就能影響決策結果,并且處于這個權力結構的核心位置,因此在算法治理上的數據鴻溝實際上意味著權力分配的不對等。在算法社會中,數據鴻溝在宏觀上體現為平臺間的數字控制權差異,在微觀上體現為個體間的數字控制權差異。
在宏觀平臺層面上,不同平臺、不同組織之間對數字資源的控制權存在巨大差異。這種差異的原因就是平臺數據資本化。平臺將數據變成資本,成為世界經濟中很大一部分附加值的來源。各公司都專注于生產更多的數據。科技公司可以通過cookie 等生成大量的個人數據,基于平臺協議與合同,合法地行使數據所有權,數據成為私人資本或資產[20]。
數字科技公司憑借其龐大的規模利用數據進行獲利。例如,Facebook 在全球擁有超過26 億用戶,所有人都自愿制作平臺的核心內容[20]。平臺通過吸引用戶,生產出更多數據,利用數據投放廣告,是經營的核心。平臺的用戶越多,掌握的數據越多,越有價值。用戶的每次搜索都在某種意義上促使平臺對服務進行修補和改進。
這些私有技術平臺,通過部署算法,有效控制了全球對信息、服務和產品的訪問,它們通過自己的專有算法,影響進入市場的各種參數。比如,社交平臺能夠屏蔽或過濾言論、視頻和照片,平臺完全控制了用戶所能接觸到的信息。平臺以及科技公司掌握著大量數據和算法的控制權,他們憑借這種資本盈利。
不同的平臺掌握著不同類型和不同規模的數據,通過對數據的掌控實現獲利,同時也造成了壟斷問題。不同數據企業之間也存在數據競爭、數據壁壘、數據劫持、數據爬取等問題[14]。同時,互聯網經濟產業鏈中存在著明顯的頭部效應,位于高端的一家或幾家企業易處于壟斷地位[21]。不同平臺企業之間,以及平臺企業和其他企業之間存在著巨大的數據鴻溝。平臺企業存在著數字規則不健全、壟斷和不正當競爭等問題,這對國家治理體系和治理能力形成巨大的挑戰。
在微觀個體層面,數據鴻溝在數字技術精英和數字勞工之間具有顯著體現。一方面,處于核心地位的是數字技術精英。其由軟件開發人員、技術執行官、計算機科學和工科類的學者等組成(這些身份能夠相互轉化),擁有并且控制著關于數據和算法的知識和信息,能通過計算實現各種創造和突破,甚至影響政府行動的轉變,解決眾多社會問題。因此,Burris[22]認為,負責技術控制的專家具有一定的獨立性,他們處在這個數字產業鏈的頂端,是大數據的實際控制者。
另一方面,處在數字產業鏈底端的是數字勞工。應用程序、搜索引擎、地圖網站、社交媒體網站,甚至自動駕駛汽車和許多其他產品的順利運行,都依賴進行所謂“幽靈工作”的大量底層員工,對人工智能的盲目崇拜掩蓋了這些人類勞動。數據需要經過準備和處理,結果需要經過檢查和糾正,目前的這些依托算法的工作都需要人類完成細節的工作。這些工作包括讓司機在拼車應用程序上匹配搭車請求、為網頁質量打分、修改數字地圖、給視頻加標簽和注釋、反復檢查虛擬助手的回應、糾正偏見以及審核社交媒體帖子等[20]。
除了這些負責數據標記的新型職業勞動者以外,還有一些隨著眾包平臺盛行,從傳統行業進入到算法系統就業的勞動者,如外賣騎手、網約車司機、快遞員等。這些人與數據標記員一樣,并非企業的正式員工,工作不穩定,被算法系統所支配,他們的收入取決于他們完成的系統任務。這些數字勞工彼此孤立,由此產生了不穩定的工作體驗、不確定的工作、不規則的時間表和不穩定的工資[20]。數字勞工雖然為數據的生產做出重要貢獻,但他們在數據掌控權上完全無法與數字技術精英相比。更甚者,他們被數據控制,數據控制滲透在整個勞動過程中。
掌握了數字技術的精英們能夠通過算法對數字勞工進行管理,以便根據市場條件、服務質量、物理距離或薪酬實時進行優化。比如,外賣平臺對外賣騎手的路線規劃和工資結算都依靠算法。他們基于效率原則,諸如公平性等社會性的原則起初并不在他們的考量范圍內,這導致了算法偏見以及算法不公平等一系列問題。他們與平臺以及科技公司的盈利目標是一致的,他們設計出效率最優的算法,最大化企業的盈利。
數字鴻溝是由人們在可及性和運用上的差異導致的,因此縮小數字鴻溝的辦法是平衡人們對數字技術的接觸機會。互聯網基礎設施、使用設施的改善大大縮小了人們對數字技術的接觸機會差異,從而在一定程度上緩解了21 世紀初出現的數字鴻溝問題[19]。那么,數據基礎設施建設或許是一種解決數據鴻溝的路徑。
這里的數據基礎設施并不單單指建設與數據收集、儲存和處理相關的硬件或軟件設施,數據基礎設施的建設也意味著將數據作為一種公共資源向全社會開放,個人或者組織機構均可以依法合規地申請使用。算法治理一方面依賴數據,另一方面依賴算法,數據和算法的控制權在算法治理結構中處于核心位置。因此,數據和算法不能同時被少數的科技集團所控制,也不可以超越國家的管轄范圍,只能由政府在算法治理的過程中主導和監督。
數據基礎設施的建設需要打破平臺和數字技術精英對數據使用的控制,發揮數據的公共性,讓公眾和其他組織機構能夠共同使用大數據,維護社會共同利益,這也是實現算法治理的前提。現代社會的復雜性意味著公共事務問題需要具備專門知識技能的專家和精英來處理,因此數字技術精英在算法治理過程中仍然發揮著巨大作用。但同時,普通公眾也需要參與到治理的過程中,以避免精英政治、官僚政治,通過精英和普通公眾之間的良性互動形成有效決策[23]。
除了通過直接的方式打破數據鴻溝,數據基礎設施建設也能減輕算法治理本身存在的問題,它可以打破平臺間、社會不同部門間的數據壁壘,使得大數據真正做到互聯互通。其一是提高了算法治理的透明度,至少從數據源上實現了透明;其二是將數據的公共性發揮出來,讓大數據的生產主體也能使用大數據;其三是提高了算法決策的公平性,數據壁壘的打破意味著減少數據樣本偏差帶來的不公平,同時也能通過不同數據集的相互校正而減少數據中存在的社會偏見。
在數據基礎設施建設的過程中,需要將數據主權問題放在首位,縮小數據鴻溝并不意味著打破數據的國家邊界。一方面,國家主權在網絡空間具有適用性,大數據的產生很大一部分依賴網絡空間,因此大數據本身具有主權屬性。另一方面,大數據作為基礎性、結構性和功能性要素影響著國家實力[24],已經成為一種全新的國家實力要素——大數據實力(BDpower)。
算法權力長期以來被認為是一種橫向的“非國家力量”,可以影響甚至代替公權力進行決策[25],但這很可能導致失控,從而產生不良后果。付偉等[26]提出數據主權的問題,即數據資源作為一種關乎國家安全的戰略性資源,如果流出國境,很可能對國家安全造成影響,因此,數據在國家層面存在邊界,需要從主權的高度形成算法治理模式。Couldry 等[27]認為數字世界的治理需要超越國家和市場的二分法,不能僅僅依靠國家權威。同時,數字世界也不可能完全被市場所控制,這會導致寡頭壟斷,強化市場失靈帶來的風險,因此需要建立起超越國家邊界的數字治理模式。全球化的背景下,國家間產生了新的關系和互動形式,使地方行為者之間的關系變得復雜。地方問題不僅是局部的,而且延伸到全球情景,需要尋求合作解決方案。
數據基礎設施牽涉到的利益相關者包括政府、技術公司、用戶、國際組織(如聯合國在國際安全背景下促進各國的合作)。以數據為基礎的算法治理必須以國家為邊界,不同國家采取的數字治理模式不同,國際間的合作存在一定的困難;同時,國家間的數據所有權以及算法相關知識并不互通,如Twitter、Facebook、WhatsApp 和Instagram 等社交媒體平臺的影響是全球性的,但背后的掌控者是區域性的。基于數據主權和國家安全的考量,需要形成以國家為主導的算法治理模式。
當然,以國家為邊界的算法治理并不意味著封閉發展,中國作為世界第二大經濟體,也需要對人類命運共同體建設做出貢獻。要形成以主權國家為核心的共同合作,通過正式和非正式的制度和安排,協調各方的利益和政策,共同應對全球化背景下人類社會的各種跨國和國際挑戰,共同打造“以人為中心、基于事實的政策導向,鼓勵創新,建立互信,支持聯合國就此發揮領導作用,攜手打造開放、公平、公正、非歧視的數字發展環境”①習近平.中方愿同各方探討并制定全球數字治理規則[EB/OL].(2020-11-21)[2021-10-15].http://politics.people.com.cn/n1/2020/1121/c1024-31939476.html.。
將數據基礎設施建設為一種公共資源,隱私問題泛濫是首要關切,而對數據基礎設施的建設、應用、監督和問責只能依靠政府和司法系統。但是,Filgueiras等[6]認為在國家控制數據和信息的情況下,國家對數據和信息的全面控制擴大了現有的監視形式,產生了不良的后果,因此反對由國家主導的數字治理。目前,大數據已經形成并且被某些利益集團所控制,在數據鴻溝的現實下,其他組織和個體都無法觸碰到大數據本身。這種現實迫切需要一道構筑于各方的橋梁,以彼此聯通。
這里涉及兩種社會對治理概念的理解差異問題。西方治理的概念是控制、引導和操縱的意思,之后演變為主張政府放權,實現多主體、多中心,弱化政治權力的多元共治、自治。西方治理理論本質上是以理性經濟人為基礎的社會自治理論[28]。因此,西方對數據資源采取的處理方式是私有化,對資源強制實行私有財產權,將資源的使用和管理交給個人,以增強他們的參與度。比如,美國將社會的數據和信息系統交由科技公司,讓企業自身參與服務和創新系統[29]。很顯然,美國模式并不能解決目前多主體互不聯通的困境,只會加劇以資本和技術精英聯合的新權力階層的力量。
中國的情況與西方完全不同。中國的國家治理遵循馬克思主義國家理論的邏輯,主張國家職能由政治統治與政治管理有機結合,社會治理是“在執政黨領導下,由政府組織主導、吸納社會組織等多方面治理主體參與,對社會公共事務進行的治理活動”[4]。中國采取的模式是讓政府集中控制公共資源,中央權力機構決定資源的使用和管理。如中國目前的互聯網服務就遵循這種模式,以國家為邊界建立規則、系統和協議,這在新冠肺炎疫情防控中起到了重要作用。一個有公信力的政府是數據基礎設施建設的依靠,也是對各數據運用監督有效性的前提。
西方的政黨制度強調各個黨派代表不同的利益并且相互競爭從而實現利益平衡,企圖實現權力和利益分配的公共性;而中國政黨制度強調中國共產黨作為唯一執政黨是全民族、全社會利益的代表和整合,中國共產黨以“立黨為公,執政為民”的執政理念保證了公共性[30]。因此,在中國,國家力量可以起到主導和帶頭作用,也是保證數據使用公共性的基礎。隨著算法越來越強大,數據收集也越來越廣泛,政府必須考慮數據管理的倫理框架,并且確保這些技術不會損害公共利益。
對數據的統合和使用涉及多方利益相關者。數據生產依托不同的主體,其直接產生于個人(用戶),又由企業等組織(平臺)進行記錄。治理本身就是面向社會問題與公共事務的一個行動過程,參與者包括公共部門、私人部門和個人在內的多個主體,通過正式制度或非正式制度進行協調和持續互動。“國家治理體系是由政治權力系統、社會組織系統、市場經濟系統、憲法法律系統、思想文化系統等系統構成的一個有機整體。”[31]在這種多元治理主體并存在條件下,必然要求一種“合作治理”的模式[32]。因此,在數據基礎設施建設中,需要協調多方參與者,秉承共享、共建、共治的原則。
協調各方利益需要中央權威有效地調配各方數據資源,需要由國家力量進行主導。政府帶頭建立法規,企業和公眾參與到數據基礎設施的建設中,通過促進各個利益群體的參與和合作,協調各參與者并形成政策一致性,以創造公共產品和價值。
對政府來說,社會治理的出發點是保證人民群眾的根本利益。政府作為協調者,一方面與市場部門合作,最大限度地發揮數字技術對社會的潛在益處,比如在中國,政府與私營部門機構合作,以發展社會信用體系,改善個人和組織的金融行為[20]。另一方面,政府需要確保數字公共服務能夠滿足民眾的需要,最大限度地減少因數字技術帶來的新風險,如虛假信息的擴散、對社會弱勢群體的歧視等,同時要保護公眾的個人數據和隱私。Duff[29]提出政府平臺化,特別是在公共服務和政策方面,能夠促進多方的溝通,提升解決利益協調問題的能力。
政府雖然扮演著監督者和協調者的角色,但是政府所使用的算法工具在某種程度上也會依賴由市場部門和公眾所產生的數據,比如對公眾行為、偏好和意見進行評級,以及國家和企業行為者的分類[4]。總體而言,在算法治理的參與框架中,政府起主導作用,既是參與者也是協調者,把握著方向和底線,確保算法治理符合人民群眾的根本利益。
2021年,全國信息安全標準化技術委員會發布《信息安全技術 機器學習算法安全評估規范》征求意見稿。該規范全面覆蓋了機器學習算法從設計開發、驗證測試、部署運行、維護升級到退役下線等階段的安全評估。這是一個由政府主導,多方共同參與治理的典型案例,也是建立數據基礎設施的參考。
數據基礎設施的建設原則是多方共享、共建。數據基礎設施不僅包括數據收集、儲存和數據調用,同時也意味著將數據資源作為一種公共資源由政府統一管理,合法、合規、有序地向社會全體開放。因此,數據基礎設施的建設涉及兩方面的內容:一是數據基礎設施的架構形式問題,如何打破數據掌握主體之間的壁壘;二是數據基礎設施的公共資源化問題,如何處理數據所有權、用益權的問題,這涉及隱私泄露。
1.數據基礎設施的架構形式
數據基礎設施的架構形式問題可以分為技術支持和參與主體結構兩個方面。目前,針對數據基礎設施的討論主要集中在技術支持方面,即建設何種設施以及如何收集、儲存和利用數據。劉婷婷等[34]提出要實現縱向貫通化、橫向平臺化、跨界網絡化和供給數據化。縱向貫通化強調數據收集更加全面和細化,橫向平臺化強調依托平臺化的管理,跨界網絡化強調不同類型數據的整合,供給數據化強調數據形式反饋的及時性。
建設數據基礎設施需要依靠物聯網、區塊鏈、平臺化等技術的支持。物聯網將社會各個部分貫通起來,使得數據的互通成為可能。比如地理測繪系統、物理傳感器的架設等實時感應和微觀感知設備,貫通智慧城市、智慧建筑、智慧家庭等各個層次,也涵蓋交通、工業、生產、生活等各個方面。身份認證、數據加密技術等的發展保障了設備的接入安全和數據安全。平臺化的管理維持數據基礎設施的運營。各層級的傳感器將數據返回到各終端,通過終端將數據傳輸到平臺,與平臺進行交互。
參與主體結構方面,由國家力量為主導,政府牽頭,實踐其作為監督者和協調者的角色。需要建立起一套與數據基礎設施配套的法律法規、問責制度等軟設施。同時,需要多方共同參與,宏觀層面上需要各大型平臺、科技公司的共同構建,微觀層面上既需要技術人員也需要用戶和普通公眾參與。參與形式是多樣的,包括資金支持、技術支持、建言獻策等形式。目前,我國各級政府在推動“一網統管”,可以看作政府牽頭,包含黨建、經濟、社會、文化、生態等政務治理的“橫向到邊”,從國家到省、市、縣、鎮、村、居民戶的“縱向到底”的數據基礎設施。
2.數據基礎設施的公共資源化
將數據基礎設施公共資源化最大的問題是數據所有權和數據用益權的界定問題。如果數據作為一種公共資源對社會全體開放,一方面會損害數據采集者,包括平臺企業等的利益,另一方面也有可能造成隱私泄露問題,從而損害數據生產者本身的利益。解決此問題的一個最可能路徑是將大數據知識化。
大數據知識化,是指通過創新過程將大數據轉變為新知識[35]。知識可以被無限地重復利用,大數據知識化之后隱私問題會大大緩解。Cong 等[35]預測,隨著大數據知識化程度的提高,對大數據的需求將會不斷下降,這也將在一定程度上減輕數據鴻溝帶來的權力關系不對等。作為公共資源被調用的數據不再是底層數據,而是經過創新過程形成的知識型數據。
大數據知識化的過程包括兩個方面,首先是將大數據轉變為知識,這需要技術人員對大數據進行加工和處理;其次是知識的有效性和合理性,這需要第三方對知識效用進行評估。社會科學專家需要評估知識數據的合理性和有效性,并負責向公眾解釋數據知識的邏輯。
數字治理終將走向算法治理,運用算法工具進行自動化決策從而實現更好的社會治理是大勢所趨。算法治理的核心是數據和算法的控制權。圍繞著這兩個核心要素,算法治理目前存在的問題可以歸結為算法透明度、數據所有權以及算法公平性三個方面。而這三個問題會加劇數據鴻溝。數據鴻溝分別體現為宏觀層面上平臺、組織之間對數字資源的控制權差異,以及微觀層面上個體之間對數字資源的控制權差異。不同的主體對數據有著不同程度的控制權,使得他們在數據資本化的時代也處在不同的權力結構位置。隨著數據資本化程度的加深,數據鴻溝會加劇現實中的不平等。要實現良好的算法治理,必須打破數據鴻溝。
國家力量主導下的數據基礎設施建設作為一個打破數據鴻溝的方案被提出,重點放在將數據作為一種公共資源向全體社會開放上。數據基礎設施的建設理論上能夠減輕算法治理潛在的三個問題,通過數據透明提高算法決策透明度;數據向公共資源的轉化在某種程度上提高了公眾對大數據的使用機會;打破數據壁壘,實現數據的互聯互通也能減少由數據樣本和社會偏見帶來的算法公平性問題。在數據基礎設施的架構中,應加強政府、企業和公眾、用戶之間的對話,增強公眾、用戶對算法和數據的理解,同時限制算法治理對社會產生的不良影響。在數據基礎設施公共資源化的過程中,應強調大數據知識化的作用,避免公共資源化過程中的隱私泄露,同時逐步降低算法對數據的依賴性,進一步縮小數據鴻溝。
如何更好地發揮數據基礎設施的公共性,在縮小數據鴻溝的同時緩解算法治理的透明度問題、數據所有權問題和算法公平性問題還需要更多深入的探討,還有更多問題值得細化,比如如何確立此過程中社會科學承擔的角色和責任,如何最優地實現大數據知識化,如何促進各個平臺主動參與,如何設置配套的法律法規和問責制度等,這些時代的需求,都將為社會科學專家帶來新的機遇和挑戰。