陶亮
[摘 要]隨著人工智能技術的發展,數據的收集、保存、使用和表達大都需要借助智能技術,使得當前數據與傳統少量而孤立的數據形成了巨大差異,呈現出“智慧化”。但人與原始數據之間的距離亦被越來越多的智能設備不斷擴寬,數據存在著偶然錯誤、智能算法缺陷,或是人為而導致其導出結果不符合實際情況卻被人所相信的情形,即產生“數據陷阱”問題。隨著數據發展到第五階段,即智慧數據階段,數據陷阱問題進一步突出。然而一方面人們在觀念上普遍迷信數據,缺乏對數據陷阱問題的重視,并且,這不僅體現在人們的日常生活中,我國學界涉及數據陷阱的研究成果對比國外而言亦明顯過少;另一方面,對數據管理和數據表達的規范亦有所不足,對其的完善建議局限于對傳統中心化管理模式和平臺責任歸責模式的借鑒。對此,首先需要審慎看待數據,破除數據迷信;其次,突出對數據陷阱問題的研究,使得對于數據陷阱的規制性立法更加具有針對性;再次,逐步轉變數據管理模式,依據區塊鏈等新的數據庫對數據管理做出積極的法律思考;最后,引進和創造新的法學基本概念,借以解釋和發展新的數據表達制度。
[關鍵詞]數據陷阱;人工智能;區塊鏈
[中圖分類號]D90 [文獻標志碼]A [文章編號]1000-8284(2020)01-0045-06
近幾年,人工智能引起了人們普遍的關注,特別是2016年AlphaGo擊敗世界圍棋冠軍、職業九段棋手李世石之后,可謂是一石驚起千層浪,無論是學界還是日常生活中,人工智能都成為熱門話題。并且,隨著人工智能技術的發展,“智慧互聯網”“智慧社會”被越來越多的人所提及和研究。同時,數據領域也正發生著向“智慧數據”的轉型,數據的收集、保存和使用都借助了智能技術??梢哉f,當代數據與傳統少量而孤立的數據形成了巨大差異,呈現出“智慧化”。但智慧數據所帶來的是否都是對人類有利之事?事實上,伴隨著人工智能的發展,人們將自己的權利越來越多的“讓渡”了出去,過于放心地將對數據的收集、處理交托給了機器,這使得人與原始數據之間的距離被越來越多的智能設備所不斷擴寬。在這樣的背景之下,數據存在著或偶然或智能算法缺陷或人為導致其喪失客觀性,或導出結果不符合實際情況卻被人所相信的情形,即產生“數據陷阱”問題,對此,亟須給與足夠的重視并思考問題的解決之策。
一、數據陷阱的歷史沿革
對于數據陷阱,目前學界還沒有統一的定義,但大體上的涵義即是指人們對數據過于信任所可能導致的風險和危機。其中,“數據”從字面上來說,由“數”和“據”兩部分所構成。所謂“數”,即“數字”,對事物大小、數量等進行計量;而“據”,即“根據”,也可以說是計量之語境、單位。因此,僅從字面上而言,所謂“數據”,即為有根據的數字,是具體事物與數字符號的結合體,使得數字在特定的語境之下表達出超乎符號本身的涵義。[1]
追溯歷史,數據陷阱問題在數據的伊始及初始階段是沒有意義的,問題具有討論意義乃是基于數據發展到了一定程度。筆者認為,“數據”從古至今的發展可以分為五個階段。第一階段即為“數覺”。在古時人們就可以意識到事物的大小、多少。這種對世界自發進行朦朧認知的能力便為“數覺”,甚至根據調查,“數覺”也并非人類所獨有,[2]第二階段即人們運用“數”“量”等具象化“數覺”之階段。此時人們可以對事物大小、數量作簡單表達,這也意味著人們對世界從自發的朦朧印象到自覺的簡單觀察歸納。第三階段即為近代的“數據”,或稱為“小數據”。不同于“數”“量”等對世界的簡單表達,近代的“小數據”已經具備所謂的“根據”,換句話說,其具備“語境意義”,而不是簡單的符號。按照黃欣榮教授對數據的劃分,其屬于第二次數據變革的產物,即從生活數據轉變為科學數據。[3]此三個階段即為筆者所謂數據的起源和初級階段。
數據陷阱于第四階段,即現代的“大數據”階段方才具備討論價值。在此階段,“大數據”與哪怕是第三階段的數據,也即是近代意義上的“小數據”,都有著極大的差異,這種差異也不僅僅是體現在“量”上的“大”與“小”,更多的是一種質的變化,這種質變反映在獲取數據的速度、成本,以及數據所具備的經濟效益、多樣性等各個方面。進入大數據時代,表示以往的那種有目的的、大多需要依靠主動收集才能取得少量數據的時代已經成為過去式,數據已經更多來源于隨時隨刻,看似無意義,卻隨時可能變廢為寶的采集。
第五階段的數據才可謂“智慧數據”,即當代人工智能背景之下的大數據,其不僅僅具有現代大數據的所有特性,同時由于人工智能技術的不斷發展,大量因為龐大、冗雜而在以往無法計算和利用的數據變得能夠被調動處理起來,但也是隨著人工智能技術的發展,產生了“算法黑箱”等人與數據之間的壁壘,使得人與初始數據的接觸機會被空前降低。此時,“數據陷阱”問題被空前放大,并且這種放大的進程并不會因為智能技術的發展而消減,相反,智能技術越是發達,數據越顯智慧,人與初始數據之間的距離就越容易被拉大,數據的采集、分類、統計、計算等過程就越是難以被把控和監督,數據的客觀性就越是存疑,數據陷阱問題也會愈加突出。因此,對數據的收集、保存、使用和表達等方面均需更好地加以規范。而現有的規范方式,則可按照其對數據陷阱的作用方面,大致分為兩類:一是對數據管理的規范,即規范數據的收集、存放,保證數據源的安全,并對數據的使用進行規范;二是對數據表達進行規范,對不當表達數據的行為進行歸責。但針對這兩個方面所用的方法多是借鑒于圖書館管理模式等傳統管理模式,以及傳統商業廣場的平臺責任制度,而隨著“區塊鏈”等新的去中心化數據庫以及淘寶等互聯網購物平臺的崛起,過去的研究范式作用正不斷降低,很多新的問題在法律上已然很難得到十分合理的解釋與解決。
二、數據陷阱法律規制的現實困境
向智慧數據轉型使得我們比以往任何時候都要更容易獲得和分析龐大的數據,這些數據也不會僅僅對企業發揮作用。實際上,各種代表著“民意”和“專家意見”的數據對于我國法律和政策的制定都有著很大的影響,但這些數據是否與被采集者的真實意思一致?數據統計分類的模型是否足夠保證輸出結果客觀?面向智慧數據的轉型,人與初始數據之間的壁壘越加堅固,導致數據陷阱問題日益成為當今智慧數據時代下的巨大隱患,需要被充分認識和解決。
(一)人們觀念上普遍存在對數據的迷信
在智慧數據階段,人們對數據的需要已經遍布包括經濟、政治、環境和健康事業的各個社會發展層面。[4]甚至在一定程度上,人們已經對數據產生了迷信的心理。但數據的就是科學的?數據的就是客觀的?并不盡然。例如,谷歌曾對2011到2012年美國的流感病毒趨勢進行大數據預測,結果卻和實際相差甚大。[5]
并且,目前我國人們在觀念上普遍存在的對數據迷信的現象,不僅是體現在人們的日常生活中,在學界亦有著一定的表現,這點可以在學界研究的重心上得到一定的印證。以中國知網作為檢索數據庫,在高級檢索選定檢索范圍為“全文”,并輸入檢索詞匯“數據陷阱”,發表時間為“從2000到2018”(包括2018年所發表的期刊,下同),僅僅找到了61條結果。而同樣的條件之下,選定檢索詞匯為“數據”,共可找到9 214 297條結果之巨,并且總體呈現快速增長的態勢。在中文文獻中發表時間“從2000到2018”的文獻增長了約5.4倍;發表時間為“從2015到2018”也增長了約66%。再以中文社會科學引文索引為檢索數據庫,在高級檢索中設定為檢索“所有字段”,并輸入“數據陷阱”,限定學科類別為“法學”,發文年代選定“從2000至2018”,非精確檢索,甚至找不到一篇論文。而在同樣條件之下,更改“所有字段”欄為“數據”,則找到有505條結果之多,其中僅2018年就有64篇,可見我國學界近年來對于“數據”本體或者工具性的價值已經相當重視,并且這種重視程度大體是呈現上升姿態的,而對于“數據陷阱”問題卻少有提及,存在一定程度上的忽視。
反觀國外,由William S. Hein & Co.,Inc.公司出品HeinOnlion法學期刊全文數據庫被美國所有法學院所訂購,頗享盛名,可以作為檢索數據庫以供研究。在Advanced Search中選定“Full Text”一欄為“Date Trap”,Date欄為“2000to2018”,共找到30 298條結果之多。在同樣條件下,更改Full Text一欄為“Data”,則可找到1 103 615條結果??梢哉f國外涉及“數據陷阱”(Date Trap)的理論研究成果已經占據了涉及“數據”研究成果的一定比例,這表示國外學者在重視“數據”本體或者工具價值的同時,對“數據陷阱”問題同樣有著相當程度上的重視。
對比國內外關于“數據陷阱”的研究成果總量,可以發現,相比于國外對數據陷阱所表示的重視態度,國內對于數據陷阱的理論研究過于匱乏。當然,本文這種對“數據陷阱”理論研究現狀的調查方法可能有所遺漏,但這至少從側面反映了兩種可能,即第一,目前我國學界對面向智慧數據轉型下的“數據陷阱”問題還沒有做出及時的了解;第二,學界對于數據陷阱問題已經有所了解,但是沒有引起足夠的關注,或者至少沒有認為這個問題值得做出一定的理論思考。然而不論是哪種可能,結合當前學界對數據或數據型研究的重視,無疑都反映出目前我國存在對數據有利之處的過度放大,和對數據背后陷阱一定程度上的無視。這說明,在科學研究向數據密集型發生著轉變的當下,對比我國對數據的狂熱態度,以及國外對數據陷阱的重視程度,我國在一定程度上,人們存在著一定的“數據迷信”心理,即過于信任數據而導致缺乏對其背后“陷阱”的關注,這種現象是我國關于數據陷阱立法實踐工作的一大阻礙。
(二)實踐中對數據陷阱法律規制不足
正如前文所言,當前我國對數據陷阱規制的立法依舊有著明顯的不足,并主要體現在兩個方面。首先是在數據管理方面,對數據源的保護以及對數據使用的規范并不完善;其次是在數據表達方面,對于故意或者過失造成的數據表達錯誤還未建立完備的規制體系。并且,在智慧數據的大背景之下,如果依舊完全以傳統管理模式或者歸責模式對其進行規制,將面臨諸多問題無法解決的尷尬境地。
1.數據管理立法上尚不完善。首先,在數據源保護性立法上,隨著互聯網與智能技術的發展,法律滯后的缺陷使得對數據源的保護性立法始終“慢一步”。就當下而言,對數據源主要的污染風險可以分為兩類,一類即數據管理方造成的污染;另一類即為來自非管理方的污染。這些規制的不足使得對數據源的污染行為,既有被民法、行業規范規制,也有被刑法所規制的情況,關鍵點在于對污染行為本身的法律界定,但滯后的法律難以提供十分準確的法律判斷根據。需要說明的是,非管理方對數據源的污染行為并非一定伴有惡意,比如谷歌運用大數據預測流感乃是基于地區內人們對“流感”之類詞匯的搜索,但現實中很多人搜索“流感”并不是因為身邊發生了流感,而是對谷歌的此番作為感到好奇等原因。其次,在數據使用上,立法規制也并不完善。數據使用的第一個問題,就是誰有權使用什么數據,而目前學界依舊對數據的權利界定和歸屬問題存在較大爭議,相關立法也有待進一步完善。事實上,哪怕只是數據權利的界定和歸屬也并不是個容易一概而論的問題,比如科研領域數據權利的界定和歸屬、網絡聊天之中數據權利的界定和歸屬,甚至是各個數據庫之間數據權利的界定和歸屬等,很難歸納出同一個適用標準。
對此,目前一般以圖書館等傳統數據收集、存放、使用模式作為數據管理問題思考之視角。例如陳祖琴、蔣勛、蘇新寧2015年發表于《情報雜志》的《圖書館視角下的大數據資源共建共享》;周曉燕、宰冰欣2016年發表于《圖書館情報知識》的《澳大利亞高??蒲袛祿4嬲叻治觥?邢文明、華小琴2018年發表于《知識管理論壇》的《澳大利亞高??蒲袛祿邇热莘治觥?,都是基于圖書館管理等傳統模式對當下數據的管理進行思考。這些研究成果雖是以不同的角度進行研究,并最終對問題的解決提出了新的解決方法,但無可否認的是,這些研究都是基于傳統管理模式,即傳統的數據收集、存放、使用模式,在這種模式之下,認為數據的管理具有中心化機構,也即是一個類似于圖書館或者科研機構對數據進行管理,再借由一個專門的數據調度平臺對數據的使用進行賦權和調度。然而事實上,區塊鏈等新興“去中心化”數據庫出現,無疑對此類傳統管理模式形成了巨大的沖擊。