王 培 王 何 許 陽
江蘇警官學院,江蘇 南京 210031
二十世紀,大數據時代初現模型。由美國芝加哥大學商學院教授詹姆斯·麥肯錫最早提出“大數據”時代到來的概念,他給后人留下的觀點也印證了大數據以及時代的發展:數據,滲透到每個行業,所有領域,各個業務。數據,是當之無愧的生產因素。同時,他對大數據做出新的定義,總結了大數據具有數據規模海量、數據流轉快速、數據類型多樣和價值密度較低四大特征,而數據的來源決定了它的特點。如果將社會比喻成一個超大的數據庫,那么我們每個人都是這個數據庫的數據來源。所有聯網的物品信息:電腦、手機、平板電腦、智能手環……包括我們人也是數據的來源。
大數據證據的來源是萬維網記錄儲存的各類無序,分散,雜亂的數據,與其他網絡信息,云數據一樣,此時的大數據不具備法律意義上的證明資格,還不具備證明能力,因此。大數據證據不是嚴格意義上的證據。在其通過相對客觀完整的數據采集基礎上,通過一系列復雜繁瑣的數據處理技術的連接、整合、運算和分析,讓大數據成為一種規律并能提供有價值的分析方向。這些科學復雜的技術是賦予它能夠證明案件事實的證據資格的重要條件。與傳統證據相比,大數據證據不僅具有傳統的證據的客觀性,關聯性,合法性,還必須具備數據內容的提煉性、數據來源的復合性、數據處理技術的科學性等特點。
首先,數據內容的要有提煉性。從整個萬維網,云數據中剝離隱藏的潛在有用的信息、線索并形成完整可靠確定的數據信息和證據。這是一個比較復雜提煉的過程,但也是因為其步驟的完善性、可靠性與系統性,使得大數據證據的數據內容更具提煉性。提煉同時要確保數據完整,這是作為證據的首要條件,根據完整數據作出的分析結果才具有真實有效的證明力。其次,數據來源的復合性不容忽略。大數據不是從單一來源中形成證據的,大數據到證據的轉變需要針對具體事項和目標的需要,通過對多個不同來源的數據庫或信息相互關聯,從中多維分析挖掘才能夠實現,這是一個復雜的分析挖掘復合形成的過程①。傳統的統計學關注的是大量個體在偽相互作用下所形成的宏觀統計規律性,它并不關注微觀個體之間的差異性。然而,唯有異質性的個體之間才會發生真相互作用,這就意味著個體之間是具有可分辨性的,這同時也意味著數據庫中的數據也是具有可分辨性的。因此,保證大數據來源的復合性,分辨出不同復合來源的數據,從而讓大數據證據具有了更高的可靠性。最后我們還要關注數據處理技術的科學性。如何在海量的,分散的、無形的大數據中中獲取有價值的大數據證據,必須借助科學有效的②大數據處理技術。包括:大數據的采集、大數據的預處理、大數據存儲和管理、大數據分析、大數據可視化等等。龐大的數據量,需要利用相關領域普遍認同的技術實踐,或加以驗證。目前,想要真正實現大數據技術的應用,數據處理技術是我們必須突破的一大難關。善用科學的數據處理方法,可以保證用這種方式得出的結論具有強大證明力,更加可靠。
大數據證據可以作為訴訟證據。我國在三部訴訟法中,對于證據的法律規定中都要求證據須經“查證屬實”③,這種邏輯下,大數據只要“核實”,確定其真實性與可靠性,就可以與訴訟中的其他證據一樣具備證明能力。
證據的“可接受性”是一切證據面臨的問題。在18年新修訂的刑事訴訟法中,我國法律已經明文規定了電子證據是訴訟證據的一部分,日益普及的新事物將在法律的一次次更新中體現。電子證據適用范圍、采信條件、采信原則、可接受的證據形式以及提交方式等在實踐中明確,應當獲得其應有的證據分量。當我們在評估一條數據消息是否具有證據分量,即是否具有足夠的證明力,我們需要對其進行多方面的考量與研究。例如,該大數據信息的生成、存儲或傳播過程中,是否存在人為篡改與消滅,信息提取過程中是否存在缺漏或意思曲解,以及信息來源與提供者的可靠性等一系列問題。我們所屬的是一個大數據時代,如果大數據證據不為法院和仲裁機關所接受,那不僅會影響證據收集的效率與證據鏈的完整性,同時也會為以數據信息商務交易的實體法保障埋下隱患,使電子商務交易演變成高風險的交易形式。
隨著移動互聯網、大數據、云計算、物聯網與人工智能等新技術、新業務和新生態的發展,目前我國在電子證據取證方面還不夠成熟,證據采信率較低、證據原件模糊、取證主體受限、成本高昂等困境始終沒有突破④。大數據證據作為電子數據的一種特殊形式,兩者具有天然的親和力。在進行大數據取證的同時,應同時進行常規的電子數據取證。司法偵查有關部門沒有自行開發的證據收集軟件,缺乏先進的電子數據測試、存儲和實驗設備,不能在短時間內有效處理大量案件。只有當數據有作為證據資格的前提下,才有確定判斷⑤證據證明力的大小的意義。如果傳統的紙質證據可以通過整個事情呈現。如今社會,電子郵件、微信聊天記錄等“電子證據”已經逐步在司法實踐被當事人采用,大數據證據成為了必不可少的證據形式。但在它的證明效力方面卻始終存在一定問題,大數據證據更容易通過剪輯、刪除、重組等手段更改成為“偽證”。
電子證據是否具有獨立證明力隨著法律的更新得到了解釋。原先的法律實踐中,電子數據不能單獨作為證據來證明案件事實,必須與其他證據加以結合形成完整的證據鏈才予以使用。由此可見,在新法出臺之前,電子數據予以使用最大的難度就是“孤掌難鳴”。此類電子證據是否被法院采納,與法官的理解和自由裁量具有很大關聯性和不確定性。大數據證據也如此。一般來說,大數據證據審計分析方面存在數據采集風險、數據存儲管理風險和數據分析質量風險等挑戰。近年來,隨著《最高人民法院關于修改<關于民事訴訟證據的若干規定>的決定》出臺,電子證據就作為類似書證、物證等證明力的證據出示,無需通過其他證據加以輔助,電子數據進一步獲得了獨立證明力,也由此降低了其審計分析的風險,提高了訴訟效率。
數據收集是審計分析的第一步,是大數據的重中之重。因為大數據技術進步的影響,大數據的數據來源得到優化,其種類逐漸豐富并且類型多樣,為我們的采集提供了更加開闊的存儲與分析數據的環境。在數據收集工作中,主要面臨兩種風險。一是為了確保數據收集的真實性和完整性。缺乏有效驗證手段對被審計單位的數據進行驗證,導致數據的完整性和真實性得不到保證,只能通過后期的擴展調查驗證某些數據的真實有效性,收集到的數質量不高、紛雜無效的信息對數據分析的進度與質量影響可謂是致命的;二是數據采集過程中被審計單位的系統安全性存在被破壞的風險。數據采集是困難的。采集過程中易出現記錄或低效的人為錯誤。雖然單位引進了相關技術手段,應用了數據采集系統,但是由于系統本身的原因。以及缺乏選擇最適合自己的數據采集系統,無法實現信息采集的實時性、準確性和可擴展性管理,而且容易出現了信息斷層的現象,其安全性也難以保證。
從審計機關和人員那里收集大量數據,在存儲和管理上面臨著兩大風險:首先,數據存儲風險大。大數據如何存儲,如何保證數據的完整性,可以要求檢察人員監控分析。其次是數據管理的風險,數據審計機構包含大量的數據。對于人的基本信息,如何進行技術和系統的管理,保證數據不會泄露給社會是審計機構要規避的風險之一。數據存儲和管理涉及到許多行業的信息,這些重要信息的遺露、丟失和泄密會給相關單位造成巨大損失和權威性、公信力、可靠性等形象的全面下滑。如今,數據管理的風險主要來自于數據存儲設備的管理,類似于審計人員的計算機及移動存儲介質等發生丟失以及數據網絡加密不足等,這都是大數據存儲和管理風險防范規避的關鍵領域。
從大量數據檢索的審計單位獲得審計資格后,下一步是數據的整理分析。審計中發現可疑數據進行審計驗證,并生成審計證據。在數據分析過程中,審計人員將面臨一下審計風險:
首先,海量的數據與有限的審計時間之間的矛盾。在這一矛盾之中,審計人員因各種原因,無法在規定時間內完整精細的對所有數據進行研究、整理、分析,因而容易忽視審計中的疑點,降低了整體審計質量。
其次,在分析數據過程中,審計人員極有可能只關注了數據分析,而忽視了對被審計單位信息系統的安全防范,導致因系統中存在的重大漏洞而對整個審計任務造成風險。
此外,審計人員技術水平參差不齊,對大數據證據的分析處理存在問題。在大數據時代,數據的處理方式是多種多樣的,因此審計人員的技術水平決定著他們能否從復雜大量的數據中提取到我們所需的證據,當他們操作不當時,甚至有可能造成數據的丟失,導致關鍵證據無法被獲得。此外,當公安機關偵查人員遇到無法處理的問題時,只得求助于外部人員。但是外部人員并不清楚公安內部對這些大數據證據規定或要求,因此得到的大數據證據很可能不具有法律效力,甚至都無法起到建議作用。同時,外部人員的保密問題也十分嚴重,是大數據證據在審計過程中最突出的風險問題。
最后,大數據本身具有無形性和脆弱性的特點。大數據證據不同于一般的紙質材料,沒有沒有實體性的存在形式,例如紙張、雕刻等,其存儲介質較為特殊,導致其內容與載體可分離,復制不能改變其完整性與真實性,因此較難,直觀區分原始件與復印件,這使得它具有了無形性的特點。大數據證據的脆弱性,則是因其可以人為進行修改,且不易被察覺。在實踐中,存在著一定數量因人為篡改而導致大數據證據失去證明力、事實不清的案例,憑借現有的收集技術,審計人員很難對大數據證據的原始性進行確認。想要確保大數據生成證據的證明力,保證原始數據到最終審計證據的證據鏈完整性至關重要。
審計相關人員首先要提升自己的專業水平,更新技術觀念,在熟練掌握當今社會的主流數據處理與分析的方式之后,還應該多角度的對現有技術進行挖掘。大數據時代的數據以范圍廣、數量大、時間跨度長為特點,而現在的刑事案件偵破則是需要高效、快速、準確,因此想要將大數據證據廣泛的應用于司法過程中,相關審計人員便需要在短時間內,準確處理好問題,使得大數據證據能更及時的被加入到案件的處理過程中,這對于相關審計人員的業務能力提出來很高的要求。
在《民事訴訟法》的第64條中,規定了中國的證據收集制度包括了當事人自行收集并向人民法院提供與人民法院收集這兩種證據收集制度。多數情況下,收集與提供證據的任務是由當事人完成的(除法律規定的職權調查以外),原則上,法官無需承擔起證據調查與收集的責任。然而在現實實踐中,我國的證據收集制度卻常常因為不具備可操作性而產生混亂。
大數據證據作為一種最新型的證據形式,其受取證方式的影響較大。我國的證據保全制度盡管通過保全的形式,使得獲得的電子數據的證明力有所提高,極大程度的減少了當事人收集證據的壓力,然而其存在一個致命的問題,那就是申請時間較長。在長時間跨度的等待中,在大數據證據隨時可能出現損壞、消失等緊急情況,沒有專業的技術,損毀消失的大數據證據極難復原,即便復原,相較原始數據,其證明力也可能有所降低。因此,我國現在的證據收集制度并不適用于大數據證據的收集,因其導致的時機貽誤,將會使得大數據證據難以發揮完全作用。
大數據證據中的電子數據通常具有極強的時效性,正因為它常常以數據流的形式存在,受時間因素影響大,因而留給我們的取證時間并不充足。所以我們需要對大數據證據的取證進行程序性立法,將大數據證據轉化為一種常見證物,規范大數據證據取證的過程同時,也能夠有效提高大數據證據取證的效率。
并且對其進行程序性立法,能夠提高大數據證據被人們的接受度。現今,很多案件中已經開始引入大數據證據,但是在最后的審判中,大數據證據往往不被承認。因此,只有同時將大數據證據正式納入《刑事訴訟法》規定的證據類型之中,通過法律束縛將其規范化、統一化,才能使得大數據證據在今后的刑事司法過程中發揮更大的作用。
一個人的大數據信息在多數情況下存于多個計算機設備、多臺服務器上,獲取到的信息可能包含著他人的隱私,導致影響到對方。大數據的信息來源廣泛、自身數據量龐大,大數據下的電子數據已不僅僅局限于公民個人或是說用戶端,同時還關聯著技術供應端。在數據量龐大的基礎上,大數據數據采集不僅要注重保護公民個人的隱私權,還要將技術服務提供者的合法權益放在優先考慮位置,例如自主經營問題、技術專利問題等。在進行電子數據取證時,首先面對的是基數龐大的數據庫,如若沒有專業技術企業提供相對應的服務或者對數據產生源進行專業管理,取證工作將會寸步難行。然而,在取得大數據證據的過程中,經常會獲得與案件無關的數據,這就會對公民個人的隱私權造成威脅。如果沒有法律明文規定來劃定界限、明確過程、規范程序,可能會導致部分取證工作的失控,甚至出現侵害無辜群眾及訴訟當事人的合法權益的情形。
切實做到保障采集證據時的個人權益,才能使得我們所獲取證據的程序被人們所接受。但這是一個極其難以解決的問題,因為大數據證據和案件有關或者與案件無關的界限難以界定,通常都是依據審計人員的經驗來進行,難以通過法律進行硬性規定。所以對于相關審計人員的保密意識的培養,對其業務素養的提高,在這一時代刻不容緩。
從智能算法展示個性,到在線旅游平臺利用大數據,顯示“成熟”,大數據應用不中立,機器學習還不成熟。信息不對等、雙方互不了解的大數據技術將會繼續發展,在綜合解析了消費者的支付能力、償還能力、消費偏好后,因地制宜,根據不同情況采取不同措施。例如,判斷需要票的話就提高價格。大數據的“純熟”不光違反了商業誠信的基本原則,而且還涉嫌違反了《反壟斷法》,不僅失去消費者信任,還構成了價格歧視。消費者每單位商品所支付的最高價格的差異,每單位產品的銷售價格形成一級價格歧視,大數據和人工智能算法,并利用每個用戶制定了全方位的一些圖像,分析預測為基礎,可以設定價格歧視。該辦法降低了消費者對互聯網商業場景的信任度,將原本方便百姓生活的大數據技術作為盈利手段,阻礙行業發展,阻礙技術進步。不僅如此,機器學習模式還可能引起種族、性別等歧視。從輸入數據到做出決策機器學習中間過程,甚至是更先進的自動學習,AI背后的代碼、算法存在著超越我們理解的“技術黑匣子”。發展非歧視性數據挖掘技術是有待解決的研究領域,當務之急,就是要提高大數據算法應用的信息披露義務,運用監管科學技術手段升級監管能力。
大數據是這個時代的新標簽。為了跟上時代的步伐,公安系統應加強大數據證據的規范化和應用,雖然現在有許多問題仍需探索,但大數據證據仍然有廣闊的前景。
注釋:
①李慧.大數據成為證據的新標準[J].人民法院報,2016-12-07.
②喬羽,孟彩霞.淺析大數據的處理技術[J].數碼世界,2018(3):265.
③我國《刑事訴訟法》規定,證據必須查證屬實才能作為定案依據;《民事訴訟法》規定:一切證據必須查證屬實,才能成為認定事實的根據;《行政訴訟法》規定:一切證據必須經法庭審查屬實,才能成為定案的根據.
④胡銘,王林.刑事案件中的電子取證:規則、實踐及其完善——基于裁判文書的實證分析[J].政法學刊,2017(1):79.
⑤唐舒欣.試探究刑事訴訟中影響證據證明力大小的因素[J].法制博覽,2019(26):217.