鄭海,王慧如
犯罪形態與社會的發展變化緊密相連[1]。進入信息化時代,物聯網、互聯網、人工智能等技術深度融合發展,將物理空間、社會空間和數據空間前所未有地緊密聯系在一起,使得人類、自然和機器高效協作、互聯互通。這種人、機、物的三元融合引發了信息數據的爆炸性擴張和數據模式的高度復雜化[2]。網絡空間的新型犯罪由此而生,這也為大數據技術進入刑事訴訟領域奠定了基礎。2017 年9 月,公安部印發《關于深入開展“大數據+網上督察”工作的意見》,強調要提高思想認識,順應時代潮流,堅持創新引領以及加強組織領導,主動擁抱大數據,大力支持“大數據+網上督察”工作。2021 年10 月,最高人民法院院長周強在第十三屆全國人大常委會第三十一次會議第二次全體會議上報告工作情況時指出:要健全大數據、人工智能、基因技術等新領域新業態知識產權司法保護規則,研究完善算法、商業秘密、人工智能產出物、開源知識產權司法保護規則[3]。大數據技術在司法實踐中的應用趨勢由此可見一斑。
當今信息技術快速發展,犯罪從傳統的現實空間向網絡虛擬空間過渡。犯罪人在實施犯罪的過程中利用信息網絡技術,使得犯罪生態環境日趨復雜,原有的偵查技術手段已經不足以應對這類新型網絡犯罪。所以,大數據技術在偵查中的應用以及由此而產生的大數據證據的相關問題成為研究熱點。文獻檢索結果顯示,學者們主要從以下幾個方面開展研究:一是大數據證據的證據屬性。如劉品新在《論大數據證據》中,從形式的親緣性、可比性和經濟性的角度出發,提出將大數據證據歸類于鑒定意見[4]。嚴若冰在《以定義為中心的大數據證據獨立種類研究》中,提出了“三位一體”的大數據證據定義方法[5]。徐惠、劉曉東在《大數據證據之證據屬性證成研究》一文中認為大數據證據具有“綜合性”和“高技術性”的特點,其有別于傳統證據,所以應當將其視為獨立的證據種類[6]。二是大數據證據的應用。如孔德倫在《大數據證據在網絡犯罪案件中的運用——以鑲嵌論為視角》中,提出以鑲嵌論邏輯推演路徑為視角,著重審查判斷大數據證據的關聯性、可靠性及合法性,以準確認定案件事實,依法打擊犯罪[7]。林喜芬在《大數據證據在刑事司法中的運用初探》中,從大數據證據的法律定位及運用規則、大數據證據的證據能力審查以及大數據證據的證明力評價三個層面對大數據證據展開研究[8]。三是大數據證據的審查。如衛晨曙在《論刑事審判中大數據證據的審查》中,認為大數據的審查應當從證據鑒真以及源代碼兩個方面進行[9]。
綜上所述,已有的研究雖涉及大數據證據的各個方面,但仍存在一定的不足。根據我國刑事訴訟領域的通說,不具備法定形式的證據資料不能被納入訴訟程序,而在一些司法實踐中,諸如“破案經過”“情況說明”“扣押清單”等并非屬于刑事訴訟法所確立的法定證據種類的證據也往往被使用,這為大數據證據的適用提供了實踐可能性。換言之,大數據材料能否作為證據在庭審中得以適用,不完全看其是否屬于法定的證據種類,重要的是看其是否符合證據的“可采性”要求。探究大數據證據的可采性,重點在于解決大數據證據的客觀性問題。只有解決其客觀性問題,才能使得大數據證據在實踐中得以更好地適用。在已有的研究中,很少有學者專門從大數據證據的客觀性角度出發論述大數據證據基于其客觀性而產生的各種應用困境。因此,大數據證據客觀性的制約因素及其克服之道的研究有待進一步深化。
現階段,以審判為中心的刑事訴訟制度改革如火如荼,這標志著公安機關的偵查活動、人民檢察院的審查起訴活動都應當向審判看齊。而審判活動又以庭審為中心,在庭審環節中,舉證質證作為最重要的環節之一,證據是整個刑事訴訟活動的重心。當下,大數據技術的應用在立案前的初查階段、立案后的偵查階段以及法院審判階段初具規模,尤其在人臉識別、軌跡對比、涉案資金數據分析等方面的應用已經形成一定的態勢。
以“刑事案件”為基本范圍,以“大數據”“大數據分析”為檢索關鍵詞,在【中國裁判文書網】中進行數據檢索,可以發現,目前在我國司法實踐活動中,大數據證據及相關技術通常被表述為:大數據平臺數據、大數據分析研判、輿情報告、大數據比對技術、大數據檢測技術等,另外還有一些案件的判決裁定書雖然沒有“大數據”等相關字眼,但是有不少涉及利用大數據技術對所獲得證據進行匯總和分析的內容。
大數據證據分為基于數據庫比對和檢索的大數據證據和基于算法模型分析和生成的大數據證據兩類,前者諸如步態比對、人臉識別等,后者諸如有組織犯罪涉案人員組織架構、資金數據、物流數據分析等[10]。根據從【中國裁判文書網】檢索獲得的信息,判決裁定書對通過大數據技術獲得的證據的表述通常有以下兩種情況。
1.將該種證據納入法定證據種類的范疇之中
(1)作為新型鑒定意見適用。如《鄺育華開設賭場罪一審刑事判決書》①中“經盤石軟件(上海)有限公司計算機司法鑒定所對上述網絡平臺后臺數據庫進行檢驗,該數據庫的下注記錄最晚日期為……”的表述,《廉清珍、廉自長組織、領導傳銷活動罪刑事一審刑事判決書》②中“于2020 年9 月22 日聘請湖北某司法鑒定中心,對本案中建始縣公安局提供的‘云電站全球合伙人管理中心’網站的數據庫文件層級結構,及對廉清珍、廉自長的頂層會員號的所在的層級、下線會員號數量、層級架構、總層級數量、下線會員投資總額進行鑒定”的表述。
(2)作為電子數據適用。如《張明、薛元林等集資詐騙罪二審刑事裁定書》提到③,偵查機關利用大數據技術對【時空9 號】網站后臺linux 服務器/虛擬主機后臺數據庫文件中的數據進行提取并將其納入電子數據的范疇。
(3)作為書證適用。如《熊爭貴、李育軍持有、使用假幣一審刑事判決書》④載明,公訴機關將“四川公安大數據查詢清單、住宿軌跡以及各地通行記錄軌跡”明確列入書證這類法定證據種類之中,《于崇泰組織、領導傳銷活動罪刑事二審刑事裁定書》⑤載明,公訴機關同樣將“通過山東大數據平臺查詢信息證實得到于崇泰的身份信息”這將大數據證據列入書證的范疇之中。
2.將該種證據作為獨立的證據,未說明其所屬證據種類
如《胡云俊故意傷害一審刑事判決書》⑥,將“通過大情報比對技術發現犯罪人的戶籍信息并通過大數據分析其行蹤軌跡”作為“到案經過”單獨列出,在《涂春、朱南徽等與李妍、李穎等詐騙罪二審刑事裁定書》⑦中,犯罪人交易、持倉量等情況被歸到審計報告之中。
綜上所述,大數據證據在司法實踐中雖然尚不具有統一的定性標準,但不可否認的是,其已登上了司法實踐的舞臺,開始在刑事訴訟活動中作為證據材料出現。
在實踐中,一些法院對大數據證據的應用呈現出明顯的“必信”與“必排”的兩極化傾向。一部分法院過度依賴大數據技術而忽視對其進行實質性審查,這種對大數據技術的盲目信賴使得法院從處于中立位置的裁判者變成了技術主導的被動接受者,大數據技術的專業性鴻溝會使得法官對其產生的證據無法做出準確的理解判斷。這種“必信”傾向實質上是將對證據證明力的判斷前置給偵查機關,易回到偵查中心主義的模式而影響以審判為中心的刑事訴訟改革。而有的法院在審判時基于保守的思維慣性,為了使審判結果不引發輿論爭議而排斥適用大數據證據,以避免新興技術對法庭的沖擊。這種“必排”傾向易倒逼偵查機關回歸提供傳統證據的模式,進而影響司法改革。由此可見,對大數據證據一味的“必信”或“必排”都不利于司法進步,反而會造成一系列消極的后果。我們應做的工作是克服大數據證據客觀性的制約因素,使大數據證據真正為案件事實“說話”,進而確保司法改革的有效推進。
大數據從“材料”到“證據”需要經過三個環節,即基礎數據的匯總和清洗環節、建構分析模型和機器算法環節以及運算和分析報告形成環節。這三個環節又可以細分為數據錄入、數據存儲、數據傳輸、數據提取、數據清洗和算法運用等子環節。這些子環節中,都可能存在有制約大數據證據客觀性的因素。
原始數據錄入主要包括兩種形式:系統自動生成和人工生成。前者數據不易受機器操縱者主觀意識的干擾而具有較強的可靠性,但依舊存在機器識別錯誤、掃描上傳錯誤等影響數據客觀性的隱患。后者采取特定人手動輸入的方式進行登記,這種人工生成的數據可能會因為輸入者的故意或者過失而出現錯誤或者失真。
數據存儲環節主要存在系統故障、黑客入侵以及用戶誤操作等影響數據客觀性的隱患。首先,軟件系統故障可能會損害數據完整性。如兩個不能兼容的軟件同時運行,可能會導致程序被迫中止的后果,甚至會造成系統崩潰,數據丟失。再如軟件版本與運行環境配置不兼容,可能會導致系統死機,文件丟失或被修改等后果。其次,黑客入侵可能會導致數據盜取和數據篡改。2017 年6 月,某市某單位培訓中心在一次省級培訓考試后發現通過考試的人員名單高達上千人,而本單位實際參加培訓考試并通過的僅有兩人。通過與省級單位核實,確認多出來的人員并未參加考試,而名單卻出現在網上。隨后該市公安機關展開偵查,發現該考試系統存在較大安全隱患,極易被不法分子侵入數據庫并篡改信息。此次被篡改的信息更是高達上萬條。在后續對犯罪嫌疑人進行訊問時,犯罪嫌疑人交代其利用網絡漏洞非法篡改信息并借此來牟利的事實[11]。現實中,數據被泄露、盜取的現象屢見不鮮,如2020 年1 月化妝品巨頭雅詩蘭黛4.4 億條郵箱記錄被泄露,2020 年4 月2.67 億個Facebook 賬戶信息在暗網被出售[12]。由此可見,黑客經常利用系統漏洞、弱口令等安全防護較薄弱的環節侵入數據庫并篡改、盜取數據。再次,用戶誤操作也可能會導致數據丟失。如誤刪信息、強制關機、格式化等。除此之外,硬盤損壞、自然災害等也可能導致數據損壞、丟失。
大數據材料需要經歷數據傳送、數據保管等環節,才有可能轉變為可在法庭上出示以證明案件事實的大數據證據。這些環節存在一定的數據安全隱患,有可能會造成數據失真。首先,在數據傳送的過程中,元數據脫離會導致法官對大數據證據中海量數據集的原始性存疑。元數據就是指數據的數據,是對數據本身屬性信息的描述,一般附加在數據之中,不宜直接查看。如一張照片,其拍攝的相關信息就是元數據,主要包括拍攝時間、位置信息、拍攝參數、拍攝器材等。在實踐中,許多大數據證據在法庭中僅僅以軌跡截圖、人臉識別截圖等圖片形式簡單呈現,而無元數據信息可供審查驗證,法官和辯護方會對其原始性產生懷疑,最終可能被排除。所以在數據傳送的過程中,元數據不能丟失,要一同提取保存以備后期驗證之需[13]。其次,在數據傳送的過程中,數據可能在壓縮、加密、轉換等處理過程中出現丟失或者變形。大數據證據的數據集與電子數據顯著不同的一點在于其數據集的海量性,大數據材料中數量級的單位一般用PB⑧來表示,其數據集的規模已經遠遠超出傳統的數據庫軟件工具能力范圍。所以,專業人員在對數據進行傳送時往往需要對數據集進行壓縮處理。同時,如果數據涉及到秘密問題,專業人員在對數據進行傳送時往往會對數據進行加密,對數據進行傳送時也會將其格式進行轉換,這些處理都容易導致數據信息丟失或變形。最后,數據保管的過程中,偵查人員缺乏專業的技術能力或操作不當也會導致數據失真的情況。
首先,取證主體合法性存疑。在實踐操作中,海量數據集的提取一般參照電子數據的提取標準。2014 年“兩高一部”《關于辦理網絡犯罪案件適用刑事訴訟程序若干問題的意見》中規定:收集、提取電子數據,應當由二名以上具備相關專業知識的偵查人員進行。取證設備和過程應當符合相關技術標準,以保證所收集、提取的電子數據的完整性、客觀性。2016 年“兩高一部”《關于辦理刑事案件收集提取和審查判斷電子數據若干問題的規定》第7 條規定:收集、提取電子數據,應當由二名以上偵查人員進行。取證方法應當符合相關技術標準。2019 年公安部發布的《公安機關辦理刑事案件電子數據取證規則》第6 條規定:收集、提取電子數據,應當由二名以上偵查人員進行。必要時,可以指派或者聘請專業技術人員在偵查人員主持下進行收集、提取電子數據。《最高人民法院關于適用〈中華人民共和國刑事訴訟法〉的解釋》第112 條規定:“對收集、提取電子數據是否合法,應當著重審查以下內容:(一)收集、提取電子數據是否由二名以上調查人員、偵查人員進行,取證方法是否符合相關技術標準……”綜合上述法律法規可以發現,對偵查人員具備計算機類專業知識的要求過于嚴苛,導致難以執行,法律也逐步放寬標準,不要求偵查人員具備專業技術知識,只是要求其取證方法必須符合相關技術標準,并通過指派或者聘請專業技術人員的方式來彌補偵查人員在相關專業知識領域的不足,這其實是法律對現行偵查困境的妥協[14]。
但是在實踐中,偵查人員往往對海量數據集進行先一步處理,發現確有處理困難時再指派或聘請專家對數據集進行進一步處理的現狀。此時,專家處理的實際上并非原始數據集,而是偵查人員先行處理過的數據集,這就無法保證數據集的客觀性。
其次,取證程序缺乏統一標準和規定。一方面,目前尚未有針對大數據證據相關問題專門的法律規范。另一方面,偵查人員對大數據證據進行提取時常以《關于辦理刑事案件收集提取和審查判斷電子數據若干問題的規定》以及《公安機關辦理刑事案件電子數據取證規則》等規定為參考,但這些規定之間較為分散,尚不具備體系化的特點。這就使得偵查人員在對大數據證據進行取證時缺乏統一的參考標準以及具體的操作流程,容易導致數據提取不全、不同人員提取結果不同、數據提取操作錯誤等問題。如在對數據進行提取時,由于沒有統一的程序標準,不同的偵查人員受主觀認識、經驗能力等多方面因素影響,可能會提取不同的數量及范圍。這樣,有的偵查人員提取的數據可能不完善,從而導致數據分析結果出現偏差。
最后,取證工具未與時俱進。大數據與云計算密不可分,云計算是基于互聯網絡平臺的一種服務,大數據取證工具理應支持網絡連接和分布式計算。但目前常見的取證工具基本上不支持網絡連接,這就容易造成不能數據提取、數據提取不全等問題。
宏觀意義上的大數據是指“全體數據”,這些基礎數據具備數據總量大、數據非結構化性質突出和數據價值密度低的特征,因此無法被直接認識、理解,需要通過數據清洗將其轉換成符合質量要求的數據再運用技術對轉換后較高質量的數據進行分析并最終形成分析報告。一方面,不同的數據分析人員對案件的認識角度和深度不同,其對數據清洗的選擇側重點存在差異,其分析結果也不相同。換言之,對原始數據集,不同的數據分析人員可能會得出不同的分析結論,即使是同一人,在偵查的不同時間段對相同的原始數據進行處理分析所得的結論也不一定完全相同。另一方面,存在數據重疊現象。以網絡詐騙案件為例,網絡詐騙犯罪往往是犯罪團伙采取“一對多”模式隨機選擇被害人進行詐騙。同一個被害人有可能被該犯罪團伙中不同的犯罪人分別詐騙。偵查人員對該案件進行偵查時,需要對犯罪團伙詐騙的人數以及金額進行匯總,如果在數據清洗的過程中沒有進行去重,就會造成數據重疊,最終導致對犯罪人據以定罪量刑的金額進行可視化分析時,計算的金額超出實際的金額,從而不利于犯罪嫌疑人合法權利的保障。
算法是數學、計算機學科的專門術語,是指解題方案的準確而完整的描述,是一系列解決問題的清晰指令。算法是大數據技術的核心,當前絕大多數的大數據技術主要采取深度學習的技術路徑來實現對數據的自動提取、挖掘、碰撞與分析。但是科學技術不等同于確定性,更不等同于真理,算法也是如此。
算法是解決某一問題的思路,其在計算機上的實現要依賴于程序將其轉化為計算機的命令語言,而程序以代碼為載體,故算法的準確與否與程序代碼有必然的聯系。源代碼在計算機程序中起基礎性作用,是指由程序員編寫的原始文件。程序員編寫源代碼時會具有一定的主觀性傾向。這也就不可避免地存在算法偏見和算法歧視。另外,機器的自主學習特征會驅動其對數據進行再加工,從而導致原始事實失真。
2019 年1 月10 日,國家互聯網信息工作室發布了《區塊鏈信息服務管理規定》。2019 年10 月24 日,習近平總書記在中央政治局第十八次會議上強調“把區塊鏈作為核心技術自主創新的重要突破口”。2021 年3 月11 日,第十三屆全國人大四次會議表決通過了《關于國民經濟和社會發展第十四個五年規劃和2035 年遠景目標綱要》的決議,將區塊鏈首次納入國家五年規劃中,充分體現了國家對區塊鏈技術的高度重視[15]。區塊鏈技術側重于大數據證據的形成,具有實現數據流通全過程的有效記錄且保證數據不被篡改的重要作用,能在源頭上進一步確保數據的真實性,有效地加強大數據證據的證明效力。從此立場上可窺見夯實區塊鏈技術深度應用的重要性。
1.實行數據自動化錄入
數據自動化錄入相比較于手動錄入,更加準確可靠。為了保證數據錄入的真實性,首先要實現信息錄入的全自動化,尤其是企事業單位的員工檔案信息,吃、住、行、消、玩等重點場所的人員登記信息,七類重點人員⑨的基礎身份信息等重要數據信息的錄入,要避免手動錄入,以防錄入人員故意或過失造成數據錯誤。
2.保證數據上鏈的可信性
哈希值嵌套和去中心化技術能保證存入區塊鏈上的證據不被修改,進而保證證據的真實性。哈希值通俗來說就是某個字符段的“DNA”,電子數據是通過二進制表達的,哈希算法可以將任意長度的二進制值映射為固定長度的較小二進制值,這個較小二進制值就是任意長度的二進制值的哈希值,具有唯一性的特點。一旦數據發生變化,哪怕是一個文字、數字、字母甚至標點符號的變化,都會引起最終所得的哈希值的變化。換言之,只要將最新所得的哈希值與最原始的哈希值進行對比就可以得出數據是否具有原始性,如果兩個哈希值相同,則證明數據具有原始性,反之,則證明數據被改動過。在實踐中,哈希值通常是起固定原始數據的重要作用,但是僅憑哈希值無法保證數據不被篡改。例如在中心化的大環境之下,在一個固定的模型中,終端服務器記錄所有的數據信息,所有模型中的信息和交易都要以這個終端服務器為集中進行交互,該模型就是我們常見的互聯網服務,如微信、微博等。如果進入終端服務器中就可以直接將原來的哈希值替換為修改之后的哈希值,這樣就可以實現數據篡改而不被發覺。所以除哈希值以外,區塊鏈還需要去中心化技術來保證鏈上的證據不被修改。去中心化技術實際上就是打破中心化服務器的壁壘,取消唯一中心的限制,將區塊鏈上的每一個節點都變成中心,都存儲有整個數據的副本,并會定期同步更新數據。這樣,區塊鏈上的每一個區塊就都具有唯一的哈希值,一旦上一個區塊更改,哈希值就會隨之而改變,所以如果有人想要篡改某一個區塊,就必須將后面的區塊一起篡改,這就使得區塊鏈上的證據幾乎不可能被修改[16]。
但是,哈希值嵌套和去中心化技術只能保證數據上鏈后難以篡改,而不能從根本上保證鏈下數據的可靠性,因此,區塊鏈技術的應用必須考慮到數據如何可信上鏈的問題。鏈下數據的可靠性需要各類技術之間的有機融合以及社會各方之間的高效協作。第一,技術有效融合。區塊鏈技術無法保證鏈下數據的客觀性,為克服這一缺陷,應加強物聯網技術、互聯網技術、人工智能技術等新興技術的深度融合。如通過攝像頭固定數據在鏈下的基本狀態,再與數據上鏈時的狀態進行對比,如完全一致,則說明數據上鏈時沒有發生變動,具備可信性。第二,社會高效協作。一方面,鏈下數據的可信度需要技術類企業進一步研發更為精準的數字模型和機器算法,另一方面,鏈下數據的可信度還需要各行業部門制定相關的規范來進行全方位的治理和協調。
首先,完善大數據證據相關的法律規范。目前,大數據證據的提取采用的是電子數據提取相關的法律法規。根據《關于辦理刑事案件收集提取和審查判斷電子數據若干問題的規定》,電子數據是指在案件發生過程中形成的,以數字化形式存儲、處理、傳輸的,能夠證明案件事實的數據。電子數據包括但不限于以下幾類:網頁、博客、微博客、朋友圈、貼吧、網盤等網絡平臺發布的信息;手機短信、電子郵件、即時通信、通訊群組等網絡應用服務的通信信息;用戶注冊信息、身份認證信息、電子交易記錄、通信記錄、登錄日志等信息;文檔、圖片、音視頻、數字證書、計算機程序等電子文件。由此可見,大數據證據和電子證據中的數據在形式上存在一定的一致性。但兩者歸根結底是不同的兩個概念,兩者之間存在較大差異。一是數據涵蓋范圍不同。大數據的數據集具有海量性,其數據總量遠超傳統的電子數據且并非是電子數據的簡單疊加。二是數據結構形式不同。大數據的海量數據集具備非結構化特征,數據無法被直接利用,必須要經過數據清洗,運用專門技術進行分析,而傳統的電子數據僅是對簡單、結構化數據進行的分析。三是數據與案件事實聯系不同。大數據的海量數據集價值密度低,需要通過技術分析得出結論,其與案件事實之間是一種弱相關的、模糊的聯系。傳統的電子證據往往能夠直接證明案件事實,與案件事實之間存在一種較強的聯系。除基礎數據之外,大數據證據還包括大數據分析技術和大數據分析結果,這是電子數據所不具備的。所以,不應將大數據與電子數據混為一談,要制定和完善專門性的大數據證據的相關法規,以便更好地推動大數據證據的實踐應用。
其次,嚴密大數據證據取證的程序。第一,對最原始數據進行備份留存,防止數據分析過程中出現意外事件。第二,利用統一的技術對全數據進行轉換,從偵查人員準備著手提取數據到數據處理完成需要見證人在場并且需要全程錄音錄像。第三,在數據處理完成后,需要驗證數據處理結果的完整性和科學性??梢杂删邆鋵I知識的偵查人員對最原始數據按照統一規定進行再次轉換,比對兩次轉換結果是否一致。第四,厘清大數據技術與絕對真實之間的差異。大數據具有混亂性的特征,數據集中必然是真假混雜的數據集合,而非全真或全假。所以對具體數據的真實性審查不能苛求絕對真實,只能做到大概率真實,即微觀意義上的大數據的真實性實質上是一種概率論視野中的真實性。最典型的事例就是DNA 鑒定中,親子關系的鑒定結果只能達到99.99%,卻不能達到100%的絕對值。由此,大數據集的一個數據為假不代表所有數據為假,真實的數據達到一定的規模,就可以被擬定為真實性數據。
再次,加強偵查隊伍建設。目前,絕大部分偵查人員并未接受過系統完整的計算機專業知識與相關技能培訓,這方面的業務能力不高,往往不能獨立完成大數據證據提取任務。這就要求偵查部門一方面必須加強對偵查人員的相關業務培訓,組建具備大數據技術的專業隊伍,切實提升偵查人員整體的辦案水平和能力。另一方面應聘請專家為偵查人員進行計算機理論知識和實踐操作的相關培訓,切實加強偵查人員在辦案中發現、固定、收集大數據證據的能力。
最后,確立大數據證據取證的救濟程序。應當平衡提取大數據證據的公權力與公民個人隱私權之間的利益。如果當事人對偵查機關取證程序有異議,有權向同級檢察院提出異議,同級檢察院應當做出決定并向當事人說明理由。如果不滿同級檢察院所做出的決定,當事人可以向上級檢察院提出復核。
第一,完善大數據技術開發的標準,降低算法偏見。設立嚴格的技術開發標準和檢測標準,將新技術的源代碼匿名化交由多名公安部門的技術專家進行檢測,重點檢測源代碼的可行性、合法性、普適性和應用的資格。新技術的源代碼必須在全部技術專家的認可下才能投入社會進行使用,未獲得全部專家認可、但超過半數專家認可的源代碼有二次檢測的資格。低于半數專家認可的源代碼則因不具備一般的可信度而被直接拒之門外。這種檢測模式,可以大大提高技術本身的可信度。
第二,建立源代碼分級公開制度。有學者認為,既然基于機器學習的大數據證據被作為證據提交法庭,那就應當要求設計者公開技術方案,否則大數據證據就難以滿足真實性標準。但是源代碼往往涉及技術公司核心的商業秘密,完全公開有可能導致惡性商業競爭以及技術人員開發技術的積極性降低等后果。針對這種完全公開的理想狀態和完全不公開的現實狀態之間產生的分歧,可以選擇折中處理,建立源代碼分級公示制度,將源代碼公開根據具體的情況分為三個等級——必須公開、申請公開以及不公開:當大數據證據承擔認定事實的主要責任,是證明案件的核心證據時,源代碼應當公開;當大數據證據充當認定事實的間接證據,主要用于印證其他證據的證明能力時,源代碼可以公開,但需要經過申請以及嚴格的審批程序;當大數據證據對事實的認定基本不產生影響時,法官應當決定不公開,以保護商業秘密不被泄露。除分級公開以外,源代碼還應當通過通俗易懂的可視化方式,如制作動畫、PPT 等,配合專業人員的解讀,首先向辯護人公開。如果沒有辯護人,再向被告人及其近親屬公開。同時,所有接觸源代碼的人員都需要同技術公司就源代碼簽署保密協議。
大數據證據的運用專業性強,控方有專業的鑒定人員以及技術化人才,如果辯方沒有相應的具備專門知識的人員,就難以展開有效辯護,這顯然不利于庭審目標的實現。所以,為強化庭審對抗,應當完善專家輔助人制度,提高專家輔助人的法律地位。首先,專家輔助人的資格要有明確的制度規定,內容包括通過綜合考慮專家輔助人的專業領域、執業經驗、業內評價等相關因素,選擇專業的程序人員對源代碼進行檢驗分析,確定源代碼的可信度等。其次,明確專家輔助人的權利義務。專家輔助人享有對公開的源代碼閱卷的權利以及在法庭上發表專業意見的權利,同時專家輔助人也要承擔對源代碼保守秘密的義務。最后,對專家輔助人的知情權進行明確界定。專家輔助人畢竟不是案件的當事人,其主要任務就是對源代碼進行可信度鑒別,為辯護方提供相應的專業性意見。所以,對專家輔助人的知情權應當進行一定的限制,只允許其知曉與大數據證據相關的案件信息,其他信息一律不對其公開。
綜上所述,大數據證據作為新興科學技術支持下的證據類型,在司法實踐中得到進一步應用已是大勢所趨,我們要順應時代發展潮流,聚焦司法公正,加快推進有關工作,不斷克服影響大數據證據客觀性的因素,提高大數據證據運用的水平。
注釋:
①資料來源于【中國裁判文書網】收錄的《廣東省臺山市人民法院刑事判決書》(〔2019〕粵0781 刑初274 號),查閱日期:2022年8月1日。
②資料來源于【中國裁判文書網】收錄的《湖南省瀘溪縣人民法院刑事判決書》(〔2021〕湘3122刑初73號),查閱日期:2022年8月1日。
③資料來源于【中國裁判文書網】收錄的《江蘇省高級人民法院刑事裁定書》(〔2019〕蘇刑終107 號),查閱日期:2022 年8 月1日。
④資料來源于【中國裁判文書網】收錄的《四川省鄰水縣人民法院刑事判決書》(〔2020〕川1623刑初92號),查閱日期:2022年8月1日。
⑤資料來源于【中國裁判文書網】收錄的《山東省德洲市中級人民法院刑事裁定書》(〔2021〕魯14 刑終122 號),查閱日期:2022年8月1日。
⑥資料來源于【中國裁判文書網】收錄的《湖北省襄陽市中級人民法院刑事判決書》(〔2021〕鄂06 刑初2 號),查閱日期:2022年8月1日。
⑦資料來源于【中國裁判文書網】收錄的《內蒙古自治區高級人民法院刑事裁定書》(〔2019〕內刑終216號),查閱日期:2022年8月1日。
⑧PB指petabyte,是較高級的存儲單位,1PB=1024TB=1048576GB。
⑨七類重點人員包括:涉恐人員、涉穩人員、涉毒人員、在逃人員、重大刑事犯罪前科人員、重性精神病人、重點上訪人員。