摘 要:數字信息技術對刑事司法的深度介入產生了算法證據。刑事算法證據應限于“人輔機主”型的機器學習算法證據,可歸屬于專門性問題報告范疇。算法通過數據結構化的過程,揭示大數據與待證事實之間的因果關系,算法證據是在司法證明整體主義模式下對大數據評價的結果,包括預測類算法證據、識別類算法證據和分析類算法證據。算法證據的司法適用存在三層風險:對無罪推定和自由心證的沖擊;“概率近似正確(PAC)”理論下的事實認定錯誤性或歧視性問題;權力行使的隱化和異化趨勢。同時存在雙維困境:在實體困境維度,算法透明度和可解釋性、個人數據賦權與反算法身份歧視等手段難以實現對算法的有效規制和監管,影響算法證據合理適用;在程序困境維度,數據選擇與算法設計監督程序、結果告知與解釋程序以及異議或質證程序的規則闕如,制約算法證據適用實效。對此,應當以事實認定的輔助性、技術性正當程序、比例原則作為算法證據司法適用的理念指引;依據算法證據生成流程,從數據可靠性、算法可靠性角度明確算法證據可靠性的具體要素;構建取證、開示、質證與認證規則,強化算法證據適用的程序規制。
關鍵詞:算法證據 數字司法 證據可靠性 正當程序 專門性問題報告
一、算法證據的提出:數字時代刑事證據制度的新發展
在數字時代,刑事證據制度面臨著前所未有的挑戰和變革。尤其是互聯網、大數據和人工智能等技術的應用對證據的形式和收集方式、證據的分析和解讀以及證據可靠性和有效性的審查判斷等提出了新的要求。例如,數字時代產生了包括電子郵件、社交媒體信息、數字交易記錄等在內的大量電子數據,這些數據往往具有非結構化的形式,呈現多樣的內部結構與特征。一般情況下,司法通過利用數字技術對大數據材料進行分析,實現大數據材料高效運用的目的,但此類數字證據材料與傳統的物證和書證有著本質的不同,在缺乏技術適用理性和程序規則指導的情況下,存在著司法認知偏差與決策錯誤的風險。因此,刑事證據制度必須適應數字時代的發展,提供新的規則和方法來處理和評估這些證據,以確保司法的現代化、科技化和公正性,提高司法效率和公信力。
在大數據和人工智能等數字技術的應用中,算法是實現數據處理、模式識別、決策支持和自動化等關鍵功能的核心。在大數據和人工智能等數字技術融入刑事司法的過程中,算法扮演著至關重要的角色。算法能夠有效地實現司法對大數據材料的運用目的,關鍵在于其并不需要深入解析數據的內在深層次含義,而是通過建立基于數據的概率統計模型來識別數據之間的客觀聯系,并據此進行預測。這種方法能夠得出與人類利用高級認知技術在相似情況下得出的結論相同或相近的結果。那么,如何認識和界定算法對大數據材料分析結果的證據屬性與證據種類?對此,當前刑事證據法學界較為流行“大數據證據”概念,也有學者提出了“人工智能證據”“算法證據”的觀點。在大數據時代,算法應當是相關數字證據的核心要素和主要規制對象。在處理和分析大數據時,算法既能夠決定數據如何被解釋和應用,還能夠影響證據的合法性和真實性。因此,對算法的有效規制和監督是確保司法公正和數據利用合規的關鍵環節,在刑事證據理論研究中,用算法證據對大數據證據、人工智能證據進行界定較為科學。
在司法實踐中,對算法證據的適用還處于探索階段,其技術概念和具體規則的缺失,增加了司法審查運用的難度。當前針對算法證據的理論探討中,對算法本體的研究不足,以及對算法介入司法證明過程的邏輯、路徑與風險分析的充分性不夠,導致算法證據的研究成果無法充分反映算法技術與司法證明規則交融的實質性,算法證據的司法適用建議也缺乏一定的實操性。為此,在互聯網、大數據和人工智能等信息技術快速介入刑事司法的背景下,本文以算法證據為分析視角,明確刑事證據與司法證明制度轉型與發展的著力點,重塑算法證據優化適用的規則,以輔助司法辦案人員客觀準確地認定案件事實,切實有效地推進技術理性與司法理性的融合。
二、算法證據的匡正:證明路徑、證據屬性與證據類型
(一)算法的“人機交互”性與機器學習算法證據
目前尚無公認的關于算法的定義,不過至少可從狹義、廣義和中義三種維度對算法進行界分。從狹義角度看,算法被定義為用于解決某一類問題的一種明確的、機械的規則或過程,是運行獨立于人腦的計算機系統的具體步驟或方法,即從問題的初始狀態開始,在合理的時間內,經過有限次的運算和判斷,最終達到問題的結束狀態。狹義的算法可被視為純粹的科學或技術。從廣義角度看,算法的本質只是一種求解邏輯,無關于具體的適用領域,廣義的算法被寬泛地界定為所有決策程序或步驟,而不僅是與機器相關的自動化決策。從中義角度看,算法則被界定為人類和機器交互的決策,即人類通過代碼設置、數據運算與機器自動化判斷進行決策的一套機制。結合犯罪追訴與人權保障的司法情境,在算法證據的理論研究中,應當突出算法適用中“人”的作用,以深入理解算法的“人機交互”性(非中立性)與算法證據運用的程序可規制性。
由于數字時代新技術的迅猛發展和現實需要,算法的“人機交互”性出現了“人主機輔”和“人輔機主”兩種情況,技術層面的算法規則構建也相應地呈現出兩種模式,即專家系統模式與機器學習模式。專家系統模式下的算法規則以人類的經驗和專門知識為基礎,通過人類專家預先設定的編碼程序將輸入數據輸出為算法結果,其旨在建造能用于代替人類高級腦力勞動的專家系統。DNA 比對、指紋比對等即是基于專家系統算法自動化分析的結果。機器學習模式則是指計算機通過算法學習數據中隱藏的規律和信息,從而獲得新的經驗和知識,便于計算機處理類似任務時,能夠像人一樣思考與決策。這一過程對人類和其他生物而言稱為“生物學習”,對計算機而言稱為“機器學習”。“機器學習”既不按照人類預先編碼進行數據分析運算,也不是對人類設計的算法的簡單運用,而是能夠利用云服務器上收集、存儲與處理的海量數據集,不斷訓練與優化算法模型,自主性產生自己算法,以此解析數據,并作出相關決策和預測。因此,較之一般自動化決策算法,可將機器學習算法歸屬于自主自治的系統。面部識別、大規模監控等技術手段所獲取的證據材料均為機器學習算法對數據進行分析后所產生的信息或結論。
當前學界對專家系統模式與機器學習模式下的算法證據似乎僅作了籠統性研究,而未加以區分,如有學者認為“算法證據主要指基于算法所產生的證據,既包括案件過程中所產生的與大數據相關的算法,又可指通過算法對案內外大數據進行分析后所產生的證據”。以及“算法證據是將海量的案件信息數據進行計算整合,形成結構化和信息化的案件場景自動解讀與自動推理結果,強調算法證據由計算機算法程序和模型推導而來”。上述觀點具有一定的合理性,但其局限性也較為明顯。一方面,既弱化了事實認定中算法的特殊作用,也模糊了算法之間的區別,難以依據不同算法技術的特點,對傳統證據學框架下或證據法場域中的算法證據構建實質性的審查判斷規則;另一方面,有礙于結合算法技術等相關專業領域的研究成果,開展刑訴法領域中算法合理運用的跨學科研究。
在刑事訴訟語境中,算法證據應當限于機器學習算法證據,指的是機器學習模型對大數據進行分析后所產生的信息或結論,在證明活動中可能作為證據使用的材料。原因如下:一方面,算法獨立表達結果的證據理論研究需要。專家系統模式下的算法證據一般產生于實現固定功能的傳統計算機算法,數據分析內容為算法規則預設的機械式輸出結果,輸出結果的創造性價值也主要來源于人而非機器,換言之,算法僅是對輸入數據元素的自動整合或機械式調動,輸出結果并未體現出算法獨立表達能力,仍存在于算法設計者可期待范圍內。因此,從證據的產生過程來看,此類算法證據可納入電子數據一列。在保障數據源可靠性的基礎上,對算法規則或編程指令的合理性予以檢驗鑒定,以評估算法證據結果的有效性,這涉及電子數據鑒真問題。但機器學習算法具有自我編程、自我進化的能力,這種獨立性與自主性是其智慧化的主要展現方式。這也就意味著,算法正由“工具”向“主體”跨越,此時的算法證據產生了不同于既有數據的新信息,如何認識算法證據的事實認定作用與方式,以及如何界定算法證據的法律屬性,亟待刑事證據理論予以回應和更新。另一方面,處理龐大且復雜數據的刑事司法現實需要。數據要素是推動刑事偵查與司法數字化轉型的重要動能,但刑事司法實踐卻面臨著犯罪數據爆發式增長與涉案信息海量集聚所蘊藏的巨大證明價值難以挖掘的困境。例如,在網絡犯罪案件中,作為罪量評價的網絡動態行為數據如點擊數、瀏覽數、轉發數等,無法簡單直接用以對物理空間主體行為的刑法評價,因為物理空間行為與網絡空間行為存在互異的可能,難以辨析物理空間主體是否存在機刷數據等數據造假行為。對此,機器學習算法數據挖掘方法可適用于系統地分析大型數據集,如通過機器學習算法對物體、人和動作進行識別的“計算機視覺”方法,支持偵查活動中的大數據分析工作,此時的算法識別結果經嚴格審查后可作為證據使用。這與主要依賴于規則和事實,對于處理需要創新和直覺的復雜問題能力有限的專家系統算法,在數據分析與推理功能方面有著本質區別。
(二)機器學習算法輔助司法證明構造及其證據屬性
1. 算法證明構造論
證據是與案件事實相關的信息,是事實認定的必要條件。證據對事實的證明路徑主要包括證明模式的選擇與證據推理和證明評價的推進。(1)整體主義證明模式。整體主義證明模式與原子主義證明模式相對,二者實際上是宏觀視角與微觀視角的關系。根據司法證明的原子主義模式,事實認定的智力過程可以分解為獨立部分,證明力取決于個別存在的單個證據和離散式的系列推論,最終的事實認定由彼此分離的證明力以某種疊加的方式聚合而成。但從算法證據事實認定的內部視角來看,算法通過分析和處理龐大且復雜的數據集,能夠從中提取有價值的信息、預測趨勢,并形成算法事實信息。這一過程強調算法對數據之間相關關系立場的表述,而非對數據進行全然解構并對數據“項”進行獨立的證明價值分析。因此,原子主義證明模式與大數據的數量特征和算法技術的運行邏輯不相兼容。整體主義可以成為算法證明的模式選擇。整體主義證明模式主張一項材料的證明力源于所有已輸入信息材料之間的相互作用,單項證據自身的證明力,無法游離于證據的總體判斷。在算法證明中,其強調對大數據的整體評價,通過數據結構化的過程,揭示大數據與待證事實之間的相關性或因果關系。不過應予以明確的是,證明模式的整體主義與原子主義均為證據評價與事實認定的重要方式,整體主義證明模式的回歸僅是算法證明視域下的特殊意涵,將二者視為不可調和的或者相互排斥的觀點是錯誤的。(2)證據推理。證據推理結構主要依賴的是經驗和邏輯,如艾倫所主張的經驗推論模型、威格莫爾所強調的圖式體系,強調的是“證與待證”之間因果關系性質的邏輯推演。但有學者認為,在智慧司法中,算法對事實的證明模式將從“因果分析”發展到“關聯分析”,這種認知存在一定的狹隘性。算法證明機理的核心在于對海量數據的收集和分析,側重基于數理的因果關系判斷,相關關系實際上是因果關系的派生。具體來說,利用機器學習和統計分析算法對涉案大數據進行分析處理和測算推斷,可以識別數據中的異常點、趨勢線和相關性,揭示數據背后的規律性結論,為事實認定提供科學依據。算法于其中發揮了兩種功用:其一,為推理創建基礎數據事實(算法證據事實)。神經網絡算法、決策樹算法、聚類算法等常用機器算法基于相關性對鏡像數據進行關聯處理,產生相應的算法證據事實,這通常能夠揭示出數據背后隱藏的往往超出人類經驗和直覺范疇的深層次信息。其二,為推理提供基于大數據分析的經驗支持。有實證研究結果表明,同一犯罪構成要件之下,個罪案件中的證據分布有一定的規律性。算法模型通過對司法實踐數據的廣泛抽取、存儲和分析處理,能夠歸納、整理出類罪犯罪構成要件事實的類型數據庫,并可以在深度學習算法驅動下不斷予以自我優化,從而為個案中證據性事實到次待證事實(構成要件事實)的推論提供算法經驗支持。程序性事實與量刑事實的算法證明同樣需要以大數據分析經驗作為推理的可信基礎。(3)證明評價。在證明評價層面,算法技術可以輔助校驗證據標準和對證明力進行科學的概率評價,但依通說,證明對象范圍僅限于實體法事實和程序法事實,此時的算法分析結論因是對證據事實的證明而并不屬于訴訟法學領域的證據范疇,因此限于文章主旨,本文對此不作闡述。
2. 算法證據屬性
目前理論界較為關注算法證據屬于何種證據種類以及如何加以規制的問題。有學者認為當前法定證據種類制度不夠周延,難以包含較為特殊的算法證據,因此主張將算法證據完全獨立為一種新的法定證據種類。該觀點值得商榷。一方面,雖然我國刑事證據法學對證據種類采取了封閉式列舉的做法,但從縱向維度來看,這是基于我國基本訴訟國情的考慮,從橫向維度來看,在立法層面上證據種類法定化能夠成為其他證據規則設置或調整的邏輯起點,具有一定的合理性和必要性。因此,客觀地說,算法證據“獨立”并不利于刑事證據制度的穩定發展,甚至會給司法裁判活動帶來嚴重阻礙。另一方面,盡管較之傳統書證、物證等證據,算法證據較為特殊,但這種特殊性主要體現在算法證據內在的專業性、技術性原理,而這可以通過專家制度予以應對。對此,在司法裁判中,許多法院已將算法分析的結論看成鑒定意見的證據形式。該觀點也不完全準確。因為算法分析結論并不屬于司法鑒定范圍。當前,我國司法鑒定實行統一管理,僅包括法醫類、物證類、聲像資料、環境損害鑒定等“四大類”鑒定,算法分析結論并不在其列,無法稱之為鑒定意見,也無法全然參照鑒定意見加以審查認定。
從證據運用角度來看,算法證據應屬于專門性問題報告。需要指出的是,針對主張算法證據獨立的學者所提出的“算法證據的生成過程與專門性問題報告之間存在一定差異。比如算法證據由算法生成,而非有專門知識的人所給出的意見”的觀點,算法證據證明作用的發揮一般需經多個環節,包括數據收集與預處理、算法選擇與應用、模型訓練與優化、結果分析與解釋以及證據整合與呈現等。實踐中,算法證據通常是以書面分析報告的形式向辦案人員說明數據來源、提取與算法規則的設計等內容,這一過程需要有專門知識的人參與算法技術的運行,以及利用專門性知識解讀算法分析結論,使最終結果可視化。這也是算法“人機交互”性的重要體現。因此,根據2021 年《最高人民法院關于適用〈中華人民共和國刑事訴訟法〉的解釋》第100 條“允許有專門知識的人就專門性問題出具的報告作為刑事證據使用”的規定,算法證據應屬于專門性問題報告。
(三)機器學習算法證據的類型及其場景化適用
針對算法證據的類型,已有學者以大數據的來源為主要依據,作了基于案內大數據的算法證據與基于案外大數據的算法證據的界定。這種劃分標準有助于在一定程度上對算法證據的適用目的加以反映,但其屬于界分算法證據類型的形式標準,不夠科學合理。應當遵循實質標準,結合算法的應用場景、工作原理和輸出結果明晰算法證據的具體類型,包括預測類算法證據、識別類算法證據、分析類算法證據。采取此種實質標準,第一,有利于明確不同算法證據的證明方式和特點,幫助辦案人員和法律專業人士更好地理解和處理這些證據。第二,有利于厘清相關算法司法治理活動的對象與邊界,建立算法證據的標準化審查處理流程和評價體系,確保算法證據的運用更加公正和合理。第三,有利于證據學、技術和計算機科學等多個領域知識的融合,提高司法透明度,增強算法證據的可信度。
1. 預測類算法證據
預測類算法證據通常指的是利用統計學技術、機器學習算法和復雜的預測模型對大數據進行分析,以預測未來可能發生的事件、行為或結果的證據。在刑事司法系統中,預測類算法證據主要用作犯罪嫌疑人、被告人危險性評估的材料,輔助辦案人員作出是否采取強制措施或采取何種強制措施、是否采取或解除強制醫療等程序性事實的評估和判斷。這些評估通常基于犯罪嫌疑人、被告人的歷史記錄、犯罪類型和其他個人特征等。例如,當前世界范圍內已有超過200 種算法驅動的風險評估工具被用于刑事司法和司法精神病領域,該類算法評估結果在某種意義上即可以歸屬于預測類算法證據。當然,在預測性警務或者初查活動中產生的算法證據材料也有可能會在后續刑事訴訟證明中作為定罪證據加以使用。
2. 識別類算法證據
識別類算法證據是指利用人工智能和機器學習技術對特定數據進行分析、識別和篩選,以確定數據對象的身份或分類的證據。這類證據通常涉及圖像識別、語音識別、文本分析等領域,通過算法對輸入的數據進行處理,從而識別出個體或將數據歸入特定的類別。例如,在刑事偵查領域通過運用面部識別技術比對監控視頻中的人臉與已知身份信息的面部數據來核查個體身份、追捕在逃人員、實時視頻監控與確定受害人身份。
3. 分析類算法證據
分析類算法證據是指利用機器算法對大數據進行深入分析,以揭示數據之間的關系、趨勢或模式,并據此提供對案件事實的解釋或推斷的證據。這類證據通常涉及復雜的數據處理技術,如數據挖掘和統計分析等,旨在從數據中提取有價值的信息,輔助司法決策過程。分析類算法證據在刑事司法中的運用主要體現在:其一,拓展事實認定的范圍。通過分析案件相關的數據集,算法可以幫助辦案人員發現潛在的證據線索,如通過嫌疑人手機通信記錄進行社會網絡關系分析,依據數據的聚類結構來揭示嫌疑人之間以及嫌疑人與其他社會關系人之間的聯系。其二,促進事實認定的準確性。機器學習尤其是深度學習算法可以處理復雜的非結構化數據,并從中提取有用信息。這使得司法機關能夠深入分析案件事實,揭示隱藏在數據背后的規律和聯系。例如,運用深度神經網絡對相關數據特征進行提取,發現犯罪組織的資金轉移規律。其三,輔助量刑事實的認定。利用歷史判例和相關數據,算法可以輔助法官在量刑時考慮各種因素,提供量刑建議,以實現量刑的公平公正。
三、算法證據的判識:適用風險與困境
(一)算法證據的適用風險
1. 證明制度的沖擊:無罪推定與自由心證
無罪推定與自由心證是法治現代化國家的重要刑事司法證明規范和準則。無罪推定在《世界人權宣言》第11(1)條即有規定:任何被控有違法行為、應受處罰的人,在其經公開審判、充分辯護并依法被證實有罪之前,應當視為無罪。自由心證則是探索事實真相的直覺感知模式,指法官通過證據自由評價實現從客觀確信至判決責任倫理的跨越。但“自由”并不意味著“隨意”,法官應對各種證據進行理性的批判性審查,確保其心證建立在對證據的充分審查基礎之上。總的來說,無罪推定是司法開啟法治思維的關鍵抓手,自由心證是司法良性發展的重要推手。算法證據作為智慧科技時代的訴訟產物,必須在無罪推定原則的框架內適用,接受司法人員基于理性的邏輯判斷評價,以保障被追訴人的合法權益。但有國外學者認為,算法的預測性質必然在不久的將來導致有罪推定。從實然性角度來看,算法證據的內在特性與司法的不當運用確易使其成為無罪推定與自由心證的實現阻礙。具體而言,一方面,算法證據生成過程缺乏透明性。算法決策過程的“黑箱”特性可能導致司法人員和公眾無法充分理解算法處理數據的具體過程和邏輯。因此,司法人員難以全然根據自己的專業知識、經驗和邏輯推理能力,自由地評價和判斷算法證據。同時,算法“黑箱”掩藏了算法證據對被追訴人可能的不利偏見,從而在一定程度上削弱了司法對無罪推定原則的尊重和執行。另一方面,對算法證據事實的過分依賴。從本質上來說,算法證據屬于一種基于新類型科技而生成的科學證據,但在技術復雜性之下,證據事實的呈現缺乏了司法人員的親歷性,導致其內在的心證過程難以被充分感知。在當前科學證據審查規范缺乏、實質審查難開展的訴訟狀況下,司法易出現過度依賴算法證據,忽視案件中其他重要證據和人為因素的問題,進而在證據審查不夠充分的情況下對被追訴人做出有罪推斷,違背了無罪推定原則和證據裁判原則。
2. 事實認定的妨害:錯誤性或歧視性
機器學習算法憑借強大的數據處理能力,能夠高效處理大量數據,發現數據中人類難以識別的模式和關聯,從而輔助或替代人類進行事實認定。但機器學習作為一種從數據中學習的方法,不精確性和不確定性是其本質特征。在計算機科學領域,“概率近似正確(PAC)”理論是機器學習算法的基本原理,能夠用于描述機器學習算法在給定數據集上的性能和泛化能力。PAC 原理提供了一個理論框架,用于分析和理解機器學習算法在面對未知數據時的行為,相應地,算法的分析結果或者產生的假設存在“近似正確”與“可能正確”兩種表述。因此,在PAC 原理下,只能希望計算機基于某種學習算法學得的模型所對應的假設盡可能接近目標概念。這與司法人員裁決刑事案件事實要求達到嚴格證明標準的本質相同。與人類對事實的判斷可能受到個人偏見、情緒和認知偏差的影響,進而可能導致事實認定的不一致和不公正相似,算法分析結果也存在歧視甚至錯誤的可能,例如美國法院所使用的COMPAS 自動化決策算法被證實了對黑種人的系統性歧視,即較之于白種人,黑種人被認定為具有更高犯罪風險的錯誤率更大。這主要存在多方面原因,其一,數據質量問題。數據可能包含噪聲、缺失值、不一致性或偏差,這些都會影響算法的分析結果。如果輸入數據或算法訓練數據集不準確或不完整,算法的輸出也很可能失真。其二,算法局限性。每個算法都有其適用的范圍和局限性,如果算法不適用于特定的數據集或問題類型,其分析結果可能不準確。其三,模型過擬合。過擬合往往發生在模型過于復雜的情況下。當算法模型過擬合時,它會試圖通過記憶訓練數據來達到更高的準確率,而非從數據中學習基本的模式和規律,這就意味著模型無法泛化到新的數據集上,進而導致算法在實際應用中的錯誤。其四,參數設置不當。算法的性能很大程度上取決于參數的選擇,如果參數沒有經過適當的調整,或者不公平、不準確的歷史數據沒有被及時地剔除,在機器算法的持續擬合和泛化過程中,這類數據將逐漸轉化為決策參數,并被應用于隨后的分析活動中,那么就可能會導致不理想的算法分析結果。此外,人類活動因素與算法的“黑箱”特性也于其中發揮了重要作用。
3. 權力行使的趨勢:隱化與異化
算法證據的適用所帶來的公權力隱化與異化的問題可以放置在算法證據的生成過程中加以認識和理解。(1)算法證據生成的權力背景。刑事司法中的算法應用呈現出一種顯著的“國家推進主義”色彩,全程由官方主導推進,算法證據生成過程隱含于權力運行之中,嚴重缺乏透明性。例如從偵查取證視角來看,在利用算法技術取證的過程中,公安機關作為算法技術使用者與科技企業作為算法設計者之間本應分離,但為了提高偵查效率,通常雙方會共同在公安機關的辦公區域設立數據實驗室,以便在各種實際場景中構建和優化算法模型。這種合作模式增強了公安機關在技術應用方面的優勢地位,并在一定程度上形成了技術使用的“偵查中心主義”。(2)數據收集與使用。由于機器學習技術可用于將看似無關的信息聯系在一起,因此任何人類行為都可以有效地對其數字表示作出積極或消極的貢獻。算法證據的生成首先依賴于對大量數字數據的收集和存儲。這些數據可能來源于不同的渠道,如社交媒體、傳感器、監控設備、在線交易記錄等,從而可能導致個人隱私的泄露。并且通過利用數據挖掘和比對技術,算法還能夠揭示出那些傳統人力分析方法難以發現的數據關聯性,進而深入挖掘出超越原始數據內容的數據信息,這可能進一步觸及到個人隱私的敏感領域。而對個人數據的收集、使用卻基本不會告知數據權人。(3)算法模型及其分析結果。算法模型可能會因為權力者的偏見、數據集中的不平衡或歷史數據的不完整性而表現出不公正性,這種不公正性可能針對性別、年齡、教育程度、職業情況等,但由于缺乏監督和問責機制,使得算法模型及其基于數據相關性對人類行為的預測、識別和分析結果難以受到質疑和糾正,司法辦案人員對算法分析結果的把關也就演變成了對結果的確認,從而產生了權力濫用和異化的風險。
(二)算法證據適用的實體困境
刑事司法中算法證據的適用存在諸多風險,這與“算法”難以規制和監管直接相關。當前針對算法規制和監管的手段主要分為算法公開、個人數據賦權與反算法歧視三種。國外有關政策制定者和學者也較為推崇將算法的透明度和可解釋性(可等同于算法公開手段)作為關鍵的算法監管準則。不過,在刑事訴訟場域中,通過上述手段實現對算法的規制和監管仍缺乏一定的有效性。
1. 算法透明度和可解釋性
算法透明度和可解釋性是指在進行數據的搜集、處理、分析和應用過程中,算法的運營者需向數據的所有者和使用者等披露和解釋算法的運作機制和計算原理,并提供關于算法應用的目的和可能帶來的結果等重要信息。然而,一方面,由于機器學習算法技術已發展到能夠自我設計和自我演化的階段,因此,即便算法對外公開,也可能已經歷了更新變化;并且“算法透明≠算法可知”,算法的可解釋性同樣面臨著技術挑戰,因為機器學習算法采用的高維度特征優化技術與人類的邏輯推理和語義解釋活動在思維和方法上存在本質差異,這使得用常規的語義表達方式來闡釋算法變得更困難,更遑論訴訟中作為普通公眾的被追訴人對此能夠完全理解。另一方面,算法作為一個整體系統,其設計不僅涉及程序本身的構建,還包括對數據輸入、預期用途和實際應用環境的深思熟慮。這意味著,僅僅披露算法本身并不足以完全消除其濫用的風險,例如,通過有偏差的數據輸入,同樣可以實現對算法的操控。
2. 個人數據賦權
作為算法監管策略,個人數據賦權側重于對算法的基礎資源——數據本身的監管。其旨在通過立法手段,增強個人在數據創新方面的權利,并通過提升個體對于算法數據收集、處理和使用過程的了解和控制能力,從而有效防止算法的不當使用對個人造成的潛在損害或風險。但其實際效果可能并不理想。其一,立法不足。當前,刑事司法領域并未就個人數據權益進行專門性立法,其所存在的一些涉及個人數據權益的法律或規范性文件的規定較為離散,提供的保護程度不夠,難以實現對個人數據的實質性賦權。雖然《數據安全法》和《個人信息保護法》在更廣泛的層面上對網絡環境下的個人數據權益保護進行了規定,但并未明確涉及刑事訴訟過程中的相關保護措施。其二,行權阻礙。一方面,由于受到能力、資質以及成本效益等因素的影響,數據主體未必能夠合理行使數據權。另一方面,面對算法的不透明性,即使數據權主體意識到可能遭受算法濫用的風險,也難以提出有效的辯駁。即便算法對外公開,數據權主體仍可能缺乏必要的專業知識和對算法深入理解的能力,數據的控制權依然主要集中于司法權力者手中。
3. 反算法身份歧視
在刑事訴訟中,反算法歧視意指反算法身份歧視,其主要聚焦于禁止基于算法收集數據主體的個人特征信息,如種族、宗教信仰和性別等,以預防算法在自動化的數據分析或預測過程中,導致個體面臨不公平的對待或遭受惡意的歧視,即便這些數據所反映的身份歧視可能是無意識的。雖然該規制手段具有一定的理論意義,但是實效有限,主要原因在于:(1)關聯數據。以美國威斯康星州訴盧米斯案(Statev.Loomis)中的算法量刑結果歧視問題為例,在盧米斯案中,法官承認COMPAS 算法存在種族歧視問題,導致黑人群體被錯誤地標記為具有較高犯罪風險。盡管COMPAS 算法并未將“種族”直接納入其計算過程中,但它卻通過考慮如犯罪記錄、居住地信息、教育背景和職業經歷等其他信息數據,間接地反映出算法評估對象的種族屬性。因此,對于算法模型而言,即便在初始數據輸入階段完全排除了種族、性別、膚色等身份歧視屬性數據,機器學習算法依然能夠通過其他相關聯的數據,隱蔽地傳達出歧視性意圖,并產生歧視性的結果。(2)目的指向。算法分析目的是算法運行的指向,算法歧視可能附隨于算法分析目的之中,例如出于國家安全和機場安檢效率考慮,全球大部分國際機場均實施了選擇性安檢措施,即在標準安檢程序以外,針對特定群體執行更為嚴格而復雜的檢查,以篩查出恐怖分子等潛在犯罪人員。(3)歷史歧視。歷史歧視是個人無意識的社會認知,即便刪除算法中可能導致歧視性的數據變量,事實認定者仍可能依據算法證據信息對部分群體施以不公平的對待,而且這種歧視現象可能比使用算法進行決策或輔助決策的情況更為廣泛。
(三)算法證據適用的程序困境
從算法證據適用的實體困境來看,算法規制和監管實效不彰的原因在一定程度上存在于司法權力者或者算法設計者、使用者的主體主觀層面,而非純粹的算法適用不能。因此,面對算法證據適用的實體困境,不能采取放任或默許的態度,而應在法律維度設計具有應用限制和技術引導作用的正當化程序,減少主觀意識及其它局限對算法證據結果正義的影響。當前算法證據的收集與審查運用程序尚處于規則真空狀態,難以切實地保障算法證據適用的合理性、可靠性。具體體現在以下三個方面。
1. 數據選擇與算法設計監督程序
在實踐中,算法需要通過分析大量數據來確定“特定輸入與特定輸出之間的關系”,實現算法分析任務,完成從設計成型到解決具體問題的轉變。這一過程可稱之為算法證據收集的前置程序。在此前置程序中,應當保證算法設計所需的訓練、驗證和測試數據集具備相關性和代表性,以更切實地實現算法運用的預期目的。但由于當前算法技術使用的“偵查中心主義”,算法證據收集的前置程序缺乏外部監督,呈現出封閉性的特征,進而增加了審查數據集選擇、存儲、傳輸和處理過程是否符合《數據安全法》等相關法律法規要求的難度,降低了算法的透明度。當然,國家公共利益或偵查秘密原則或許能夠成為算法證據收集前置程序封閉的理由,但算法的技術性、復雜性以及算法證據適用的實際風險,決定了其與傳統證據的收集存在著實質差異。因此,在數字時代背景下,更應當關注的是偵查程序的轉型與價值革新,而非絕對的偵查秘密原則。
2. 結果告知與解釋程序
司法程序的核心是公正和透明,而公正和透明的關鍵在于司法人員對程序結果的告知和解釋,這是被追訴人知情權的應有之義。算法證據作為技術與法律結合的產物,其專業性是被追訴人所難以理解的,強調對算法證據事實的解釋與說明,有利于被追訴人權利保障的充分性和有效性,否則,被追訴人將因此陷入知情難、辯護難的境地。此外,算法證據的特殊性決定了被追訴人應及時知悉并獲取算法證據事實信息,以消解算法技術適用所帶來的權利侵害。但同時算法證據結果的告知與解釋也可能帶來一定的訴訟妨害,因此為兼顧案件辦理的順利性,在特殊情況下,可對被追訴人算法證據知情權予以適當限制,但在條件允許時,應當及時告知與解釋算法證據事實。總體而言,針對算法證據事實的告知與解釋問題,目前尚存在理論架構與司法實現之間的程序鴻溝。(1)算法證據結果的告知程序。根據《刑事訴訟法》第148 條的規定,偵查機關應當將用作證據的鑒定意見告知犯罪嫌疑人、被害人。算法證據作為專門性問題報告,而非鑒定意見,是否可以適用前述規定并不明確。即便可以參照適用該條規定,由于規定過于寬泛化,如告知的時間、方式等并無說明,且缺乏對證據結果進行輔助解釋的要求,因此難以達到被追訴人知情權的預期權利效果。(2)程序性算法證據結果的告知與解釋程序。立法層面缺乏對程序性算法證據結果告知與解釋的有效程序設計。雖然我國近年來已逐步試點使用算法評估系統量化評估逮捕社會危險性,但對于算法證據結果的說理性不夠,評估程序較為形式化。(3)實體性算法證據結果的告知與解釋程序。被追訴人實現其算法證據知情權似乎還可以《刑事訴訟法》第40 條有關閱卷權的規定為依據,但仍存在如下程序障礙:其一,知情權主體。《刑事訴訟法》第40 條僅規定了辯護人的閱卷權,被追訴人能否查閱包括算法證據在內的案卷材料尚處于法律爭議狀態。其二,知情時間。《刑事訴訟法》第40 條僅將閱卷的起始時間限定為案件審查起訴之日,這不僅與算法證據產生時間的多元性(如人臉識別算法證據產生于偵查環節、量刑算法證據則可能產生于審判環節)相沖突,也可能違背了算法證據知情的及時性要求。雖然《刑事訴訟法》第38 條規定了辯護律師在偵查期間可以向偵查機關了解犯罪嫌疑人涉嫌的罪名和案件有關情況,提出意見,但根據《公安機關辦理刑事案件程序規定》第50 條的規定,“案件有關情況”應當包括當時已查明的該罪的主要事實,犯罪嫌疑人被采取、變更、解除強制措施以及延長偵查羈押期限等情況,而在案證據包括算法證據并不屬于“案件有關情況”,不在證據開示范圍內。其三,知情方式。一方面,從一定意義上來說,閱卷僅為辯方對證據事實信息的被動知曉,這與司法辦案人員對算法證據事實的主動告知要求存在質的區別;另一方面,閱卷權內容并未直接體現出司法辦案機關對證據事實的解釋或加重解釋義務,這與算法證據的說理解釋性適用不相適配。當然,根據司法解釋的規定,偵查人員、技術人員或專家證人可以出庭參與訴訟,對算法證據的生成與適用作出闡釋和說明,但這可能變相違背了被追訴人算法證據知情權的及時性要求,也不利于將被追訴人置于辯解與辯護的優勢地位,實現控辯平等對抗。
3. 異議或質證程序
對于算法證據結果,被追訴人有權提出異議,并要求相關人員對可能存在的問題進行解釋和澄清,異議內容包括但不限于數據收集的過程、數據處理的方法、分析所用的算法以及算法證據的可靠性。推動落實算法證據異議權是維護司法公正和保障被追訴人合法權益的必然要求,有利于促進算法技術應用的科學性和嚴謹性,確保算法分析結果的公正性和合理性。當前對算法證據提出異議或質證的程序性規則缺位問題較為突出,尤其是對于部分程序性算法證據事實而言,由于缺乏兩造平等對抗的程序性構造,嚴格的質證活動難以開展,增加了算法證據事實不確定性的可能。不過,即便對算法證據開展質證程序,仍可能存在程序實質性不夠的問題。原因在于,一方面,質證程序的強職權主義色彩。雖然我國正在積極探索引入對抗式庭審模式的合理做法作為司法改革的重要方向,但由于長期受到職權主義訴訟模式的影響,加之諸如證人出庭作證和證據展示等相關制度尚未完備,當前質證程序仍具有明顯的職權主義色彩。司法人員在質證過程中發揮著絕對的主導作用,決定著質證程序的啟動、進行及終結。另一方面,算法證據的形式性審查。作為專門性問題報告的算法證據,對其審查與運用主要參照鑒定意見進行。在司法質證實踐中,控辯雙方很少會對鑒定意見背后的科學原理提出質疑,司法人員針對鑒定意見的審查也主要是一種對外在表象的審查,即主要根據鑒定人員資格、鑒定意見形式、專門性知識在專業內的接受程度等這些外在形式,推測專門性意見的可靠程度,而基本上不對鑒定意見進行實質審查。
四、算法證據的重述:適用理念與規則
(一)算法證據適用的理念先行
1. 事實認定的輔助性
機器算法能夠依據外部環境的反饋進行自我動態調整,使得其結果輸出帶有一定的不確定性。這種不確定性決定了算法證據在事實認定過程中的輔助性地位。“輔助性”包含三層含義:其一,尊重人的主體性。維護人類在司法決策中的主體角色,確保算法證據對事實的認定僅為輔助而非主導作用,以防止可能隱藏在算法證據中的“認知偏見”等不公正因素對事實認定產生負面效應。例如在網絡犯意證明中,算法證據對主觀方面的證明應當是初步的、參考性的,其重要作用在于證據指引或事實驗證。至于算法證據的證據能力和證明力的實質性評估問題,則需由司法人員依據法律規定、經驗法則等價值標準進行綜合判斷。其二,算法證據不宜單獨作為事實認定的依據。一方面,當算法證據為間接證據或僅能夠證明中間事實時,其需要結合其他證據或其他幾組證據對事實加以認定;另一方面,如果強調算法證據對待證事實的單獨直接證明作用,則可能導致司法人員對算法證據的過度依賴,進而會忽視其他類型的證據和傳統的事實調查方法,并最終影響對案件事實的全面性和多角度的考量。其三,算法證據事實的可推翻性。算法證據事實僅具有參考性,可以被司法人員在給出適當理由后予以推翻。當前,已有部分地區如上海、貴州在刑事司法中探索使用集多項技術于一體的人工智能輔助系統。以上海“刑事案件智能輔助辦案系統”(又稱“206 工程”)為例,該系統有別于依賴知識庫的傳統專家系統,其通過機器學習算法,在龐大的數據集輔助下進行持續的學習與訓練,以此實現功能的持續迭代和優化,發揮著社會危險性評估、量刑輔助等功能。未來在算法證據適用過程中,應當進一步規范算法證據的適用場域,重申其對事實認定的輔助性作用。
2. 技術性正當程序
證據的收集與適用應當遵循正當程序原則。算法證據的適用能夠極大地提高事實認定的效率,但其同時給司法公正性帶來了沖擊。就我國司法制度發展的基本方向來看,首先應當強調建立一套公正司法的程序機制,然后才能在司法公正的前提下追求訴訟效率。在當前數字技術高速發展的態勢下,公正司法的程序機制構建還應當結合時代特色尋求新發展。可以考慮將融合技術適用特點作為構建公正司法程序機制的重要著力點。對此,美國學者丹尼爾·西特倫(Danielle Citron)提出了“技術性正當程序”理念,具體包括,其一,確保結果告知的實質性。算法系統應當具備審計跟蹤(audit trails)的功能,記錄支持其決策的事實和規則,以提高算法運行的透明度,確保算法運行結果告知的實質性。其二,聽證。一方面,調整Mathews 標準。Mathews v. Eldridge 案中的成本效益分析方法被用于判斷被追訴人在生命、自由或財產受到威脅時應否享有正當程序聽證權。傳統的Mathews 測試標準主要考慮了三個因素:個人利益的價值、額外或替代程序的可能收益,以及政府為此付出的成本,包括額外保障措施的成本。然而,在技術深度嵌入司法的背景下,應以更現實的方式如比較錯誤糾正措施的固定成本與未來收益、算法系統的特性、專家證言的價值等,判斷是否對在算法自動化決策中發現的錯誤進行聽證。另一方面,聽證官員應詳細說明算法系統決策的理由。其三,制定透明度和問責性規則,包括公開算法系統的源代碼、測試系統軟件以及允許公眾參與算法系統的構建。“技術性正當程序”理念可為我國刑事司法中算法證據適用的程序機制構建提供一定的方向指導和方法借鑒。不過從根本意義上來說,在技術與司法的交融中,只有將人的主體性以及對人性尊嚴的尊重置于司法程序開展的底層邏輯之中,正當程序理念才能在算法技術及其結果的適用中得以落實。
3. 比例原則
刑事算法證據的合理適用,以算法技術的有效規制為前提。算法技術的適用風險在刑事偵查包括預測性偵查中較為突出。應當在偵查活動中落實比例原則,這是貫徹偵查理性的重要標志。比例原則包含適合性原則、必要性原則與相稱性原則。其中,相稱性原則是對“目的—手段”實質權衡最為直接的方法。作為偵查手段,算法技術的適用也應符合比例原則的要求。其一,算法技術適用前,應當根據比例原則對算法取證措施進行嚴格審查,判斷司法辦案人員是否存在違反適當性和必要性的要求,確保手段的負面影響不會超過預期的偵查效果。其二,算法技術適用時,比例原則強調在追求公共利益的同時,應盡量減少對個人權利的侵犯,確保個人權利得到應有的尊重和保護。為此,一方面需要加強個人數據的刑事立法保護,另一方面還應以權利受侵損最小化、危害最低為指向,在偵查的必要范圍內選擇適當的算法技術實現偵查目的。其三,算法技術適用后,應及時停止算法技術對權利不必要的持續干預。如果算法技術的適用對公民權利造成了過度的限制或侵害,應當提供相應的法律救濟途徑,如申訴、賠償等。
(二)算法證據可靠性要素界定
算法通過其“數據輸入—算法運作—結論輸出”的技術操作流程,似乎獨立于現行法律規范的范疇。但算法證據仍需符合證據“三性”才可能在刑事司法中得以適用。其中,合法性主要關注“輸入數據”的收集程序是否合法合規,關聯性主要關注算法證據事實與系爭事實是否存在一定的相關關系,可靠性則主要關注算法程序的可靠性和準確性。合法性對證據證明力的影響較為有限,且算法證據合法性問題尚無明文規定,因此在算法證據研究中,對合法性不作特別展開。而算法證據是否具有關聯性,當前并無明確的判斷方法。在司法證明中,證據關聯性的標準要求每一個具體的證據都必須對證明案件事實具有實質性意義。從算法證據內部視角來看,似乎無法完全保障算法分析的大數據的每個“項”均與待證事實相關,不過在整體主義證明模式下,算法證據與待證事實至少存在弱相關性。因此,只要算法運用符合司法證明要求,其分析結果能夠證明待證事實即可。算法程序的可靠性是決定算法證據可靠性的核心因素。因此,算法證據可靠性可依據證據生成流程從數據可靠性、算法可靠性兩個層面予以明確。在這一認識維度下,對算法證據的相關性與可靠性的判斷也呈現出某種程度的趨同性。
1. 數據可靠性
數據可靠性主要指的是算法“訓練數據集”可靠性和“輸入數據”可靠性。“輸入數據”是指作為算法分析對象的基礎大數據,其是否具有可靠性主要取決于收集、對比過程中是否存在篡改、偽造以及較大誤差等情況,大數據與全數據之間的偏差是否在合理區間,數據載體是否足以確保數據的完整、準確。“訓練數據集”則是指與機器學習算法適用目的相關的,能夠用于訓練機器學習模型的數據集合。在機器學習的過程中,算法通過從訓練數據集中學習模式和關系,從而構建出一個能夠對新的數據進行預測或決策的模型。訓練數據集通常由大量的樣本組成,每個樣本都包含輸入特征和對應的標簽或結果。輸入特征是模型用來進行預測的數據,而標簽是模型需要預測的目標。例如,在圖像識別任務中,輸入特征可能是圖像的像素值,而標簽則是圖像所代表的對象類別。保障機器學習有效性和算法證據可靠性的重點在于確保“訓練數據集”的可靠性。“訓練數據集”可靠性包括以下多方面要素:其一,數據多樣性和代表性。為了算法能夠學習到數據的多種可能性和變化,應盡可能保證訓練數據集包含多種樣本。多樣性有助于提高算法的泛化能力,防止其對特定類型的數據過度擬合。同時,數據集應具有對實際問題的代表性,以代表算法可能遇到的不同場景。數據代表性意在突出算法結果與司法判決的適配性。其二,數據準確性、完整性和一致性。數據準確性、完整性和一致性是對訓練數據集質量的基礎保障。在數據采集階段,由于“訓練數據集”的電子數據形式決定了其存在內容易破壞性和易篡改性的特性,因此,對于“訓練數據集”的采集應當注重提取、保管的合法合規,不存在數據缺失和篡改情況等;在數據預處理階段,主要是對數據進行清洗和標注。數據清洗的目的是發現并糾正數據中可能存在的錯誤,如處理缺失值、數據去重、異常值處理以及對敏感信息進行脫敏處理。數據標注是指對數據進行歸類、整理、糾錯、轉錄、翻譯和添加標簽等操作,以生成滿足機器學習訓練要求的數據編碼,確保數據質量和提高機器學習算法能力。其三,數據數量充分性。理論上,“訓練數據集”應足夠大,以便模型能夠從中學習到足夠的信息。然而,也需要避免數據集過大導致訓練效率低下或者過擬合的問題,合理的數據量規劃應根據實際需求和資源限制進行。
2. 算法可靠性
其一,算法選擇的適當性。機器學習算法模型通常可以分為三類:監督學習、無監督學習、強化學習。監督學習是從有標記的訓練數據中學習一個模型,然后根據這個模型對未知樣本進行預測。常見的監督學習算法包括回歸分析和統計分類。無監督學習又稱為非監督式學習,它的輸入樣本并不需要標記,而是自動從樣本中學習特征實現預測。常見的無監督學習算法有聚類和關聯分析等。強化學習是通過觀察來學習做成什么樣的動作。每個動作都會對環境有所影響,學習對象根據觀察到的周圍環境的反饋來做出判斷。強化學習強調如何基于環境而行動,以取得最大化的預期利益。在刑事司法中8hW5J5aeaoYoiYDEbYiR/Q4tEu1FlL4G/VlL5KhcO3g=,監督學習可用于行為預測、案件分類、量刑建議等多種場景,無監督學習主要用以解決涉案數據聚類問題,強化學習則側重于解決偵查決策問題。為保障算法可靠性,在處理特定司法問題時,應根據適用目的、環境等選擇適當的算法。例如,在網絡販毒案件中,偵查人員為明確涉毒嫌疑人的社會關系網絡,偵查毒品犯罪鏈條,可以通過無監督學習算法對犯罪嫌疑人社交設備中的通聯記錄進行分析,以數據的聚類結構來追溯上下游犯罪或者篩選犯罪嫌疑人的密切聯絡人。其二,算法模型復雜度與簡潔性的平衡。算法模型的復雜度決定了其擬合數據的能力。過于復雜的模型可能會導致過擬合,而過于簡單的模型則可能會導致欠擬合。選擇適當的算法模型復雜度,以及使用正則化等技術來避免過擬合,是提高算法可靠性的關鍵之一。其三,穩定性。穩定性是算法對數據變化敏感性的評估,算法的穩定性與可靠性成正相關關系。對此,可以通過在不同數據集上訓練模型,并比較其性能的變化來評估穩定性。其四,可解釋性。可解釋性包括兩方面內容,其一,算法可解釋性。算法分析結果需要能夠被當事人和社會公眾理解,因此選擇的算法應當具備一定的可解釋性,使得其分析過程和結果相對透明,從而提高其可靠性。其二,參數可解釋性。在工程技術領域,參數通常被認為具有較高的技術客觀性。但當機器算法實現基礎智能,并且數據的合法性和可信度得到保障時,參數的設置往往會更多地反映算法使用者的主觀意圖,顯示出較強的主觀性。在這種情況下,參數的設定或選擇更容易與諸如偏見等不公正行為產生聯系。因此,參數可解釋性要求有助于遠離技術黑盒,強化算法設計的監管力度。
總之,明確數據可靠性和算法可靠性各要素:其一,有利于更好地發揮實踐中機器學習算法模型的司法適用性。其二,有利于提高在數據選擇和算法設計過程中的外部程序監督實效,增強算法透明度和可解釋性。其三,有利于輔助司法辦案人員明晰算法證據可靠性的審查要點。不過,對于數據可靠性和算法可靠性各要素的判斷與認定仍然需要強調相關技術專家的參與,算法分析結論是否可靠也需要通過專家加以檢驗和判斷,只有確認算法分析結論可靠,算法證據才相對具有可靠性。因此,需要確保這一過程中專家的專業資質和中立地位。
(三)算法證據適用的程序規制
1. 算法證據取證:算法影響評估
在狹義層面上,算法證據取證實為算法證據生成。由于數據選擇與算法設計缺乏外部監督,因此算法證據生成過程較為隱蔽。為充分保障算法證據可靠性,應針對算法證據生成過程,構建促進司法算法透明、實現公正的算法影響評估程序機制。“算法影響評估”是指依據系統制定的衡量標準對自動化決策系統的應用流程、數據使用和系統設計等內容進行系統評判,以明確該系統的影響水平和風險等級的一種算法治理實踐。當前,在美國、加拿大、歐盟等國家和地區,“算法影響評估”已被納入其人工智能監管和問責的法律框架中。我國2023 年《信息安全技術機器學習算法安全評估規范》對此也作了相關規定。在刑事算法證據取證程序中,構建算法影響評估程序應從算法研發與設計、算法運行、算法運行結果三個方面展開。第一,算法研發與設計。雖然機器學習算法可以自我迭代和自編碼,進而“自主自為”地形成偏見和規則,但從根本意義上來說,這僅是放大人類在初始階段植入的偏見和規則。因此應當在算法技術適用之初,通過確保相關技術人員在數據選擇和代碼編寫方面的目的正當,以保障算法取證手段及其結果的公正合理。作為刑事司法算法的實際使用者,司法辦案機關應是算法影響評估的主體。對此可由省級公檢法機關統籌協作,組織內部專業部門和技術公司、科研院所、審計機構、社會公眾等第三方中立機構和人員,結合數據可靠性與算法可靠性等要素對算法進行研發與設計,以及圍繞算法的合法合理、尊重隱私、安全可信進行全面的評估和測試。第二,算法運行。為盡可能保證機器算法運行的穩定性和相對可視性,并確保結果告知的實質性,可在前述“技術性正當程序”理念下開展“審計跟蹤”工作,即能夠追蹤到算法分析結果相應的事實依據和法律的審計記錄。第三,算法運行結果。一方面,算法影響評估是一個持續的過程,需要對算法進行動態監測和測試,以應對數據變化、算法更新和新的應用場景。根據算法運行結果,不斷調整和優化算法,以減少其負面影響。另一方面,司法人員應當通過第三方專業機構、人員對算法運行結果進行證據化審核和評估,保證算法運行結果作為證據使用的客觀可靠性。
2. 算法證據開示:告知- 知情- 異議
第一,告知。在審前程序中,司法辦案機關應在依據算法證據對被追訴人采取限制人身自由的相關措施前的三日內,或者在庭前程序中,控方在審判人員組織下,在不涉及國家秘密、商業秘密、案件秘密等內容的基礎上,向被追訴人、辯護人告知并解釋說明算法生成記錄,包括公開算法系統的源代碼,以及算法證據類型與結果。第二,知情。為避免被追訴人知而不明,首先,可以通過電子化閱卷的形式,賦予被追訴人查閱算法證據報告的權利;其次,允許被追訴人、辯護人在合理范圍內,要求司法辦案人員提供并釋明與算法證據相關的記錄內容;最后,應當賦予被追訴人、辯護人申請相關領域技術人員或者具有專門知識人幫助的權利,以輔助其認識和理解算法證據中的事實和權利問題。第三,異議。由于算法事實認定存在一定風險,既容易造成個人數據權益的侵害,也難以保證算法證據結果的精確無誤,因此,如果被追訴人、辯護人認為算法證據結果錯誤,或者因此而遭受不利后果,有權提出異議。
3. 算法證據質證:專家輔助人參與及全面質證
針對存在異議、嚴重影響被追訴人合法權益的ad1346a52044aa84f5a9575dd82cc1f1c9d883eabd0e398e287202e117f2878a算法證據事實,應在訴訟化聽證程序或庭審程序中允許控辯雙方對算法證據進行質辯。從提升質證效果來看,辯方應充分行使知情權和異議權,利用專家輔助人制度,對算法證據的取得、保管、分析與使用的全流程展開質詢。對證明力較弱、可靠性存疑的算法證據,可申請重新檢驗鑒定,必要時可主動收集對辯護有利的算法證據。從質證內容來看,第一,相關性。一般而言,證據內容與待證事實之間的聯系越緊密,證據的證明力就越大,若算法證據內容對待證事實的認定明顯無實質證明效用,則算法證據不具有相關性。第二,可靠性。對算法證據可靠性的質證,可圍繞算法證據可靠性各要素展開。如針對算法模型是否排除歧視、訓練數據是否確保純凈、參數權重是否設計公正等問題提出異議。第三,相關專家的專業資質和中立地位。如控方技術專家與案件處理結果存在利益關系,其對算法證據解釋的可信度便存在問題。為保證專家輔助人參與質證的實質性,一方面,應為專家輔助人提供必要的質證條件,如提供對數據和算法進行檢驗性分析的合理時間;另一方面,賦予專家輔助人意見證據效力,提高質證意見的訴訟影響力和可審查性。
4. 算法證據認證:排除合理懷疑
判斷算法證據有無證據能力以及證明力的大小,需要司法裁判人員在充分聽取控辯雙方質證意見,并結合自身經驗的基礎上做出判斷。但算法證據要成為事實認定的依據,必須達到排除合理懷疑的標準。有觀點認為在我國刑事訴訟中,排除合理懷疑是對總體證據適用的要求,屬于概括性證據標準,但如果算法證據本身存在無法排除的合理懷疑,這可能會影響整體證據鏈的可靠性,從而帶來證明上的風險。因此,應當采取排除合理懷疑的標準對算法證據加以認定。同時,由于“合理”源于主觀認知對客觀現實的反映,為防止司法裁判人員對排除合理懷疑標準適用的主觀恣意,一方面,可以進一步完善專家咨詢制度,建立健全司法專家數據庫,要求技術咨詢專家或司法技術人員對算法證據審查認定的司法幫助,以彌補司法裁判人員自身對相關算法科學知識的空缺;另一方面,應當建立司法裁判人員對算法證據審查認定結果的說理制度和對辯護意見的回應機制,以實現排除合理懷疑標準適用的相對客觀化,確保裁判的公信力。