法律人工智能的推理建模路徑

2020-03-08 02:29:41熊明輝

求是學刊 2020年6期

熊明輝

摘要：法律人工智能的核心問題是自動法律推理建模。文獻表明，推理建模有兩種經典路徑：一是規則推理建模路徑;二是案例推理建模路徑。雖然二者分別源自歐洲大陸法傳統和美國判例法傳統，但事實上無論是在大陸法系還是在判例法系，規則推理建模都是最根本的路徑，案例推理路徑是作為規則推理建模的補充路徑出現的。法律推理建模以自然語言處理為前提，這一人工智能難題決定了法律推理建模的天然難度。大數據驅動催生了法律推理建模的第三種路徑——大數據推理建模路徑，而且這種路徑可以用來彌補前兩種路徑的不足。雖然這種路徑仍處于探索階段，但已有了一些落地法律應用軟件，如我國的智慧法院工程，以及美國的法律應用軟件Lex Machina和Ravel等。

DOI編碼：10.19667/j.cnki.cn23-1070/c.2020.06.010

一、何謂法律人工智能

“法律人工智能”是法律信息學的主要研究對象。作為一個術語，它源自英文術語“Artificial Intel-ligence and Law”，其直譯應當是“人工智能與法”，屬于人工智能與法學的一個交叉研究領域，探討的是人工智能在法律中的應用，因此，我們在此將其譯為“法律人工智能”。2019年，維基百科全書英文版將原來的“法律人工智能”（Artificial Intelligence and Law）詞條正式更名為“法律信息學”（Legal Informat-ics）。這意味著，法律人工智能不再是一個學科名稱，而將作為法律信息學的研究對象而存在，就學科而言，法律人工智能研究被歸入法律信息學范疇。所謂法律信息學，根據艾德里茲和奧黑爾的觀點，是指信息科學在法律語境中的應用，其中涉及與法律有關的組織機構，如律師事務所、法院和法學院，以及這些組織內部的信息與信息技術用戶。

法律人工智能首先是人工智能的一個子領域。根據里士蘭、阿什利和路易2003年在《人工智能》雜志上發表的《法律人工智能：一個富有成效的協同創新》一文中所持觀點，“法律人工智能”是人工智能研究的一個經典領域，提出了一系列很有趣的人工智能難題，探討的是人工智能在法律中的應用。根據通常的看法，如果從1987年美國東北大學召開第一屆法律人工智能國際會議、法律人工智能學術共同體正式形成開始算起，那么法律人工智能有三十多年的歷史。但法律人工智能的核心問題是法律推理的邏輯表示問題，如果從關注“自動法律推理”這一議題開始算起的話，那么至少可以追溯到六十余年之前，在英國國家物理實驗室1958年舉辦的“思維過程機械化論壇”上，梅爾發表了《法律世界的自動化：從法律信息機器處理到法律機器》一文，在這篇具有里程碑意義的文章中，梅爾提出了要用邏輯進行法律信息檢索與推理。

然而，如果僅從自動法律推理實現方案來講，1970年美國匹茲堡大學計算機科學系教授布坎南（Bruce G.Buchanan）與美國巴法羅大學法學院教授海德里克（Thomas E.Headrick）在《斯坦福法律評論》上發表的《關于法律人工智能與法律推理的幾點思考》則被視為首個真正的法律人工智能提案，因為他們第一次正式把“人工智能”與“法律推理”關聯起來思考問題。正因如此，有學者在談及法律人工智能的歷史時往往從1970年布坎南和海德里克公開發表的那篇論文開始。如張保生認為：“1970年布坎南和海德里克發表了《關于人工智能和法律推理若干思考》一文，揭開了對法律推理進行人工智能研究的序幕。”

不過，要想真正把握法律人工智能的核心，首先必須弄清其上位概念“人工智能”的核心問題所在。人工智能的核心問題是用計算機實現自動推理。1950年圖靈（Alan M.Turing，1912—1954）提出了“機器會思維嗎”這一著名的哲學問題。在他看來，要回答“機器是否會思維”很難，但我們可以用另一個密切相關的問題來代替這個問題，為此，他設計了一個稱之為“模仿游戲”（the Imitation Game）的思想實驗。“模仿游戲”是一個三人游戲，由一位男性（A）、一位女性（B）和一位或男或女的詢問者（C）組成。詢問者待在與A和B不同的房間，其目標是要確定他們兩個人的性別。詢問者通過標記X（女）和Y（男）來識別他們，在游戲的最后，他將判斷“X是A，Y是B”或者“X是B，Y是A”。在游戲中，詢問者可以向A和B提問，如“請告訴我你的頭發有多長”。在游戲中，A的目標是要讓C的識別出錯，故他的回答可能是：“我的頭發是帶狀的，最長的一束有九英寸。”為了使詢問者不受語音音調等因素的影響，答案應該手寫，最好是打字。理想的安排是讓電傳打印機。當然，也可以由中間人復述問答方式進行。B的游戲目標是給詢問者提供幫助。對她來說，最好的策略可能是給出真實的答案，比如，“我是女人，不要相信他的話”，但她的回答可能無濟于事，因為A也可以這樣回答。現在我們思考一個問題：“在游戲中，如果我們用機器代替A時會怎樣？”在同樣的游戲中，詢問者會像與人類游戲過程中一樣經常做出錯誤的判斷嗎？這些問題取代了“機器會思考嗎”這一原來的問題。通俗的說就是，當一個人與某個智能體進行交流時，竟然可能無法識別他是否只是一臺機器。

這種測試機器是否會思維的方法如今被稱為“圖靈測試”（the Turing Test），通常被認為是人工智能的第一個哲學方案。但在岡德森（Keith Gunderson）看來，其實笛卡兒早在1668年就提出了類似圖靈測試的想法。在笛卡兒看來，即便存在與我們身體相似的機器，并且為了所有實踐目的盡可能地模仿我們的行為，我們仍然應該有兩種非常確定的方式識別出它們：首先，它們無法像我們一樣為了向他人傳達自己的想法而使用語詞與符號。我們肯定能夠設想一臺機器能夠發出的聲音，甚至發出與引起人體器官變化的身體動作相對應的聲音……但我們無法想象這種機器哪怕像最愚蠢的人那樣，能夠產生不同的語詞排列方式，對在場的講話給出適當的、有意義的答案。其次，即使某些機器可能會像我們一樣完成某些事情，甚至做得更好，但它們不可避免地在其他機器上卻會做不到，這表明它們的行為不是出于理解，而僅僅是出于其裝置的處置。盡管理性是一種可用于各種情況的通用工具，但理性需要人體器官采取某些特殊行動。因此，機器實際上不可能擁有足夠多的不同類似人體器官的裝置，保證其能夠以人類理性行事的方式在各種生活偶然事件中行事。笛卡兒對機器是否會思維顯然秉持否定態度，而且圖靈也只是提出一種檢驗機器是否會思維的方法，并沒有給出明確答案。當然，這也意味著，圖靈對機器是否會思維并沒有持否定態度。

假如圖靈的“機器會思維嗎”問題成立，那么人工智能的核心事實上可歸結為“機器會推理嗎”這一問題。根據弗雷格的定義，邏輯學是關于思維和推理的科學。根據傳統邏輯學家的共識，思維形式通常包括概念、判斷和推理三類，或者說，詞項、命題和推理三類。在邏輯學家看來，推理才是思維形式的核心概念，從弗雷格的邏輯學定義也可以明確看到這一點。于是，“機器是否會思維問題”就轉變成了“機器是否會自動推理問題”。可見，自動推理的實現問題便是人工智能的核心問題。相應地，法律人工智能的核心問題就是自動法律推理的實現問題。從法律人工智能發展史來看，法律人工智能領域中自動法律推理建模有兩種經典路徑：一是規則推理路徑;二是案例推理路徑。然而，大數據時代的到來卻催生了第三種推理建模路徑，即大數據推理建模路徑。不過，這一路徑目前尚處于形成之中。

二、規則推理建模路徑

在法律人工智能中，規則推理建模的本質上就是將法條表達為機器可理解的法律知識庫，供自動法律推理引擎隨時調用。毫無疑問，對于成文法系來講，這應當是一種主流建模路徑。《法律人工智能雜志》主編阿什利（Kevin Ashley）認為，法律首先是一個規則領域，許多法律規則體現在法律與法規中。既然規則可以從邏輯上進行表達，而計算機可以執行演繹推理，那么，從計算上建模成文法推理應該很容易。只需向計算機程序輸入一個事實情節，程序就會識別相關規則，判定規則的條件是否得以滿足，并根據規則提供解釋或給出答案。然而，建構法律成文法律推理的計算模型卻遇到了嚴峻的挑戰，因為通常情況下成文法是模糊的，在語義和語法上是含混的，受制于結構上的不確定性。假如某個計算機程序要應用一個法條，那么它應該應用哪種邏輯解釋，如何處理法律術語的含糊性和模糊性，或者如何判定是否有例外呢？這些都是規則推理必然要面臨的挑戰。

盡管如此，法律人工智能研究首先還是從規則推理進路開始的。該進路有兩項早期貢獻：一是1981年蘭德公司民事司法中心沃特曼（Donald Waterman）和彼得森（Mark Peterson）建立的一個專家系統，用于解決侵權法中產品責任案件的法律裁定，該系統是規則推理建模路徑的第一個嘗試。二是1986年倫敦帝國理工學院的塞科特等人用邏輯編程來建模《英國國籍法》的某些部分，建立了一個龐大的獨立法條體系。此外，在該進路中，特別值得關注的是，1984年斯坦福大學計算機學院加德納的博士論文。這是法律人工智能領域的第一篇博士論文，加德納系統地給出了規則推理建模路徑，其關注的問題是“當規則運行”時會發生什么，也就是，當規則前件使用了一個未用其他規則定義的謂詞時，特別是涉及語詞專業含義與常識含義之間關系的法律概念與問題所固有的開放結構時，會發生什么。《法律人工智能》（Artificial Intelligence and Law）雜志創辦者伯曼（Donald Berman，1935—1997）在1985—1989年期間關注的焦點就是規則推理建模路徑。他提出了一個分類路徑，并解釋了為什么需要每種系統及其之間的區別，這些系統包括預測系統、規范系統等。

規則推理（rule-based reasoning），直譯應為“基于規則的推理”，是法律推理的最重要類型。在規則推理中，我們會接受某條規則并將其應用于一組法律事實，而且這種推理通常被認為是演繹的，也就是說，只要所有前提均真，就必然推導出其結論也為真。其中，規則可是法條，也可以是既有案例。在紐曼看來，每條規則都可能包含四個要件：（1）一組被統稱為“檢測”的要素;（2）所有要素都出現并滿足了檢測時的結果;（3）一個用來判定結果是屬于強制性的、禁止性的、任意性的還是陳述性的因果術語;（4）一個或一個以上的例外，也即即便所有要素均得以滿足，結論仍然會被擊敗。其中，前三個要件相互獨立，且對于每條規則來講都是必不可少的，而只有部分規則會涉及第四個要件。例如，如果被告的行為是蠻橫、故意的而且導致了原告嚴重的精神痛苦，即成立故意精神損害。如果本案事實滿足了規則的所有要素，那么該規則得以滿足。比如，某男給前女友深夜打了好幾次電話騷擾她（即蠻橫的故意行為），而且這導致她遭受了嚴重情感傷害，那么就成立故意情感傷害了。

規則即作出裁定的公式。法律人工智能建模的首要工作就是法律知識表示，即將法條和案例知識表示為可計算的法律知識庫，為自動法律推理提供基礎法律知識庫。紐曼區分了四種類型的規則：（1）強制性規則，亦稱“義務性規則”，主要涉及“應當”型或“必須”型法條，如“犯罪嫌疑人、被告人因經濟困難或者其他原因沒有委托辯護人的，本人及其近親屬可以向法律援助機構提出申請。對符合法律援助條件的，法律援助機構應當指派律師為其提供辯護”。（2）禁止性規則，主要涉及“禁止”型或“不得”型法條，如“偵查實驗，禁止一切足以造成危險、侮辱人格或者有傷風化的行為”。（3）任意性規則，亦可稱“自由裁量規則”，主要涉及“可以”型或“有權”型法條，如“審判未成年人刑事案件，未成年被告人最后陳述后，其法定代理人可以進行補充陳述”。（4）陳述性規則，主要涉及“是”型法條，即不帶模態詞的法條，如“明知自己的行為會發生危害社會的結果，并且希望或者放任這種結果發生，因而構成犯罪的，是故意犯罪”。“因果術語”是規則的核心要件，它是區分強制性、禁止性、任意性和陳述性規則的標志。強制性規則是要求某人做某事，其因果術語標識詞常常是“必須”或“應當”;禁止性規則是強制性規則的對立面，規定的是禁止某人做某事，其因果術語標識詞是“不應當”“不得”“不許”等;任意性規則是賦予某人做某事的權力，被授權者做某事擁有自由裁量權，絕非非做不可，其因果術語標識詞常常是“可以”或“有權”;陳述性規則只是陳述了某事為真，似乎不太像規則，但我們已經熟悉了陳述規則及其后果，其因果術語標識就是沒有模態詞，這種規則就是用實然語句來表達的。早期，紐曼只區分了前三種規則類型，后來才增加了第四種類型。事實上，某條具體規則到底屬于哪種類型，有時未必顯而易見，因為有些規則初看起來屬于某一類，但仔細審視之后卻發現它竟然屬于另一類。

1984年，里士蘭和她的學生阿什利首次報告了海波（HYPO）法律論證項目及其維度機制。這項研究源自里士蘭早期在基于實例的推理以及數學中的“約束示例生成”方面的工作。海波系統最初關注的是生成假設問題，因此得名，后來阿什利在其博士論文中充分發展一個案例論證程序，成為法律人工智能第一個真正的案例推理系統——海波系統，一個用于幫助訴訟代理人評估美國商業機密法糾紛的計算機程序。在本奇卡鵬看來，自1987年里士蘭和阿什利在第一屆法律人工智能國際會議上報告以來，海波系統無疑是最有影響的法律人工智能項目，其中，制定了法律案例推理的議程，為法律案例、針對案例推理的規則推理路徑以及先例推理的形式化進行了辯護。

海波系統有如下兩大特征：首先，它是一個案例推理程序。海波系統利用數據庫中的真實案例來分析糾紛問題。給定一個糾紛描述，程序會把問題與相關案例進行比較，挑選出最相似的案例，并在論證中引證它;在問題與先例之間進行簡單事實類比，區分先例，引用反例和問題的假設性變體，以幫助訴訟代理人能夠聚焦于補強或削弱論證的其他事實。總之，海波系統會將具體的問題情形與案例庫中的案例進行系統的比較與對比，找出最相似的案例。也就是我國法律人工智能界常說的“類案推送”。其次，海波系統還是一個對抗性推理器。針對如何裁判新問題，它會提出競爭性論證。換句話說，其任務不是就應當如何裁判提出一個“正確”答案，而是提供競爭性合理答案，為各方提供最佳案例，并針對那些論證進行回應。

海波系統有八大關鍵要素：（1）案例知識庫，一個結構化的真實案例數據庫;（2）維度索引，一種使用維度從案件知識庫中檢索相關判例的索引路徑;（3）維度分析，即分析當前事實問題以及從案件知識庫中檢索相關案例的方法;（4）案例定位，即將問題情形相對于案例知識庫中的相關判例進行定位并找到最恰當判例的方法;（5）標桿案件比較，即對案件進行比照與對比以引證、區別或發現反例;（6）提出假設，即打亂當前事實情況以生成用以檢驗論證強度的假設并凸顯具有破壞性的新事實而抹黑既有有利事實的方法;（7）三層論證，即生成用于試運行和調試法律論證并以律師熟悉的方式使用引證標簽來描述現有判例強度的三層論證的方法;（8）解釋說明，通過引用先例來解釋決定及其選擇的框架，其中，用三層論證來對先例強度進行批判性比較，并提出對當前事實情形和先例假設變體來證明“若有不同，則會導致不同結論”的關鍵特征。

海波系統的推理過程涉及八個基本步驟：（1）從維度上分析當前事實情形;（2）從案例知識庫中檢索相關先例;（3）將當前事實情形相對于檢索到的案件進行定位;（4）比較案件并挑選最佳先例;（5）針對引用先例的當前事實情形生成三層論證;（6）啟發性或假設性修改當前事實情形;（7）生成所選假設的三層論證;（8）通過展示和比較論證來解釋當前事實情形以及所選假設。海波系統的主要輸入內容是描述法律糾紛的問題情形。訴訟代理人或助手通過計算機錄入問題情形描述。由于海波系統不具備理解自然語言的能力，用戶必須使用專門設計的語言來錄入表達法律糾紛的問題情形。程序會有一個菜單驅動環境來引導錄入過程。海波系統的主要輸出內容為：各方可引用的最佳案例概要，引用各方最佳案例并展示代表對方如何回應的論證，以及表明如何修改問題情形以補強或削弱某方論證的假設。

根據本奇卡鵬的總結，海波系統的最重要思想是兩個概念：一是維度（dimension）概念，即案件適用或不適用的方方面面。若適用，那么維度代表一個表達價值范圍的向量，其中一端完全支持起方，而另一端完全支持應方，在某一點上維度將不再支持起方而開始支持應方。假如有n個維度，我們有一個n維空間，在某些地方支持起方而在另外一些地方支持應方。海波系統的13個維度是：（D1）競爭優勢;（D2）垂直知識;（D3）自愿披露;（D4）受限披露;（D5）代價支持協議;（D6）員工通過跳槽獲利;（D7）存在明確的非競爭協議;（D8）員工轉讓產品工具;（D9）關于被告的保密協議;（D10）員工獨立開發;（D11）保密協議具體內容;（D12）與被告談判中的披露;（D13）采取的安全措施。其中，D1和D3兩個維度是連續性的，D2、D4、D5、D6、D7、D9、D11和D12均屬二元維度，D8屬于一元維度，而D6和D10既可能屬于一元維度，也可能屬于二元維度，D13是一個包括8個要點的枚舉范圍。二是三層論證概念（3-ply argument）。“三層”分別是引用案例層、回應層和反駁層。首先，一方如起方引用了一個己方找到的案例。該案例應該盡可能地與本案例相似，要切中要點，根據遵循先例原則，所提出的建議是先例決定應該適用于本案，即使該決定成立。其次，應方通過區分（即指出顯著的差異，這意味著不應該遵循先例）和引用其能夠找到的反例來回應起方，而且反例至少要與起方所引案例一樣切題。最后，起方試圖反駁應方在第二階段提出的論證，如：區分反例，強調本案與先例的類似性，表明差異的非決定性，如此等等。

在給出海波系統之后，阿什利與他的另一位學生阿里文合作研發了“卡托（CATO）系統”。海波系統與卡托系統的共同點是都關注美國商業秘密，但不同點是：首先，后者用“因素”（factor）代替了前者的“維度”（dimension）;其次，海波系統有13個維度，而卡托系統有26個因素;在海波系統中，案件是用事實（fact）來表示的，而事實是用來判定維度在具體案例中是否活躍，若活躍則根據維度來確定案例的位置;因素雖然與事實相關，但其是分析者根據案例事實來指派的，故卡托系統中的因素只有分析者可見。卡托系統的26個因素包括：（F1）談判中的信息披露;（F2）賄賂員工;（F3）唯一開發員工;（F4）同意不公開;（F5）協議不具體;（F6）安全措施;（F7）攜帶工具;（F8）競爭優勢;（F10）泄露秘密;（F11）垂直知識;（F12）泄密限制;（F13）非競爭協議;（F14）限制使用材料;（F15）獨特產品;（F16）信息反向成為可工程化之物;（F17）信息獨立生成;（F18）相同產品;（F19）無安全措施;（F20）競爭對手已知的信息;（F21）了解保密信息;（F22）侵入性技術;（F23）放棄保密;（F24）信息可通過其他渠道獲得;（F25）信息逆向工程;（F26）欺騙;（F27）在公眾論壇披露信息。需要注意的是，在卡托系統中沒有F9，D5也沒有任何體現，D13被細化為F6、F19和F27三個因素，而且，相對于海波系統而言，F14、F15、F16、F17、F18、F20、F21、F22、F23、F24、F25、F26這12個因素均是新引入的。由此可見，案件推理系統建模具有高度語境感性，針對不同的領域，所設定的要素或因素均有重大差異。

此外，面向不同法律領域，里士蘭與她的博士生們合作研發了一系列案例推理系統，比如，與斯卡拉克合作的針對家庭辦公減稅的“卡巴萊（CABARET）系統”以及與斯卡拉克、弗里德曼、丹尼爾斯等人合作的針對個人破產的“銀行XX（BankXX）系統”和“斯皮爾（SPIRE）系統”。本奇卡鵬將海波系統之后發展起來的這類案例推理系統稱為“超海波系統”，這類案例有時又被統稱為“海波風格系統”。里士蘭和阿什利提出海波系統的初心就是作為規則推理系統的輔助系統，值得注意的是，卡巴萊系統典型是一個規則推理與案例推理的混合系統。

規則推理建模與案例推理建模有時被視為兩種相互競爭的方法。伯曼認為，這兩種方法源自不同的愿望：前者更可能產生實際應用，其中的規則不僅取自成文法，還可取自專家的理解;后者更能抓住法律推理的本質所在，因為純人工智能的一大主要目標就是準確地表示人類智能，表示法律思維，故法律領域中的案例推理研究必須繼續。一般說來，規則推理研究進路與歐洲人有關，因為受塞科特等人1986年工作的啟發以及民法在歐洲大陸的流行，他們熱衷于用Prolog語言與邏輯來表示立法;而案例推理研究進路被認為是美國研究者所選擇的進路，因為他們偏愛LISP語言（一種計算編輯語言），而且面對的是極富對抗性的普通法傳統。在20世紀80年代的后期，兩條進路被視為兩種單獨進路，其研究傾向于由不同的群體進行，在歐洲尤其為明顯。然而，到了90年代，不同進路的研究者們越來越傾向于將兩種方法整合起來，前面提及的斯卡拉克和里士蘭的卡巴萊系統就是兩種研究進路整合的典范，而像本奇卡鵬這樣的規則推理研究支持者也意識到需要案例來提供足夠條件以能夠解釋法律條款。

特別值得關注的是，帕肯和沙托爾1998年提出的一種從案例到規則集的簡潔整合方法。他們的起點是一個被表示為因素集的案例集及其結果，其中的因素可分為有利于起方的因素和有利于應方的因素，每一個因素都代表一個理由來決定其支持的一方。他們用F_p代表起方最強理由，即在案例中起方提出的所有因素集，用F_d代表應方最強理由，即案例中應方提出的所有因素集，用p和d分別代表起、應雙方的決定，那么我們就有兩條規則：r₁：F_p→p;r₂：F_d。假如案例結果表明了哪個理由優先，我們便可增加一條這兩條規則何者優先的規則，如r₃：r₁>r₂表示起方贏得了訴訟。他們認為，每個案例都可以用這種方式表示為三條規則，這樣整個案例就可以重寫為一個起方所找到的規則集，一個應方所找到的規則集和一個二者優先性不完全的集。

四、大數據推理建模路徑

規則推理建模路徑的邏輯根基是演繹推理，案例推理建模路徑的根基是非演繹推理，或者說是歸納推理或類比推理。然而，法律推理的非單調性與可廢止性決定了所有前提真并不能保證必然推出結論也為真。把具有單調性和可廢止性的法律推理建模建立在具有非單調性的演繹推理基礎之上，這種做法本身就值得商榷。不過，面向人工智能的單調推理已經很好地解決了法律推理建模的邏輯根基問題。

如前所述，案例推理建模首先是作為規則推理建模的補充形式而出現的，其目的是用案例來幫助理解法律概念和法律術語。從這個意義講，無論是規則推理建模路徑，還是案例推理建模路徑，它們關注的焦點就是從法律規范到法律解釋之間的法律解釋推理。傳統法律推理建模路徑顯然忽略了訴訟論證博弈的一個至關重要的環節，即從法律證據到法律事實之間的證據推理或事實論證。在法律訴訟中，證據并不等同于事實。在證據與事實之間還存在一種推論關系或支持關系。有人認為，法律可以被描述為一個維特根斯坦意義上的語言博弈。法律訴訟是一種論證博弈，起、應雙方的博弈目標就是使己方合法利益最大化，而審方的目標就是維系法律理性，確保司法公正，因此，起、應、審方為了某種原因（如合法性或不利己方訴求）不出示或不采納某些證據完全正常。大數據推理建模路徑也許正好可以彌補兩個傳統研究進路之不足，因為大數據技術可以使得法律證據更加確鑿。

何謂大數據呢？大數據是一個研究如何從數據集中系統提取信息并對之進行處理的領域，其中，這些數據集因為太大或太復雜無法用傳統數據處理軟件處理。根據福克斯的定義，大數據是需要并行計算工具來處理數據的地方，代表了通過并行編程理論所使用的計算機科學的一種明顯而明確的變化，以及科德（Edgar F.Codd，1923—2003）1970年提出的關系模型某些保障和能力的喪失。大數據有許多特征，其中最基本的三大特征是大量、多樣和高速。其一，數據量非常龐大。數據的大小決定了其價值和潛在洞察力。大數據之所以量大，是因為它是一種不用隨機分析法或隨機抽樣調查這樣的捷徑而采用對所有數據進行分析的方法。其二，數據類型多樣化。大數據的多樣性體現在其來源相當廣泛，除來自文本之外，還可以來自圖像、音頻、視頻等，而且通過數據融合還可以顯現出其缺失的部分。其三，數據生成速度非常快。大數據的高速主要體現在其實時可用，主要與生成頻率以及處理、記錄和發布頻率密切相關。與傳統的小數據相比，大數據涉及更多的維度、更多的屬性，從而導致較高的錯誤發現率。云端數據庫可以通過廉價且數量眾多的信息傳感物聯網設備實際收集各種數據，這些設備包括移動設備、航空遙感、軟件日記、照相機、麥克風、射電識別閱讀器、無線傳感網絡等。因此，大數據包括非結構化、半結構化和結構化的數據，但主要關注非結構化的數據。根據麥肯錫全球研究院2011年發布的《大數據：創新、競爭與生產力的下一個前沿》報告，大數據的主要構成要件與生態系統是：（1）分析數據的技術，如A/B測試、機器學習和自然語言處理;（2）大數據技術，如商業智能、云計算與云數據庫;（3）可視化技術，如圖表、圖形以及其他數據展示。大數據需要利用數學分析、優化、歸納統計和非線性系統辨識的概念，從低信息密度的大數據集中推斷出回歸、非線性關系、因果效應等規律，揭示其中的相關關系和依賴關系，甚至對結果和行為進行預測。大數據挑戰包括數據抓取、數據存儲、數據分析、數據檢索、數據共享、數據傳輸、數據可視化、數據查詢、數據更新、信息隱私、數據來源等。

大數據被認為是我們這個時代最大的創新，但也被認為是最大的危險。大數據已經改變了社會科學的面貌，關于它將如何影響社會科學研究的方法論已經有了廣泛的爭論。法律體系當然也不可能免于其影響。首先，大數據不僅支持著立法與政策設計，同時也是司法、執法過程中政府官員、律師或法官的工具。決策所依據的初始數據都是以完整的實時格式提供的。政策決策效果可以通過數據輸出來衡量，數據輸出顯示了微觀層面的變化。大數據使立法者能夠在較小的人口中試驗和模擬某些法律決定，并即時衡量這些決策對某些產出的影響。其次，法律傳統重視法律規則的一致性、穩定性和統一性，而大數據有望為法律提供一種科學證據方法。在大數據驅動的法律體系中，經驗分析將取代專家的判斷。以刑事判決為例，有人認為“僅僅依靠直覺和經驗是不夠的”，可能導致量刑不當，甚至可能是不道德的，許多情況下不僅不再需要判決，而且會導向不善的法律實踐。大數據要求將數據收集到中央服務器，然后由匿名專家設計的算法進行分析。在某個法律體系中，裁判統一性是一條重要原則，既然相同的算法可以在整個法律體系中運用，那么大數據算法會產生更一致的裁判。再次，大數據標志著行為優化和“個性化法律”的興起，大規模的數據分析和預測技術被用來制定行為，并生成針對客戶或受監管實體的法律指令和建議。在大數據時代，法律應該根據政策目標和人類最佳行為進行校準，這是基于對大量數據的機器分析，從而消除人類的偏見、無能和錯誤。大數據的出現催生了“大數據范式”。這種范式基于這樣一種信念，即理論不再是必要的，因為基于算法的應用數學和統計技術能夠“分析”數據并找到最優解決路徑，而且比人類程序員做得更好。大數據從理性選擇理論中喚起了神話般的全知行動者，在決定行動方向時，考慮了所有可用信息、事件發生的概率以及潛在的成本與收益。

大數據流行與法律經驗主義運動有關，如行為法經濟學和證據法學。行為法經濟學關注的是法律行為人和代理人的偏見和錯誤，試圖提供激勵和補救措施，以確保最佳行為，從而使得法律推理和決策過程更加科學、客觀和基于證據的做法當然應該受到稱贊。這些行為優化舉措與大數據一起加速了法律行業自動化和非中介化的趨勢。例如，“個性化法律”的趨勢是通過為個人提供一種選擇，而非聘請專業人士來滿足他們的法律需求。事實上，大數據已經開始改變律師事務所的工作方式，它提供了各種工具，其中包括預測法律成本和案件結果、管理合規數據以及降低文件審查成本。大數據也正在律師事務所之外傳播，預測建模已改變了法律領域，從金融監管到取保候審以及刑事裁判。從犯罪防控到衛生舉措，大數據在地方治理中也很受歡迎。我國智慧法院、智能檢務、智慧公安等工程均充分利用了大數據技術。過去在逃人員多會躲到人多嘈雜的地方，因為那些地方最不易被抓捕。如今，那些地方卻成了在逃人員最不應該去的，因為那些地方通常都安裝了監控攝像頭。

其實，無論執法、訴訟、法律決策還是法律文書起草之類的法律適用均可建立在大數據基礎之上。比如，美國律商聯訊公司（LexisNexis）研發的法律應用軟件Lex Maehina以及斯坦福大學法學院與圖書館共同研發的法律應用軟件Ravel都是以大數據為基礎的。Lex Machina與Ravel底層的邏輯推理幾乎是一樣的，在自然語言處理算法的幫助下從訴訟文件中提取信息，這些算法有能力進行機器學習，并以一種非常壯觀的形式將結果可視化。大數據算法可用于挖掘先例或其他相關數據，以找出變量之間的相互關系，如在法官先前裁判中找到可以預測未來結果的共同因素。在相關法律領域，大數據技術可以發展到這樣一個程度，即可以以高度準確的方式預測一個案件將如何做出裁決。

然而，大數據雖然宣稱追求客觀性和預測能力，但大數據的所謂客觀性和預測能力可能被過于夸大了，至少當它被應用于法律系統這樣高度復雜的進化系統時是如此。數據總是需要解釋，這就需要理論和相應的主觀評價判斷。此外，大數據的預測能力也是有限的，更不可能預見法律體系從根本上的創造性、非算法的演變。數據本質上是主觀的和不完整的，而不是客觀的和決定性的。數據未必是中立的、客觀的。

大數據推理，又可稱為“基于大數據的推理”（big data-based reasoning）或“大數據驅動的推理”（big data-driven reasoning）。從推理建模角度來看，基于大數據的研究與簡單統計研究并無不同，它們都是建立在大量的數據基礎之上，由計算機執行，并使用統計和數學算法來處理數據。只不過，從方法和概念框架上看，簡單統計研究以代表性數據為基礎，運用了社會科學、數學和統計概念，而大數據研究使用了數學方法和敘事概念框架;從觀察對象上看，簡單統計研究涉及的是關于社會現象或文本的數據，而大數據研究涉及的是數據集，而且大多數情況下要將大量文本處理為數據;從觀察數量上看，簡單統計研究處理的是代表性樣本，而大數據研究處理的是總體或數據集;從預測的可信度來看，簡單統計研究的比較高，而大數據研究的非常高。作為一種不同于規則推理和案例推理的建模路徑思想，大數據推理建模路徑最早出現于薩斯坎德（Richard Susskind）2017年7月28—29日在上海百事通通信技術股份有限公司在杭州舉辦的“法律+科技領軍者國際峰會”上的主題演講。但到目前為止，大數據推理建模尚未正式成為一種法律人工智能的推理建模路徑，仍然是一個亟待開拓的法律人工智能領域。

五、余論

人工智能是作為人類智能的對應物出現的，是一種模擬、延伸和擴展人類智能的智能，其目標是讓機器像人一樣思考。一般說來，人類智能的模擬有兩條道路：一是結構模擬，即仿照人腦的結構機制，制造出“類人腦”機器;二是功能模擬，也就是暫時撇開人腦的內部結構，僅從人腦的功能過程進行模擬。前者的目標是要實現通用人工智能甚至超級人工智能，而后者的目標是實現專用人工智能。然而，從技術上，目前人工智能研發都尚處于專用人工智能階段，主要是從功能上進行模擬，其核心問題就是讓機器進行自動推理。法律人工智能也不例外，其核心問題就是探究自動法律推理的實現，讓機器像法律人一樣思考。自20世紀中葉以來，法律人工智能已形成了一個學術共同體。縱觀其學術發展歷程，我們不難發現，這一共同體主要聚焦于自動法律推理建模，而這種建模有兩條經典路徑——規則推理路徑和案例推理路徑，進入21世紀以來，大數據驅動又催生第三條自動法律推理建模路徑，即大數據推理路徑，而且還研發出一批落地的法律應用軟件或法律機器人，如我國的智慧法院以及美國的Lex Machina和Reval，還有前文未提及但也有一定影響的IBM ROSS法律機器人。然而，根據阿什利的觀點，“如果某個法律應用程序能夠在進行論證或預測法律結果時考慮到從案例文本中提取的實質性特征，那么這個領域就向前邁出了一大步。Lex Machina、Ross和Ravel使用組合的語料庫和從文本中提取信息的技術，很好地完成了這一步，但似乎還沒有完成……法律推理的計算模型可以提供幫助。”這意味著，后三個標志性法律人工智能軟件事實離自動法律推理實現還有一段距離。

[責任編輯李宏弢]