






摘"" 要:利用人工智能等相關技術輔助審判員思維,提高審判員的辦案效率,已經成為解決案件繁重工作量的一種有效途徑。通過對法律要素及其關聯性的分析,定義了民事案件法庭筆錄輔助分析模型的3個層次和在建模分析過程中的5項活動,規范了民事案件法庭筆錄輔助分析步驟。在此基礎上,提出了一種基于Word2vec將民事案件法庭筆錄輔助分析方法。首先,利用Word2vec對民事案件法庭筆錄向量化;其次,利用向量數據分析案件腳本,生成案件法律要素模型;最后,以房屋租賃合同糾紛案件法庭筆錄為例,通過動態調整名詞類和動詞類文本數量獲得最優模型。模型的準確率可達79.3%,能夠為后續案件智能推理算法提供有效的數據支持。
關 鍵 詞:Word2vec; 民事案件; 法庭筆錄; 神經網絡; 數據挖掘
氧化鈷; 納米結構; 電容器; 電催化
中圖分類號:TP391.1""" 文獻標志碼:A
doi:10.3969/ j.issn.16735862.2024.01.008
A Word2vec based auxiliary analysis method for court records in civil cases
CUI Song "LYU Yan "CHEN Lanfeng1,2
ZHAO Yongyi1,WEI Xiaodong2
(1. College of Physical Science and Technology, Shenyang Normal University, Shenyang 110034, China)
(1. Software College, Shenyang Normal University, Shenyang 110034, China; 2. Law School, Liaoning University, Shenyang 110136, China)
Abstract:
Utilizing artificial intelligence and other related technologies to assist judges in thinking and improve their efficiency in handling cases is an effective way to solve the heavy workload of cases. This article defines the three levels of the civil case court record auxiliary analysis model and five activities in the modeling and analysis process through the analysis of legal elements and their correlation, and standardizes the steps of civil case court record auxiliary analysis. On this basis, this article proposes a civil case court record auxiliary analysis method based on Word2vec. Firstly, use Word2vec to quantify court records of civil cases. Then, use data vectors to analyze the case script and generate a model of the legal elements of the case.
Finally, taking the court transcript of a housing lease contract dispute case as an example, the accuracy of the optimal model can reach 79.3% by dynamically adjusting the number of noun and verb texts, which can provide effective data support for intelligent reasoning algorithms in civil cases.
Key words:
Word2vec; civil cases; court record; neural network; data mining
法庭筆錄是法庭審判全部活動的反映,是人民法院依法判案的重要依據。在審判實踐中,每個審判員的審判方式不盡相同,因而法庭筆錄在語言組織方式上風格迥異。法庭筆錄內容格式要求非常嚴格,主體為一問一答式。結合法庭筆錄上下文,能夠梳理出涉案法律要素的聯系和案件發展脈絡。審判員在審閱法庭筆錄時經常會遇到訴訟參與人的陳述無法律依據、邏輯性不強,或與案件內容關聯性差;訴訟參與人觀點、請求事項等表述不清晰等問題。為解決上述問題,審判員需要花費大量時間反復分析推敲。人工智能、大數據等技術的發展,使民事案件法庭筆錄計算機輔助分析成為可能,能夠有效降低審判員的工作強度,提高審判員的辦案效率。
Word2vec 是一種基于神經網絡的語言模型。它被用于自然語言處理(natural nanguage processing,NLP)任務(例如:文本分類、機器翻譯等),可以從大型文本語料庫中學習單詞的向量表示。Word2vec 模型根據單詞在訓練數據中出現的上下文,為詞匯表中的每個單詞生成向量表示,通過訓練神經網絡來預測句子中某個單詞周圍單詞的可能性。Word2vec工具主要包含2個模型:連續詞袋模型(continuous bag of words,CBOW)和跳字模型(Skip-gram)。它們二者的區別是,CBOW是根據上下文去預測目標詞來訓練得到詞向量;而Skip-gram是根據目標詞去預測周圍詞來訓練得到詞向量。為了提高速度,Word2vec經常采用2種加速方式:負采樣(Negative Sample)和分層Softmax(Hierarchical Softmax)[12]。
本文根據法庭筆錄的格式特點,提出了一種基于Word2vec的民事案件法庭筆錄輔助分析方法。通過對法律要素及其關聯分析,定義了民事案件法庭筆錄輔助分析模型的3個層次和在建模分析過程中的5項活動,規范了民事案件法庭筆錄輔助分析步驟,確保針對不同類型、不同陳述風格的法庭筆錄都能夠有效建模。利用Word2vec模型依據法庭筆錄中的詞匯生成詞向量,對法庭筆錄中原被告所述內容進行分類歸納,并結合審判員提問構建民事案件法庭筆錄輔助分析方法及其算法實現。通過對近年來頻繁出現的房屋租賃合同糾紛案件法庭筆錄建模,圍繞案件爭議焦點進行輔助分析,大大減輕了審判員的工作強度。
1 民事案件法庭筆錄分析過程
民事案件法庭筆錄輔助分析方法采用Word2vec將法庭筆錄向量化[34],結合維基中文語料庫和房屋租賃合同糾紛案件分類規則訓練Word2vec模型,實現民事案件法庭筆錄向量化、建模及分類。整個過程分成數據準備和法庭筆錄分類2大部分,如圖1所示。
第一部分,將房屋租賃合同糾紛分類規則、法庭筆錄和維基中文語料庫數據進行格式轉換,轉換成算法可以識別的字符形式。其中房屋租賃合同糾紛分類規則和法庭筆錄為Word文本格式,維基中文語料庫為XML格式,需要轉換為TXT文本格式。
第二部分,對法庭筆錄進行分類,法庭筆錄在格式上對庭審參與人員(包括:審判員、書記員、原告、原告委托代理人、被告委托代理人等)、主張、辯論等內容都會進行明確說明,如:“事實與理由:”、“?現在由被告進行答辯”、“審:”等。因此,程序較容易分辨出相關的陳述內容,比如:審判員的詢問,原告和被告的主張等。這一部分算法處理過程包含5個步驟:
1)語料預處理。首先將經過格式轉換的法庭筆錄等數據中的文字陳述分成一連串的單詞,把這些一連串的單詞去重,構建詞匯表。
2)訓練Word2vec模型。根據單詞長度動態改變上下文長度,獲得構建CBOW模型的X、Y,之后把(X,Y)輸入網絡訓練。在訓練過程中,會根據上下文單詞計算出目標單詞的概率分布,并通過梯度下降法更新詞向量,直到損失函數最小化[5]。
3)分析案情腳本。分析是提取法律要素并建立模型的過程。為進一步還原案件的真實過程,通常軟件要找出相關法律要素及其相關的法律事實,從而輔助審判員確定案件事實是否符合法律規定和要求。本文使用計算機常用術語“腳本”來描述。腳本是指案件在時間段出現的一系列法律事實。腳本描述法律要素之間存在的一系列法律事實。利用訓練后的Word2vec模型,找出涉案法律要素,并結合文本上下文關聯度分析,形成法律要素相關的一系列法律事實,即為分析案情腳本。
4)生成案件法律要素模型。根據找出的涉案法律要素和案情腳本,生成案件法律要素模型。
5)民事案件法庭筆錄分類。結合案件所涉及的法律概念范疇對案件進行分類[6]。
2 房屋租賃合同糾紛案件分類規則
房屋租賃合同糾紛案件,爭議焦點最多的是合同效力,其次是合同解除,還包括租期及押金糾紛,房屋水電煤費用糾紛,房屋設備的使用及賠償糾紛等[79]。
房屋租賃合同被法院確定為無效的情況主要有:
1)未經竣工驗收的房屋出租,房屋租賃合同無效。
2)違章建筑的房屋出租,房屋租賃合同無效。
3)被確定為拆遷的房屋出租,房屋租賃合同無效。
4)出租人就未取得建設工程規劃許可證或者未按照建設工程規劃許可證的規定建設的房屋,與承租人訂立的租賃合同無效。
5)出租人就未經批準或者未按照批準內容建設的臨時建筑,與承租人訂立的租賃合同無效。
6)租賃期限超過臨時建筑的使用期限,超過部分無效。
7)租賃期限超過20年的,超過部分無效。
8)承租人經出租人同意將租賃房屋轉租給第3人時,轉租期限超過承租人剩余租賃期限的,法院應當認定超過部分的約定無效,但出租人與承租人另有約定的除外。
在司法實踐中,主張解除合同的情況和合同效力糾紛的數量相近,其中出租人和承租人主張解除合同的比例也相近。出租人主張解除合同的主要原因為承租人未經同意違法改建、拖欠租金、擅自轉租等。承租人主張解除合同的主要原因為出租人交付的房屋不符合規定、出租人未配合辦理消防或驗收手續、承租人經營不善提前退租、第三人原因等[1011]。
在合同履行過程中常見的違約情形主要有:
1)出租人不按合同規定的時間交付租賃房屋,或者交付的房屋有瑕疵。實踐中往往表現為遲延履行,或者履行有瑕疵,損害承租人的利益(停水斷電、道路不暢、場地不清等)。
2)出租人不履行合同規定的維修和保養義務。租賃房屋的缺損雖然不是因為承租人的過錯所引起,但糾紛的發生卻是頻頻出現。
3)承租人不按合同約定支付租金,主要是遲延交付。
4)承租人擅自改變租賃房屋的現狀。
5)承租人擅自將租賃房屋變相轉租、轉讓、變相合租等。
6)承租人逾期不返還租賃房屋,或拒不騰房。
7)出租人利用租賃房屋套取押金、保證金、轉讓費。
3 民事案件法庭筆錄輔助分析方法
民事訴訟中,案件審理基本遵循一方主張—對方是否自認—對方不自認時一方舉證—對方質證—審判員認定事實—真偽不明時由審判員根據舉證責任分配規則認定事實的次序進行。案涉相關問題大致分為以下幾類:
1)法律要素:房屋所有權人、房屋租賃合同、房屋租賃起始時間、違約金、押金、房屋水電煤費用、房屋設施等。
2)法律事實:未支付押金、超過租期、未支付房屋水電煤費用、房屋未維修、延遲交付等。
3)法律依據:《中華人民共和國民法典》第七百零三條【租賃合同定義】租賃合同是出租人將租賃物交付承租人使用、收益,承租人支付租金的合同;第七百零四條【租賃合同主要內容】租賃合同的內容一般包括租賃物的名稱、數量、用途、租賃期限、租金及其支付期限和方式、租賃物維修等條款;第七百零五條【租賃最長期限】租賃期限不得超過20年等[12]。
法庭筆錄輔助分析的過程,實際上就是抽取和整理涉案法律要素并建立法律要素模型的過程。建模過程中的分類工作往往有很大難度,因此,在分析建模過程中需要考慮3個層次組成:
1)主題層,主題也稱為法律概念范疇。通過劃分主題將一個復雜的案件分解成幾個不同的法律概念范疇,從而引導審判員的注意力。
2)法律要素層,法律要素是指法律所規定的行為、事物。法律要素可以是個人、組織、物品、財產等。法律的規范要素是多樣化的,既包括禁止某些行為,也包括規定某些行為。
3)法律事實結構層,法律事實是指法律要素之間的相互關聯關系。法律要素之間的關聯關系往往伴隨著大量的法律事實。
上述3個層次對應著輔助分析過程中5項主要活動:找出法律要素、識別法律事實結構、識別主題、審查證據、認定法律事實。雖然這5項活動的抽象層次不同,但是在進行輔助分析時并不嚴格遵守自頂向下的原則。人們往往習慣在一個較高的抽象層次上工作,如果在思考過程中突然想到一個具體法律要素,就會把注意力轉移到深入分析發掘這個具體法律要素的內容,然后又返回到原先所在的較高的抽象層次。例如,在庭審過程中出現一個發票,則首先就會想到發票所關聯的事件、人員、金額及法律概念等信息,然后又返回到法律要素層,去尋找案件中另外一個法律要素。這種建模分析方法給法庭筆錄的計算機輔助分析提供了較大的靈活性。因此在法庭筆錄輔助分析過程中可以利用這種特點來進行,其構建法律要素模型過程如圖2所示。首先利用向量數據找出所涉案件的相關法律要素,識別與法律要素相關的法律事實,之后生成案件腳本。根據相關法律事實識別所涉案件的法律概念范疇,從而利用相關法律依據審查相關證據,認定法律事實,最后形成法律要素之間所存在的法律事實關聯,創建法律要素模型。
4 實例分析及實現
下面利用房屋租賃合同糾紛筆錄實例(由于篇幅限制,并未全文體現)說明上述輔助分析的建模過程。
事實與理由:
原告姜××與被告葉××于2019年2月3日簽訂了房屋租賃合同,被告為出租方(甲方),原告為承租方(乙方)。合同第一、二條約定:出租房屋為坐落于沈陽市××區××路××號店鋪(以下簡稱案涉房屋),租賃期為3年,從2019年3月1日起至2022年2月28日止。案涉房屋系被告從案涉房屋所有人房東王××(案外人)處承租而來,合同簽訂時,被告與案外人的房屋租賃期至2021年1月4日,后又續簽至2022年1月4日。案外人已知被告與原告之間的轉租行為,且從未就此提出異議并已同意原被告雙方的轉租行為。房屋租賃合同第三條約定年租金為120萬元,第一年于2019年2月5日前支付,以后每年于1月13日前乙方向甲方一次性支付。第四條約定乙方應付甲方保證金人民幣20萬元,保證金在合同簽訂之日繳納,在乙方遷出租賃房屋時甲方驗收后3日內退還。2019年2月5日,原告分70萬、80萬兩筆共計轉款150萬元,為第一年房租120萬元和保證金30萬元。被告出具收條,確認收到店鋪押金30萬元。之后原告每年均按合同約定按期向被告轉款支付涉案房屋的租金。2021年1月,被告與案外人的房屋租賃期限屆滿,經原告了解,房東明確表示不再向被告出租房屋,并另與他人簽訂了房屋租賃合同。2022年2月28日,原告與被告的房屋租賃合同租賃期間屆滿,因被告未能繼續承租案涉房屋,已不具備向被告交付房屋的條件,故原告直接向房東交房,并要求被告退還押金(保證金)30萬元。2022年3月9日,原告又在微信與被告聯系,提供了卡號并要求其退還押金。之后被告一直未予退還30萬元保證金至今。房屋租賃合同第八條約定“本合同生效后,如甲方違約,一次性支付違約金人民幣30萬元”。考慮到本案實際情況,被告除應當返還保證金30萬元之外,還應當賠償原告預付保證金的資金占用費,計算標準為以30萬元為基數,從2022年3月1日起,按全國銀行間同業拆借中心公布的同期貸款市場報價利率計至實際清償之日止。
?現在由被告進行答辯
:雙方的租賃合同成立,被告按合同約定實際收取保證金30萬元,現被告合同到期后仍在使用房屋,按合同約定第四條,保證金應在原告遷出租賃房屋并且經被告驗收后退還,現原告仍在使用房屋且雙方沒有對房屋進行驗收,不具備退還保證金的條件;租賃合同到期后雙方對房屋使用所產生的費用沒有進行核算,有一些款項不明確,不具備退還保證金條件;原告在租房期間對房屋的承重墻進行拆改,按合同約定其行為構成合同違約,應承擔相應的違約責任,依據合同第六條、第八條,原告的違約行為應一次性支付違約金30萬元,保證金應抵做違約金。
審:下面由原告出示證據
證據一:被告(甲方)葉××與原告(乙方)姜××于2019年2月3日簽訂的房屋租賃合同,原告提供原件的復印件,共2頁。
證據內容:雙方簽訂房屋租賃合同約定,葉××將沈陽市××區××路××號店鋪(以下簡稱案涉房屋)轉租給姜××;租賃期為3年,從2019年3月1日至2022年2月28日;租金按年支付,每年為120萬元;葉××向姜××收取保證金30萬元,在租賃期滿后退還。合同還約定,如葉××與原房東未能就案涉房屋進行成功續簽,則雙方同意于未能續簽日終止合同,葉××將30萬保證金退還給姜××。合同又約定,本合同生效后,如葉××違約,除退還剩余租金,還應一次性支付違約金30萬元(自違約行為發生之日起30日內付清)。
證明對象:房屋租賃合同是雙方真實意思表示,合法有效,對雙方具有約束力。葉××為從原房東處承租來案涉房屋后,又轉租給姜××,案涉房屋的租賃期間受原房東租賃給葉××的租期限制,且雙方一致同意如葉××未能與原房東續簽合同,則原被告雙方的房租合同于未能續簽日終止。
?被告有無異議
:合同三性無異議
證據二:葉××于2019年2月5日出具的收條,原告提供原件的復印件,共1頁。
證據內容:在2019年2月5日,向葉××支付了30萬元押金。
證明對象:葉××已于2019年2月5日收到房租押金30萬元,姜××已按合同約定履行了支付押金義務。
?被告有無異議
:收到押金30萬元無異議。
在上述房屋租賃合同糾紛法庭筆錄中,可以找出相關法律要素:葉××、姜××、房屋租賃合同、保證金、違約金、王××、原房東、沈陽市××區××路××號店鋪等。實踐中,還有另一種更簡單的分析方法,即所謂的非正式分析。這種分析方法以用自然語言書寫的法庭筆錄為依據,把筆錄中的名詞作為法律要素的候選者,用動詞作為法律要素之間的聯系,從而創建法律要素之間的結構。這種分析方法在簡化算法和驗證算法思路正確性上有很大的作用。查詢Word2vec向量數據,當輸入“葉××”時可以得到與其關聯度較高的名詞,而這些名詞恰恰就是上述已經分析出來的法律要素,如表1所示。同樣,當輸入“葉××”時,也可以得到與其關聯度較高的動詞,而這個動詞恰恰就是與法律要素相關的法律事實,如表2所示。這也說明了Word2vec向量數據在構建法律要素模型的有效性。同理可得,當輸入“姜××”時,可以獲得與其關聯度較高的名詞和動詞。
根據名詞類文本上下文和動詞類文本上下文中所提到法律要素和法律事實,構建房屋租賃合同糾紛案件案情腳本,如表3所示。
最后,創建房屋租賃合同糾紛案件法律要素模型,如圖3所示。法律要素模型以圖形方式展示給審判員,從而讓審判員有更加直觀地了解案件法律要素及其關聯關系。對法庭筆錄分類處理后進入基于LSTM網絡的法院案件智能推理分析算法,為審判員提供輔助決策[13]。
本文使用Python中的Gensim庫將法庭筆錄文本轉換成向量,以便于后續的輔助推理分析。首先,加載維基中文語料、房屋租賃合同糾紛分類規則和包含200個不同主題的房屋租賃糾紛法庭筆錄的數據集,將文本轉化為列表sentences,sentences中含有分詞后生成的列表。以句號斷句,全部按照法庭筆錄表示邏輯進行讀取。然后,構建詞袋模型,將文本樣本向量化。接下來,使用SVM分類器對文本進行分類,并使用K-means算法對文本進行聚類[14]。最后,使用訓練好的模型對新的文本進行查詢和相似分析[15],創建案情腳本和案件法律要素模型等。
對于不同法庭筆錄,名詞類和動詞類文本數量的選擇會直接影響查詢結果的準確率。為獲得最優模型準確率,需要選擇不同數量的名詞類和動詞類文本數量進行實驗。通過反復調整文本數量,計算準確率,可以看出隨著文本數量的不斷增大,準確率逐步提高,而后到達最大值,隨后準確率下降。如圖4所示,房屋租賃合同糾紛筆錄實例文本數量選擇為5時準確率最高,為79.3%。
5 結 論
本文在對民事案件法庭筆錄進行梳理和分析的過程中,結合審判員思維,定義了民事案件法庭筆錄分析模型的3個層次組成:主題層、法律要素層、法律事實結構層。為規范民事案件法庭筆錄輔助分析步驟,定義了建模分析過程中的5項活動:找出法律要素、識別結構、識別主題(法律概念范疇)、審查證據、認定法律事實。利用Word2vec對民事案件法庭筆錄向量化,結合房屋租賃合同糾紛案件實現了民事案件法庭筆錄輔助分析算法,并分析了建模分析過程中數據的有效性,為后續的民事案件智能推理分析提供了完善的數據處理方案。
參考文獻:
[1]MIKOLOV T,SUTSKEVER I,CHEN K,et al.Distributed representations of words and phrases and their compositionality[J].Adv Neural Inf Process" Syst,2013,26(10):31113119.
[2]MIKOLOV T,CHEN K,CORRADO G,et al.Efficient estimation of word representations in vector space[J].J Jpn Soc Artif" Intell,2013,28(4):676677.
[3]陳冬林,吳天昊,吳江,等.基于Word2vec的內容過濾科技成果推薦模型研究[J].武漢理工大學學報(信息與管理工程版),2023,45(4):599606.
[4]金楠,王瑞琴,陸悅聰.基于Word2vec與深度神經網絡的協同推薦模型[J].湖州師范學院學報,2022,44(8):4554.
[5]王偉,趙爾平,崔志遠,等.基于HowNet義原和Word2vec詞向量表示的多特征融合消歧方法[J].計算機應用,2021,41(8):21932198.
[6]楊丹,邵玉斌,張海玲,等.融合多特征的半監督并列結構識別[J].小型微型計算機系統,2021(9):18181825.
[7]鄭珺丹.房屋租賃合同標的物及合同解除權的認定[D].綿陽:西南科技大學,2016.
[8]張新宇,方燦.房屋租賃中優先承租權適用淺析[J].中國律師,2022(3):7981.
[9]楊亮.房屋租賃合同違約方合同解除權的經濟考量[J].法制博覽,2022(5):169171.
[10]余仙珍.論房屋租賃權的性質[D].北京:中國政法大學,2007.
[11]孟令楠.試析房屋租賃合同中當事人的權利義務[J].法制與社會,2019(16):4950.
[12]法律出版社法規中心.中華人民共和國民法典注釋本[M].北京:法律出版社,2020:388406.
[13]趙永翼,魏曉東.基于LSTM網絡的法院案件智能推理分析系統研究與實現[J],沈陽師范大學學報(自然科學版),2023,41(4):310315.
[14]翟社平,李兆兆,段宏宇,等.基于詞法、句法和語義的句子相似度計算方法[J].東南大學學報(自然科學版),2019,49(6):10941100.
[15]閆智超.基于BERT和K-Means的情感分析系統設計及應用[D].重慶:西南大學,2023.
【責任編輯:孫 可】