崔 斌, 鄒 蕾, 徐明月
(北京京航計(jì)算通訊研究所信息工程事業(yè)部, 北京 100074)
違法事實(shí)要素作為訴訟案件的關(guān)鍵要素之一,影響著對案件進(jìn)行決策的效率。違法事實(shí)要素抽取可以協(xié)助高檢人員從海量訴訟案件中快速有效提取出違法事實(shí),以用于案情摘要、可解釋性的類案推送以及相關(guān)知識推薦等司法領(lǐng)域的實(shí)際業(yè)務(wù)需求中,并可以為高檢人員提供參考,以推動(dòng)案件辦理流程,加快處理速度。通常情況下,要素抽取問題[1-4]可以轉(zhuǎn)化為文本分類[5-8]。
早期的研究工作大都采用基于統(tǒng)計(jì)規(guī)則的文本分類方法來進(jìn)行相關(guān)要素抽取,如王亞坤等[9]提出一種級聯(lián)模型并通過手動(dòng)建立規(guī)則的方法對相關(guān)事實(shí)要素進(jìn)行抽取;程良等[10]通過依存樹與規(guī)則相結(jié)合的方法提取語句關(guān)鍵要素。該類方法可以有效提高抽取效果,但需要人為建立規(guī)則,使得抽取效果受人為因素影響較大。隨著機(jī)器學(xué)習(xí)的發(fā)展,越來越多的學(xué)者開始將其用于要素的抽取過程,如Li等[11]提出一種基于馬爾科夫邏輯網(wǎng)絡(luò)方法并將其用于民事訴訟案件的決策中,該方法可以有效抽取出相關(guān)要素;文獻(xiàn)[12]對事實(shí)要素進(jìn)行擴(kuò)充,比如添加了雙方是否有不良習(xí)慣、庭外調(diào)解是否有效等,事實(shí)要素越全面,就更加符合實(shí)際情況。但是該類方法主要適用于訓(xùn)練語料規(guī)模較小且要素種類較少的情況。針對上述方法存在的高度依賴人工制訂規(guī)則模板,只局限于少量數(shù)據(jù)的問題,很多學(xué)……