999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

面向法律文書的中文文本校對方法研究

2020-12-26 02:57:32劉明潔艾中良賈高峰
計算機工程與應用 2020年24期
關鍵詞:文本

劉明潔,梁 毅,艾中良,賈高峰

1.北京工業大學 計算機學院,北京100124

2.中國司法大數據研究院有限公司,北京100043

1 引言

法律文書,又稱裁判文書,它記載著人民法院審理案件的過程和結果[1]。文本自動校對,是自然語言處理領域中的一個重要應用,中文文本的自動校對是應用自然語言處理技術檢查文本中的語言書寫錯誤[2-3]。

伴隨市場經濟的發展以及司法體制的完善,法律文書在司法機關辦案過程中的重要性越來越凸顯。由于審判任務繁重等原因,文書的書寫會出現紕漏,例如當事人姓名引用錯誤、敘述事實文字使用錯誤、法律條款運用錯誤等等,這在一定程度上損害了文書的權威性和公信力。因此,研究面向法律文書的中文文本校對技術對提高文書的質量有著深遠的意義。

法律文書中包含有當事人信息,案件信息和裁判結論等內容。每個部分都有語義的前后關聯,對于一篇包含有大量法律專業術語和語義的文書,采用通用的文本校對方法很難發現其中的錯誤,例如,在“……為此請求法院判令被告填平路面,恢復原狀”一句中,“判令”有“判決”和“施令”的意義,雖然詞語本意無錯,但在法律文書中不符合語言表達習慣,應糾正為“判決”。對法律文書的文本校對,需要結合語句中所表達的語義和語用來判別是否出現了字詞的使用錯誤并給予提示。使用人工進行法律文書校對,不僅耗費過多的人力資源成本,還會由于各類的不可控風險導致漏判與誤判。應用計算機自動文本校對技術判別法律文書的書寫錯誤,目前的相關研究還比較少。

計算機科學領域內針對法律文書的自動校對技術研究比較少。張永安[4]利用定制的語料庫構建了一個二元詞知識庫,使用N-gram模型對文書中的篇章結構和法律術語等進行檢測,完成文書的自動校對。徐雅斌[5]使用條件隨機場模型結合法律字詞詞綴特征對法律專業術語進行識別和校驗。甘雨坤[6]利用第三方插件,使用語法樹識別工具綜合檢查文書的語法邏輯和業務邏輯,以此來構建文書糾錯系統。王云[7]綜合計算機中文文本校對特點和原理概述了文本校對的一般方法。上述方法針對法律術語進行了校對技術的研究,但一篇完整的文書中除了法律術語以外,還存在著大量的日常敘述用語,如何區分法律術語和日常敘述語并針對這些用語分別進行自動校對仍然有很多難點需要處理。

本文使用現代漢語語法規則和法律文書寫作規范,利用模糊分詞和正則規則匹配技術,對照專業詞庫及自定義詞庫將句子拆分為若干詞或詞組,使用生詞識別規則合并單字詞散串為短語,將合成短語轉換為對應的漢語拼音并找出與之相匹配的中文短語集合,然后使用詞向量相似度算法進行識別計算,最后使用LSTM模型檢查和糾正錯誤字詞,實現法律文書的文本自動校對。

2 法律文書文本錯誤類型分析

法律文書的錯誤從表現形式上看主要分為敘事陳述時的直接錯誤和行文書寫時的隱含錯誤。筆者通過對中國裁判文書網上公開發布的文書進行統計分析,對錯誤情況概述如下。

2.1 敘事陳述錯誤

本類別錯誤主要是在敘事陳述時發生錯字、漏字、多字等錯誤。

(1)錯字。錯字即為字詞使用錯誤,是指文書中的字詞被另外的字詞所替代從而出現錯誤。一般替換的字詞具有音形類似的特點。

例1 按照《中華人民共和國民事訴訟法》低二百五十三條之規定

其中,單字“低”就是單字“第”的音相似錯誤,此類錯誤會導致上下文語境理解不合理。

例2 人民法院在審理此類糾紛時,要對其試題權利能否對抗執行進行判斷

其中,詞匯“試題”是詞匯“實體”的音似詞錯誤,盡管詞匯本身沒有錯誤,但放在句子中同樣會出現搭配不合理的問題。

(2)漏字。漏字即為字詞缺失錯誤,是指文書中出現丟字、少詞等情況從而導致句子意思表達不完整。

例1 被告在一審提交答辯狀期對管轄權提出異議

其中,“答辯狀期”后面缺少了“間”字,致使閱讀句子的人需要通過猜測才能獲知句子所要表達的真實意義。

例2 被告在火車上寫下了上述文字內容

其中,“被告”后面缺少了“坐”字,出現語義牽連從而致使句子表達出現了理解錯誤。

(3)多字。多字即為字詞書寫重疊,是指在文書撰寫過程中某個字重復書寫或突然增加從而導致句子表達意義出現差異。

例1 詢問上下午間車輛通行記錄

其中,“上下午間”后面增加了“間”字,使得句子表達的意思發生了變化。

例2 查看機構的早晚日報告來檢查運行狀況

其中,“早晚日報告”中增加了“日”字,使得句子表達的意思發生了變化。

2.2 行文書寫錯誤

本類別錯誤主要是在行文書寫時發生涉案信息的前后文不統一情形,此類錯誤較第一類錯誤具有隱含性。包含有當事人信息不統一、公訴機關與審判機關不匹配、法條使用不規范等。

(1)當事人信息前后文不統一。當事人信息包含有涉案人的性別、出生日期、民族、住址、文化程度等。上述信息中,姓名的前后不統一最為普遍。例如,某篇文書前文中當事人姓名為“李俊為”,而后文中出現由于聯想輸入等因素而出現名字變化為“李俊偉”的情形,這使得文書的嚴肅性大打折扣。

(2)公訴機關與審判機關不匹配。公訴機關是代表國家執行公訴職能,依法向法院提請追究被告人刑事責任的機關,而審判機關是依照法律規定代表國家獨立行使審判權的機關。兩者之間一般來說是相互匹配的,而一旦出現機關地位不匹配的情形,削弱了文書的公正性。

(3)法條使用不規范。法條是量刑判罰的依據,在法院的判決活動中需要避免由于法律法規的更新和思維慣性從而導致的引用錯誤。對案件的法條引用出現疏漏會削減文書的權威性。例如,某篇文書中涉及一般民事賠償的糾紛,而在判決中卻引用了刑事賠償的法條,致使判罰力度加大,無端造成涉案人員的額外損失。

3 文書錯字自動識別校對設計及實現

通過對法律文書中的常見書寫錯誤進行分析,可以看出,對敘事陳述錯誤,其錯誤形式較為明顯,可以通過對文書中的語句拆分找出異常單字,繼而通過單字合并、詞向量距離計算等技術識別錯誤字詞。而行文書寫時的隱含錯誤,由于其錯誤形式更加隱蔽,通常需要嚴格的上下文語義判斷,同時一些疑似字詞的最終確定同樣需要上下文語意的判斷,這都需要引入更強有力的檢查方法。

基于上述分析,本文設計的文書錯字自動識別校對流程如圖1所示。對于一篇法律文書,首先應利用文本挖掘技術將文書信息結構化,提取出涉案人員、審判過程、量刑結果等關鍵數據。在本文中設計使用正則規則匹配技術對文書進行解析。然后,基于中文分詞等技術對結構化的文書進行處理,并使用詞向量距離計算找出異常詞語。最后,結合異常詞語所在句子的上下文語義環境,使用深度學習算法,如神經網絡等計算異常詞語存在的概率以及確定接近正確語義的備選詞語集合。

圖1 文書錯字識別校對流程圖

3.1 單字詞散串合并

單字詞散串合并是糾正錯別字詞的第一步,它是由對法律文書進行分詞后,將未識別單字生詞組合生成的。如果文書中包含有錯字錯詞,則該錯字或錯詞會被分成單字,即可對單字詞合并成字串并構造詞向量進行后續的近似度計算。漢語分詞是語法、語義分析的基礎,一個分詞質量高的算法對文本校對的結果有著重要的作用[8-9]。本文中使用了基于標注的中文分詞方法,把對整篇文書的分詞過程看成是字詞在字串中的標注問題。

標注過程,即依據預定義特征進行詞位特征的學習并形成一個概率模型。對待標注字串進行標注時,應依據字與字之間的緊密程度得到標注結果。標注過程使用了分詞表,在分詞表中注明了各類詞匯以及詞性,即預定義特征。

常用的分詞表缺乏領域專業詞匯,本文根據法律文書的行文特點,按照不同的文書類別和審理程序抽取法律專業詞匯和短語形成專業詞匯表,擴充至常規分詞表中對文書進行分詞標注。同時,在構建專業領域分詞表時,本文進行了優化,將所有法律專業詞匯重新定義了詞性標注。同時,將一些常用字詞合并成短語形成的自定義詞語也新定義了詞性標注。新詞庫詞性標注類別如表1所示。

表1 新建詞庫詞性標注

句子分詞標注完成后,本文中將正確的分詞使用特殊符號進行了標記,保留無法識別的單字詞并通過以下規則進行單字詞的散串合并[2]:

(1)相鄰兩個串中,兩個串均是單字且兩個單字成詞的概率小于閾值,則進行合并。

(2)相鄰兩個串中,第一個串為單字,第二個串為多字,則進行合并。

(3)相鄰兩個串中,第一個串為多字,第二個串為單字,則進行合并。

3.2 詞向量距離計算

詞向量間的距離,其結果標識了兩個文本之間的相似程度。直觀來看,兩個文本之間相同的部分越多,相似度越高。基本的詞向量相似距離計算由于詞向量生成維度過高從而增加了相似距離計算時的資源消耗。同時,傳統的計算方法對字詞順序敏感,因此會出現同一字詞替換不同位置的單字而相似距離計算有很大差異的現象[10-12]。

獲得單字詞散串后,還需有與之相比較的短字詞文本才能進行計算。本文中,獲取比對短字詞文本集的方式首先是將單字詞散串轉換成漢語拼音,然后在搜索此漢語拼音所對應的短字詞文本,形成比對集合。計算相似度時,本文定義待計算短字詞文本組成的單字集合為s,即

則兩個短字詞文本之間的相似度計算公式為:

相似度取值范圍在0 和1 之間,且只有當兩個短字詞文本完全相等時取值為1。

3.3 錯誤字詞識別

詞向量距離計算解決的是對于兩個短語或句子之間的相似程度。在獲得了相似度符合閾值的字詞短語后,還要對單字散串所在句子的上下文語境關系進行識別,以便確認疑似錯誤字詞是否存在和備選字詞是什么。

在結合上下文語境確認疑似錯誤字詞時,本文使用了LSTM 模型并進行了針對法律文本的改進訓練。LSTM模型于1997年由Seep和Jurgen提出,模型通過設置輸入門、輸出門、遺忘門等解決了出現在循環神經網絡訓練中的梯度消失現象[13-14]。其模型示意如圖2所示[15]。

圖2 LSTM模型圖示

本方案使用LSTM模型進行疑似字詞判斷,模型的輸入即為疑似字詞所在短句,且每一時刻輸入句子中的一個單字短語。在模型運算時,先將短句文本轉換為詞向量Xi作為模型的輸入數據。而遺忘門讀取hi-1和Xi并輸出一個0 到1 之間的數值來表示舍棄信息的權重,計算公式為:

同時,模型通過輸入數據計算狀態數值,利用遺忘門數值來決定每個網絡節點狀態的變更,即

式中,C為狀態值。最后,輸出門聯合狀態值以及輸入序列得到輸出值:

通過模型計算后輸出結果即為標注結果,如果是正確字詞,則輸出原有字詞;如果是錯誤字詞,則使用標注符號ERRDIC進行標記輸出,即為hi。模型使用softmax交叉熵損失函數,通過不同時刻的逐字詞輸入,結合語義計算詞語是否正確的概率并將最終概率最大的標注進行標記,以此來標識輸入句子中的字詞是否為疑似字詞。

3.4 面向法律文書的文本校對實現

根據上述設計,實現邏輯見下述偽代碼所述。

算法1 面向法律文書的文本校對算法

輸入:法律文書

輸出:錯字錯詞組

1. 使用正則匹配規則對文書按照書寫規范分為標題、首部、正文、尾部四個部分,形成段落數組X

2. for each s in X do

3. 利用詞庫對s進行分詞

4. 將分詞正確的詞語進行標記

5.使用散串合并規則將單字合并

6. 對合并形成的散串轉換漢語拼音

7. 使用轉換后的漢語拼音搜索相對應的短語字詞形成集合

8. 將第7步搜索出的字詞集分別與第5步中形成的散串計算相似度

9. 對相似度數值進行分析,如果沒有相似度為1的情形,則進入下一步進行糾錯處理;如果有相似度為1的情形,則判定為正確字詞,結束算法

10. 使用LSTM模型結合語義找出短語字詞集合中與單字詞散串匹配度最優的字詞,將之判定為糾錯詞

11. 將確認錯字錯詞與糾正詞輸入返回列表

12. End For

4 實驗結果和分析

4.1 測試集的構建

本文使用中國裁判文書網上公開發布的法律文書數據構成實驗數據集,該網站公布各級法院判決生效的裁判文書,具有實時性。實驗數據選取了某省2019 年發布的各類具有代表性判決書、裁定書、決定書共2 000篇。通過預先人工篩查的方式找出文書中的錯字錯詞,統計出實驗數據中錯字錯詞占比及文書分布情況。

4.2 評價標準

實驗評測以召回率、準確率和F-Score 作為評價標準。召回率本意是指應被正確分類的樣本數占某分類總樣本數量的百分比,準確率是指被分類器正確分類的樣本數量占分類器總分類樣本數量的百分比,F-Score是平衡召回率和準確率而引入的指標數值,是召回率和準確率的調和平均。本評測實驗中主要是獲取文書中的錯字錯詞,因此指標定義如下:

4.3 結果分析

使用本文提出的方法對實驗數據集進行實驗,得到召回率81%,準確率80%,F-Score為81.03%。實驗數據如表2和表3所示。

表2 實驗數據

表3 實驗結果 %

表3中,準確率、召回率以及F值均由表2中相對應的數據依公式計算得出。觀察表2的數據,三類文書中識別出錯字錯詞的準確率均大于召回率,這說明本文中所述方法并沒有把所有可識別的錯字錯詞正確識別。同時,判決書類型的錯字錯詞糾錯準確率和召回率均是三種文書類型中最低的。探究其中的原因,主要是有以下幾方面:

(1)判決書類型在文書中的數量眾多,除了法律術語外,文書內的日常性敘述語言眾多,對日常用語的經驗性常識和書寫規則仍然需要收集。

(2)文書書寫有標準,但由于錯誤眾多且分散,又由于錯誤字詞所在句子是因語義或語用造成的錯誤,這仍然需要收集大量語料進行深度學習模型的訓練。

5 結束語

本文對法律文書出現的書寫錯誤進行了分析和總結,提出了一種規則匹配和概率統計相結合的文本糾錯校對方法,實驗結果顯示,該方法有效地解決了對法律文書中書寫錯誤的糾錯識別。實際應用中給法律文書的質量提升拓展了上升空間,同時,此方法也積累了一系列的法律專業術語和文書日常用語。實驗結果表明該方法有效。本文的后續工作將進一步搜集語料,豐富專業詞庫。完善模型訓練數據,提高識別準確率。

猜你喜歡
文本
文本聯讀學概括 細致觀察促寫作
重點:論述類文本閱讀
重點:實用類文本閱讀
初中群文閱讀的文本選擇及組織
甘肅教育(2020年8期)2020-06-11 06:10:02
作為“文本鏈”的元電影
藝術評論(2020年3期)2020-02-06 06:29:22
在808DA上文本顯示的改善
“文化傳承與理解”離不開對具體文本的解讀與把握
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學隱喻
從背景出發還是從文本出發
語文知識(2015年11期)2015-02-28 22:01:59
主站蜘蛛池模板: 亚洲综合二区| 91精品国产91欠久久久久| 久久免费视频播放| 99视频有精品视频免费观看| 国产成人狂喷潮在线观看2345| 国产精品观看视频免费完整版| 亚洲国产日韩视频观看| 1024国产在线| 亚洲视频在线网| 久久人搡人人玩人妻精品| 国产主播在线观看| 国产不卡网| 久久亚洲中文字幕精品一区| 伊人久久精品亚洲午夜| 精品亚洲麻豆1区2区3区| 亚洲国产91人成在线| 亚洲精品爱草草视频在线| 欧美亚洲欧美区| 夜夜操天天摸| 97成人在线观看| 亚洲第一香蕉视频| 中字无码av在线电影| 国产亚卅精品无码| 草草影院国产第一页| 丁香亚洲综合五月天婷婷| 国产成人免费| 人妻中文久热无码丝袜| 久久久精品国产亚洲AV日韩| 欧美中文字幕无线码视频| 午夜一区二区三区| 中文字幕资源站| 老司国产精品视频| 国产呦精品一区二区三区网站| 在线精品视频成人网| 亚洲中文久久精品无玛| 91在线精品麻豆欧美在线| 亚洲中文久久精品无玛| 亚洲男人的天堂网| 天天躁日日躁狠狠躁中文字幕| 成人国内精品久久久久影院| 无码精油按摩潮喷在线播放| 乱人伦99久久| 国产高清国内精品福利| jizz在线免费播放| 国产午夜无码专区喷水| 尤物亚洲最大AV无码网站| 免费观看成人久久网免费观看| 美女被操91视频| 毛片基地美国正在播放亚洲 | 亚洲三级成人| 在线免费观看a视频| 美女视频黄频a免费高清不卡| 日本道中文字幕久久一区| 18禁影院亚洲专区| 日韩在线播放欧美字幕| 狠狠躁天天躁夜夜躁婷婷| 亚洲无码在线午夜电影| 国产精品人人做人人爽人人添| 熟女视频91| 国内精品久久九九国产精品| 国产黄在线观看| 色男人的天堂久久综合| 国产黄色免费看| 91探花在线观看国产最新| www.国产福利| 伊人久久精品亚洲午夜| 国产精品一区二区在线播放| 国产经典三级在线| 国产经典免费播放视频| 久久久受www免费人成| 国产精品成人啪精品视频| 国产亚洲精品yxsp| 精品欧美一区二区三区久久久| 不卡色老大久久综合网| 无码视频国产精品一区二区| 国产精品流白浆在线观看| 毛片在线播放网址| 久久一本精品久久久ー99| 精品国产一区二区三区在线观看| 国产AV无码专区亚洲A∨毛片| 亚洲狼网站狼狼鲁亚洲下载| 亚洲男人在线|