彭玉芳 陳將浩 何志強




























摘 要:[目的/意義]本文嘗試從文獻載體到文獻內容(全文檢索)再到數據層面的細粒度的南海證據性數據抽取。首先,能提高南海文獻數字資源的檢索性能;其次,為專業人員提供充足的證據材料;最后,為南海維權的證據鏈關聯模型構建做好基礎。[方法/過程]根據南海維權證據的特點,制定抽取規則。通過文本清洗、文本分段、段分句、分詞把非結構化的數據轉化成結構化數據。然后分別比較樸素貝葉斯、SVM、隨機森林、DNN、TexCNN、Bi-LSTM、LightGBM和XGBoost的證據性數據抽取效果。最后為了進一步提高證據抽取的準確性,增加了“5W”規則過濾和人工校驗。[結果/結論]實驗結果表明,基于TensorFlow深度學習框架,構建DNN模型的證據性數據抽取效果較好,準確率達0.88。通過進一步融合“5W”規則過濾和人工校驗,顯著地提高了南海證據性數據抽取的準確率,本文的證據抽取的方法具有一定的可行性。
關鍵詞:證據性數據抽取;TensorFlow;機器學習算法;深度學習算法;“5W”規則
DOI:10.3969/j.issn.1008-0821.2022.02.006
〔中圖分類號〕G255 〔文獻標識碼〕A 〔文章編號〕1008-0821(2022)02-0055-15
Comparison and Application of South China Sea Evidence Data Extraction
Algorithms Based on the Machine Learning and the Deep Learning
Peng Yufang1,2 Chen Jianghao3 He Zhiqiang4
(1.School of Economics & Management,Nanjing Institute of Technology,Nanjing 211167,China;
2.Department of Information Management,Nanjing University,Nanjing 210046,China;
3.School of Mathematical Sciences,University of Science and Technology of China,Hefei 230026,China;
4.Suzhou Research Institute,University of Science and Technology of China,Suzhou 215123,China)
Abstract:[Purpose/Significance]The study attempts to extract the fine-grained evidence data of the South China Sea from the document carrier to the document content(full-text search)to the data level.Firstly,it can improve the retrieval performance of the digital resources of the South China Sea literature;secondly,it provides sufficient evidence materials for professionals;and finally,it provides a foundation for the construction of the evidence chain association model of the South China Sea rights protection.[Method/Process]According to the characteristics of the South China Sea rights protection evidence,the extraction rules were formulated.Unstructured data were transformed into structured data through text cleaning,text segmentation,paragraph segmentation,and word segmentation.Then the evidence data extraction effects of Naive Bayes,SVM,Random Forest,DNN,TextCNN,Bi-LSTM,LightGBM and XGBoost were compared respectively.Finally,in order to further improve the accuracy of evidence extraction,“5W”rule filtering and manual verification were added.[Result/Conclusion]The experimental results showed that based on the TensorFlow deep learning framework,the evidence data extraction effect of the DNN model was better,and the accuracy rate was 0.88.Through further integration of“5W”rule filtering and manual verification,the accuracy of evidence extraction was significantly improved.The method of evidence extraction from? the South China Sea literature in this article has certain feasibility.
Key words:evidence data extraction;TensorFlow;machine learning algorithm;deep learning algorithm;“5W”rule
自西漢時期,中國人就已經發現了今天的南沙群島。時至今日,沒有一個國家在南海留下如此多的中國文化烙印,也沒有哪一國政府像中國那樣雖歷經改朝換代,卻始終如一地在官史記載中留下大量主權行使的記錄。隨著近幾年南海問題國際化和司法化愈演愈烈,為了爭取更多的國際話語權,維護中國在南海的海洋權益和領土主權完整,首先需要從大量的證據材料中抽取證據,為證據鏈的構建做好充分的準備。南海證據,指所有能夠證明南海領土主權歸屬事實的材料。南海證據需同時包含時間、地點、人物、機構和事件,除了證據本身以外,還包含一些比較重要的證據描述。
越來越多的學者開始投身南海證據的研究,但目前無論從南海文庫數字資源中還是從實體證據材料中尋找南海證據,大多局限于證據材料的載體形式,難以直接深入證據材料的內容或數據層面,因而孤證較多,難以構成反映歷史全貌的證據體系。關于證據抽取方法,陶鵬通過命名實體識別和神經網絡模型對司法領域的庭審記錄文書進行證據信息抽取[1],張力元等通過LS-SVM對生物證據句子抽取[2],丁志遠提出了基于混合模型和邊界的判決文書與案件卷宗的證據抽取方法[3],而領域性的南海證據抽取的研究方法甚少,目前主要依靠人工實現。例如,20世紀70年代起,我國學者就開始從歷史和法律結合的角度提供了無可辯駁的證據。從1979年,林金枝教授開始從史料角度論述南海領土主權歸屬[4],到2011年余敏友等,結合國際法來論述南海領土主權歸屬[5],尤其是2015年至今,國內有學者從法理依據和歷史依據相結合來論述南海領土主權的歸屬[6],張衛彬教授對南沙群島主權證據的梳理[7]和黃巖島主權的證據梳理[8],許盤清等教授亦從地圖視角詳細論述南海主權的證據[9]。
綜上所述,目前基于歷史依據和法律依據,從文獻載體到文獻內容(全文檢索)再到數據層面的細粒度的南海證據抽取還處于空白。本文通過選擇常用的機器學習算法和深度學習算法,構建南海證據性數據抽取模型,并分別比較證據性數據抽取的效果。最后融合“5W”規則過濾和人工校驗進一步提高證據抽取的準確率。但這里需要注意:通過機器學習或深度學習抽取的數據,不能完全稱為證據,只能叫證據性數據。證據性數據有的是證據,有的不屬于證據,只有通過證據價值判斷和人工甄別才可能稱為證據。本文不做從證據學視角的證據研究,即不做證據價值判斷。由于抽取出來的證據性數據有一部分是屬于一手資料的證據,還有一部分屬于二手資料的證據性描述(帶有作者觀點的證據性數據)是有一定價值,可以作為證明案件的線索,所以沒有刪除,為了統一名詞,將這兩種證據性數據都統一命名為證據(后期將展開證據研究)。
1 相關研究
本文南海證據抽取,屬于細粒度的信息抽取。信息抽取指從自然語言文本中抽取指定類型的實體、關系、事件等事實信息,并形成結構化數據輸出的文本處理技術[10]。目前信息抽取依然是自然語言處理的研究熱點和重點。
國內外信息抽取研究現狀。本文從CNKI數據庫,通過主題精確檢索“信息抽取”,采集2011—2021年的國內信息抽取研究數據,最終獲得有效數據2 968條。通過jieba[11]對摘要數據部分進行分詞,然后應用LDA主題模型[12]分析國內信息抽取的研究主題。從Web of Science核心合集,主題檢索“Information Extraction”,時間跨度:2011—2021,文獻類型:ARTICLE,發現有88 246條,數據量比較大,此時修改檢索策略。從Web of Science核心合集,標題檢索“Information Extraction”,時間跨度:2011—2021,最終獲得有效數據1 959條。通過Nltk[13]對摘要數據部分進行分詞,同樣應用LDA主題模型分析國外信息抽取的研究主題。
通過LDA模型,比較分析國內外信息抽取的研究主題,具體如表1所示。由此可見,目前國內外信息抽取主要集中在信息技術及命名實體識別中,而且領域性的信息抽取也逐漸增多,例如醫療領域、圖像等的信息抽取。
為了更直觀地看到國內外信息抽取的研究主題,通過Python生成詞云圖[14],具體如圖1和圖2所示。
綜上所述,目前國內外信息抽取的研究主要集中在信息抽取技術、命名實體識別以及領域性的應用研究。①信息抽取技術。信息抽取的主要任務包括命名實體識別、實體消歧、關系抽取、事件抽取等,但無論哪種任務信息抽取的方法都大同小異。李嘉欣等[15]的命名實體識別方法綜述。信息抽取的方法主要可分為以下幾種:基于詞典和規則的方法;基于統計機器學習的方法,例如隱馬爾可夫模型(HMM)、最大熵、支持向量機(SVM)、條件隨機場(CRF)、貝葉斯方法、決策樹、隨機森林等;基于深度學習的方法:循環神經網絡(LSTM)、用雙向長短期記憶模型和條件隨機場(BILSTM-CRF)、BILSTM-CNNs-CRF、卷積神經網絡(CNN)、遞歸神經網絡(RNN)、BERT、GRU、ELMo、GPT等,每種算法都有其優缺點,沒有最好的算法,只有最適合的算法;②信息抽取的領域性應用,主要集中在醫療健康領域、圖像的信息抽取。證據抽取屬于信息抽取的一部分,但目前證據抽取的研究甚少。例如,陶鵬基于聯合模型的庭審記錄證據信息抽取[16];張力元等應用LS-SVM與條件隨機場結合的生物證據句子抽取[17];歐陽輝等基于證據理論的論文元數據抽取[18];楊健等基于邊界識別與組合的裁判文書證據抽取方法研究[19];Kamarainen J K等基于簡單的Gabor特征及其統計排名的對象證據抽取[20];Nishida K等通過多跳問答的多任務學習的證據抽取[21]等,以上已經初步實現自動化或半自動化的證據抽取。關于南海證據抽取,現階段主要為人工抽取,例如,張朔人等的《更路簿》民間的南海證據[22];康丹關于南海島礁主權歸屬證據研究[23];黃盛璋關于南海諸島的歷史證據[24];張衛彬的中國擁有釣魚島[25]、南沙主權的證據[26]等。因此,本文應用常用的機器學習算法和深度學習算法構建南海證據性數據抽取模型,并比較模型的證據抽取效果,然后結合“5W”規則過濾和人工校驗,初步實現南海證據的半自動化抽取。
2 相關理論與方法
2.1 機器學習算法
Tom Mitchell,認為機器學習就是指計算機通過自身經驗改善系統性能的行為[27]。簡言之,機器學習指計算機通過算法學習數據中隱藏的規律和信息,從而獲得新的經驗和知識,便于計算機處理類似任務時候,能夠像人一樣思考與決策[28]。機器學習的算法眾多,包括樸素貝葉斯(Nave Bayesian)、決策樹、隨機森林、K-Means、AdaBoost、SVM等[29]。
本文選用了機器學習領域經典算法:樸素貝葉斯、SVM、隨機森林,以及常用的集成學習方法:LightGBM和XGBoost,重點描述樸素貝葉斯、LightGBM和XGBoost。
1)樸素貝葉斯(NB)算法是國內外常用統計分類算法,由于其較高的穩定性和簡潔的模型的特點,在文本分類領域占有重要的地位。潘忠英[30]對樸素貝葉斯做了詳細闡述。貝葉斯理論[31]作為概率論理論,即利用已知樣本數據的先驗知識,通過計算未知分類樣本的后驗概率,從而選擇后驗概率值最大的那一類[32]。
本文首先人工標注南海證據,標簽Tag=1,即為“南海證據”,Tag=0,為非“南海證據”。設D為證據材料集,D={d1,d2,…,dn},對應的每份證據材料抽取的數據集為X={x1,x2,…,xd},標簽數據T={t1,t2}={1,0},即D中的Xi可以分為T的類別。其中X中的每個元素都是相互獨立且隨機。則T的先驗概率Pprior=P(T),T的后驗概率Ppost=(T|X),由樸素貝葉斯算法可得:
P(T|X)=P(T)P(X|T)P(X)(1)
樸素貝葉斯基于Xi之間相互獨立,在給定類別為T的情況下,式(1)進一步表示為:
P(X|T=tm)=∏di=1P(xi|T=tm) (m=1,2)(2)
由式(1)和式(2)計算出后驗概率為:
Ppost=P(T|X)=P(T)∏di=1P(xi|T)P(X)(3)
最終得到X數據集中類別屬于Tm(m=1,2)的樸素貝葉斯計算:
P(tm|x1,x2,…,xd)=P(tm)∏dj=1P(xj|tm)∏dj=1P(xj) (m=1,2)(4)
2)LightGBM
集成學習(Ensemble learning),比傳統的機器學習算法具有較高的泛化能力,愈加備受青睞[33]。2016年底,Ke G L等[34]提出LightGBM(Light Gradient Bosting Machine),是微軟提出的一種基于決策樹的梯度提升框架,具有高精度、高并發、占用內存小等優點。LightGBM是GBDT的一種,包括兩個最主要的創新:GOSS和EFB。
3)XGBoost算法[35]
極限梯度提升樹(Extreme Gradient Boosting,XGBoost)算法是Boosting集成算法的一種。由Chen T和Guestrin C在2011年初步提出,這是一種基于GTB的學習框架。XGBoost的拓展性十分強,靈活性也相對較強、精度高。XGBoost通常以決策樹為基學習器,新生成的樹不斷學習當前樹預測值與真實值之間的殘差,最終將多棵樹的學習結果累加作為預測結果。目標函數由損失函數和樹模型復雜度兩部分組成,即:obj=∑ni=1l(yi,i)+∑kk=1θ(fk)。
2.2 深度學習算法
深度學習(Deep Learning,DL)是從已標注分類的實驗數據學習類似人腦處理信息的神經結構,實現實驗數據的自動分類的過程[36]。它是機器學習領域的一個最新發展[37]。深度學習網絡內部應用了激活函數、損失函數、神經單元誤差反向傳播法、梯度下降法等多種數學工具,具備嚴謹的科學性。通過不斷地計算數據和損失,得到可以用于預測或分類的神經網絡模型[38]。目前基于深度學習的信息抽取方法主要包括DNN、LSTM、CNN、RNN,及其他們的擴展,包括Bi-LSTM,Bi-LSTM-CNN,CNN+Attention等[39]。本文就選擇了文本分類中較常用的深度學習算法DNN、TextCNN和Bi-LSTM。
1)深度神經網絡(DNN)
目前,深度學習算法大多是基于DNN,它分為輸入層、輸出層和隱藏層,網絡的每一層都由許多神經元組成,層與層間采用全連接結構[40]。本文的深度神經網絡是由一層輸入層、兩層隱藏層以及一層輸出層組成,并且經過多次試驗,隱藏層64、隱藏層16可獲得最佳性能,具體如圖3所示。
深度神經網絡,層與層之間的數據傳輸通過神經網絡的最小單元——神經元來計算,具體如圖4所示。z表示將輸入線性加權,權重是需要學習的參數,表示激活函數(常用的激活函數有sigmoid函數、tanh函數、relu函數)。激活函數的引入,使得深度學習具有解決非線性問題的能力,使模型的假設空間從線性擴展到非線性,大大提高了模型的表達能力。
z=∑(wixi+bi)
y=σ(z)=σ∑(wixi+bi)
2)卷積神經網絡(CNN)
卷積神經網絡,是一種深度學習模型或類似于人工神經網絡的多層感知器,為了提高一般前向向后傳播算法的訓練性能,CNN通過不斷迭代訓練多層網絡結構,并利用空間關系減少需要學習的參數數目[42]。
典型的CNN主要由輸入層、卷積層、池化層、全連接層和輸出層組成,具體如圖5所示[43]。其中CNN的基本結構包括兩種特殊的神經元層:①卷積層,每個神經元的輸入與前一層的局部相連,并提取該局部的特征;②池化層,用來求局部敏感性與二次特征提取的計算層。這種兩次特征提取結構減小了特征分辨率,減少了需要優化的參數數目[44-45]。卷積神經網絡在訓練過程中,通常采用梯度下降方法進行優化模型。
Kim Y在2014年首次提出運用卷積神經網絡進行文本分類,即TextCNN。TextCNN輸入層的形式是一個句子中的單詞以及單詞對應的詞向量形成的n*k矩陣,其中n為句子的單詞數,k為詞向量維度。本文TextCNN分別使用步長為3、4和5的一維卷積層處理文本數據[46]。
3)長短期記憶網絡(LSTM)
長短期記憶網絡(Long-Short Time Memory,LSTM)作為目前最有效的序列模型,對傳統RNN模型的梯度消失問題的改進,增加了一個判斷數據保留還是遺忘的細胞結構cell[47]。LSTM主要由三大門限單元構成,分別是遺忘門、輸入門和輸出門,具體如圖6所示[48]。
首先,遺忘門,LSTM處理時序數據時,是從左邊向右邊處理,因此大量的信息在輸入時,需要決定哪些信息是保留的,哪些信息是需要舍棄的。在遺忘門里有一個開關控制,即圖中ft。控制函數為:
f(t)=σ(wf[h(t-1),xt]+bf)(5)
其中wf、bf分別為遺忘門的權重和偏置。
其次,輸入門,前文的信息經過選擇輸入到輸入門中,在這一層的任務是決定哪些信息需要更新,以及更新多少:
it=σ(wi[h(t-1),xt]+bi)(6)
ct=σ(wc[h(t-1),xt]+bc)(7)
Ct=it*ct+f(t)*Ct-1(8)
其中wi和wc代表相應的權重,bi以及bc代表相應的偏置,Ct表示當前的單元狀態值。
最后,輸出門,經過前兩道門的篩選完成后,最后經過輸出門,決定哪些信息是需要輸出的,輸出門內有控制輸出的開關:
σt=σ(wo[h(t-1),xt]+bo)(9)
ht=ot*tanh-1(ct)(10)
其中wo和bo代表輸出門的權重和偏置,ht為當前單元的輸出值。
本文使用Bi-LSTM(Bidirectional Long ShortTerm Memory,BLSTM)在LSTM的基礎上,分別用前向和后向的LSTM來抓取過去和將來所含的隱藏信息,這兩部分的信息組成最終的輸出[49]。
3 數據預處理及數據標注
3.1 文本清洗
南海文庫數字資源由沈固朝團隊構建,是南海問題證據鏈工程和話語權工程的重要內容。本文從中下載409篇PDF格式的南海證據材料,并通過Python程序轉化成TXT格式。證據材料資源類型主要包括期刊和學位論文,含有少量的報紙、地圖、檔案。為了提高實驗的準確性,這時候需要對TXT的證據材料做進一步清洗,主要包括以下幾個方面:①去掉除中文詞、英文字母、數字,以及某些特定標點符號以外的特殊符號;②去掉文章中多余的空格、空行;③英文字母統一轉為小寫。文本清洗之后,再進行文本分段、段分句,獲得處理對象的最小單位“句子”,即一句話或一段文字。
3.2 文本分詞
通過對文本中的句子進行分詞,便于后期做抽取工作,也有利于對證據材料做進一步的數據挖掘。目前分詞工具眾多,例如jieba、thulac、pkuseg、hanlp、ltp等,鑒于分詞的準確性及運行時效,最終選擇jieba分詞作為本文的分詞工具,其采用比較流行的分詞算法隱馬爾可夫鏈(HMM)。本文研究南海證據,屬于領域性的主題,現有的分詞字典可能不包含南海領域詞匯,因此本研究增加了6 418個南海專業領域詞。
3.3 文本預處理結果
通過以上文本清洗、文本分段、段分句,獲得處理對象的最小單位——中文概念中的句子,然后對句子進行分析,將非結構的txt文本轉化成結構化的數據,每一行都表示文本中的完整的一個句子,具體如表2所示。
3.4 實驗數據標注
南海證據的抽取屬于二分類問題。由于不同學科不同研究領域的專家對南海證據的鑒定及證據價值的評價容易產生分歧,很難統一,因此從定性或定量的角度來評判南海證據是非常困難的。本文不從證據法視角來研究南海證據,其研究目標之一是為相關專家提供南海證據材料,不做南海證據的研究。人工標注南海證據的依據是證據的五大基本屬性“時間、地點、人物、機構和事件”。然后通過機器學習、深度學習算法,自動學習證據性數據抽取模型,找出證據性數據抽取效果比較好的模型,并應用到具體證據材料中。由于機器學習和深度學習并不能百分百精確完成證據抽取任務,因此增加了“5W”規則過濾,以及最終的人工校驗。通過以上才能初步完成南海證據的抽取。
本文從409篇證據材料中隨機抽取81篇,然后每篇隨機抽取10~20條句子作為南海證據,進行人工標注,標注的依據是“凡是能證明南海領土主權歸屬事實的材料,同時包含時間、地點、人物、機構和事件”。由于作者自2014年至今都從事南海證據鏈研究,所以標注的效果相對比較好一些。“Tag=1”是“南海證據”,“Tag=0”屬于非“南海證據”。最終從81篇證據材料中抽取1 529條數據,其中“Tag=1”的“南海證據”有641條,“Tag=0”的非“南海證據”有888條,具體如表3所示。然后對1 529條實驗樣本按比例進行分配。訓練集和驗證集共計占80%,用來訓練模型,驗證集的作用是為了模型調優,防止過擬合。測試集是將模型訓練和預測過程隔離,防止信息泄露。模型是否成功,主要看其在測試集上的效果。這樣得到訓練集樣本容量980;驗證集樣本容量244;測試集樣本容量305。本文應用機器學習和深度學習的證據抽取的實驗樣本分布參考此處。
4 南海證據性數據抽取模型構建
本文分別基于樸素貝葉斯、SVM、隨機森林、DNN、CNN、LSTM、LightGBM和XGBoost構建南海維權的證據性數據抽取模型,并比較這些模型的證據性數據抽取效果。
4.1 基于樸素貝葉斯的南海證據性數據抽取
4.1.1 文本向量化
輸入上文已經分好詞的文本,使用BOW和N-gram將文本向量化。根據訓練樣本,將單詞進行one-hot編碼,計算出的詞匯量大小為V,則每個單詞獲得一個唯一的向量,長度為V。除了單詞所在的位置為1,其他位置均為0:
wordi=(0,…,1,…,0)
單詞向量化以后,再將單詞所構成的句子進行向量化。S表示一個待分類的句子。將S中的單詞計數,獲得S的單詞和對應的數量(即詞袋)。S中的單詞集合表示為{word1:n1,…,words:ns},S中的單詞的位置上,放置這個單詞的個數,未出現的單詞為0,此時文本向量化完成,即S的向量表示為:
S=(n1,…,ns,0,…,0)
4.1.2 模型訓練
樸素貝葉斯模型的實驗數據表示為(文本向量,標簽)。前文抽取的1 529條數據,按8∶2的比例分為訓練集和測試集,然后放入樸素貝葉斯分類模型,學習出樸素貝葉斯分類器。實驗數據集如表4所示。
通過混淆矩陣分析基于樸素貝葉斯分類器的南海證據性數據抽取結果,測試集上的混淆矩陣如表5所示。
從混淆矩陣可得基于樸素貝葉斯分類器的南海證據性數據抽取效果,計算準確率(Accuracy)、精確率(Precision,查準率)及召回率(Recall,查全率)。本文定義:TP為“南海證據”被判斷為“南海證據”的數量,TN“南海證據”被判斷為非“南海證據”的數量,FP為非“南海證據”被判斷為“南海證據”的數量,FN為“南海證據”被判斷為非“南海證據”的數量。于是得TP=100,TN=131,FP=31,FN=44,根據以下公式得:
Accuracy=(TP+TN)/(TP+TN+FP+FN)(11)
Precision=TP/(TP+FP)(12)
Recall=TP/(TP+FN)(13)
F1=2PR/(P+R)(14)
最終基于樸素貝葉斯的南海證據抽取效果為:Accuracy=0.75,Precision=0.76,Recall=0.69,F1=0.72。
4.2 基于DNN的南海證據性數據抽取
本文的深度學習方法,主要使用目前主流的TensorFlow深度學習框架。薛先貴等[19]對TensorFlow深度學習框架做了詳細的闡述,它是最流行的,且相對完善的深度學習庫之一,可以比較方便快捷地設計神經網絡結構。
4.2.1 文本向量化
與樸素貝葉斯的文本向量化相似,仍然使用BOW和N-gram將文本向量化,包括詞級別的向量化(Word Level Vectorize)和字級別的向量化(Character Level Vectorize)。
4.2.2 模型訓練
深度學習的實驗數據仍表示為(文本向量,標簽數據)。與樸素貝葉斯模型的實驗數據區別在于,此模型將準備好1 529條數據分成3塊:訓練集樣本、驗證集樣本和測試集樣本。其中訓練集(Training Data)和驗證集(Validation Data)的容量占總數的80%。Validation Data是用來避免過擬合,在訓練過程中,通常用Validation Data來確定一些超參數。最終實驗數據集分布如表6所示。
DNN模型中的層數、每一層中的神經元個數屬于超參數,這個在模型訓練中需要人工進行模型調參。經過多次試驗,隱藏層64、隱藏層16可獲得最佳性能。同時為了防止模型過擬合,給深度學習網絡增加Dropout和L2正則化(Regularization)。經過交叉驗證,隱含節點Dropout率等于0.5的時候效果最好,其隨機生成的網絡結構最多,通過以上超參數的設置,使得“目標數據”抽取模型達到最優,具體如表7所示。
由于南海證據性數據抽取屬于二分類問題,本文選用交叉熵作為損失函數(Loss),優化器選擇改進的隨機梯度下降法,RMSprop[50]。將數據分Batch,Batch_size=64,通過每一次模型輪循計算驗證集上的損失率和準確率,最終可見輪循到第8次以后,驗證集上的Loss不再下降,驗證集上的準確率不再提升,再往后模型則開始過擬合。因此,模型的輪循次數為8時,模型達到最優,具體如圖7、圖8所示。
通過混淆矩陣分析基于DNN南海證據性數據抽取結果,混淆矩陣如表8所示。
最終基于DNN的南海證據性數據抽取效果為,正確率是0.88,精確率是0.90,召回率是0.82,F1值是0.86。
4.3 基于TextCNN的南海證據性數據抽取
TextCNN是利用卷積神經網絡對文本進行分類的算法,模型的實驗數據的樣本分布與DNN相同。首先通過一個Embedding層,相當于臨時進行了詞向量的計算,把原始的詞序列轉換成了指定維數的詞向量序列,嵌入成為100維度的向量,然后使用一個核數為50,分別使用大小為3、4和5的一維卷積處理文本數據。基于TextCNN的證據性數據抽取模型結構,如圖9所示,并且通過以下超參數的設置,使得南海維權的證據性數據抽取模型達到最優,具體如表9所示。
由于南海證據抽取屬于二分類問題,TextCNN模型的卷積層的激活函數選擇Relu,輸出層的激活函數選擇Softmax,優化器選擇Adam,Batch_size=128。通過每一次模型輪循計算驗證集上的損失率和準確率,最終可見輪循到第50次以后,驗證集上的Loss不再下降,驗證集上的準確率不再提升,再往后模型開始過擬合。因此,模型的輪循次數為50時,模型達到最優,具體如圖10所示。
通過混淆矩陣分析基于TextCNN的數據抽取效果,混淆矩陣如表10所示。
最終基于TextCNN的南海證據性數據抽取效果為,正確率是0.87,精確率是0.87,召回率是0.87,F1是0.87。
4.4 基于Bi-LSTM的南海證據性數據抽取
模型的實驗數據的樣本分布與DNN相同。基于Bi-LSTM的證據性數據抽取模型結構,如圖11所示,并且通過以下超參數的設置,使得南海維權的證據性數據抽取模型達到最優,具體如表11所示。
由于南海證據抽取屬于二分類問題,Bi-LSTM模型的卷積層的激活函數選擇Relu,輸出層的激活函數選擇Softmax,優化器選擇Adam,Batch_size =128,通過每一次模型輪循計算驗證集上的損失率和準確率,最終可見輪循到第80次以后,驗證集上的Loss不再下降,驗證集上的準確率不再提升,再往后模型開始過擬合。因此,模型的輪循次數為80時,模型達到最優,具體如圖12所示。
通過混淆矩陣分析基于Bi-LSTM的南海證據性數據抽取效果,混淆矩陣如表12所示。
最終基于Bi-LSTM的南海證據性數據抽取效果為,正確率是0.83,精確率是0.85,召回率是0.83,F1是0.83。
4.5 基于SVM的南海證據性數據抽取
實驗樣本分布及文本預處理與上文相同。通過TF-IDF對1 529條數據構造詞袋特征。
通過混淆矩陣分析基于SVM的南海證據性數據抽取效果,混淆矩陣如表13所示。
最終基于SVM的南海證據性數據抽取效果為,正確率是0.71,精確率是0.74,召回率是0.71,F1是0.68。
4.6 基于隨機森林的南海證據性數據抽取
實驗樣本分布及文本預處理與上文相同。首先使用隨機森林模型默認的參數進行訓練模型,并在驗證集上顯示模型效果,結果如表14所示。
通過表14可以看到,模型在訓練集上表現良好,驗證上表現很差,表現出明顯的過擬合的現象。因此,對隨機森林的參數進行調整,將基分類器的個數從默認的100減少到70,此時驗證集的效果有所提升,最終驗證集的數據抽取效果為:正確率是0.71,精確率是0.71,召回率是0.71,F1值是0.69。
通過混淆矩陣分析基于隨機森林的南海證據性數據抽取效果,混淆矩陣如表15所示。
最終基于隨機森林的南海證據性數據抽取效果為,正確率是0.70,精確率是0.72,召回率是0.70,F1是0.68。
4.7 基于LightGBM的南海證據性數據抽取
實驗樣本分布及文本預處理與上文相同。首先使用LightGBM模型默認的參數進行訓練模型,并在驗證集上顯示模型效果,結果如表16所示。
通過表16可以看到,模型在訓練集上表現良好,驗證上表現很差,表現出明顯的過擬合的現象。因此,加入L1、L2正則項,驗證集上得到了提升,最終驗證集的數據抽取效果為:正確率是0.72,精確率是0.72,召回率是0.72,F1值是0.72。
通過混淆矩陣分析基于LightGBM的南海證據性數據抽取效果,混淆矩陣如表17所示。
最終基于LightGBM的南海證據性數據抽取效果為,正確率是0.66,精確率是0.66,召回率是0.66,F1是0.66。
4.8 基于XGBoost的南海證據性數據抽取
實驗樣本分布及文本預處理與上文相同。通過混淆矩陣分析基于XGBoost的南海證據性數據抽取效果,混淆矩陣如表18所示。
最終基于XGBoost的南海證據性數據抽取效果為,正確率是0.69,精確率是0.69,召回率是0.69,F1是0.68。
4.9 南海證據性數據抽取模型的比較
通過上文的基于機器學習和深度學習的南海證據性數據抽取模型應用,比較模型的證據性數據抽取效果,具體如表19所示。
為了更直觀地顯示模型的證據性數據抽取效果,具體如圖13所示。最終DNN的南海證據性數據抽取效果最好,準確率和精確率是最高的,分別是0.88和0.90。
5 南海證據性數據抽取模型的應用與優化
5.1 基于DNN的證據性數據抽取
本文最終選擇基于DNN的南海證據性數據抽取模型。通過DNN南海證據性數據抽取模型,從南海文庫采集的409篇證據材料抽取具體的證據,最終從98 809個句子中,抽取到31 826條句子屬于南海證據性數據,具體如表20所示。
由于模型的準確率是0.88,抽取的31 826條證據中還存在一些非證據。而且證據性數據只有通過證據價值判斷和人工甄別才可能成為證據,但本文不從證據學視角研究證據,為了能夠使證據性數據結果轉化為證據,本文制定了證據性數據過濾規則和最終的人工判斷,進一步提高證據抽取的準確率。
5.2 基于“5W”規則過濾
根據證據的固有屬性,構建證據鏈的過濾規則,即證據需同時滿足“5W”規則:時間(when)、地點(where)、人物(who1)、機構(who2)、事件(what)。論文使用哈工大的語言平臺采用深度學習方式的LTP提供的NER接口進行實體識別,獲得證據屬性,其中what是選擇LTP抽取的證據的動詞或動名詞。
需要注意的是,盡管證據中的“What”作為證據的事件,被界定為能表達證據內容行為詞,可以是動詞或動名詞。但在證據的規則過濾時,為了提高證據過濾的準確性,本研究使用TF-IDF計算每條證據排名前5的關鍵詞也加入“What”中。最終通過“5W”規則過濾,結合人工校驗,從409篇證據材料中,抽取有效的證據21 174條,部分南海維權的證據及“5W”抽取結果如表21所示。(注:經過“5W”規則過濾和人工判斷,依然有小部分證據性數據帶有作者的個人感情色彩,但考慮其在證據鏈中可能的重要性,就沒有過濾,最終作為證據呈現。)
6 結論與展望
本文分別基于機器學習和深度學習的經典算法構建南海證據性數據抽取模型,經過比較分析,基于DNN的南海證據性數據抽取模型效果最好,正確率達0.88,精確率達0.90。但人工智能的方法并不是完美的,為了進一步提高證據抽取的效果,本文融合了“5W”規則過濾及人工判定,顯著地提高證據抽取的準確率。南海證據的抽取是一個艱難的任務,本文只是初探,后期將進一步通過語義分析及融合其他算法進一步實現南海證據的自動抽取。為南海文庫數字資源的檢索提供支持,為專業人員提供充足的證據材料做好準備,也為后續南海維權的證據鏈關聯模型構建做好基礎。
參考文獻
[1]陶鵬.基于聯合模型的庭審記錄證據信息抽取研究[D].武漢:武漢大學,2020.
[2]張力元,姬東鴻.LS-SVM與條件隨機場結合的生物證據句子抽取[J].計算機工程,2015,41(5):207-212.
[3]丁志遠.基于證據匹配的案件質量評估方法設計與實現[D].貴陽:貴州大學,2019.
[4]林金枝.西沙群島主權屬我的國外歷史證據[J].南洋問題研究,1979,(5):79-93.
[5]余敏友,雷筱璐.南海諸島爭端國際仲裁的可能性——國際法分析[J].武漢大學學報:哲學社會科學版,2011,64(1):5-11.
[6]談中正,王婷婷.“南海維權:歷史與法理斗爭研討會”綜述[J].亞太安全與海洋研究,2015,(5):119-124.
[7]張衛彬.中國擁有南沙群島主權證據鏈的構造[J].社會科學,2019,(9):85-96.
[8]王璇.我國擁有黃巖島主權的地圖證據證明力研究[D]. 合肥:安徽財經大學,2017.
[9]許盤清,沈固朝.菲律賓地圖展覽中的“北島”地理位置與地名沿革考[J].亞太安全與海洋研究,2016,(4):102-112,126.
[10]Grishman R.Information Extraction:Techniques and Challenges[M].Information Extraction a Multidisciplinary Approach to an Emerging Information Technology.Springer Berlin Heidelberg,1997:10-27.
[11]石鳳貴.基于jieba中文分詞的中文文本語料預處理模塊實現[J].電腦知識與技術,2020,16(14):248-251,257.
[12]鄒曉輝,孫靜.LDA主題模型[J].智能計算機與應用,2014,4(5):105-106.
[13]李晨,劉衛國.基于NLTK的中文文本內容抽取方法[J].計算機系統應用,2019,28(1):275-278.
[14]宋海霞.用Python生成詞云圖[J].少年電腦世界,2019,(9):4-8.
[15]李嘉欣,王平.中文命名實體識別研究方法綜述[J].計算機時代,2021,(4):18-21.
[16]陶鵬.基于聯合模型的庭審記錄證據信息抽取研究[D].武漢:武漢大學,2020.
[17]張力元,姬東鴻.LS-SVM與條件隨機場結合的生物證據句子抽取[J].計算機工程,2015,41(5):207-212.
[18]歐陽輝,祿樂濱.基于證據理論的論文元數據抽取算法研究[J].電子設計工程,2010,18(4):66-69.
[19]楊健,黃瑞章,丁志遠,等.基于邊界識別與組合的裁判文書證據抽取方法研究[J].中文信息學報,2020,34(3):80-87.
[20]Kamarainen J K,Ilonen J,Paalanen P,et al.Object Evidence Extraction Using Simple Gabor Features and Statistical Ranking[C]//Scandinavian Conference on Image Analysis.Springer-Verlag,2005.
[21]Nishida K,Nagata M,Otsuka A,et al.Answering while Summarizing:Multi-task Learning for Multi-hop QA with Evidence Extraction[C]//Meeting of the Association for Computational Linguistics,2019.
[22]張朔人,張若城.南海維權的民間證據——《更路簿》內涵與面世抄本研究[J].云南師范大學學報:哲學社會科學版,2018,50(4):26-35.
[23]康丹.南海島礁主權歸屬證據研究初論[D].武漢:武漢大學,2013.
[24]黃盛璋.南海諸島歷來是中國領土的歷史證據[J].東南文化,1996,(4):84-94.
[25]張衛彬.中國擁有釣魚島主權的證據鏈構造[J].政治與法律,2020,(2):90-100.
[26]張衛彬.中國擁有南沙群島主權證據鏈的構造[J].社會科學,2019,(9):85-96.
[27]趙彰.機器學習研究范式的哲學基礎及其可解釋性問題[D].上海:上海社會科學院,2018.
[28]張潤,王永濱.機器學習及其算法和發展研究[J].中國傳媒大學學報:自然科學版,2016,23(2):10-18,24.
[29]姜娜,楊海燕,顧慶傳,等.機器學習及其算法和發展分析[J].信息與電腦:理論版,2019,(1):83-84,87.
[30]潘忠英.樸素貝葉斯中文文本分類器的設計與實現[J].電腦編程技巧與維護,2021,(2):37-39,70.
[31]Cornfield J.Bayes Theorem[J].Revue De Linstitut International De Statistique,1967,35(1):34-49.
[32]王峻.基于屬性相關性分析的擴展樸素貝葉斯分類器[J].平頂山學院學報,2018,33(5):65-69.
[33]Dietterich T G.Machine Learning Research:Four Current Directions[J].AI Magazine,1997,18(4):97-136.
[34]Ke G L,Meng Q,Finley T,et al.LightGBM:A Highly Efficient Gradient Boosting Decision Tree[C]//Proceedings of the 30th International Conference on Neural Information Processing Systems.Red Hook:Curran Associates Inc.,2017:3146-3154.
[35]徐國天,沈耀童.基于XGBoost和LightGBM雙層模型的惡意軟件檢測方法[J].信息網絡安全,2020,20(12):54-63.
[36]尹寶才,王文通,王立春.深度學習研究綜述[J].北京工業大學學報,2015,41(1):48-59.
[37]張潤,王永濱.機器學習及其算法和發展研究[J].中國傳媒大學學報:自然科學版,2016,23(2):10-18,24.
[38]涌井良幸,涌井貞美.深度學習的數學[M].北京:人民郵電出版社,2020.
[39]鄂海紅,張文靜,肖思琪,等.深度學習實體關系抽取研究綜述[J].軟件學報,2019,30(6):1793-1818.
[40]趙志欣,戴文婷,陳鑫,等.基于深度神經網絡的正交頻分復用波形外輻射源雷達參考信號重構[J/OL].電子與信息學報:1-8[2021-07-09].http://kns.cnki.net/kcms/detail/11.4494.TN.20210702.0906.012.html.
[41]Jurafsky D.Speech and Language Processing:An Introduction to Natural Language Processing,Computational Linguistics,and Speech Recognition[M].北京:人民郵電出版社,2010.
[42]王晨琛,王業琳,葛中芹,等.基于卷積神經網絡的中國水墨畫風格提取[J].圖學學報,2017,38(5):754-759.
[43]陳鴻翔.基于卷積神經網絡的圖像語義分割[D].杭州:浙江大學,2016.
[44]李飛騰.卷積神經網絡及其應用[D].大連:大連理工大學,2014.
[45]吳瀟穎,李銳,吳勝昔.基于CNN與雙向LSTM的行為識別算法[J].計算機工程與設計,2020,41(2):361-366.
[46]史沛卓,陳凱天,鐘葉珂,等.基于TextCNN的中國古詩文分類方法研究[J].電子技術與軟件工程,2021,(10):190-192.
[47]張蕾,孫尚紅,王月.基于深度學習LSTM模型的匯率預測[J/OL].統計與決策,2021,37(13):158-162[2021-07-09].https://doi.org/10.13546/j.cnki.tjyjc.2021.13.037.
[48]周凌寒.基于LSTM和投資者情緒的股票行情預測研究[D].武漢:華中師范大學,2018.
[49]侯偉濤,姬東鴻.基于Bi-LSTM的醫療事件識別研究[J].計算機應用研究,2018,35(7):1974-1977.
[50]張天澤,李元香,項正龍,等.基于RMSprop的粒子群優化算法[J].計算機工程與設計,2021,42(3):642-648.
(責任編輯:孫國雷)
收稿日期:2021-05-26
基金項目:國家社會科學基金重大項目“南海疆文獻資料整理中的知識發現與維權證據鏈建構研究”(項目編號:19ZDA347);南京大學2015年度研究生創新工程“跨學科科研創新基金”項目“民國檔案文獻中的環中國南海文化電函與報道研究”(項目編號:2015CW04);江蘇省研究生培養創新工程項目“基于自動關聯技術的南海問題證據鏈研究”(項目編號:KYLX15_0025)。
作者簡介:彭玉芳(1987-),女,博士,研究方向:情報分析、安全情報、自然語言處理、信息組織與檢索。陳將浩(1989-),男,碩士研究生,研究方向:用戶畫像、文本分類、情感分析。何志強(1990-),男,碩士研究生,研究方向:數據挖掘,信息與網絡安全。