呂明琪,朱康鈞,陳鐵明
(浙江工業大學 計算機科學與技術學院,杭州 310023)
自2017年6月起,《中華人民共和國網絡安全法》(以下簡稱《網絡安全法》)正式實施.一方面,《網絡安全法》實施時間很短,而其復雜程度較高(《網絡安全法》的立法過程花費了14年來完成),導致普通大眾對其缺乏深入的了解.另一方面,《網絡安全法》與公眾的日常生活息息相關,普通大眾的網絡行為常常涉及到網絡安全問題.因此,一個能夠協助普通大眾判別自己的行為是否觸犯《網絡安全法》的違法行為識別系統顯得極為重要.
大多現有的違法行為識別系統基于信息檢索技術進行設計:給定案件描述文本,首先從中提取出關鍵詞,然后用這些關鍵詞在法律知識庫中檢索相關判例,并基于判例實現違法行為識別,進而支持智能研判、智能量刑等功能.例如,上海二中院應用人工智能輔助開庭審案[1],該智能輔助辦案系統會根據指令自動從案件卷宗中抓取關鍵證據進行顯示.江蘇省檢察官助手“小智”從基礎卷宗中提取出關鍵詞,再通過在后臺設定的規則進行檢索與篩查,最后將可能存在問題的案件推薦給檢察官重點監督[2].然而,現有的違法行為識別系統面臨以下兩個問題:
1)對現有判例數量要求大、質量要求高.
2)系統面向專業用戶,基于司法語言體系,難以適應普通大眾日常口語化的表達.
上述問題導致現有違法行為識別系統難以直接用于《網絡安全法》.原因在于:
1)《網絡安全法》實施時間較短,已文書化入檔的判例十分稀少,難以支撐需要大量數據的模型訓練.
2)《網絡安全法》很大程度上面向的是普通大眾,而普通大眾難以用司法語言體系與系統交互.例如:司法語言體系中提到的“非法出售違禁物品”,在普通大眾日常口語表達中可能是“出子彈閑魚付款”.
針對上述挑戰,本文提出了一種基于知識圖譜的網絡安全法違法行為識別系統.該系統的主要功能為:給定一段網絡安全案件描述文本,返回該案件所違反的《網絡安全法》中的條款.實現該系統的方法由知識圖譜構建、違法實體識別(違法實體包括違法事件實體和違法主體實體)、案件分類3個模塊組成.其中,知識圖譜構建模塊結合《網絡安全法》、網絡安全相關語料、以及專家知識,半自動化地構建網絡安全法知識圖譜.違法實體識別模塊提出了一種混合式的違法實體識別方法,利用網絡安全法知識圖譜從案件描述文本中識別出違法事件類型和違法主體類型.案件分類模塊采用文本分類模型得到案件違反的法律條款.之所以采用分類模型,是由于《網絡安全法》條款數量較少,分類模型可以更準確地定位到條款.下面給出一個實際案例,說明該系統如何識別違法行為:
“宿遷市某黨政機關開設的黨建網技術保護措施不足,導致遭黑客攻擊入侵,網站頁面跳轉為賭博網站,致使黨建網無法正常運行訪問而被迫關閉.警方在黑客攻擊入侵行為開展立案調查的同時,依法對該單位未履行網絡安全保護義務開展查處.”
在這個案件中,對違法事件的描述與司法語言體系差異較大.例如,違法事件“遭受黑客入侵”是口語化表達,對應《網絡安全法》中的“未防范計算機病毒和網絡攻擊”.違法主體“黨建網”對應《網絡安全法》中的“網絡運營者”.針對該案件,文本提出的系統首先基于網絡安全法知識圖譜,采用實體檢測、實體鏈接、實體分類等手段實現上述對應,然后使用文本分類模型對這一段案件描述進行分類,最終分入類別“未落實網絡安全等級保護制度,未履行網絡安全保護義務”.
人工智能結合法律領域的研究近年來發展迅速,目的基本在于增進司法判決的效率,或協助撰寫法律文件.主要研究犯罪主體識別、類案檢索、法律文本分類,以及罪名推斷等.
違法行為識別系統從面向專業人員的輔助工具到面向大眾的普法工具,經歷了很多變革.例如,Lame等人[3]針對法國的法律文件建立常用字表,利用TF-IDF(Term frequency-inverse document frequency)計算出的權重結合SVM(Support vector machine)對法律文本進行分類,以確定該法律文件所屬的法律子領域.Moens[4]研究了文本挖掘算法改善明確措辭在概念性法律文檔檢索方面的潛力.雖然主要目的仍是文本檢索與文本分類,但這時使用到的技術已跟違法行為識別系統十分接近了.Ashley等人[5]使用決策樹來對案件文本進行歸類,并通過將新的案件文本歸入已知類型的案例來預測新的案件的結果.Chen和Chi[6]使用警方的調查文件,通過分析調查文件與歷史案件的相似性來對案件進行類型識別.此時違法行為識別系統已初見雛形,但大多對文本的專業性有著很高的要求.
隨著深度學習的興起,LSTM-CRF、LSTM-CNN等網絡及其變體在文本領域大放異彩,同時也出現了很多強大的工具.比如ELMo[7]、GPT[8]、BERT[9]等.這些方法與工具的更新使得從法律文本中抽取實體與關系變得更可靠.Luo等人[10]采用案件事實與相關條款之間的關聯機制,通過分類預測罪名.Chalkidis等人[11]在大樣本多文本標簽的數據上使用BERT分類來預測罪名,并得到了較好的分類效果.但是,這些研究對數據量的要求很大,且仍然建立在專業語料的基礎上,公眾無法利用日常用語來在這些模型中完成檢索.
Chen等人[12]提出了將日常用語翻譯成法律術語的方式來協助公眾通過更自然的方式來檢索法律文件.另外,也有部分商業公司開發了一些比較初級的面向大眾的工具.如類案推薦平臺“包小黑”(1)https://pc-bxh.ai-indeed.com/ 包小黑法律助手、民法刑法罪名預測平臺“度小法”(2)https://duxiaofa.baidu.com/ 度小法罪名預測等.但是這些工作仍只能在刑法、民法等擁有大量案例的法律范圍內生效,其方法難以直接用于《網絡安全法》的違法行為識別任務.
給定一段案件描述文本,本文提出的系統的處理流程如圖1所示.

圖1 任務整體流程圖Fig.1 Overall flowchart
1)預處理:對案件描述文本進行分詞、提取關鍵詞等處理.
2)違法事件實體識別:將提取的描述違法事件的關鍵詞在網絡安全法知識圖譜中進行實體鏈接,得到違法事件的類型,其目的是消除口語表達和司法語言表達描述的差異.
3)違法主體實體識別:采用命名實體識別、實體分類等手段,從案件描述文本中識別出違法主體的類型.
4)案件分類:結合前兩步的處理結果和原始文本特征,對案件描述文本進行分類,分類結果對應《網絡安全法》的條款.
知識圖譜本質上是一種語義網絡,其結點代表實體或概念,邊代表實體/概念之間的語義關系.相比傳統數據庫,知識圖譜不僅包含事實類知識,還能夠提供知識之間的關系,為知識推理提供了有力的支持.本文基于如下步驟構建面向《網絡安全法》的知識圖譜.
第1步.概念圖譜設計.如圖2,我們將網絡安全法知識圖譜的節點分為3大類,將關系也分為3大類.

圖2 概念圖譜Fig.2 Conceptual knowledge graph
3類節點:
1)法律條款:代表具體的法律條款,如“網絡運營者為用戶辦理……推動不同電子身份認證之間的互認”.將《網絡安全法》的法律條款分為規定型條款和處罰型條款兩類.規定性條款主要為對違法行為和性質的描述;處罰型條款與規定性條款對應,主要描述觸犯了規定性條款后的處罰規定.
2)法律概念:代表與網絡安全法相關的違法事件類型(如“網絡入侵”)和違法主體類型(如“網絡運營者”).
3)法律實體:代表法律概念對應的下位概念或具體實體(法律實體和法律概念之間是“is-a”關系).例如,“木馬”、“后門”是違法事件類型“入侵”對應的下位概念(“木馬” is-a “入侵”), “騰訊”、“阿里巴巴”是違法主體類型“網絡運營者”的具體實體(“阿里巴巴” is-a “網絡運營者”).
3類關系:
1)包含關系:描述法律概念與法律實體之間的關系,即“is-a”的關系.
2)涉及關系:描述法律條款與法律概念之間的關系,即某條法律條款中涉及哪些法律概念.
3)處罰關系:描述規定型法律條款與處罰型法律條款之間的關系,即當觸犯某條規定型條款時,根據哪一條處罰型條款來來進行處罰.
第2步.構建知識圖譜.
采用半自動化的方式構建網絡安全法知識圖譜[13].
1)基于《網絡安全法》構建:由于《網絡安全法》篇幅不長,因此人工從中提取出法律概念與相關條款,通過涉及關系與處罰關系構建出基礎的知識圖譜.
2)基于互聯網公開語料構建:一方面,收集網絡安全相關的語料,從中提取名詞與名詞短語,人工從中挑選出違法事件與違法主體,并根據包含關系更新知識圖譜.另一方面,從互聯網上公開的半結構化文本中(如《海關總署禁止、限制進出境物品表》,《互聯網企業100強》)自動抽取實體,并與相應的法律概念節點通過包含關系相連接.
本文構建的網絡安全法知識圖譜部分節點如圖3所示.
本文的實體識別包括違法事件實體識別和違法主體實體識別兩部分.其中,違法事件實體識別的目的是讓用戶的口語化表述與法條的司法語言描述對應起來.主要針對如下問題:普通大眾都是用日常口語化的表達來描述案件,而法律條款都是用司法語言進行描述的,這造成了案件描述與法條描述的割裂.違法主體實體識別的目的是識別出案件中違法主體的具體類型.主要針對如下問題:當有些違法行為基本一致,但責任主體類型不同時,系統提取出來的證據非常相似,但它們的適用法條很可能大相徑庭.

圖3 《網絡安全法》知識圖譜部分可視化Fig.3 A part of law knowledge graph
違法事件和違法主體實體識別可有效地將紛繁復雜的案件描述概念化,從而使得模型能夠更容易地對其違法行為進行識別.具體來說,實體識別分為實體檢測和實體鏈接兩個步驟,具體說明見3.3.1-3.3.2節.
3.3.1 實體檢測
實體檢測的目的是找出案件描述文本中可能是違法事件實體或違法主體實體的部分,并盡可能地過濾掉無關的部分.總體來說,違法事件大多是“動詞+名詞”短語的形式,有些落腳點在動詞(如“對公司服務器進行滲透”中的“滲透”),有些落腳點在名詞(如“未落實網站防護工作”中的“網站防護工作”).而違法主體則基本上是名詞.因此,先根據詞性標注技術提取出符合上述詞性的關鍵詞或關鍵短語(稱為候選關鍵詞),則違法事件實體和違法主體實體就可在候選關鍵詞中篩選得到.
3.3.2 實體鏈接
違法事件實體鏈接:違法事件實體鏈接是指將口語化的違法事件描述(即候選關鍵詞)對應到網絡安全法知識圖譜中相應的違法事件實體節點(即事件類型的法律實體節點).例如,將案件描述文本中的違法事件描述“槍支彈藥”對應到知識圖譜中的“違禁物品”節點,將案例中的違法事件描述“淫穢色情”對應到知識圖譜中的“不良信息”節點.
違法事件實體鏈接過程分兩步進行.
步驟1.計算每個候選關鍵詞與知識圖譜中所有違法事件實體節點的編輯距離D[14].若D≤2,則將當前違法事件實體節點視為可鏈接的候選.
步驟2.若可鏈接節點有且僅有一個,則直接將該候選關鍵詞與該違法事件實體節點鏈接.若可鏈接節點有多個,則計算候選關鍵詞的詞向量與可鏈接節點的詞向量之間的余弦相似度,并選擇相似度最高的違法事件實體節點進行鏈接.若無可鏈接節點,則將所有違法事件實體節點視為候選并一一計算詞向量余弦相似度[15],在相似度大于閾值λ的所有違法事件實體節點中選擇相似度最高的作為與該候選關鍵詞鏈接的節點.如果沒有相似度大于λ的節點,則該認為該候選關鍵詞不是描述違法事件,予以刪除.在完成與違法事件實體的鏈接后,再通過當前違法事件實體節點的包含關系找到對應的違法事件概念節點(即事件類型的法律概念節點),則此節點就是這一起違法事件的類型.
之所以使用編輯距離與詞向量結合的方式,是由于編輯距離只能計算詞頻相似度,不能計算語義相似度.例如,編輯距離可以計算出“入侵”與“侵入”是相似的,但對“入侵”與“攻擊”這樣的狀況時就會力不從心.實驗證明加入詞向量技術可以有效的解決這個問題.
違法主體實體鏈接:在實驗中我們發現有些案件描述文本中違法事件基本一致,僅僅是因為違法主體不同而導致主被動關系變化,從而使得相關法規完全不一樣的情況.例如,同樣是“散布謠言”這一違法事件,當違法主體是個人或組織時,違背第12條,即傳播不實信息;當違法主體為網絡運營者時,則違背了第47條,即平臺內容審核制度不完善.所以“違法主體”在案件分類工作中是一個不可忽視的重要的特征.
面向違法事件實體鏈接的方法難以適應違法主體實體鏈接的任務.這是由于違法主體可以是企業、組織、個人等,其具體數量不可控,難以在網絡安全法知識圖譜中做到全覆蓋,導致大多情況下知識圖譜中會缺少相應違法主體實體對應的節點[16].另一方面,雖然違法主體實體數量不可控,但違法主體類型卻可以事先定義.因此,可在實體檢測的基礎上通過對違法主體實體進行類型標注的方式將其鏈接到網絡安全法知識圖譜中的違法主體類型節點.
基于以上原因,本文提出的違法主體實體鏈接的方法如下:首先直接使用候選關鍵詞在知識圖譜中的違法主體實體節點中進行檢索,若匹配到完全一致的結果就直接鏈接,若無法匹配再通過命名實體識別(Named Entity Recognition,NER)或違法主體類型分類模型進行實體類型判定后再鏈接.
1)基于命名實體識別的違法主體實體鏈接
違法主體可以是企業、組織、個人等多種類型.其中,企業、組織等又可以進一步細分為運營商、生產商、媒體等,而個人不需要進一步細分,因此對個人和其它(包括企業、組織等)采用不同的實體鏈接方法.由于對人名的識別已有較為成熟的解決方案,本文采用命名實體識別技術進行個人的違法主體實體鏈接,命名實體識別工具采用基于BiLSTM-CRF結構的FoolNLTK(3)https://github.com/rockyzhengwu/FoolNLTK分詞工具.
之所以僅使用NER識別個人實體,而不使用NER識別其它實體類型(如企業、組織),是由于命名實體識別模型需要大量的特定領域已標注語料來訓練,且對專業背景知識要求較高、標注難度大.而如果僅僅使用通用語料(如開放的命名實體識別工具),則相應命名實體識別模型可識別的實體類型有限,只能識別如人名、時間、地點等實體,無法識別出企業的具體類型.如在“因在個人微信公眾號發布大量違法反動言論,黃某被當地派出所拘留”這樣的輸入中,“黃某”可比較容易被識別為個人實體,但“微信公眾號”卻難以被識別成一個網絡媒體平臺.由于《網絡安全法》頒布時間不長,作為判案依據不多,這方面的語料很少,以此為基礎新訓練出的NER模型效果較差.
2)實體類型分類
對于企業、組織等需要細分的違法主體,本文使用分類模型來完成實體鏈接.首先對案件描述文本分詞并按照3.1節的規則進行實體檢測,得到一個候選關鍵詞列表Keylist={k1,k2,…kt…,kn},并將代表違法事件實體和個人的候選關鍵詞過濾掉,在此基礎上對剩余的候選關鍵詞進行分類.由于單獨的一個候選關鍵詞信息量過少,難以進行準確分類,因此基于外部開放知識庫對候選關鍵詞進行特征擴展,具體方法如下:
首先,利用外部開放知識庫(本文使用開放的大型知識圖譜CN-DBPedia)對候選關鍵詞進行檢索,能夠得到這些候選關鍵詞對應的實體與實體屬性.例如,關鍵詞“樂視”對應的實體屬性有“公司 網站 股票名稱 股票傳媒 股票創業板 樂視”,關鍵詞“城堡爭霸”則對應“游戲 游戲作品 手機游戲 單機游戲 手機網游 城堡爭霸”等實體屬性.可利用這些實體屬性對候選關鍵詞進行分類.部分關鍵詞無法通過通用知識圖譜檢索到相應實體,也就沒有對應的實體屬性,此時就直接用關鍵詞本身作為其屬性進行分類.
以實體屬性為語料,利用DNN神經網絡訓練多分類模型Model,對違法主體實體進行分類,分類結果為 “網絡運營者”、“產品/服務”、“其他”3類.具體來說,是將短語列表Keylist進行逐詞分析,每一個詞都經過通用知識圖譜尋找對應的屬性列表.以各個詞對應的實體屬性作為分類模型Model的輸入,輸出該詞是否屬于違法主體實體,如果是,則輸出具體種類.
本節主要介紹案例分類模型的構建,包括如何對數據進行預處理,模型的網絡結構與訓練參數.
3.4.1 預處理

3.4.2 DNN模型構建
本文采用深度神經網絡(DNN)進行案例文本分類.本文中DNN的結構如圖4所示,該網絡包括輸入層,詞向量規整層,句向量層和輸出層4個部分.

圖4 DNN網絡結構圖Fig.4 DNN network structure diagram
首先,將預處理后的案例,即WordListk′輸入模型.當WordListk′經過詞向量規整層,使用預先訓練好的Word2Vec模型得到該案例中所有詞的詞向量表示.部分實體是使用短語或較長的詞組表示的,需要先將這些實體分詞,再使用分詞后的詞向量均值作為該實體的向量表示.對WordListk′中詞與實體的詞向量進行加權平均,并將得到的加權平均值作為整句話的句子向量.這樣可避免不同句子長度不一造成的特征長度不一致的問題.通過句向量層后,所有案例均統一到同一個向量空間中,由長度相等的句子向量表示.將計算出的句子向量傳遞到接下來的隱藏層,本模型有兩層隱層,隱層之間為全連接結構,激活函數為ReLU.另外,還在在隱藏層中加入了Dropout機制來防止過擬合.最后是一個神經元數量為8(與樣本類別一致)的輸出層,激活函數為Softmax.

表1 DNN算法流程Table 1 DNN algorithm flow
隱藏層的運作機理如表1所示,每次訓練均根據訓練集與結果的值,使用RMSProp算法不斷迭代更新模型中的參數.
本文在實驗中使用了兩套知識圖譜,第1套是復旦知識工廠提供的中文通用百科知識圖譜CN-DBPedia[17].第2套為本文構建的針對《網絡安全法》的小型知識圖譜.
本文使用的原始數據分3個部分,一是《網絡安全法》法律原文文本,二是社會案件,三是用于實體分類的數據.其中,法律原文文本來自中國人大網.社會案件為人工從互聯網上收集,包括已經結案的與明顯違背某項條款的,共61宗.根據案例的判決依據條例與處罰類型的不同分為8類,分別是:
1)未落實網絡安全等級保護制度,未履行網絡安全保護義務;
2)未履行個人信息保護義務;
3)未落實真實身份信息認證;
4)未履行網絡信息內容審核義務;
5)網絡產品和服務不符合法定要求;
6)傳播不實信息和謠言,人身攻擊;
7)計算機攻擊行為;
8)網絡詐騙,違禁物品售賣等涉及非法交易的行為.
實體分類數據以100個互聯網公司名、50個產品名、50個其他名詞(非公司非產品)為基礎,通過通用知識圖譜搜尋并篩選,排除特征不足3個的名詞,最終得到包含實體名稱與實體特征的85個公司實體、37個產品實體、260個其他名詞實體(包括同名不同含義).部分數據摘錄如表2所示.

表2 數據集摘要Table 2 Data set summary
文本所用的詞向量是由維基百科中文語料訓練而來的通用詞向量,維度為128.實驗采用10折交叉驗證(即每次抽取90%的數據作為訓練集,剩余10%作為測試集,并記錄平均測試結果).
本實驗測試本文提出的基于分類的違法主體類型識別模型.本文提出的模型最主要的創新為在分類模型中引入了通用知識圖譜特征,因此將本文提出的模型與直接分類模型(即不引入通用知識圖譜特征的分類模型)進行對比.文本采用十折交叉驗證(Cross Validation)計算正確率(Accuracy)、召回率(Recall)、精度(Precision)與F1-Score四項數值指標,并繪制ROC曲線.測試得到各項指標結果如表3所示,ROC曲線見圖5.其中class 0:其他,class 1:網絡運營者,class 2:產品/服務.

表3 違法主體類型識別模型對比測試結果Table 3 Result of illegal subject type recognition model
從表3與圖5可以看出,對于違法主體類型識別,在引入了通用知識圖譜特征后,分類效果得到了顯著的提升.這是由于原始詞匯指代對象十分模糊、語義很弱,但利用通用知識圖譜則能夠獲得原始詞匯中包含的概念特征,這些概念特征使得詞匯指代的對象變清晰、語義變得明確.即,若不同詞匯通過知識圖譜查詢到數個共同特征,則可以判斷這些詞匯屬于同一類的可能性很大.
舉例來說(表4), “新浪”,“騰訊”與“智聯招聘”三者在詞的層面沒有相似特征.如果轉換成詞向量,“新浪”與“騰訊”的相似度高達74.9%,這是由于預訓練詞向量的語料中涉及大量描述“新浪”與“騰訊”的文檔.但是,由于描述“智聯招聘”的文檔極少,因此預訓練詞向量中無法找到“智聯招聘”的詞向量表示,無法通過詞向量度量其與“新浪”與“騰訊”的相似度.引入通用知識圖譜特征后,三者分別增加了表4右側的內容.這些高辨識度共同概念特征的加入,有效地提升了模型的準確率.

圖5 違法主體實體分類的ROC曲線Fig.5 ROC curve of illegal entity classification

表4 使用知識圖譜擴充語料實例Table 4 Examples:using knowledge graphs to expand corpus
為對本文的案例分類方法(稱為TCSE)性能進行評測,本文將其與以下4種方法進行對比,其中包括一個傳統的檢索方法與3個文本分類方法:
SM:即基于信息檢索的方法.給定一個案例文本,首先使用TextRank算法從中提取top-K關鍵詞與各關鍵詞在句子中所占權重,然后基于這K個關鍵詞在歷史案例庫中進行全文檢索(實驗中,K=10),并制定規則為給定案例與候選結果的相關程度進行打分,選擇得分最高的作為檢索結果.該檢索結果對應的類別即判定為給定待檢索案例的類別.使用公式(1)進行打分:
(1)
其中,Score表示某候選案例的的得分,Weighti表示案例中第i個關鍵詞的權重(由TextRank算法得到),Counti表示第i個關鍵詞在該結果中檢索到的次數,Counti允許為0.
TC:直接使用案例文本進行文本分類.將現有語料分詞,對分詞結果分別計算詞向量的詞向量統一長度后作為神經網絡的輸入進行分類.
TCS:在方法TC的基礎上,僅加入違法主體實體鏈接模塊,先得到語料中的違法主體類型,再將違法主體類型作為附加特征,結合詞匯特征與附加特征后再進行分類.
TCE:在方法TC的基礎上,僅加入違法事件實體鏈接模塊,利用法律知識圖譜將違法事件實體鏈接到合適的法律概念上,并將這些概念所屬的違法事件類型也視為特征,結合詞匯特征與附加特征后再進行分類.
因檢索方法與分類方法得到的結果形式存在差異,在檢索方法中一個待檢案例可能有多個檢索結果,無法計算召回率、精度和F1分數,故結果分開描述.如表5、表6所示.在表5中的數據為10次實驗的平均值,正確率(Accuracy)即檢索到的結果與測試案例的真實類別嚴格屬于同一類的比例.包含率(Include rate)即檢索到的結果包含測試案例真實類別的比例.誤檢率(Error rate)即檢索到的結果與測試案例的真實類別均不一致的比例.

表5 檢索方法(SM)實驗結果Table 5 Result of SM
由表5結果知,檢索方法SM存在一個待識別案例會檢索到多個答案的情形,且整體正確率偏低.

表6 分類方法性能測試結果(含SM)Table 6 Results of classification tests(include SM)
表6可以看出,文本分類方法整體優于傳統檢索方法.4個文本分類方法有隨著特征量變大正確率升高的趨勢.
相較于基礎文本分類模型(TC),在使用違法主體識別模型對原數據進行處理后(TCS)分類結果提升并不明顯,甚至在精度上還有所下降.經過分析,我們發現造成這種結果的兩個原因:一是因為違法行為一致而違法主體不同的案例非常少見,即使成功識別出了違法主體的差異并使原來有誤判的案例分類正確,對整體的正確率提升仍然不大.二是因為違法主體識別模型從社會事件中識別出違法主體特征并根據規則賦予較高權重后,違法主體部分較高的權重也會使原本相同違法主體但違法事件不一致的案件歸為一類,即向原始數據加入一個高權重的新特征在某些情形下對原來的模型有些矯枉過正.
當基礎模型增加了違法事件實體識別的特征后(TCE),分類結果獲得了明顯的提升.這是由于在各案例中都普遍存在使用日常口語來表述違法事件的情況.將這些口語對應的法律專業用語識別出來,并與圖譜中的法律概念實體進行正確的鏈接之后,待分類事件的有效法律概念特征顯著增加,使得案件分類的正確率改善明顯.
當同時考慮違法主體特征與違法事件特征后(TCSE),兩種新特征共同使用使得原本TCS中矯枉過正的問題被解決了.因為原始數據被加入了一串高權重的新特征,新特征之間對被賦予的高權重平均分配,沖淡了每個單個特征的影響力,使得模型更加穩定.即除了違法事件特征以外,還充分地利用到了違法主體實體這一特征.從結果上來說,TCSE的綜合表現也確實優于其他3個對比試驗.

圖6 4組案例分類實驗的ROC曲線圖Fig.6 ROC curve of case classification
以上結論在ROC圖中一樣能夠觀察到,4組實驗的ROC圖像如圖6所示.
class 0-7分別為:未落實網絡安全等級保護制度,未履行網絡安全保護義務;未履行個人信息保護義務;未落實真實身份信息認證;未履行網絡信息內容審核義務;網絡產品和服務不符合法定要求;傳播不實信息和謠言,人身攻擊;計算機攻擊行為;網絡詐騙,提供,售賣違禁物品等行為.
從圖6中可以看出,有些類別的分類結果一直很好,如未落實網絡安全等級保護制度(class 0),網絡欺詐、售賣違禁物品(class 7)等.這是因為這些類別與其他類別的重點不一樣,本身就有著明顯的特征.有些類別的分類狀況較不穩定,其中尤以類別1、2、3最易混淆.這是因為這3類違法類型的違法主體相同(網絡運營者),違法情形相似(平臺或服務方面的信息準入與審核制度不完善).這就導致了這些案例在描述時語言的選用與組織形式可能都十分相似,也就使分類變得困難.尤其是當僅僅使用違法主體識別模型而不用法律知識圖譜對案例進行處理時,“違法主體”這一特征被識別出來,并被賦予較高的權重在分類中起作用,這樣的處理使這3類的相似度進一步提高,分類結果就更差了.在此基礎上加入法律圖譜,則一方面使相對過高違法主體特征的權重被削弱,另一方面提取了不同類別中的其他特征,使不同的類別之間的區別變大,從而優化了分類結果.
多年來,法律領域已有各種違法行為識別系統,但大多都是通過傳統的檢索方式來完成,這種方式不僅效率低,且常常需要專業的背景知識來利用特定的法律關鍵詞進行檢索.近年來,隨著機器學習技術的發展,出現了一些基于機器學習和深度學習的違法行為識別系統,但這些系統依賴大量高質量的歷史案例,在新興的法律領域難以發揮作用.針對上述問題,本系統基于知識圖譜設計面向《網絡安全法》的違法行為識別系統,首先構建網絡安全法知識圖譜,在此基礎上利用知識圖譜將法律概念術語與日常用語關聯,從而極大的強化了案例特征,使得基于少量樣本就可以訓練出泛化能力較強的模型.實驗結果表明,相比于傳統的檢索方式,或是基礎的深度學習文本分類,本文的系統都能取得更好的效果.