基于樸素貝葉斯分類器的海上執法查詢系統

2015-07-17 01:25:47應忠于公安海警學院浙江寧波315801

山東工業技術 2015年7期

張清,應忠于（公安海警學院,浙江寧波 315801）

基于樸素貝葉斯分類器的海上執法查詢系統

張清,應忠于
（公安海警學院,浙江寧波 315801）

摘要：中國海警局正式掛牌成立后，因海洋法律未成體系，執法人員在法律和職責的學習上存在時間和執法需求的矛盾。本設計立足海警執法中的切實需求，將法典與案例相結合，設計出供海上法律查詢系統，供執法人員查詢、參考。常用的文本分類方法中樸素貝葉斯具有容易實現，運行速度快的特點。本設計使用樸素貝葉斯分類器，設計出海上執法查詢系統。

關鍵詞：樸素貝葉斯；文本分類；海上執法

在我國海上執法力量整合初期，海上執法人員來自海警、海監、漁政、海關等多個部門，這造成了海上執法人員對原其他部門職責和法律監管的范圍不清楚。而我國涉及海洋的法律數目眾多，對所有人員進行培訓需要一個不短的時間。本設計針對這一問題，整合相關法律法規，并收集了大量的多部門的執法案例，建立系統模型，形成一個全面的數據庫，為法典與案例模糊查詢系統的開發提供知識庫。

1 樸素貝葉斯分類器在文本分類的應用

常用的文本分類方法有支持向量機、決策樹和樸素貝葉斯。其中樸素貝葉斯具有易實現，運行速度快的特點，被廣泛應用。

1.1 樸素貝葉斯算法簡介

令C＝｛c1,……c|c|｝是預定義的類別集，d＝｛w1,……wn｝是一個文檔向量，則文檔d屬于類ci的概率可由條件概率P(ci|d )表示。為了最大限度地減小分類誤差，文檔d將被分到使P(ci|d )最大的類別ci中。而要求得條件概率，必須要先建立訓練集。

事件的空間是整個文檔空間，由于d是一個n維向量，為了簡化計算出P(d|ci)的計算，樸素貝葉斯假定(屬性間相互獨立)，即假定d屬于類ci時，d中的元素wk的取值與wi的取值是相互獨立的。這樣由文檔d對于類ci的條件概率就可以得到P(ci|d )的估計值。整個算法分為：

訓練階段：對每一個wk、ci估計先驗條件概率P(wk|ci)和概率P(ci)。

分類階段：計算后驗概率，返回使后驗概率最大的類。

1.2 文本分類問題

在文本分類中，假設文檔d∈X，X為文檔的向量空間，C＝｛c1,……c|c|｝是預定義的類別集。文檔集合＜d,c＞作為訓練樣本。

例如：＜d,c＞＝{持偽造證件}

“持偽造證件“這句話在《中華人民共和國海事行政處罰規定》可以找到，因此將其標記為“海事行政處罰”。我們期望用某種訓練算法，訓練出一個函數γ，能夠將文檔映射到某一個類別：γ:X→C。這種類型的學習方法叫做有監督學習。樸素貝葉斯分類器是一種有監督學習。常見有兩種模型，多項式模型和伯努利模型。二者的計算粒度不一樣，多項式模型以單詞為粒度，伯努利模型以文件為粒度。在伯努利模型中，給定一組已分類的文本訓練數據，如下：類別No中d1＝＜未持有防污文書＞，d2＝＜偽造他人入境證件＞，d3＝＜必須持有有關證書＞，類別Yes中d4＝＜持用偽造海員證件＞，判斷c＝海事行政處罰規定？

假設文本中詞之間相互獨立，將文本用屬性向量表示為d＝(持，偽，造，證，件)，類別集合為Y＝{Yes, No}。按照語言習慣，將文本中的詞語進行約定劃分。已知類No下總共有3個文件，類Yes下有1個文件，訓練樣本文件總數為18，因此P(No)＝3/4, P(Yes)＝1/4,

P(持|No)＝P(證|No)＝(2+1)/(3+2)＝3/5

P(海員|No)＝ P(件|No)＝ (0+1)/(3+2)＝1/5

后驗概率計算：

P(Yes | d)＝1/4×2/3×2/3×1/3×2/3×2/3 ×(1-2/3) × ≈0.00032

P(No | d)＝ 3/4×3/5×2/5×2/5×3/5×1/5×(1-1/5)× ≈0.00019

因此，這個文檔屬于類別Yes,即屬于標記為“海事行政處罰”的類別。

2 系統結構設計

2.1 系統結構

基于樸素貝葉斯分類器的海上執法查詢系統設計，主要進行了人機接口，分類器以及系統知識庫的設計。

系統結構分為：用戶接口模塊、輸入分析模塊、查詢匹配模塊、結論模塊。

用戶接口模塊：實現用戶數據的輸入及系統結果的反饋功能；輸入分析模塊：實現輸入文本的分析，關鍵詞的搜索等功能；查詢匹配模塊：對輸入的案例特征在訓練集中進行查詢匹配；結論模塊：主要實現系統結論的合理性判定，診斷過程以及結論的給出等功能。

2.2 系統工作流程

建立查詢系統的法典庫和案例庫，并與樸素貝葉斯分類器結合。其工作流程：（1）用戶輸入查詢信息；（2）系統對此分析分類，根據訓練集，將用戶的檢索請求信息轉換為系統特定格式，自動定位到關鍵詞；（3）系統根據分類器提供的特征信息，進行法典和案例匹配，給出查詢結果，過程終止。查詢結果對應的相應法律條文信息，按文檔關聯度排序輸出；（4）當匹配失敗時，系統返回。

3 開發平臺

采用Web技術，建立以Browser/Server 為結構模式、利用asp.net開發設計方法、以數據庫為后臺核心的查詢系統建立適合于海上執法人員的應用信息平臺。

4 結語

傳統信息檢索技術都是基于關鍵字查找和全文檢索技術，主要借助索引和關鍵詞等方法來實現。用戶難以簡單地用關鍵詞來忠實地表達出其真正的檢索目的。而法律文本的表述具有其特有的確定性和模糊性，案例的描述也有其固有的特點。將樸素貝葉斯分類器運用到系統當中，能自動抽取用戶描述內容的概念，用關鍵詞或與之相應的主題詞加以標引從而完成匹配，為海上執法提供法律參考系統。

參考文獻：

[1]程顯毅,朱倩.文本挖掘原理[M].第一版，北京：科學出版社,2010.

[2]楊林.基于文本的關鍵詞提取方法研究與實現[D]，安徽：安徽工業大學,2013:1—17.

[3] 石志偉，吳功宜.“基于樸素貝葉斯分類器的文本分類算法”,第一屆全國信息檢索與內容安全學術會議,2004.

作者簡介：張清（1990-），女，四川成都人，學員，研究方向：電子信息工程。

山東工業技術2015年7期

山東工業技術的其它文章: 基于ZigBee網絡的室內環境監測系統設計; 對目前濕平整液應用研究; 大學生職業生涯自我規劃調查與研究
——以渭南師范學院為例; 糠醛渣酸水解制取乙酰丙酸的實驗研究; 結合小波算法和分形維數的核磁譜識別; 高職建筑工程技術專業仿真模擬實訓項目的開發與實踐