999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于樸素貝葉斯分類器的海上執法查詢系統

2015-07-17 01:25:47應忠于公安海警學院浙江寧波315801
山東工業技術 2015年7期

張 清,應忠于(公安海警學院,浙江 寧波 315801)

基于樸素貝葉斯分類器的海上執法查詢系統

張 清,應忠于
(公安海警學院,浙江 寧波 315801)

摘 要:中國海警局正式掛牌成立后,因海洋法律未成體系,執法人員在法律和職責的學習上存在時間和執法需求的矛盾。本設計立足海警執法中的切實需求,將法典與案例相結合,設計出供海上法律查詢系統,供執法人員查詢、參考。常用的文本分類方法中樸素貝葉斯具有容易實現,運行速度快的特點。本設計使用樸素貝葉斯分類器,設計出海上執法查詢系統。

關鍵詞:樸素貝葉斯;文本分類;海上執法

在我國海上執法力量整合初期,海上執法人員來自海警、海監、漁政、海關等多個部門,這造成了海上執法人員對原其他部門職責和法律監管的范圍不清楚。而我國涉及海洋的法律數目眾多,對所有人員進行培訓需要一個不短的時間。本設計針對這一問題,整合相關法律法規,并收集了大量的多部門的執法案例,建立系統模型,形成一個全面的數據庫,為法典與案例模糊查詢系統的開發提供知識庫。

1 樸素貝葉斯分類器在文本分類的應用

常用的文本分類方法有支持向量機、決策樹和樸素貝葉斯。其中樸素貝葉斯具有易實現,運行速度快的特點,被廣泛應用。

1.1 樸素貝葉斯算法簡介

令C={c1,……c|c|}是預定義的類別集,d={w1,……wn}是一個文檔向量,則文檔d屬于類ci的概率可由條件概率P(ci|d )表示。為了最大限度地減小分類誤差,文檔d將被分到使P(ci|d )最大的類別ci中。而要求得條件概率,必須要先建立訓練集。

事件的空間是整個文檔空間,由于d是一個n維向量,為了簡化計算出P(d|ci)的計算,樸素貝葉斯假定(屬性間相互獨立),即假定d屬于類ci時,d中的元素wk的取值與wi的取值是相互獨立的。這樣由文檔d對于類ci的條件概率就可以得到P(ci|d )的估計值。整個算法分為:

訓練階段:對每一個wk、ci估計先驗條件概率P(wk|ci)和概率P(ci)。

分類階段:計算后驗概率,返回使后驗概率最大的類。

1.2 文本分類問題

在文本分類中,假設文檔d∈X,X為文檔的向量空間,C={c1,……c|c|}是預定義的類別集。文檔集合<d,c>作為訓練樣本。

例如:<d,c>={持偽造證件}

“持偽造證件“這句話在《中華人民共和國海事行政處罰規定》可以找到,因此將其標記為“海事行政處罰”。我們期望用某種訓練算法,訓練出一個函數γ,能夠將文檔映射到某一個類別:γ:X→C。這種類型的學習方法叫做有監督學習。樸素貝葉斯分類器是一種有監督學習。常見有兩種模型,多項式模型和伯努利模型。二者的計算粒度不一樣,多項式模型以單詞為粒度,伯努利模型以文件為粒度。在伯努利模型中,給定一組已分類的文本訓練數據,如下:類別No中d1=<未持有防污文書>,d2=<偽造他人入境證件>,d3=<必須持有有關證書>,類別Yes中d4=<持用偽造海員證件>,判斷c=海事行政處罰規定?

假設文本中詞之間相互獨立,將文本用屬性向量表示為d=(持,偽,造,證,件),類別集合為Y={Yes, No}。按照語言習慣,將文本中的詞語進行約定劃分。已知類No下總共有3個文件,類Yes下有1個文件,訓練樣本文件總數為18,因此P(No)=3/4, P(Yes)=1/4,

P(造|No)= P(未|No)= P(防 污|No) =P(文 書 |No)= P(有|No)= P(他人|No)= P(入境|No)= P(必須|No)= P(偽|No)= (1+1)/ (3+2)=2/5

P(持|No)=P(證|No)=(2+1)/(3+2)=3/5

P(海員|No)= P(件|No)= (0+1)/(3+2)=1/5

P(持|Yes)= P(偽|Yes)= P(海員|Yes)= P(證|Yes)= P(件|Yes)=(1+1)/(1+2)=2/3

P(造|Yes)= P(必須|Yes)= P(有|Yes)= P(入境|Yes)= P(他人|Yes)= P(未|Yes)= P(防污|Yes)= P(文書|Yes) =(0+1)/(1+2)=1/3

后驗概率計算:

P(Yes | d)=1/4×2/3×2/3×1/3×2/3×2/3 ×(1-2/3) × ≈0.00032

P(No | d)= 3/4×3/5×2/5×2/5×3/5×1/5×(1-1/5)× ≈0.00019

因此,這個文檔屬于類別Yes,即屬于標記為“海事行政處罰”的類別。

2 系統結構設計

2.1 系統結構

基于樸素貝葉斯分類器的海上執法查詢系統設計,主要進行了人機接口,分類器以及系統知識庫的設計。

系統結構分為:用戶接口模塊、輸入分析模塊、查詢匹配模塊、結論模塊。

用戶接口模塊:實現用戶數據的輸入及系統結果的反饋功能;輸入分析模塊:實現輸入文本的分析,關鍵詞的搜索等功能;查詢匹配模塊:對輸入的案例特征在訓練集中進行查詢匹配;結論模塊:主要實現系統結論的合理性判定,診斷過程以及結論的給出等功能。

2.2 系統工作流程

建立查詢系統的法典庫和案例庫,并與樸素貝葉斯分類器結合。其工作流程:(1)用戶輸入查詢信息;(2)系統對此分析分類,根據訓練集,將用戶的檢索請求信息轉換為系統特定格式,自動定位到關鍵詞;(3)系統根據分類器提供的特征信息,進行法典和案例匹配,給出查詢結果,過程終止。查詢結果對應的相應法律條文信息,按文檔關聯度排序輸出;(4)當匹配失敗時,系統返回。

3 開發平臺

采用Web技術,建立以Browser/Server 為結構模式、利用asp.net開發設計方法、以數據庫為后臺核心的查詢系統建立適合于海上執法人員的應用信息平臺。

4 結語

傳統信息檢索技術都是基于關鍵字查找和全文檢索技術,主要借助索引和關鍵詞等方法來實現。用戶難以簡單地用關鍵詞來忠實地表達出其真正的檢索目的。而法律文本的表述具有其特有的確定性和模糊性,案例的描述也有其固有的特點。將樸素貝葉斯分類器運用到系統當中,能自動抽取用戶描述內容的概念,用關鍵詞或與之相應的主題詞加以標引從而完成匹配,為海上執法提供法律參考系統。

參考文獻:

[1]程顯毅,朱倩.文本挖掘原理[M].第一版,北京:科學出版社,2010.

[2]楊林.基于文本的關鍵詞提取方法研究與實現[D],安徽:安徽工業大學,2013:1—17.

[3] 石志偉,吳功宜.“基于樸素貝葉斯分類器的文本分類算法”,第一屆全國信息檢索與內容安全學術會議,2004.

作者簡介:張清(1990-),女,四川成都人,學員,研究方向:電子信息工程。

主站蜘蛛池模板: 无码不卡的中文字幕视频| 国产人免费人成免费视频| 国产福利免费视频| 波多野结衣一区二区三区AV| 免费一级毛片在线观看| 日韩在线成年视频人网站观看| 日韩黄色在线| 毛片网站免费在线观看| 亚洲精品中文字幕午夜| 九九九精品成人免费视频7| 真实国产乱子伦高清| 欧美日韩国产成人高清视频| 精品福利视频网| 亚洲欧州色色免费AV| 欧美日韩免费在线视频| 91无码国产视频| 欧美性久久久久| 国产午夜人做人免费视频中文 | 亚洲开心婷婷中文字幕| 精品乱码久久久久久久| 女人毛片a级大学毛片免费| 亚洲综合二区| 欧美日韩精品在线播放| 欧美色综合网站| 国产欧美日韩在线在线不卡视频| 日韩人妻少妇一区二区| 天堂成人av| 一级毛片免费高清视频| 制服丝袜一区二区三区在线| 在线中文字幕网| 中文纯内无码H| 97久久超碰极品视觉盛宴| 欧美精品伊人久久| 国产又黄又硬又粗| 自慰高潮喷白浆在线观看| 欧美精品在线观看视频| 亚洲黄色高清| 午夜国产理论| 国产精品自在线天天看片| 亚洲第一在线播放| 女人18毛片久久| 国产精品视频猛进猛出| 亚洲av片在线免费观看| 日韩资源站| 亚洲综合专区| 亚洲国产看片基地久久1024| 久久国产精品娇妻素人| 亚洲欧美综合在线观看| 午夜精品区| 亚洲日本中文字幕天堂网| 毛片基地美国正在播放亚洲 | 大香网伊人久久综合网2020| 午夜久久影院| 国产成人1024精品| 亚洲AV免费一区二区三区| 欧美高清国产| 精品欧美视频| 国产情侣一区二区三区| 97在线视频免费观看| 亚洲综合中文字幕国产精品欧美 | 亚洲综合激情另类专区| 激情無極限的亚洲一区免费| 无码福利视频| 国产欧美在线观看精品一区污| 亚洲欧美极品| 2021精品国产自在现线看| 91久久天天躁狠狠躁夜夜| 国产一区二区人大臿蕉香蕉| 自拍中文字幕| 日韩AV无码免费一二三区| 欧美区日韩区| 国产在线视频导航| 中文字幕人妻av一区二区| 日本不卡在线视频| 波多野结衣一区二区三区88| 欧美日韩国产高清一区二区三区| 午夜福利无码一区二区| 在线播放国产99re| 欧美日韩导航| 成人一区在线| 国产美女在线观看| 国产福利小视频在线播放观看|