999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于貝葉斯分類器的中文文本分類

2016-12-26 12:56:34鐘磊
電子技術與軟件工程 2016年22期

鐘磊

摘 要

在數據挖掘領域中,文本分類備受關注。本文研究了基于貝葉斯分類器的中文文本分類的相關問題,提出了一種以遺傳算法為基礎的樸素貝葉斯分類器,分析了分類器的設計流程和功能實現過程,驗證表明,本文提出的貝葉斯分類器在中文文本分類中的應用效果良好,分類精度較高。

【關鍵詞】貝葉斯分類器 文本分類 遺傳算法

貝葉斯分類器在文本分類中有著重要的應用,其中樸素貝葉斯分類器是一種簡單有效的概率分類方法。但需要注意的是,樸素貝葉斯分類器模型在實際應用的過程中往往會出現一定的問題,例如條件假設難以實現,屬性約簡影響分類效果等。

1 文本分類

事先定義好文本類別,以文本內容為基礎,計算機根據相關自動分類算法,對文本進行預先定義好的類別劃分就是文本分類。文本分類一般可以分為三個步驟,分別是文本向量模型表示、選擇文本特征及分類器訓練。

2 遺傳算法基本思想

遺傳算法是以遺傳思想為基礎的一種算法,一定數量的個體經過基因編碼之后會組成一個種群,而遺傳算法就從代表問題可能潛在解集的種群開始。

3 基于遺傳算法的樸素貝葉斯分類器

本文提出了一種應用于中文文本分類的貝葉斯分類器,其以自適應遺傳算法為基礎,具體設計方案如下:

3.1 設計思路

(1)進行數據采樣、收集、整理等預處理工作,必要時進行數據的離散化。

(2)對實體樣本數據進行分類,之后將其隨機劃分為兩個集合,分別是驗證集和訓練集,在訓練集中生成S個子集,每一個子集的屬性隨機,針對每一個隨機屬性子集,對應的構建一個NBC。

(3)將構建的NBC作為初始種群,以上文中提到的遺傳算法選擇最優解,在整個遺傳操作中,選擇的最優解就是要求的gNBC,gNBC對應的屬性集則是所需要的最優屬性集。

3.2 gNBC設計

3.2.1 數據預處理

在知識獲取系統中,數據預處理是關鍵步驟,這是因為取得的原始數據不能夠直接進行知識獲取,需要進行一定的預處理加工才能夠滿足知識獲取條件,原始數據的采樣、收集及整理等都屬于數據預處理的范疇。

3.2.2 編碼

在遺傳算法中,編碼的過程就是基因型與表現型的映射工作,保證二者的一一對應,實質上就是解的遺傳表示過程。

3.2.3 分類器差異度

差異度指的是空間中分布程度,將分類精度設為R,數據集中分類精度數量為m,則有R1,R2,…,Rm,用P代表數據集記錄個數,則每一類記錄數為P1,P2,…,Pm,則可以得出以下公式:

P=P1+P2…+Pm

R=P1R1+P2R2…+PmRm/P

Ri為第i類正確分類記錄數與所有劃分到第i類的記錄數之間的比值,則可以得出分類器差異度D的計算公式:

D=R1R2…Rm/Rm

由上述公式可知,分類器差異度D的取值范圍為(0,1),D的值越大,即越接近于1,代表分類器差異性越好。

3.2.4 適應度函數

適應度是度量群體中個體優化計算中接近找到最優解的優良程度的重要標準,利用適應度函數能夠對個體適應度進行評估,從而對群體中個體優良程度進行評價。

3.2.5 遺傳操作

(1)選擇操作,即個體的優勝劣汰,選擇適應性更強的染色體,將這些染色體組成新的種群。

(2)遺傳運算,主要包括交叉運算和變異運算,形成新的個體并產生相應后代。

4 算法驗證

4.1 數據預處理

為了對本文提出方法的有效性和可行性進行驗證,本文以搜狗實驗室文本分類數據為語料庫,選取五類中文文檔,分別是汽車類、教育類、體育類、文化類及旅游類,每類文檔中包含新聞報1990篇,文檔數量為9950。

4.2 驗證結果分析

將數據庫分為驗證集和訓練集,前者30%,后者70%,測試驗證集,對NBC和gNBC的分類精度進行比較,結果如表1所示。

由表1可知,相較于NBC來說,gNBC分類精度普遍更優良,在同一數據集中,差異度影響系數取值不同,gNBC分類精度也有著一定多個差異性,因此,適當對差異度進行考慮有助于提升文本分類能力。但同時也需要注意,實驗過程中,如果增加特征數目,會一定程度影響分查速度,在應用的過程中需要平衡速度和效率,這是本方法需要改進之處。

5 結論

綜上所述,貝葉斯分類器在中文文本分類中有著重要的應用,本文提出了一種以遺傳算法為基礎的樸素貝葉斯分類器,分析了分類器的設計流程和功能實現,通過實例驗證表明,本文提出的貝葉斯分類器在中文文本分類中的應用效果良好,分類精度較高,但在實際應用的過程中需要平衡分類效率和速度,這也是需要進一步改善之處。

參考文獻

[1]羅海蛟.數據挖掘中分類算法的研究及其應用[J].微機發展,2013,13(02):48-50.

[2]王灝,黃厚寬,田盛豐.文本分類實現技術[J].廣西師范大學學報:自然科學版,2013,21(01):173-179.

[3]秦進,陳笑蓉,汪維家,等.文本分類中的特征抽取[J].計算機應用,2015,23(02):45-46.

作者單位

杭州電子科技大學通信工程學院 浙江省杭州市 310002

主站蜘蛛池模板: 欧美精品影院| 直接黄91麻豆网站| 国产伦精品一区二区三区视频优播| 午夜国产理论| 日韩精品无码免费专网站| 色成人亚洲| 国产精品无码一二三视频| 国产乱码精品一区二区三区中文 | 日韩AV无码免费一二三区| 免费人成黄页在线观看国产| 亚洲天堂精品在线| 国产精品林美惠子在线观看| 色精品视频| 亚洲综合亚洲国产尤物| h网站在线播放| …亚洲 欧洲 另类 春色| 97超碰精品成人国产| 亚洲国产精品无码AV| 国产凹凸视频在线观看| 91在线一9|永久视频在线| 中文字幕在线观看日本| 超碰91免费人妻| 国产日韩欧美一区二区三区在线| 日韩av资源在线| av大片在线无码免费| 鲁鲁鲁爽爽爽在线视频观看 | 国产精品刺激对白在线| 亚洲女同一区二区| 久久亚洲国产最新网站| 国产精品微拍| 伊大人香蕉久久网欧美| 色综合中文综合网| 欧美日韩综合网| 中文字幕免费播放| 日韩免费中文字幕| 久久综合九九亚洲一区| 国产偷国产偷在线高清| 国产在线自揄拍揄视频网站| a级毛片免费在线观看| 伊人成人在线视频| 在线精品亚洲一区二区古装| 国产99视频精品免费观看9e| 国产乱子伦视频三区| 九九九久久国产精品| 国产福利小视频高清在线观看| 精品国产99久久| 免费人成网站在线高清| 最新国产高清在线| 国产精品网址在线观看你懂的| 亚洲69视频| 欧美在线中文字幕| 国产精品成人观看视频国产| 亚洲一区网站| 91久久国产热精品免费| 精品国产一区二区三区在线观看| 亚洲日本在线免费观看| 最新国产午夜精品视频成人| 天天干天天色综合网| 狠狠色狠狠综合久久| 亚洲精品片911| 亚洲天堂久久| 亚洲熟女中文字幕男人总站| 国产视频大全| 国产精品国产三级国产专业不| 亚洲综合激情另类专区| 亚洲无码高清免费视频亚洲| 天天综合天天综合| 国产一级精品毛片基地| 毛片在线播放a| 久操中文在线| 中文字幕欧美日韩| 欧美在线视频不卡第一页| 久久久久九九精品影院| 亚洲精品无码久久久久苍井空| 国产三区二区| 久久亚洲天堂| 亚洲成人精品| 欧美日韩一区二区在线播放| 干中文字幕| 国产福利在线免费| 18禁不卡免费网站| 久热精品免费|