999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

并行化改進的樸素貝葉斯算法在中文文本分類上的應用

2020-09-04 07:56:10彭子豪
科學技術創新 2020年26期
關鍵詞:分類特征文本

彭子豪 譚 欣

(湖北第二師范學院計算機學院,湖北 潛江433100)

1 概述

互聯網技術的迅猛發展,使文本信息的體量乘上了增長的快車。為了有效的對海量文本信息進行數據挖掘,文本分類成為了研究的熱點。文本分類在新聞主題分類、情感分析、輿情分析和智能信息推薦中都應用廣泛。尤其是大數據海量文本數據而言,對其進行高效高精度的文本分類是一個重要的研究內容。樸素貝葉斯算法是公認經典的分類算法,普遍用于文本分類。樸素貝葉斯最核心的部分是貝葉斯法則,用后驗概率和聯合概率來計算先驗概率。

文獻[1]在樸素貝葉斯算法文本分類算法中去掉了對先驗概率的計算,并在后驗概率的計算中引入了一個放大系數,提升了計算精度。

文獻[2] 提出一種基于詞向量間余弦相似度的改進樸素貝葉斯算法,有效的降低了特征向量的數據冗余和計算復雜性。

文獻[3]實現了基于MapReduce 實現樸素貝葉斯算法,使在大數據量的情況下, 并行化的貝葉斯算法較傳統的貝葉斯算法具有更好的執行效率和較高的擴展性。在基于樸素貝葉斯的文本分類時,首先需要通過詞頻統計獲取文本特征,之后利用貝葉斯對屬性以同權的形式進行模型計算。

而上述文獻沒有考慮到對于文本屬性而言,不同的屬性在表征類別時貢獻可能是不同的,而在傳統貝葉斯文本分類方法中,認為特征項在分類時對決策的貢獻相同,對不具有代表性的、噪聲污染的特征和高頻出現特征屬性進行同權處理,導致分類精確度降低。

為區分文本單詞特征屬性在分類時的權重差異,提升文本大數據的分類精度及效率,本文首先利用改進的TFIDFCF 算法進行文本詞頻統計,獲取不同單詞的詞頻,該算法解決了TFIDF算法在計算特征詞權重時忽略類間關系的問題。其次將文本特征詞的詞頻統計結果,作為樸素貝葉斯模型的屬性特征權重輸入,進行加權分類。此外為了提高算法對海量大數據文本分類的處理能力,基于MapReduce 編程理念,在分布式框架上進行改進的算法的并行化處理,并通過計算召回率,精確率,f1-score等對算法性能進行評價。

實驗結果表明,本文提出的基于改進的TFIDF 詞頻處理及并行框架下的樸素貝葉斯文本分類算法,較傳統方法在分類精度及效率上均有提升。

2 基于TFIDF 算法的詞頻統計

2.1 TFIDF 算法簡介

2.2 傳統的TFIDF 算法的改進

3 樸素貝葉斯分類算法

3.1 樸素貝葉斯算法介紹

樸素貝葉斯的主要思想是在假設特征在互相條件獨立的情況下,基于貝葉斯公式用先驗概率的值來計算后驗概率。

3.2 特征加權文本分類樸素貝葉斯算法

傳統的樸素貝葉斯算法認為所有特征屬性對分類決策的貢獻是相同的。文獻[5]表明,在文本分類中,得冗余的、與分類無關的、相互影響的以及被噪聲污染的特征和其他特征具有相同的地位,并使得分類的正確性降低。針對傳統的樸素貝葉斯在文本分類上認為特征詞貢獻相同,提出了基于TFIDFCF 特征加權的樸素貝葉斯算法。

其中Wk,d為特征項Xk詞在d 文本中的TFIDFCF 權值。將詞頻,逆文檔頻率和類別區分度兼顧,較好的反應了詞語的重要程度。這樣將此權重加權到樸素貝葉斯模型中,會根據詞的重要程度優化樸素貝葉斯假定特征詞都條件獨立的情況。

4 MapReduce 實現并行TFIDFCF 特征加權貝葉斯算法流程

4.1 算法實現流程圖

算法實現總體可以分為兩大步驟。第一個步驟為計算每個文章中詞的TFIDFCF 值,第二個步驟為計算語料庫中類別出現的概率及每個詞在每個類別下的出現的條件概率。最終輸出到NewBayesCalCulateMap 中即可進行類別預測(在實際預測中,由于樸素貝葉斯是由先驗概率和聯合概率來估計后驗概率,所以第二步驟在預測時不需要計算,按照訓練出來的模型帶入即可)。由于MapReduce 并行計算框架支持有向圖計算,按照上面的拓撲圖進行會進行有序的輸入輸出形成MapReduce 鏈。雖然并行計算提高了計算的速度,但mapreduce 需要頻繁的落盤,磁盤IO 開銷大。而spark 基于內存的運算方式可能可以在此基礎上更快。

MapReduce 實現并行TFIDFCF 特征加權貝葉斯算法流程圖

4.2 實現算法中需要注意的幾點

防止下溢出:在實現貝葉斯公式計算時。若進行浮點數運算,因為浮點數精確度不夠,會導致乘積為零的情況,對改進的貝葉斯算法取對后公式如下:

5 文本分類結果分析

為驗證算法的可行性,本文選取了清華大學自然語言處理實驗室THUCNews 新聞文本部分數據和兩組測試數據進行分類試驗;并以傳統貝葉斯文本分類結果對比對比試驗,進行算法有效性分析。

THUCNews 新聞文本數據分類:

(1)THUCNews 數據介紹

THUCNews 新聞文本數據是根據新浪新聞RSS 訂閱頻道2005~2011 年間的歷史數據篩選過濾生成, 包含74 萬篇新聞文檔,包含14 個候選分類類別:財經、彩票、房產、股票、娛樂等。本文節選了7 類每類5000 篇文檔進行模型訓練和測試。

(2)實驗步驟

①對文本數據進行分詞。去除停用詞后,通過特征工程提取特征詞,作為詞庫。

②根據詞庫把輸入的文本數據轉化為詞向量。

③訓練樸素貝葉斯模型。

④基于1.2 介紹的TFIDFCF 算法計算每篇文章中特征詞的權重。

⑤將TFIDFCF 權重值加權到訓練好的樸素貝葉斯分類模型中,取計算出的最大值所屬類別為預測結果。

(3)THUCNews 新聞文本分類結果分析

分類預測結果對比表

本文中使用準確率、召回率、F1-score 三個指標來評估算法效果。

①精確率(Precision):分類結果中正確分類為Ci 的樣本數占分類結果中所有分為Ci 類別的樣本數,衡量分類的查準率

②召回率(Recall):分類結果中正確分類為Ci 的樣本數占所有Ci 類的樣本數的比例,衡量分類的查全率

③F1-score:在精確率和召回率的基礎上提出了F1 值的概念,來對精確率和召回率進行整體評價

本文基于如上實驗步驟在并行框架的計算優勢下實現了這兩種算法,提取了大量特征詞。由于特征詞多,數據量大,分類模型都建立的很準確。實驗結果表明兩種方法都有很好的文本分類能力。根據分類結果對比表可以發現,基于TFIDFCF 特征加權的樸素貝葉斯算法對于傳統的樸素貝葉斯算法在大部分新聞類別中分類效果上有一定提升。

6 結論

在本文中,通過研究,對樸素貝葉斯應用在文本分類認為特征詞之間相互條件獨立提出了不同的觀點。首先研究了TFIDFCF 算法,消除了TFIDF 算法在類間的偏差,并加權到樸素貝葉斯算法模型中。這樣使那些重要的詞相較于傳統的樸素貝葉斯算法擁有更合理的權重。最后通過實驗結果表明并行的TFIDFCF 特征加權的樸素貝葉斯算法是高效,合理,準確的。

猜你喜歡
分類特征文本
分類算一算
如何表達“特征”
在808DA上文本顯示的改善
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
分類討論求坐標
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
數據分析中的分類討論
教你一招:數的分類
抓住特征巧觀察
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學隱喻
主站蜘蛛池模板: h网站在线播放| 日本午夜网站| 欧美一区二区三区香蕉视| 亚洲色欲色欲www网| 青青草国产一区二区三区| 欧美a级在线| 国产一二三区在线| 亚洲天堂视频在线观看| 特级aaaaaaaaa毛片免费视频 | 亚洲精品成人福利在线电影| 国产精品视频导航| 六月婷婷激情综合| 成人免费一区二区三区| 国产精品三级av及在线观看| 亚洲成年人片| 国产在线观看精品| 福利片91| 波多野结衣久久高清免费| 成·人免费午夜无码视频在线观看 | 色欲国产一区二区日韩欧美| 日韩午夜福利在线观看| 久草中文网| 欧美中文一区| 亚洲AV一二三区无码AV蜜桃| 亚洲色成人www在线观看| 久久网欧美| 色悠久久久久久久综合网伊人| 情侣午夜国产在线一区无码| 日韩免费视频播播| 久久精品66| 美女毛片在线| 九九香蕉视频| 91福利国产成人精品导航| 欧美一级视频免费| 久久综合伊人77777| 99精品高清在线播放| 国产成人精品亚洲日本对白优播| 国产免费a级片| 亚洲国产清纯| 亚洲中文字幕无码爆乳| 国产精品第| 四虎成人免费毛片| 亚洲综合精品香蕉久久网| 国产午夜无码专区喷水| AV在线天堂进入| 亚洲男人的天堂久久香蕉| 亚洲香蕉久久| 国产在线视频导航| 亚洲三级视频在线观看| 高清精品美女在线播放| 成人av专区精品无码国产| 久久久久人妻一区精品色奶水| 青青极品在线| 青青热久麻豆精品视频在线观看| 国产亚洲美日韩AV中文字幕无码成人 | 国产精品黑色丝袜的老师| 午夜福利视频一区| 欧美成在线视频| 欧美三级视频在线播放| 亚洲丝袜第一页| 午夜国产精品视频| 最新亚洲人成网站在线观看| 亚洲欧美在线综合一区二区三区| 好久久免费视频高清| 国产成人91精品免费网址在线| 日韩在线网址| 亚洲三级影院| 亚洲无码日韩一区| 午夜国产精品视频黄| 日韩成人在线视频| 99在线观看国产| 在线免费亚洲无码视频| 午夜精品福利影院| 亚洲国语自产一区第二页| 亚洲午夜福利在线| 国产精品久久自在自2021| 亚洲国语自产一区第二页| 免费av一区二区三区在线| 国产swag在线观看| 毛片网站观看| 日韩精品资源| 色婷婷天天综合在线|