999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于樸素貝葉斯的新聞分類算法的研究與分析

2023-10-25 10:02:52孫亮
信陽農林學院學報 2023年3期
關鍵詞:分類文本

孫亮

(蘭州文理學院 數字媒體學院,甘肅 蘭州 730000)

互聯網技術和 IT 領域的飛速發展,致使我們已經進入信息化的潮流時代。文本分類算法一直以來都是自然語言處理范疇的鉆研熱門[1]。文本分類算法在僅僅只有機器學習的背景下已經比較成熟了,并有較好的模型成果展示[2]。隨著自媒體時代的發展,新聞多且雜亂,文本分類算法在新聞分類系統的應用研究則更具有重要意義。國內外學者相繼對各類分類模型和算法進行構建與改進并加以優化。例如K 最近鄰方法、神經網絡、樸素貝葉斯方法、決策樹方式等,被接連不斷地改進與改良。在實際應用方面,文本分類有效解決了文本資源獲取速度慢且存儲結構十分混亂的問題,文本分類技術整合已有的信息資源,讓使用者可以快捷方便、高速準確地找到自身需要的文本資源。

1 相關理論與技術分析

文本分類一直在原始語言處理范疇中處于研究熱點的地位[3]。信息檢索領域的經典研究課題一直是文本分類如何在海量搜集的網絡文本信息中迅速準確地篩選定位出所需要的信息[4]。一般包含新聞內容數據的爬取、預處理新聞樣本、提取具有代表性的詞句、選擇分類算法或分類器。在這幾個步驟中,特征的選擇和核心分類算法或分類器的選用關乎整個系統的準確性,也決定著文本分類結果的優良性。

1.1 K-最近鄰分類算法

K-最近鄰分類算法是基于類比的學習算法當中的一種[5]。對某個待分類的測試文本,經由算法計算此文本與其他訓練集文本之間的距離,找到在其附近的K個訓練集文本,致使將要分類的文本分為最為普通常見的K類訓練集文本。點x=(x1,x2,…,xn)和點y=(y1,y2,…,yn)之間的距離計算方式如公式(1)所示:

(1)

該方法優點明顯,簡單有效,但因為其在訓練過程中,具有線性的時間復雜度、空間復雜度,所以當數據計算有相當龐大的度量時,訓練集文本的計算速度有限,消耗的時間過長。在文本訓練樣本分布極不均勻時,數據較少的類別會被忽略,最終導致文本分類系統的誤判。

1.2 決策樹算法

決策樹有著類似于流程圖一般的樹結構[6],其分類過程大致分為三個過程:一是參照已知的訓練集的訓練結果,構建相應的判定樹;二是對該樹進行剪枝操作;三是制訂分類規則。為了讓該樹中有作用的分支節點依然存在,降低無用詞對訓練集的影響,剪枝操作不可避免,重要性顯而易見,且這個操作對順序的先后沒有要求。最后,簡單提取過程進行中所需要的分類規則。有價值的信息內容存在于該路線上的每個節點,而所謂的葉節點指的是預測信息,即為分類結果。決策樹算法體現了分而治之的思想,構建過程采用遞歸策略完成。決策樹生成的算法通俗易懂,且分類準確率高,修剪枝丫的策略也可以減少噪聲詞的影響。但是,伴隨著數據規模的逐漸增加,計算量也會增加,其效率也就會不盡如人意了。

1.3 文本分詞技術

文本分詞的目的是用空格作為分隔符,一個詞一個詞地分割原始文本。對于切分詞的算法主要有三種:一類是基于字符串匹配,這種算法通常有正向和反向最大兩類順序;另一類是基于句法的語義分析;還有一類是基于統計的詞頻計算。中文文本分詞是處理自然語言的首要步驟,況且與其他語言書寫不一樣的是,中文在詞與詞之間的界限十分模糊,分詞時不好辨別,處理起來相對困難。英文單詞的詞與詞之間使用空格間隔開來,界限不容易混淆,所以在進行中文文本分詞的過程中,最關鍵的一步是將文本內的單詞按照中文的語法含義進行分割,而切分下來的詞,其質量的高低將會直接影響后面分類系統結果的準確率。jieba分詞技術是當前國內最流行的開源的中文分詞工具,它支持多種分詞功能。本系統采用的是自定義詞典添加。jieba分詞工具包含精確模式、完整模式和搜索引擎模式三種分詞模式。具體分詞界面和主要模塊如表1所示:

表1 分詞模式表

2 算法設計

2.1 樸素貝葉斯分類算法

樸素貝葉斯算法可以用來進行新聞文本的分類。貝葉斯理論的核心是統計概率后,在某一類別中數值較大,則認定其從屬于這一相應的類別,即選擇概率最高的決策。這也是樸素貝葉斯決策理論的核心。用到的貝葉斯準則公式如(2)所示:

(2)

在經過公式中的先驗概率和條件概率的計算后,直接在產生后驗概率中使用其計算結果,所得到的結論就是分類結果,其計算出的后驗概率的數值最大,符合樸素貝葉斯決策的核心思想如公式(3)所示:

y=arg maxP(Y=c)∏jP(Xj=xj|Y=c)

(3)

由于此新聞分類系統面向應用,因此需具有很重要的分類效率,所以將系統分為樣本集的文本處理和分類階段,盡量在處理過程中計算所需要的數據,并利用文件數據庫保存數據,這樣新聞分類系統在分類的階段時,會最大程度上節省概率計算的時間,提高分類的速度,更快地得到分類的結果。

2.2 貝葉斯網絡文本分類流程

通過對樸素貝葉斯分類過程的一般了解,繪制了與之相關的流程圖,樸素貝葉斯算法在文本分類中的整體操作過程如圖1所示:

圖1 總體運算流程

3 系統設計與實現

3.1 文本預處理模塊功能設計與實現

新聞分類系統中預處理模塊的執行過程具體描述如下:

(1)獲取經過深度學習技術處理后的文本訓練樣本,處理后的樣本已經被分類成功,是極具代表性的分類新聞,將其一起進行訓練,其進度結果按照50個文本訓練樣本為一次顯示;

(2)去掉“騰訊科技”“騰訊金融”“新華網”等詞,添加jieba分詞技術自帶的自定義詞典,然后根據詞典利用jieba分詞技術進行分詞,自定義詞典龐大的數據量,可以使分詞結果更加準確、完整;

(3)從配置文件中讀取現成的停用詞表,在已經處理好分詞的新聞文本訓練樣本中進行過濾刪除表中的停用詞,得到更加純粹的文本訓練樣本,并計算提取詞語的詞頻;

(4)計算去除停用詞后留下的獨立詞語列表中的各個詞語的詞頻,輸出詞語列表及其統計結果。汽車類的特征詞及詞頻集合如圖2所示:

圖2 剩余詞語列表結論

(5)記錄某一類文本訓練樣本中的特有的詞的數目,即特征詞,以及所有文本訓練樣本中的所有詞的數目,統計詞頻結果如圖3所示:

圖3 統計結果

從圖3中可以看出,在原始文本數據被預處理之后,該模塊會最終導致其表示為文件樣本中獨立的詞語集合。然后,可以通過根據停用詞表中包含的停用,在已經分詞結束的基礎上去除停用詞,簡單粗暴地計算所有文本樣本的非重復詞和所有文本訓練樣本中的詞語,分別得到所有類別的詞頻和所有文本訓練樣本的單詞數。

3.2 特征概率計算模塊功能設計與實現

新聞分類系統中特征概率計算模塊的執行過程中,統計量的計算采用概率=詞頻/(所

有文本訓練樣本的所有單詞的詞頻+所有文本訓練樣本的所有單詞個數)這一公式,根據對應公式計算詞頻的概率,并對標特征詞的概率進行由高到低的排序,將其寫入到文件數據庫中進行保存,以便測試文本樣本分類時獲取。若有詞未被記錄在之前預處理模塊得到的文件數據庫中,我們就認為這是個噪聲詞,將其舍棄或者將詞頻記位1,再根據公式去計算得出概率。根據文本分類研究,知道新聞分類的基本單元是特征詞。應該選擇代表性強、含有豐富信息的詞語作為整個新聞的特色詞。獲取的這些特征詞既要充分反映新聞內容和新聞類別信息,又要區別于其他訓練文本,得到分類結果就會準確又高效。在本研究開發的系統中,采用樸素貝葉斯公式對其進行了公式化的統計概率,用以計算特征詞和類別之間的依賴關系,從而得到分類結果。

以下為財經類新聞的特征詞的概率結果如圖4所示:

圖4 計算結果

為了方便觀察分析,對7大類新聞文本訓練樣本利用公式進行詞頻概率的計算,將得到統計值由大到小的排序,得出了圖4的結果。特征概率計算模塊是以分詞后的新聞測試文本為輸入,采用的是樸素貝葉斯概率統計的公式。從圖4可以看出這些詞幾乎全是與財經相關的特征詞,說明了用部分樸素貝葉斯算法計算得出的概率值大的特征詞與財經類之間的關聯性越強,會使其進行分類的結果更加準確,說明所采用的特征提取和概率計算的方法是有效的。

3.3 新聞分類模塊功能實現

樸素貝葉斯分類模塊包括兩部分:樣本處理以及分類。首先是計算特征詞集合的詞頻概率,把相應特征詞先驗概率數據寫入文件數據庫,在文本預處理和特征提取模塊階段可以直接使用數據,并使用樸素貝葉斯算法進行分類。在新聞樣本的處理階段,對文本樣本進行上述的兩個模塊的處理后,計算出每個詞的詞頻和概率,將其結果寫入兩個文件數據庫中,便于之后測試文本時進行調用。當新聞測試文本被分類時,可以直接從文件數據庫中讀取之前保存的數據,然后采用樸素貝葉斯公式,計算所有詞概率的總和,數值最大所對應的類別,就是相應新聞測試文本的屬于的類別,這個結論作為新聞分類的結果。最后,將測試得到的分類結果寫入文件數據庫,并加以保存。結果全部寫入文件數據庫保存。在分類階段時再把數據從數據庫讀入內存,這樣就可以使分類的效率很高。

4 總結

本研究在探索了國內外文本分類技術的近況以及相關算法的基礎上,采用了樸素貝葉斯分類算法,完成了一個簡單快速的新聞分類系統。此系統主要分為文本預處理模塊、特征提取計算概率模塊、新聞分類模塊以及測試分類數據模塊。在此系統中,可以根據所含新聞內容而設定的類別,如財經、科技、汽車、房產、體育、娛樂等,完成文本處理過程,經過樸素貝葉斯分類算法的核心處理,用于分類未知的新聞,并將其歸類到同樣的類別之下。相對人工分類而言,本系統更加方便,快捷,可以把結果保存在文件數據庫中,不易丟失,又便于下一次的分類提取,它還可以避免人為主觀錯誤判斷造成的分類錯誤和數據缺乏。與常用的分類系統相比,該系統在選取新聞文本訓練樣本上采用了已經經過深度學習模型處理后的分類樣本,然后基于樸素貝葉斯分類算法進行概率計算,在一定程度上提高了新聞文本分類的準確性,具有更好的分類效果。

猜你喜歡
分類文本
分類算一算
垃圾分類的困惑你有嗎
大眾健康(2021年6期)2021-06-08 19:30:06
初中群文閱讀的文本選擇及組織
甘肅教育(2020年8期)2020-06-11 06:10:02
在808DA上文本顯示的改善
分類討論求坐標
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
數據分析中的分類討論
教你一招:數的分類
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學隱喻
論《柳毅傳》對前代文本的繼承與轉化
人間(2015年20期)2016-01-04 12:47:10
主站蜘蛛池模板: 国产va在线| 亚洲欧美一区在线| av色爱 天堂网| 精品视频一区二区观看| 黄色在线网| 国产精品毛片一区| 欧美国产精品不卡在线观看| 亚洲日本中文字幕天堂网| 亚洲第一香蕉视频| 国产在线小视频| www.99精品视频在线播放| 手机在线国产精品| 免费一级α片在线观看| 欧美日韩资源| 欧美亚洲国产精品久久蜜芽| 最新国产午夜精品视频成人| 国产电话自拍伊人| 国产无码精品在线播放| 无码精品一区二区久久久| 国产一区二区三区在线观看免费| 天天视频在线91频| 国产一区二区三区视频| 亚洲精品国产综合99| 在线视频一区二区三区不卡| 亚洲欧洲日韩国产综合在线二区| 一级成人a毛片免费播放| 精品国产福利在线| 青青草原国产av福利网站| 亚洲无码高清一区二区| 小蝌蚪亚洲精品国产| 欧美激情视频二区| 激情爆乳一区二区| 欧美精品在线免费| 亚洲国产日韩在线观看| 午夜激情婷婷| 亚洲国产精品一区二区高清无码久久| 欧美成人综合视频| 国产男女免费完整版视频| 国产一级裸网站| 久久99热66这里只有精品一| 亚洲日韩国产精品综合在线观看| 欧美亚洲欧美区| 波多野结衣一区二区三区88| 国产本道久久一区二区三区| 国产精品55夜色66夜色| 亚洲精品福利网站| 亚洲,国产,日韩,综合一区| 高清无码手机在线观看| 国产在线高清一级毛片| 亚洲中文字幕久久无码精品A| 88av在线看| 久久国产高潮流白浆免费观看| 欧美性久久久久| 日韩av无码DVD| 国产97公开成人免费视频| 色婷婷在线影院| 亚洲精品成人片在线观看| 91精品国产自产在线老师啪l| 免费看久久精品99| 亚洲国产亚综合在线区| AV不卡国产在线观看| 午夜国产精品视频| 成人毛片在线播放| 激情午夜婷婷| 精品国产免费观看| 国产色爱av资源综合区| 中文无码毛片又爽又刺激| 日韩毛片基地| 国产精品第一区在线观看| 波多野结衣无码中文字幕在线观看一区二区| 高清无码一本到东京热| 国产精品女熟高潮视频| 免费高清自慰一区二区三区| 91亚洲视频下载| 亚洲色欲色欲www在线观看| 无码专区在线观看| 欧美一级在线看| 欧美日本激情| 97在线免费| lhav亚洲精品| 一级全免费视频播放| 999在线免费视频|