999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于機器學習的文本分類研究

2021-12-31 01:30:26王迷莉
科技創新與應用 2021年26期
關鍵詞:分類文本模型

王迷莉

(山東科技大學,山東 泰安 271000)

科技的發展,帶動了文本分類技術的發展,如今存在著各式各樣用于文本分類的技術,但是最受人青睞的模型之一是樸素貝葉斯分類模型。由于其構建較為簡單,同時分類結果也較為精確,費時少但得到的效果是高效的,因此受到了人們的廣泛歡迎。

現如今隨著人們對文本分類需求的增加,使得它有著良好的發展前景。本篇文章對中文文本分類的理論分析過程和相關文本分類方法的理論思想過程等進行闡述。此次文章實驗階段作者選取的數據是“搜狗實驗室”中的新聞信息數據,隨后利用python進行編程操作,構造樸素貝葉斯分類器進行新聞文本分類。

1 研究背景與意義

時代在進步,科技也在進步,涌現出了人工智能、機器學習等新興技術,也引起了文本信息在互聯網中的盛行。但是網絡中的文本信息大多數紛繁復雜,怎樣可以快速高效地提取自己想要的信息?這時就需要借助文本分類技術來幫助我們更方便地解決此問題。

文本分類是一種自動分類的方法,它可以事先預定義類別,然后將未分類的數據按照預定義類別進行分類,方便進行后續的操作。文本預處理也相當于一種信息檢索的方法,它可被當成檢索系統的前置步驟,可以大大提高查詢的速度和準確性。而傳統的手工分類技術存在著工作周期較長、工作效率較低等弊端,因此應用統計學和機器學習的文本分類技術便應運而生。

2 文本分類研究現狀

2.1 國外研究現狀

1958年,HP.Luhn開啟了文本分類的先河。他首次提出在文本分類中應用詞頻統計的方法,并進行了創新。隨后,Maron和Kuhn首次提出文本自動分類,也拉開了文本自動分類作為獨立研究課題的序幕。

20世紀90年代后期,計算機技術蓬勃發展,同時網絡信息量不斷增長,人們對文本分類的需求日益增長。傳統的手工分類逐漸被淘汰,基于機器學習的文本分類逐漸被人們所發現并重視,由于此種方法分類的結果更加精確,分類速度更快,很快便替代了原本的手工分類。

2.2 國內研究現狀

與國外相比,國內對于文本分類研究起步較晚,并且由于語言之間的差異,導致國外的研究成果不能被直接參照。但是通過借鑒國外的文本分類經驗,國內的文本分類研究也取得了卓越的成果。1981年,侯漢清教授第一次發掘了文本分類的應用領域。1999年,鄒濤又探索了文本分類中一些十分重要的技術,如相關模型、特征的提取方法和字典結構等。21世紀初期,文本分類的研究在國內開始呈現直線上升趨勢,一些著名的學者,如龐劍鋒、周雪忠、宋欣等,都在文本分類的研究上取得了相應的學術成果。

文本技術發展至今,中文文本分類與機器學習算法相結合已經變得日趨成熟,在人們日常生活使用時,文本分類已變得更加方便簡潔。

2.3 論文的組織安排

本文的核心內容是利用樸素貝葉斯分類器進行新聞文本分類。實驗過程中還使用了LDA主題模型。代碼編寫是在python的集成環境anaconda中。

第一部分:介紹本論文主題和文本分類的研究背景與實際意義,分析了國內外研究歷程,概述本論文的結構。

第二部分:介紹了樸素貝葉斯。

第三部分:介紹了處理的相關基礎知識與應用技術。

第四部分:對于樣本數據集,編寫相應的python代碼進行實驗分析。

第五部分:結合理論分析和實驗分析對本論文進行總結。

3 樸素貝葉斯分類器

3.1 樸素貝葉斯分類器的假設前提

樸素貝葉斯分類器有一個假設前提,即假設每個特征之間都具有很強的獨立性。簡而言之,決策結果中既沒有很大比例的屬性變量,也沒有很小比例的屬性變量。樸素貝葉斯分類是分類算法中較為簡單的算法,“樸素”顧名思義是說該算法的思想真的并不復雜:在給出的所有待分類項中,我們首先需要逐個算出在此項出現的條件下各個類別出現的概率,比較哪個類別的概率最大,就認為此待分類項屬于哪個類別。舉個例子,你看見了一個金發碧眼的人,心里就可能會猜測是外國人,之所以這樣想是由我們的生活常識給出的答案。為什么不猜測是中國人呢?是因為中國人中很少有金發碧眼的人物形象(當然并不是沒有),我們猜測他是外國人的原因是,在我們的認知范圍中,更加偏向于選擇最大概率的類別,這也和樸素貝葉斯的思想基礎較為相符。利用樸素貝葉斯的思想構建樸素貝葉斯分類器,處理文本分類結果會更加準確,處理過程也會更加高效,同時算法簡單,模型易于構建。

3.2 樸素貝葉斯的特性

樸素貝葉斯模型優勢較為突出,與其他分類算法相比,它具有扎實的數學理論基礎、可解釋性強和易于實現的性質;其次算法復雜度能用來衡量一個算法的優劣程度,樸素貝葉斯擁有較低的算法復雜度,使得它比機器學習中的其他模型處理過程更為簡單。基本條件概率估計的準確性和它的特征獨立性假設的約束條件是影響最優分類的兩個因素。樸素貝葉斯具有較高的實用性,理論上的錯誤會比較少,因此樸素貝葉斯模型的應用較為常見。

當然有優勢也就有不足之處。該模型分類的假設前提是各個屬性相互獨立,這將會影響到分類的準確性和效率。但是在實際應用場景中,這個假設不可能完全成立,因此有眾多研究者嘗試對樸素貝葉斯模型進行相應的改進。

4 文本預處理

首先將所需要的數據從網站上下載下來,通過下載搜狐等各大網站共享新聞數據集,作為本次項目的測試集和訓練集。

4.1 中文分詞

何為中文分詞?中文分詞就是找到句子中詞與詞之間的界限,該界限是可以自己加以設計的,習慣上稱為邊界標記。眾所周知,英文中單詞之間的分隔符號簡單,而在中文中,句子之間的分隔則變得多元化,字、句、段、符號等都可以作為分詞的依據,相比于英文,中文的分詞方式更加紛繁復雜。

中文分詞作為文本分類處理過程中的必需步驟,其主要思想就是將一整篇文本利用分詞技術切分成單個詞或者詞語。因此,在實驗的過程中,訓練集和測試集都必須利用分詞工具進行分詞處理。

在本篇文章中使用的分詞工具為結巴分詞。它利用了機械分詞的最大正向匹配統計分詞中的語言模型,并對未登入的使用隱馬爾科夫模型,使用Veterbi算法推導計算。

4.2 去停用詞

停用詞指的是文章中出現頻率較高但對分類幾乎沒有什么用處的詞語。以中文文本為例,停用詞主要包含以下兩方面:

(1)經常會在各類文本中出現,且可能出現在文本中任意地方的詞語。由于這些詞語出現的普遍性,導致看到這些詞也無法得出有效的分類信息,無法分析出這篇文章的主題類別,甚至降低分類的準確度。所以需要對它們進行刪除處理。

(2)人稱代詞、助詞、介詞和文本符號等也屬于停用詞,如“我”“你”“我們”“你們”“地”“的”“啊”“[]”“Y”、“%”等。在實驗時,我們可以將文本中出現的對分類貢獻度不大的詞語歸結到停用詞中,需要人為手動加入,然后再引用新的停用詞表進行遍歷,刪除文本的停用詞。該過程可以有效節約內存空間、大大減少處理時間和降低計算的復雜性。

4.3 特征提取

本篇文章中進行特征提取的主要方法是利用互信息。互信息是用于評判兩個特征相關性的一個屬性,即一個變量與類別之間的相關性越大,就認為該詞屬于重要的特征詞,需要保留下來,反之舍棄。

互信息常用于自然語言處理,而且也是非常重要的指標。在互信息的計算過程中,當互信息值越大時,表示詞與類別之間就越相關,就會將該詞作為重要的特征詞保留下來,反之舍棄。

4.4 特征表示

經過特征提取后保留的文本特征是文本中最重要的特征,但是計算機并不認識,因此需要進一步轉化為計算機能識別的向量。目前,文本表示主流的有三種方法,經典的One-hot模型、TF-IDF模型和基于深度學習的Word2vec模型。TF-IDF模型與One-hot模型相比,可以計算反詞頻概率值;Word2vec模型能解決One-hot模型和TF-IDF模型的維度災難和向量稀疏的缺陷,最重要的是Word2vec模型能表示詞語之間的語義。本文綜合考慮各種因素,選用Word2vec模型作為文本向量的表示方法。

在文本向量化過程中,Word2vec模型一般有CBOW和Skipgram訓練模型。CBOW模型的核心思想是利用上下文對中間詞進行預測,即上下文k個詞決定了該詞出現的概率值。Skip-gram模型的核心思想是通過中間詞去預測上下文,該詞決定上下文k個詞語出現的概率值。通過上述可以知道CBOW模型的核心思想和Skip-gram模型正好相反,一個是通過上下文預測中間詞,另一個是通過中間詞預測上下文。

5 樸素貝葉斯模型

樸素貝葉斯算法是有監督的學習算法,在日常生活中通常解決的是分類問題,如新聞文本的分類、是否值得投資、信用等級評定等諸多分類問題。該算法在某些領域分類問題中的效果與決策樹、神經網絡算法效果不相上下。但由于該算法的假設前提是條件特征獨立和連續變量的正態性,就會影響該算法的精確度。

5.1 基于樸素貝葉斯新聞分類

5.1.1 數據預處理

本小節將詳細介紹對新聞文本進行獲取及處理的過程,其中新聞文本處理的步驟主要包含了新聞分詞、去停用詞及文本向量化的過程,將得到的數據應用于樸素貝葉斯模型中。中文分詞與去停用詞是進行數據預處理的兩個主要部分,也是進行文本分類必不可少的部分。利用python中的jieba分詞工具對數據進行預處理,同時將對分類無意義的詞語刪除,如標點符號等,來完成去停用詞的操作。

5.1.2 抽取各類中的特征詞,統計各分類數量

我們進行預處理時,利用jieba分詞工具使得預處理之后的數據更加簡潔明了。另外,互信息也是特征項和類別之間相關程度的體現,兩者呈現正相關,是用于評判詞關聯統計模型的標準。沒有考慮特征出現的頻率是互信息與期望交叉熵的不同,這樣使得互信息評估函數不選擇高頻的有用詞而有可能選擇稀有詞作為文本的最佳特征。實驗過程中將新聞中的特征詞提取出來,并且進行分類,分類之后我們可以看出各個特征詞的數量,以便進行更好的操作。

5.1.3 導入LDA主題模型

LDA主題模型,是人們平時對三層貝葉斯概率模型的另一種叫法。三層結構主要是指單詞、主題和文檔。通俗地說,我們把一篇課文中的每一個單詞都看作以一定概率選擇一個主題,并以一定概率從那個主題中選擇一個單詞的過程。從文檔到主題,從主題到單詞,都遵循多項式分布。利用LDA主題模型我們可以很方便地看出新聞隸屬于哪個主題,可以很好地得到文本的分類結果。

5.2 進行文本分類

5.2.1 數據準備

首先定義相關的主題,在這次實驗中作者定義了10個標簽,分別是汽車、財經、科技、健康、體育、教育、文化、軍事、娛樂、時尚。隨后用數字1-10代表這些主題。將分詞之后的結果,與定義的結果進行操作,我們可以看出一些詞隸屬于哪些主題,很好地對其進行了分類。

5.2.2 劃分訓練集和測試集

隨后將處理好的數據劃分為訓練集和測試集,以便于更好地進行模型的構建。之后使用CountVectorizer轉換成向量形式,轉換為向量模式后,更有利于數據的操作,使結果也更加準確。

5.2.3 結果分析

通過給訓練集訓練模型,最終得到的訓練結果準確率為0.804。驗證測試集對,測試結果準確率為0.815,精度較高,說明模型得到了優化提升,證明了模型的可行性。

6 結束語

本文詳細介紹了文本分類的發展歷程,以及其在現代社會的巨大作用,介紹了貝葉斯模型,以及改進后的樸素貝葉斯算法,隨后利用實驗驗證了樸素貝葉斯模型在文本分類中的精確性。其次本文以新聞文本作為基礎數據,詳細梳理了文本分析、文本表示,主要包含了中文分詞、去停用詞、特征提取和特征表示四個方面,其中Word2vec模型進行文本向量化是本文最核心的內容,它可以對向量的維度進行自定義,從而減少了TF-IDF模型產生的稀疏矩陣所帶來維度災難問題。經過這次的文本分類研究,對文本分類的發展有了一個更加清晰的框架和更加深刻的認識。

猜你喜歡
分類文本模型
一半模型
分類算一算
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
在808DA上文本顯示的改善
分類討論求坐標
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
數據分析中的分類討論
教你一招:數的分類
3D打印中的模型分割與打包
主站蜘蛛池模板: AV无码国产在线看岛国岛| 免费一级毛片在线播放傲雪网| 国产sm重味一区二区三区| 国产大全韩国亚洲一区二区三区| 97在线免费| 天天色综合4| 欧美日韩成人在线观看| 极品av一区二区| 国产高清在线精品一区二区三区| 欧美在线视频不卡| 欧美特黄一级大黄录像| 精品欧美一区二区三区在线| 2020极品精品国产 | 精品乱码久久久久久久| 无码免费视频| 8090午夜无码专区| 免费午夜无码18禁无码影院| 91破解版在线亚洲| 久久人人爽人人爽人人片aV东京热 | 国产99热| 国产色婷婷| 久久婷婷国产综合尤物精品| 欧美日韩成人| 人妻丰满熟妇啪啪| 国产激情无码一区二区免费| 啊嗯不日本网站| 无码'专区第一页| 看av免费毛片手机播放| 亚洲成年人片| 谁有在线观看日韩亚洲最新视频| 中文字幕 91| 色哟哟精品无码网站在线播放视频| hezyo加勒比一区二区三区| 亚洲丝袜中文字幕| 免费AV在线播放观看18禁强制| 精品丝袜美腿国产一区| 一本大道在线一本久道| 丁香婷婷综合激情| 日本一区二区三区精品AⅤ| 久久黄色视频影| 国产成人精品视频一区二区电影| 2018日日摸夜夜添狠狠躁| 26uuu国产精品视频| 国产嫖妓91东北老熟女久久一| www.av男人.com| 国产成人精品视频一区二区电影 | 天天躁夜夜躁狠狠躁图片| 色天堂无毒不卡| 99久久精品国产自免费| 91福利免费视频| 国产午夜不卡| 狠狠色狠狠综合久久| 国产午夜在线观看视频| 亚洲欧美日韩天堂| 成人无码一区二区三区视频在线观看| 国产精品亚洲片在线va| 欧美日本在线一区二区三区| 97视频免费看| 伊人久久久大香线蕉综合直播| 国产亚洲精品91| 国产高清精品在线91| 欧美97色| 中文纯内无码H| 强奷白丝美女在线观看 | 在线国产91| 中文字幕在线一区二区在线| 国产正在播放| 一本大道香蕉高清久久| 日韩资源站| 91久久国产综合精品| 欧美福利在线播放| 国产成人精品一区二区不卡| 成人国产精品网站在线看| 99热这里只有成人精品国产| 国产成人亚洲综合a∨婷婷| 在线观看网站国产| 国产中文一区a级毛片视频| 日本道综合一本久久久88| 亚洲国产无码有码| 婷婷综合缴情亚洲五月伊| 亚洲AV无码精品无码久久蜜桃| 就去色综合|