999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

一種基于權重預處理的中文文本分類算法

2022-04-02 05:26:58管有慶
計算機技術與發展 2022年3期
關鍵詞:分類特征文本

何 鎧,管有慶,龔 銳

(南京郵電大學 物聯網學院,江蘇 南京 210003)

0 引 言

信息檢索[1]、文本挖掘[2]作為自然語言處理[3]領域的關鍵技術,給人們的生活帶來了許多便利,而文本分類[4-6]正是這些關鍵技術開展的重要基礎。文本分類作為自然語言處理研究的一個熱點,其主要原理是將文本數據按照一定的分類規則實現自動化分類。目前常見的文本分類方式主要分為基于機器學習和基于深度學習兩種,它們的本質是通過計算機自主學習從而提取文本信息中的規則來進行分類。針對數據量較小、硬件運算能力較低的應用場景,往往使用基于機器學習算法而衍生的文本分類模型。這類模型運行速度快、硬件資源占用量小,并且可以取得不錯的分類準確性。機器學習算法是當前文本分類領域研究的一個重點。

目前,幾種重要的機器學習算法在文本分類領域都有所應用,如KNN(K-nearest neighbor,K臨近算法)、SVM(support vector machine, 支持向量機)和LR[7](logistic regressive,邏輯回歸)等。將基于詞頻的TF-IDF(term frequency-inverse document frequency,詞頻逆文本頻率)算法和NBC[8](naive Bayes classifier,樸素貝葉斯分類器)進行結合,是基于機器學習原理衍生出的一種被廣泛應用的文本分類模型[9]。NBC分類器原理簡明易懂,并且由于其所需要估算的參數較少,對于缺失的數據不敏感,所以在進行小規模文本分類時,有著不錯的表現。但該算法也存著一些問題,傳統TF-IDF[10-12]算法僅通過詞語在文本中出現的頻率來判斷詞語的重要性,無法根據詞語所在的位置信息來進行評估,從而導致文本分類的準確性受到限制[13]。

該文提出一種基于權重預處理的文本分類算法,即PRE-TF-IDF(pre-processing term frequency inverse document frequency,文本預處理的文本詞頻和逆文本詞頻)算法。該算法在傳統TF-IDF模型的基礎上,增加了關鍵信息權重處理和詞密度權重處理兩個新的處理環節,增加分類模型對詞語位置信息的評估,最終提升了文本分類的準確性。

1 TF-IDF算法

TF-IDF算法是一種統計方法,該算法在文本分類中的作用是評估某一個詞語對其所在文本的重要性,結合NBC最終實現對文本的分類。TF-IDF主要包含兩個部分,TF(term frequency,詞頻)和IDF(inverse document frequency,逆文本頻率)。具體定義如式(1)所示:

TF-IDF=TF×IDF

(1)

TF-IDF算法從定義上看是將TF和IDF兩個數值相乘,其中TF的定義式為:

(2)

式中,N(wi,d)表示詞語wi在文本d中出現的次數,S表示文本d中所有詞語的總數。用詞語wi在文本d中出現的次數除以文本d中所有詞語的總數,當詞語wi出現的次數越多,TF值越大,詞語wi對文本d越重要;當詞語wi出現的次數越少,TF值越小,詞語wi對文本d越不重要。但僅憑TF值來衡量一個詞語區分文本類別的能力會出現一些問題,諸如“的”和“是”,這類詞語在每個文本中幾乎都具有非常高的出現次數。因此,在評價某個詞語對于整個文本集的區分能力時,需要依據IDF值來判斷。IDF的定義式為:

(3)

式中,N表示文本集中所有文本的總量,N(wi)表示文本集中出現過詞語wi的文本總數。當N(wi)的數值越小,IDF值就會越大,表示某個詞語在整個文本集中出現的次數越少,則該詞將具有很強的區分類別的能力。

TF-IDF算法的含義是:如果某一個詞語在一篇文本中出現的概率很高(即TF的數值高),但在其他文本中出現的概率很低(即IDF的數值高),則可以認為該詞語具有很好的區分類別的能力,可以作為特征詞語進行分類。

TF-IDF算法單純地認為文本頻率越小的單詞越具有區別文本類別的能力,而文本頻率越大的單詞就越無用,這樣的思想運用于文本集中的文本是同一類型的文本時就顯得不正確了;并且TF-IDF算法沒有根據詞語出現的位置賦予不同的權值。這兩方面的不足導致TF-IDF算法的精度并不是很高。PRE-TF-IDF算法在傳統TF-IDF算法的基礎上,增加了關鍵信息權重處理和詞密度權重處理兩個新的處理環節,以解決上述兩點不足,最終提升文本分類的準確性。

2 基于權重預處理的優化算法(PRE-TF-IDF)

傳統TF-IDF算法在進行文本分類時,主要存在兩個問題。首先,算法僅憑某一個詞語在文本和整個文本集中的出現頻率來判定這個詞語的重要性,IDF值計算式結構簡單,不能有效地反映詞語的重要程度,導致算法精度不高。其次,不考慮詞語在文本中出現的位置,在詞頻相同的情況下,關鍵詞語和非關鍵詞語的權重相同,從而導致分類的準確性降低。為解決這兩個問題,提出了基于權重預處理的改進TF-IDF算法,在文本預處理階段增加了關鍵信息權重處理環節,對文本中不同位置出現的詞語賦予不同的權重,以解決傳統算法無法反映詞語位置信息的問題。在特征詞語的選取階段,增加了詞密度權重處理環節并改進了IDF值的計算方法,以便選取出更具有類別區分能力的特征詞語。結合上述兩方面的改進,最終提出一種基于權重預處理的優化算法,PRE-TF-IDF算法。

2.1 關鍵信息權重處理

(1)算法原理。

針對傳統TF-IDF算法無法根據特征詞在文本中的分布情況而賦予不同權重的問題,基于權重預處理的PRE-TF-IDF優化算法在預處理階段,對于不同位置出現的詞語賦予不同的權重,以突出關鍵位置詞語的重要性,提升區分文本類別的能力。PRE-TF-IDF算法模型主要針對的應用場景是論文、期刊等文本的分類。這類文本往往包含著標題、發表單位、摘要、關鍵詞等特殊信息,這些段落文字量較少,但對全文起到了概括和提煉的作用。針對這些段落中的詞語,賦予更高的權重,有利于更好地選取出具有類別區分能力的特征詞語。

文章標題字數一般在20字左右,字數較少并且能夠簡明扼要地概述全文的內容,對標題內的詞語賦予高于正文詞語的權重。

摘要可以使讀者在最短的時間內準確地了解文章的內容,摘要對區分文本類別也起到了十分重要的作用,因此對于摘要段落內出現的詞語賦予高于正文詞語的權重。

關鍵詞段落常常位于摘要后一段,使用幾個詞語來概括文章涉及的專業領域,字數較少但概括能力極強,因此需要對關鍵詞賦予高于正文詞語的權重。針對不包含摘要和關鍵詞的期刊文本,則不作額外賦值,統一按正文中出現詞語賦值。

發表單位常常會出現學校的名稱、企業名稱或期刊名稱等。根據文本所屬的出版單位信息,可以大致對文本可能涉及的領域進行一定的評估。例如,一篇發表自理工類學校的文章,該文章屬于計算機、電子或能源等領域的可能性要比藝術、教育或法律等領域的可能性高。通過中國大學信息查詢系統,獲取國內所有高校的名稱及其所對應的專業類別,類別包含“綜合類”、“理工類”、“師范類”、“財經類”和“農林類”。表1中這五種高校類別與表2中八類文本專業領域分別具有不同的權重配比。

(2)權重處理具體過程。

如圖1所示,虛線框內的步驟為權重處理的流程。經過預處理后,文本去除了停用詞,并以詞語的形式保存,詞與詞之間用空格分隔,段落之間使用換行符分隔。使用預處理后的文本數據作為輸入,對文本進行位置權重賦值,賦值規則如下:

圖1 權重處理流程

對于標題段落內的詞語,權重值乘以2。通過中國大學信息查詢系統,獲取國內所有高校的名稱及其所對應的專業類別。檢索“摘要”和“關鍵詞”段落,對“摘要”段落內的詞語,權重值乘以1.5;“關鍵詞”段落內的詞語,權重值乘以2。檢索文本中前300個詞語,與高校名稱庫進行匹配,若匹配成功,按高校所屬類別乘以類別權重,具體類別權重見表1。若匹配失敗則不做額外賦值處理。

表1 高校類別對應專業領域權重

通過中國大學信息查詢系統,收集“綜合類”、“理工類”、“師范類”、“財經類”和“農林類”這五類大學,每類10所院校。通過統計不同專業研究生數量進行加權平均的方式,求得每個專業領域的權重,繪制成表1。

在求得待分類文本中所有特征詞語出現在不同類別的聯合概率分布后,可以得到該文本分別屬于各個類別的概率值,再將各個類別的概率值與表1的專業領域權重進行相乘,最終取概率值較大的類別,即為待分類文本的類別。

關鍵信息權重處理中標題段、摘要段和關鍵詞處的權重系數為通過多次實驗后,經過分類效果對比,最終確定的具體數值。

2.2 詞密度權重處理

傳統TF-IDF算法單純地認為文本頻率越小的詞語越具有區別文本類別的能力,而文本頻率越大的詞語就越無用,這樣的思想并不是完全正確的。造成這一問題的主要原因是IDF值的計算方式較為簡單,只考慮了某個詞語與其出現的文本數量之間的關系。為解決這一問題,在PRE-TF-IDF算法中增加了詞密度權重處理環節,該環節的主要原理是通過類別內詞密度和類別外詞密度兩個指標對特征詞語的類別區分能力進行衡量。

通過ICD(intra class density,類別內詞密度)來表示特征詞語在類別內文本中的出現密度權重;用OCD(outer class density,類別外詞密度)來表示特征詞語在其他類別文本中出現的密度權重。同時引入WF(word frequency,詞語出現頻數),即WF(wi)、WF(wi,Cj)和WF(wi,Cjk)這三個參數進行計算。

類別內詞密度權重ICD表示為:

(4)

類別外詞密度權重OCD表示為:

(5)

式(4)和式(5)中,WF(wi)表示特征詞語wi在所有類別文本中出現的頻數總數,WF(wi,Cj)表示特征詞語wi在第j類中的頻數,WF(wi,Cjk)表示特征詞語wi在第j類中第k篇文本中出現的頻數,n表示第j類中文本的總數,m表示文本的類別總數。

類別內詞密度權重ICD的取值范圍為[0,1]。當ICD值趨向于0時,表明在類別內特征詞語wi的出現密度較為平均,能夠很好地體現該類文本的共性;當取值趨向于1時,表明特征詞語wi在該類文本中出現密度不平均,存在某些文本頻數過高的情況,不具有代表性。

類別外詞密度權重OCD的取值范圍也為[0,1]。當取值趨向于0時,表明特征詞語wi在不同類別的文本中都有較為平均的出現密度,不能很好地代表某一類文本;當取值趨向于1時,表明特征詞語在不同類別中的出現密度分布不均,類別區分能力較強。

綜上所述,當某個特征詞語的ICD值趨向于0,OCD值趨向于1時,代表該詞語針對某一類文本具有較強的代表能力。基于傳統TF-IDF算法,結合ICD和OCD兩種詞密度權重,最終形成PRE-TF-IDF權重計算函數:

PRE-TF-IDF=TF×IDF×OCD×(1-ICD)

(6)

式(6)中,TF表示詞頻,由式(2)定義;IDF表示逆文本頻率,由式(3)定義;OCD表示類別外詞密度權重,由式(5)定義;ICD表示類別內詞密度權重,由式(4)定義。

3 實驗結果與分析

采用三個性能評估指標來對基于權重預處理的PRE-TF-IDF分類算法進行實驗分析,分別是精確率(Precision)、召回率(Recall)和F1值(F1 Score)。通過對相同數據集使用傳統選取方式和該文優化后的選取方式,進行對照實驗并評估。實驗運行設備是在安裝了Windows10專業版操作系統,內存為16 GB,CPU(central processing unit,中央處理器)主頻為2.8 GHz的PC機上進行的。主要使用的軟件環境是基于Python3.6.7內核和Pycharm 2018.12.5版本,采用的數據集源于復旦大學中文文本分類語料庫。在實驗過程中,將獲取的數據集分為訓練集和測試集并且按照1∶1的比例進行實驗評估。分類類別為8種,訓練集共8 800篇文章,測試集共8 800篇文本。文本以“.txt”的格式進行保存,實驗共分為10組,將這8類文本進行等比例縮放,形成10組數據集,具體數據集明細如表2所示。

表2 數據集分類明細

將上述數據按照所占比例的大小,分成10組實驗數據集,其中訓練集和測試集的比例為1∶1,表3描述了每組數據的大小。

表3 數據集分組大小

在完成分詞后,針對文本中出現的語氣助詞、人稱、標點符號這類對文本特征沒有貢獻的字詞,將其收集、合并,形成了一個停用詞列表。通過與停用詞列表匹配并將停用詞從文本中去除掉,以達到提升程序運行效率、減少干擾因素和提高算法準確性的目的。

3.1 特征詞語選取

在實驗過程中,特征詞語選取的數量對PRE-TF-IDF算法的精確率和運行效率都有一定的影響。通過實驗計算出兼顧精確率與運行效率的特征詞語占比。實驗時,將訓練集和測試集的數量都定為8 800,在保持這一條件不變的情況下,通過調整特征詞語所占的比重,觀察運行效率和精確率的變化,最終選取最佳的特征詞語占比。

圖2 特征向量占文本比重

根據圖2可知,在一定范圍內,PRE-TF-IDF算法的分類準確性隨著特征詞語在文本中的比重增加而增加。但當特征詞語占文本比重超過一定數值后,反而使得算法分類的效果下降,對分類的精確率產生負面影響。所以,特征詞語在文本中的比重存在一個峰值。隨著特征詞語在文本中的比重不斷增加,算法進行文本分類時所需要的時間也隨之變長。最終得出精確率峰值時的平均值為特征詞語所占文本的比重17.57%。此時,能使得PRE-TF-IDF算法兼顧分類精確率和運行效率。

3.2 精確率

精確率定義為測試集文本經過算法所分類出的類別與其正確類別之間的百分比,也就是正確分類的文本占所有文本的百分比,其對應的公式如下:

(7)

其中,TP表示被正確分類的文本,FP表示被錯誤分類的文本數量,(TP+FP)即文本的總數量[14]。

這里將上述8類文本按照文本數量的大小進行從小到大的排序,隨著訓練集數量的增加,觀察不同算法對于文本分類精確率的表現。實驗中將KNN[15]、LR[7]、TF-IDF[12]算法和所提出的PRE-TF-IDF算法進行對比,結果如圖3所示。

圖3 四種分類算法在不同數據集下的

由圖3可知,PRE-TF-IDF權重預處理優化算法進行分類的準確率比KNN、LR和傳統TF-IDF算法都要高。隨著訓練集文本量的增加,各個分類模型的精確率也在不斷增加。當數據集數量達到最大時,KNN算法、LR、TF-IDF和PRE-TF-IDF算法對應的精確率分別為74.8%、80.0%、84.9%和86.9%。LR算法當遭遇特征空間較大時,進行LR分類時的性能不是很好,容易出現欠擬合,精確性不高的情況。傳統TF-IDF算法結合樸素貝葉斯分類器在進行分類時,雖然精確性相比于KNN和LR算法有所提升,但是由于傳統TF-IDF算法存在無法根據詞語位置信息分別賦予權重和僅憑文本詞頻進行IDF值計算的問題,所以精確性存在一定的限制。PRE-TF-IDF算法由于增加了權重預處理和詞密度處理兩個環節,相比于傳統的算法,精確率提升了2%~5.5%。

3.3 召回率

召回率作為一項評估文本分類系統從數據集中分類成功度的指標,用來體現分類算法的完備性,數值越高代表算法的成功度越高。具體公式如下:

(8)

其中,TP表示被正確分類的文本數量,FN表示應當被分到錯誤類別中的文本的數量。為了評估PRE-TF-IDF算法的召回率指標,同樣進行十組不同數據量的對照實驗。分別采用KNN、LR、TF-IDF算法和PRE-TF-IDF算法進行實驗。實驗結果如圖4所示。

圖4 不同分類算法的召回率對比

由圖4可以看出,PRE-TF-IDF的召回率比其他三種文本分類算法的召回率都要高。文本分類的召回率和精確率往往隨著數據集的增加而有所提升,召回率與數據集的數量總體上成線性增長。當數據集數量達到最大時,KNN算法、LR、TF-IDF和PRE-TF-IDF算法對應的召回率分別為73.6%、79.0%,83.3%和86.5%。

3.4 F1值

F1值是一個綜合考慮精確率和召回率的指標,同時兼顧了分類模型中的精確率和召回率,也可以將這個指標看作是算法精確率和召回率的調和平均。計算公式如下:

(9)

其中,P表示精確率(Precision),R表示召回率(Recall),這兩個指標反映了分類準確性和成功性兩個不同的方面。將精確率和召回率數據進行計算,并繪制成如圖5所示的折線圖。

F1值通過精確率和召回率計算而得,可以用來評價整個分類器分類效果的優劣。KNN、LR、TF-IDF和PRE-TF-IDF的F1值最終分別為0.742、0.795、0.841和0.867。

圖5 不同分類算法的F1值對比

4 結束語

該文首先介紹了傳統TF-IDF算法的實現原理,并指出了傳統TF-IDF算法存在的兩個問題,即無法根據詞語的位置信息進行權重賦值和僅憑文本詞頻計算IDF值。對此,該文提出了一種基于權重預處理的PRE-TF-IDF算法。通過PRE-TF-IDF算法中的關鍵信息權重處理和詞密度權重處理兩個環節來相應地解決傳統TF-IDF算法存在的兩個問題,并且描述了原理和處理流程。通過實驗,將PRE-TF-IDF算法與現有的KNN、LR和傳統TF-IDF算法進行對照,在精確率、召回率和F1值這三個方面進行對比,對PRE-TF-IDF算法進行了評估。

猜你喜歡
分類特征文本
分類算一算
如何表達“特征”
在808DA上文本顯示的改善
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
分類討論求坐標
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
數據分析中的分類討論
教你一招:數的分類
抓住特征巧觀察
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學隱喻
主站蜘蛛池模板: 91娇喘视频| 国产剧情国内精品原创| 免费99精品国产自在现线| 中文字幕无线码一区| 色偷偷综合网| 性激烈欧美三级在线播放| 午夜一级做a爰片久久毛片| 精品一区二区三区无码视频无码| 亚洲成人网在线观看| 欧美激情综合| 国产在线视频导航| 在线色综合| 全色黄大色大片免费久久老太| 精品视频一区二区观看| 久久午夜夜伦鲁鲁片无码免费| 亚洲va视频| 色综合五月婷婷| 色综合久久88色综合天天提莫| 日韩一区二区三免费高清| 少妇精品在线| 在线观看国产精美视频| 欧美高清国产| 91精品专区| 女人18一级毛片免费观看| 亚洲性网站| 日本国产精品| 99久久精品免费看国产电影| 毛片基地视频| av大片在线无码免费| 高潮毛片无遮挡高清视频播放| 国产剧情国内精品原创| www.91在线播放| 国产成人8x视频一区二区| 狠狠色狠狠色综合久久第一次 | 国产在线观看人成激情视频| 国产亚洲成AⅤ人片在线观看| 天天婬欲婬香婬色婬视频播放| 亚洲天堂成人在线观看| 丁香六月综合网| 国产一级毛片yw| 天天爽免费视频| 国产高清无码麻豆精品| 伊人久久精品亚洲午夜| 中文国产成人久久精品小说| 一本大道香蕉高清久久| 999在线免费视频| 2021精品国产自在现线看| 国精品91人妻无码一区二区三区| 国产麻豆福利av在线播放| 日韩午夜伦| 国产精品丝袜视频| 欧美视频在线不卡| 久久久久亚洲精品成人网| 久久久久久高潮白浆| 91网址在线播放| 黄色网址免费在线| 72种姿势欧美久久久久大黄蕉| 996免费视频国产在线播放| 久久精品无码一区二区日韩免费| A级全黄试看30分钟小视频| 国产午夜在线观看视频| 久久semm亚洲国产| 蜜桃视频一区二区| 十八禁美女裸体网站| 国产人妖视频一区在线观看| 免费观看国产小粉嫩喷水| 99久久精品视香蕉蕉| 99免费视频观看| 老色鬼欧美精品| 欧美日韩91| 亚洲最猛黑人xxxx黑人猛交| 高清不卡毛片| 丰满人妻久久中文字幕| 麻豆精品在线播放| 澳门av无码| 呦女精品网站| 色综合天天娱乐综合网| 久久精品人人做人人爽| 又爽又大又黄a级毛片在线视频| 国产美女人喷水在线观看| 国产裸舞福利在线视频合集| 亚洲三级电影在线播放|