999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于機(jī)器學(xué)習(xí)的文本自動(dòng)歸類系統(tǒng)算法研究

2021-07-22 13:13:16邢照野劉曉群
新一代信息技術(shù) 2021年12期
關(guān)鍵詞:分類文本

邢照野,劉曉群

(河北省建筑工程學(xué)院,河北 張家口 065000)

0 引言

文檔自動(dòng)分類是一種采用統(tǒng)計(jì)方法或者機(jī)器學(xué)習(xí)方法來確定文本內(nèi)容類別的過程,本文設(shè)計(jì)其思想為:根據(jù)一些已經(jīng)有標(biāo)簽并分好類的訓(xùn)練數(shù)據(jù),對(duì)模型進(jìn)行訓(xùn)練,對(duì)新的數(shù)據(jù)進(jìn)行分類得到標(biāo)簽。基于有監(jiān)督學(xué)習(xí)的機(jī)器學(xué)習(xí)文本分類器可以根據(jù)數(shù)據(jù)集中的內(nèi)容,獲得文本信息的類別標(biāo)簽。由于人工進(jìn)行分類文本的效率比較差,因此運(yùn)用技術(shù)解決文本分類問題成為了目前研究的熱點(diǎn)。

1 系統(tǒng)分析與設(shè)計(jì)

1.1 需求分析

從技術(shù)的層面上講,本文使用監(jiān)督學(xué)習(xí)算法來對(duì)歷史數(shù)據(jù)訓(xùn)練,并生成模型,用于對(duì)未知文本的類別進(jìn)行預(yù)測(cè)。不過目前由單一的算法所搭建的分類器效果較差,因此文本設(shè)計(jì)實(shí)現(xiàn)通過不同的組合方式和優(yōu)化方式,對(duì)某批文本設(shè)計(jì)出最優(yōu)的分類器,達(dá)到更好的分類效果。文本的分類器選擇的是SVM,這是因?yàn)镾VM是除了深度學(xué)習(xí)以外的最好的分類算法,它有如下特征:它既可應(yīng)用于線性分類,也可以用于非線性分類。

1.2 系統(tǒng)流程

1.2.1 系統(tǒng)流程

文本分類流程如圖1所示。

圖1 文本分類流程圖Fig. 1 flow chart of text classification

1.2.2 業(yè)務(wù)流程

本系統(tǒng)的目的是實(shí)現(xiàn)一個(gè)系統(tǒng)可以自動(dòng)對(duì)文本信息進(jìn)行分詞處理,詞頻統(tǒng)計(jì)和分類處理。在數(shù)據(jù)上傳部分,可以人為將所需要分類的文本信息進(jìn)行粘貼上傳,同時(shí)也可以通過給予一個(gè) url地址,使用爬蟲功能進(jìn)行文本內(nèi)容的獲取。在文本分類處理部分,可以分別展示文本分詞效果,詞頻統(tǒng)計(jì)效果和文本的分類效果,可以將程序?qū)ξ谋拘畔⒆鎏幚淼倪^程和結(jié)果進(jìn)行可視化操作。

1.3 功能模塊介紹

1.3.1 中文文本分詞

分詞主要通過python的jieba分詞庫來實(shí)現(xiàn)。通過傳入需要分詞的字符串并選擇分詞模式。精確模式適合文本分析,此方法可以提高模型的召回率。同時(shí)分詞的精度也會(huì)對(duì)后續(xù)應(yīng)用的模塊有影響,所以分詞任務(wù)是首要完成的主要模塊之一。

1.3.2 TF-IDF特征提取

TF-IDF是“詞頻-逆文檔頻率”,TF就是詞頻,IDF是用來反映某個(gè)詞的重要性。當(dāng)某一個(gè)詞在其中一類文文信息中出現(xiàn)的頻率較高的時(shí)候,然而卻在全部數(shù)據(jù)集文檔中出現(xiàn)的頻率較少,那么這個(gè)詞可以在一定程度上有文檔的區(qū)分能力。一般特征提取也是基于此而形成的,出現(xiàn)頻率較大的該詞就是本篇文檔的特征詞。最終進(jìn)行特征標(biāo)準(zhǔn)化和特征工程,并將數(shù)據(jù)傳入以機(jī)器學(xué)習(xí)算法構(gòu)建的分類器中進(jìn)行分類。文本的數(shù)值化方法有多種,本文使用的是TF-IDF技術(shù)。

1.3.3 支持向量機(jī)

(1)SVM的線性分類

(2)SVM解決的問題

(3)超平面

(4)SMO算法

(5)VC維

(6)結(jié)構(gòu)風(fēng)險(xiǎn)最小化

(7)核函數(shù)的選擇

1.3.4 模型評(píng)估與調(diào)優(yōu)

(1)召回率:召回率的公式=TP / (TP + FN),召回率又稱查全率,衡量的是檢索系統(tǒng)的查全率;

(2)召回率=相關(guān)文件數(shù)/所有相關(guān)的文件總數(shù);

(3)準(zhǔn)確率(精度):準(zhǔn)確率的公式=(TP +TN)/總樣本。是指文本中分類正確的數(shù)量與文檔總數(shù)之間的比率;

(4)準(zhǔn)確率=相關(guān)文件/所有文件數(shù);

(5)準(zhǔn)確率與召回率之間具有很大的關(guān)聯(lián)性。正常來說,準(zhǔn)確率和召回率成反比。

1.3.5 混淆矩陣

混淆矩陣如表1所示。

表1 混淆矩陣Tab.1 Confusion matrix

1.4 功能詳盡說明

1.4.1 分類信息上傳模塊

通過文件上傳或文本粘貼的形式,將文本信息上傳入系統(tǒng)。分別對(duì)文本進(jìn)行分詞處理,詞頻統(tǒng)計(jì),并通過調(diào)用訓(xùn)練好的模型,進(jìn)行對(duì)未知文本做分類處理,得出來的類別標(biāo)簽并保存。分別通過核函數(shù)的選擇,原始分類器的使用。得出分類結(jié)果,并傳入前端界面展示。

1.4.2 普通結(jié)果查看模塊

用戶進(jìn)入系統(tǒng)后,上傳想要分類的文本信息后,可以瀏覽到有關(guān)該篇文本的信息,比如:分詞結(jié)果,詞云圖,詞頻統(tǒng)計(jì)柱狀圖和分類標(biāo)簽所屬的類別。用戶通過點(diǎn)擊中文分類模塊中的不同的按鈕,可以查看以核函數(shù)分類的結(jié)果和原始分類器的分類結(jié)果。

1.4.3 算法設(shè)計(jì)模塊

(1)中文分詞

分詞是自然語言處理中數(shù)據(jù)預(yù)處理部分的模塊,后期模型分類的準(zhǔn)確度也會(huì)受到分詞的影響,結(jié)巴分詞是專門使用Python開發(fā)的分詞系統(tǒng),精確度較高。

將數(shù)據(jù)進(jìn)行分詞以后,原本連續(xù)的字序列變成了向量形式。向量中每個(gè)分量都代表著獨(dú)立的意義,本文使用的是全模式分詞(cut_all = True),最終通過分詞實(shí)現(xiàn)了文本的結(jié)構(gòu)化。

(2)詞頻統(tǒng)計(jì)

該模塊主要的功能是統(tǒng)計(jì)詞頻,求出TF-IDF值,將文本向量化處理,計(jì)算出每個(gè)詞頻,最終將向量化結(jié)果傳入分類器,進(jìn)行模型訓(xùn)練和樣本類別的預(yù)測(cè)。首先通過結(jié)巴庫進(jìn)行分詞,然后進(jìn)行中文詞頻統(tǒng)計(jì),計(jì)算每個(gè)詞在文章中出現(xiàn)的頻率。用戶在前臺(tái)點(diǎn)擊按鈕以后,可以展現(xiàn)出從前臺(tái)界面所傳入的文本信息處理后的結(jié)果詞頻統(tǒng)計(jì)后的結(jié)果,并計(jì)算出所需分類的文本詞頻。

(3)詞云展示

該模塊主要依據(jù)詞頻統(tǒng)計(jì)結(jié)果,將文本詞頻繪制成詞云,在前臺(tái)界面做出展示。后臺(tái)接收從界面?zhèn)魅氲奈谋拘畔ⅲㄟ^分詞,詞頻統(tǒng)計(jì)等一系列數(shù)據(jù)清洗和數(shù)據(jù)預(yù)處理,并通過python中的wordcloud庫制作形成詞云,將詞云保存進(jìn)入數(shù)據(jù)庫,最終顯示在前端界面的相應(yīng)位置。

(4)文本分類

文本分類模塊將實(shí)現(xiàn)多種那個(gè)選擇的分類模式,并將分類結(jié)果可視化,展現(xiàn)在前臺(tái)界面,通過選擇不同的分類方式以及核函數(shù)的類別,將在界面展現(xiàn)出該篇文本分類后的標(biāo)簽值,以及分類器的準(zhǔn)確率與模型的得分。可是實(shí)現(xiàn)查看分類器調(diào)參形成的模型好壞與分類的結(jié)果。

2 詳細(xì)設(shè)計(jì)

2.1 界面設(shè)計(jì)

(1)主界面:系統(tǒng)的主界面是由文件的傳入窗口和分類結(jié)果的展示窗口所組成。

(2)上傳窗口可以收集在前端界面上傳的文件內(nèi)容并返回給后臺(tái)系統(tǒng),調(diào)用后臺(tái)分類器進(jìn)行對(duì)數(shù)據(jù)的處理。

(3)結(jié)果展示區(qū)有多個(gè)功能模塊。其中包括:中文分詞后的分詞結(jié)果展示模塊,詞頻統(tǒng)計(jì)后對(duì)詞頻可視化模塊,使用每篇文本的詞頻設(shè)計(jì)出的詞云的展示模塊和文本分類結(jié)果的顯示模塊。

2.2 分類器設(shè)計(jì)

在分類器的設(shè)計(jì)方面,主要基于SVM算法,通過調(diào)用python中的SVC庫進(jìn)行分類,通過改變核函數(shù)的類型和其相應(yīng)的參數(shù),設(shè)計(jì)出一個(gè)適合于該類文本的分類器模型。

3 系統(tǒng)實(shí)現(xiàn)

3.1 關(guān)鍵算法實(shí)現(xiàn)

本文的算法實(shí)現(xiàn)主要是基于 scikit-learn包實(shí)現(xiàn)。

3.1.1 中文分詞

3.1.2 詞云展示

3.1.3 詞頻統(tǒng)計(jì)

3.1.4 數(shù)據(jù)去重

在做特征提取之前,數(shù)據(jù)清洗也是一個(gè)比較重要的部分,因?yàn)橹貜?fù)數(shù)據(jù)會(huì)給訓(xùn)練集帶來噪音影響。因此在進(jìn)行分類器的模型訓(xùn)練之前,首先要對(duì)數(shù)據(jù)做好數(shù)據(jù)清洗并做去重處理。

3.1.5 特征提取

通過CountVectorizer計(jì)算特征數(shù)值的大小,從而進(jìn)行特征提取。訓(xùn)練樣本只考慮的是特征詞匯出現(xiàn)的頻率,TfidfVectorizer:這個(gè)函數(shù)是用來求文本TF-IDF值,將文本的內(nèi)容變?yōu)門F-IDF矩陣的方法。這個(gè)函數(shù)的實(shí)現(xiàn)原理是通過計(jì)算某詞匯在文本中出現(xiàn)的次數(shù),并計(jì)算包括這個(gè)詞的所有文本數(shù)量,通過這種方法可以減少高頻但是沒有分類意義的詞匯的出現(xiàn)對(duì)特征提取的結(jié)果帶來的影響。因此得出結(jié)論:文本數(shù)據(jù)的數(shù)量越多,TFIDF的效果越顯著。

3.1.6 SVC分類效果

實(shí)驗(yàn)證明,在相同的條件下,rbf徑向基核的引入帶來較好的分類效果,在線性核函數(shù)(linear核)的條件下,懲罰因子C越小,分類器的分類效果越好,然而rbf核與poly核的分類效果不受懲罰因子的影響。SVM 多分類主要方法是One/One,One/Other,分類結(jié)果如圖2所示。

圖2 SVM多分類方法結(jié)果圖Fig.2 Results of SVM multi-classification method

通過one-vs-all組合SVM的方式,即用一個(gè)分類器只對(duì)應(yīng)數(shù)據(jù)集中的一個(gè)類別,完成該步驟以后再使每個(gè)分類器都把將其他的全部類別當(dāng)作相反類傳入分類器中進(jìn)行分類處理。首先導(dǎo)入實(shí)現(xiàn)該功能的包

from sklearn.multiclass import OneVsRest-Classifier

將已經(jīng)完成特征提取和歸一化處理的數(shù)據(jù)傳入分類器,使其自動(dòng)完成分類任務(wù)并進(jìn)行預(yù)測(cè)新文本的類別。此時(shí)可以通過分類效果進(jìn)行調(diào)參工作。

3.2 模型評(píng)估

模型評(píng)估的作用是主要用來判斷分類器模型建立的好壞。本文采用交叉驗(yàn)證法:首先將數(shù)據(jù)集劃分為K個(gè)相同大小的又相互排斥的子集。再提取k-1個(gè)互斥的子集形成并集,將并集作為訓(xùn)練集。

4 算法原理

4.1 特征提取

TF/IDF指的是某詞對(duì)文本特征表示的重要程度。其中TF表示的是某個(gè)詞在文中出現(xiàn)的次數(shù),IDF表示逆向文件頻率。

4.2 支持向量機(jī)(SVM)

在超平面H1,H,H2都能將2個(gè)類別分開的同時(shí),H具有最大邊界,為支持向量尋找的超平面,SVM可以適合處理高緯度空間數(shù)據(jù),且不受數(shù)據(jù)緯度大小限制。

4.2.1 核函數(shù)

多項(xiàng)式核函數(shù):

其中(xi,xj)為訓(xùn)練樣本,a為調(diào)節(jié)參數(shù),b,?為次數(shù)。

RBF徑向基核函數(shù)(高斯核函數(shù)):

其中,n為函數(shù)的寬度參數(shù),控制了函數(shù)的徑向作用范圍。

一般使用的是RBF核函數(shù),因?yàn)樵摵撕瘮?shù)可以將數(shù)據(jù)集投射到無窮維。

4.2.2 SVM求解

SVM 的求解過程實(shí)際上是在用對(duì)偶理論求解一個(gè)二次凸優(yōu)化的問題,對(duì)偶問題如下:

(1)線性可分:

i=1,2,…m

其中,m是訓(xùn)練數(shù)據(jù)的屬性數(shù)。

對(duì)偶問題求解的最終結(jié)果:

(2)線性不可分

對(duì)于線性不可分的情況,首先要擴(kuò)維然后再計(jì)算。

i=1,2,…m

(3)超平面

超平面上的正反例判定依據(jù)為:

其中,x為訓(xùn)練樣本,ω為權(quán)重,b為位移項(xiàng)。

超平面的方程為:ωTx=0

N維空間中的超平面方程為:ωT+b= 0 ,其中x為平面上的點(diǎn),ω是該平面上的法向量,它的方向決定了超平面的方向,常數(shù)b的大小指的是超平面到原點(diǎn)之間的距離。

(4)支持向量

對(duì)于原始的問題和對(duì)偶最優(yōu)化的問題,將訓(xùn)練數(shù)據(jù)集中對(duì)應(yīng)于*0jα>的樣本點(diǎn)稱為支持向量。

對(duì)偶問題:

(5)損失函數(shù)

損失函數(shù)累加預(yù)測(cè)錯(cuò)誤的類別,然后比較函數(shù)的輸出值大小兵評(píng)分。在整個(gè)訓(xùn)練集合中的損失值L為:

5 支持向量機(jī)多分類

5.1 二叉樹模式的多類別分類SVM算法

通過二叉樹分類思想,以構(gòu)造如下分類器:

圖3 二叉樹分類器Fig.3 Binomial tree classifier

5.2 二叉樹多分類SVM算法

5.2.1 SVM多類別分類實(shí)現(xiàn)

5.2.2 SVM one-versus-rest

6 總結(jié)

本設(shè)計(jì)基于機(jī)器學(xué)習(xí)算法實(shí)現(xiàn),將算法應(yīng)用在了生活中,很好的利用了機(jī)器學(xué)習(xí)的優(yōu)點(diǎn)來簡(jiǎn)化人們的工作量。在本次設(shè)計(jì)中,同時(shí)也出現(xiàn)了很多的問題,比如如何設(shè)計(jì)這個(gè)系統(tǒng)的流程以及在設(shè)計(jì)過程中,當(dāng)分類器的準(zhǔn)確度不高時(shí),要如何進(jìn)行參數(shù)的調(diào)整,要往哪個(gè)方向進(jìn)行調(diào)整。在此過程中,我翻閱了中國知網(wǎng)上的各種論文和手頭的算法設(shè)計(jì)書,在研究完算法原理后,重新思考了優(yōu)化方向。

猜你喜歡
分類文本
分類算一算
垃圾分類的困惑你有嗎
大眾健康(2021年6期)2021-06-08 19:30:06
初中群文閱讀的文本選擇及組織
甘肅教育(2020年8期)2020-06-11 06:10:02
在808DA上文本顯示的改善
分類討論求坐標(biāo)
基于doc2vec和TF-IDF的相似文本識(shí)別
電子制作(2018年18期)2018-11-14 01:48:06
數(shù)據(jù)分析中的分類討論
教你一招:數(shù)的分類
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學(xué)隱喻
論《柳毅傳》對(duì)前代文本的繼承與轉(zhuǎn)化
人間(2015年20期)2016-01-04 12:47:10
主站蜘蛛池模板: 狠狠综合久久久久综| 91青青草视频在线观看的| 极品私人尤物在线精品首页| 国产精品自在拍首页视频8| 麻豆精品久久久久久久99蜜桃| 99精品视频在线观看免费播放| 亚洲Av激情网五月天| 久久综合一个色综合网| 久久人午夜亚洲精品无码区| 成人福利在线免费观看| 中日韩欧亚无码视频| 欧美一级片在线| 狠狠做深爱婷婷久久一区| 色成人亚洲| 久久婷婷综合色一区二区| 国产导航在线| 中文字幕首页系列人妻| 久久99这里精品8国产| 日韩一二三区视频精品| 日韩福利在线视频| 白丝美女办公室高潮喷水视频| 5555国产在线观看| 亚洲熟妇AV日韩熟妇在线| 成人国产精品网站在线看| 国产精品一线天| 久久天天躁狠狠躁夜夜躁| 日韩欧美成人高清在线观看| 天天激情综合| 午夜小视频在线| 国产精品亚洲五月天高清| 日韩精品专区免费无码aⅴ | 精品国产成人av免费| 亚洲熟女偷拍| 五月激激激综合网色播免费| www中文字幕在线观看| 2021国产在线视频| 五月婷婷精品| 激情乱人伦| 伊人成色综合网| 国产91精品调教在线播放| 熟女日韩精品2区| 亚洲最大福利视频网| 午夜影院a级片| 亚洲视频在线网| 成人精品午夜福利在线播放| 中文字幕在线观| 蜜臀AVWWW国产天堂| 伊人查蕉在线观看国产精品| www.亚洲一区| 亚洲床戏一区| 无码国产偷倩在线播放老年人| 国产美女免费| 久爱午夜精品免费视频| 亚洲精品国产精品乱码不卞 | 亚洲第一黄色网址| 性欧美在线| 露脸真实国语乱在线观看| 国产女同自拍视频| 国产乱人免费视频| 四虎成人在线视频| 被公侵犯人妻少妇一区二区三区| 国产人妖视频一区在线观看| 狠狠干综合| 亚洲三级成人| 成人噜噜噜视频在线观看| 91无码人妻精品一区二区蜜桃| 亚洲av无码牛牛影视在线二区| 亚洲国内精品自在自线官| 国产精欧美一区二区三区| 亚洲无限乱码| 国产自在自线午夜精品视频| 久久影院一区二区h| 91www在线观看| a级毛片网| 老色鬼久久亚洲AV综合| 成人在线亚洲| 五月综合色婷婷| 亚洲天堂2014| 亚洲欧美日韩另类| 干中文字幕| 人妻91无码色偷偷色噜噜噜| 精品无码专区亚洲|