999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于機器學習的文本分類技術分析與研究

2020-06-30 10:07:21王丁
科技創(chuàng)新導報 2020年8期
關鍵詞:機器學習

王丁

摘? ?要:在大數(shù)據(jù)時代下,每天會產(chǎn)生海量的文本信息,為實現(xiàn)對海量文本信息的高效利用,就必須運用文本分類技術剔除信息中的冗余信息,并對文本進行自動分類,在分類文本中提取出具有使用價值的信息,為信息檢索與數(shù)據(jù)挖掘技術的應用打下基礎。在信息數(shù)據(jù)爆發(fā)式增長的環(huán)境下,文本分類技術已經(jīng)成為數(shù)據(jù)挖掘、信息檢索以及提高信息資源利用價值的重要技術。本文從概述文本分類技術入手,將隨機森林算法作為重點,研究了基于機械學習的文本分類技術,期望對提高文本分類性能有所幫助。

關鍵詞:機器學習? 文本分類技術? 隨機森林算法

中圖分類號:TP391.1? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?文獻標識碼:A? ? ? ? ? ? ? ? ? ? ? ?文章編號:1674-098X(2020)03(b)-0090-02

本文提出一種基于機器學習的文本分類技術,該技術可應用于網(wǎng)頁新聞分類、垃圾郵件識別、網(wǎng)絡評論分類等領域,具有良好的應用前景。

1? 文本分類技術

文本分類是基于自然語言處理技術框架下對單詞、句子、段落等文本類別標簽作出判斷的一種技術,屬于監(jiān)督學習方法。文本類別來自于自定義的類別,類別標簽可為任意數(shù)量。根據(jù)類別的不同,文本分類包括單層分類與多層分類兩種形式,單層分類的類別標簽數(shù)量為一個,多層分類的類別標簽數(shù)量為多個。基于機器學習的文本分類任務的完成,實質(zhì)上是函數(shù)映射的過程,具體包括以下五個方面。

1.1 文本預處理

在文本分類之前需對原始數(shù)據(jù)進行預處理,剔除原始數(shù)據(jù)中的噪聲,將其轉變?yōu)橐?guī)范的格式。在文本預處理中,可采用基于詞典匹配或基于統(tǒng)計的分詞算法進行文本分析,如針對中文文本可采用漢語分詞系統(tǒng)ICTCLAS進行分詞。文本預處理還要去掉連詞、介詞、語氣助詞等無實際意義的停用詞,以節(jié)省文本存儲空間。

1.2 文本表示

在基于機器學習的文本分析中,向量空間模型是常用的文本表示方法之一,該模型分為以下兩種版本:(1)詞袋模型。在文本表示中無需考慮文本結構要素之間的關系,將各要素視為獨立項,根據(jù)詞出現(xiàn)的頻率設置計算權重。(2)詞的分布表示。該表示方法可分為基于矩陣、基于聚類和基于神經(jīng)網(wǎng)絡三種類型的詞的分布模型,其中最后一種分布表示模型可解決前兩種模型存在的維數(shù)災難問題。

1.3 空間降維

對高維特征矩陣需要進行空間降維,以避免原始數(shù)據(jù)過于龐大而造成計算機計算能力超負荷運行。在空間降維中,可采用特征選擇與特征提取兩種降維方式。其中,特征選擇可利用卡方統(tǒng)計、交叉熵、文檔頻率閾值等方法提取分類中有用的特征;特征抽取可采用成本分析、線性判別分析等方法提取出低緯度的特征。通過空間降維提取特征,可以保證所提取的特征符合文本語義描述。

1.4 分類模型訓練

分類模型訓練是基于機器學習的文本分類關鍵技術,包括單重分類器方法和多分類器方法。(1)單重分類器方法包括貝葉斯分類、支持向量機、K最近鄰、決策樹等方法。前三種方法均存在一定局限性,如分類精度不足、數(shù)據(jù)處理效率低以及對存儲資源和計算能力要求高。而決策樹能夠對數(shù)據(jù)型和異常樣本進行同時處理,保證輸出結果的精確度,所以本文采用決策樹方法對基于隨機森林算法的文本分類技術進行研究;(2)多分類器方法包括隨機森林、Bagging等,通過組合單分類器的決策結果得出樣本分類,適用于小規(guī)模數(shù)據(jù)和少類別文本分類。

1.5 分類性能評價

文本分類性能評價根據(jù)數(shù)據(jù)集、評價指標、評價測試策略進行評價。其中,數(shù)據(jù)集要求易于清理,適合分類實驗任務;評價指標主要包括針對文本分類準確性、錯誤率、F均衡、召回率、ROC曲線等評價指標;K折交叉驗證是評價測試的有效策略,通過隨機將數(shù)據(jù)集劃分為不同的k個子集,對各個子集進行測試,重復k次,取平均正確率,即為測試結果。

2? 基于機器學習的文本分類技術

本文選取機器學習中的隨機森林算法對文本分類技術進行研究,對算法過程、算法評價指標、算法特點以及算法優(yōu)化進行分析,以提高文本分類的性能。隨機森林算法集合了CART決策樹算法和Bagging集成算法,涵蓋多個決策樹分類器集合,可解決回歸與分類問題,將最大票數(shù)的類別作為文本分類結果。

2.1 算法過程

隨機森林算法的具體過程如下:對每棵決策樹均生成訓練集,樣本數(shù)量為N,從原始訓練中抽取n個樣本,n≤N,形成訓練子集;在每個訓練子集中提取M數(shù)量的特征屬性,并從特征屬性中選取m個特征屬性組成特征子空間,m≤M,構成隨機特征子空間。遵循基尼系數(shù)最小原則,在特征子空間中選擇最優(yōu)屬性,開始分類節(jié)點,將所有訓練樣本都進行完全分裂,最終形成決策樹;重復上述步驟,構建k棵決策樹,生成隨機森林,按照隨機森林決策模型進行最終決策,最大投票數(shù)的類是最終分類結果。

2.2 算法評價

在隨機森林算法評價中,可選取分類效果與運行效率兩大類評價指標:(1)分類效果評價指標。該類評價指標除了可選取上文提出的分類性能評價指標之外,還可選用泛化能力指標。泛化能力主要用于反映機器學習算法對新樣本的適應性,可采用OOB(袋外數(shù)據(jù))估計方法進行評價。OOB估計法對隨機森林中錯誤分類樣本數(shù)量進行統(tǒng)計,計算該數(shù)量所占隨機森林樣本總數(shù)的比重,得出OOB誤分率,用以評價文本分類性能;(2)運行效率評價。該評價指標可從計算所需的時間與空間資源兩個方向進行選取,其中時間資源包括算法編譯時間、執(zhí)行命令時間、重復執(zhí)行算法時間等評價指標,空間資源包括靜態(tài)存儲空間、輸出數(shù)據(jù)空間、算法輸入空間以及可變存儲空間等評價指標。

2.3 算法分析

隨機森林算法通過組合決策樹,隨機選取樣本和樣本特征,可有效提高算法的降噪能力。避免決策樹在生成過程中出現(xiàn)過度擬合問題,以達到良好的高維度數(shù)據(jù)處理效果。同時,基于Bagging集成算法的機械學習算法,能夠保證各個決策樹之間相互獨立,提高算法模型的運行效率。但是,在復雜原始數(shù)據(jù)中基于隨機森林算法的文本分類存在著一定的應用弊端。如,需要考慮強分類器與弱分類器,易降低分類結果的精確度;算法中擁有許多超參數(shù),使得算法受決策樹數(shù)量、最大特殊特征數(shù)、最小樣本數(shù)等超參數(shù)影響而降低文本分類的性能。所以,仍需要基于隨機森林算法對文本分類技術進行優(yōu)化。

2.4 算法優(yōu)化

下面針對隨機森林算法的不足進行優(yōu)化,優(yōu)化內(nèi)容包括以下方面:(1)投票機制優(yōu)化。采用決策樹分類效果評價指標,計算袋外數(shù)據(jù)的分類正確率,將原本輸出樣本的類標簽轉變?yōu)檩敵鰳颖痉诸惖母怕剩诸愓_率越高,則表明決策樹分類效果越好。同時,還要結合采用類概率加權投票方法,計算測試樣本中每一個類的概率,將加權值最大的類作為分類結果;(2)超參數(shù)優(yōu)化。結合采用隨機搜索算法和網(wǎng)絡搜索算法對隨機森林超參數(shù)進行優(yōu)化,獲取最優(yōu)值組合,得出近似最優(yōu)解,即得到最后的分類結果。

3? 結語

總而言之,文本分類技術是大數(shù)據(jù)時代下信息數(shù)據(jù)處理的關鍵技術之一。基于機器學習的文本分類技術,可利用隨機森林算法作為文本分類方法,在優(yōu)化算法的基礎上,進一步完善文本預處理、文本空間降維、文本分類性能評價的過程,用以彌補傳統(tǒng)文本分類方法的不足,進而提高隨機森林算法的計算能力和文本分類性能。

參考文獻

[1] 韋靈,倪志平.基于自然語言處理和機器學習的文本分類及其運用[J].科技視界,2019(9):136-137.

[2] 向志華,鄧怡辰.基于機器學習的文本分類技術研究[J].軟件,2019(9):140-142.

[3] 王國薇.基于深度學習的文本分類方法研究[D].新疆大學,2019.

[4] 姜璐.基于深度學習的新聞文本分類模型研究[D].山東師范大學,2019.

[5] 周陽.基于機器學習的醫(yī)療文本分析挖掘技術研究[D].北京交通大學,2019.

猜你喜歡
機器學習
基于詞典與機器學習的中文微博情感分析
基于網(wǎng)絡搜索數(shù)據(jù)的平遙旅游客流量預測分析
時代金融(2016年27期)2016-11-25 17:51:36
前綴字母為特征在維吾爾語文本情感分類中的研究
科教導刊(2016年26期)2016-11-15 20:19:33
下一代廣播電視網(wǎng)中“人工智能”的應用
活力(2016年8期)2016-11-12 17:30:08
基于支持向量機的金融數(shù)據(jù)分析研究
基于Spark的大數(shù)據(jù)計算模型
基于樸素貝葉斯算法的垃圾短信智能識別系統(tǒng)
基于圖的半監(jiān)督學習方法綜述
機器學習理論在高中自主學習中的應用
極限學習機在圖像分割中的應用
主站蜘蛛池模板: www.99精品视频在线播放| 欧美三级日韩三级| 婷婷色一二三区波多野衣| 乱人伦中文视频在线观看免费| 国产美女视频黄a视频全免费网站| 久久免费视频6| 亚洲成网777777国产精品| 精品国产中文一级毛片在线看| 国产自无码视频在线观看| 国产爽爽视频| 欧美亚洲第一页| 国产在线拍偷自揄拍精品| 国产女人水多毛片18| 午夜a视频| 国内毛片视频| 亚洲精品国产首次亮相| 久久亚洲中文字幕精品一区| 日本高清免费一本在线观看| 54pao国产成人免费视频| 国产午夜福利在线小视频| 91综合色区亚洲熟妇p| 亚洲av无码片一区二区三区| 无码中文AⅤ在线观看| 沈阳少妇高潮在线| 99这里只有精品6| 成年人免费国产视频| 欧美黄色a| 91无码人妻精品一区| 日本成人一区| 亚洲天堂免费在线视频| 亚洲开心婷婷中文字幕| 国产簧片免费在线播放| 国产女同自拍视频| 国产精品 欧美激情 在线播放| 国产精品视频第一专区| 日韩在线第三页| 亚洲欧美一区二区三区麻豆| 久久精品欧美一区二区| AV天堂资源福利在线观看| 国产精品亚洲一区二区三区在线观看| 成年av福利永久免费观看| 国产黑丝一区| 中文字幕欧美日韩| 亚洲天堂网在线观看视频| 青青草原国产av福利网站| 97综合久久| 久久国产精品影院| 国产一级毛片高清完整视频版| 99ri国产在线| 国产欧美另类| 谁有在线观看日韩亚洲最新视频| 免费国产小视频在线观看| 亚洲三级片在线看| a级毛片免费网站| 国产在线观看99| 51国产偷自视频区视频手机观看| 青草视频免费在线观看| 国模在线视频一区二区三区| 国产欧美在线视频免费| 欧美第一页在线| 国产日本一线在线观看免费| 色网站在线免费观看| 精品小视频在线观看| 欧美综合区自拍亚洲综合绿色| 免费人成网站在线观看欧美| 欧美亚洲日韩不卡在线在线观看| 天天综合网亚洲网站| 国产精品无码AV片在线观看播放| 日本午夜视频在线观看| 亚洲人成影视在线观看| 69国产精品视频免费| 色有码无码视频| 国产精品亚欧美一区二区三区 | 亚洲日韩Av中文字幕无码 | 欧美中文字幕第一页线路一| 一本久道热中字伊人| 国产乱肥老妇精品视频| 国产精品尤物在线| 亚洲不卡网| 四虎精品黑人视频| 99热这里只有免费国产精品 | 热思思久久免费视频|