999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于機器學習的文本分類技術研究進展

2021-11-28 00:58:08徐萍
電腦知識與技術 2021年30期
關鍵詞:機器學習進展

徐萍

摘要:近些年來,在信息的搜索以及對數據進行挖掘的研究等領域中,文本自動分類技術是這個領域最新、最關鍵的技術,并且在互聯網紛繁復雜的信息處理方面以及機器學習的基礎知識上,文本分類技術處理面臨種種挑戰,在算法、模型以及對產品的評測進行一系列的研究工作,該文總結了當前在機器學習基礎上的關鍵問題,例如:Web頁的分類方法,分類的多層性,算法的擴展特性,標注的瓶頸,文本分類技術的分散性以及線性。該文綜合考慮了以上因素,對其進行科學合理的分析,并對基于機器學習的文本分類技術的研發與改進方法提出幾點建議與措施,希望可以起到借鑒作用。

關鍵詞:機器學習;文本分類;結束研究;進展

中圖分類號:TP3? ? ? ? 文獻標識碼:A

文章編號:1009-3044(2021)30-0109-02

開放科學(資源服務)標識碼(OSID):

在如今這個信息時代,互聯網上每天都有海量的不同信息涌入人們腦海當中。針對這些基于信息內容的機器學習數據挖掘工作以及對這些海量信息檢索能力都是目前的熱門研究領域。這些領域之中,文本分類技術是其中最為重要的一種技術,文本分類方法就是針對固定的類別基礎上通過文字來對其進行識別。文本分類技術處理主要是理解自然的語言并對其進行有效處理,對信息進行管理以及組織,并對文字的內容進行過濾,分離出無效信息。因此,對基于機器學習的文字分類技術的研究就尤為重要。對不同文本分類方法進行總結并試圖探討優化當前文本分類技術的方法?;跈C器學習的文字分類技術由三個部分組合而成:分類的最終實現效果,對實現的效果進行可視化演示以及對不同文本的呈現與顯示。

1對于基于機器學習的文本分類技術基礎研究工作

近些年來,我們對于機器學習的文本分類研究轉化為對BOW的研究,并且對于不同算法的記錄與統計,以及不同文本的分類情況進行預測。該項研究已經隨著時代進展逐漸成為目前文本分類研究的基本工作。由統計學以及基于語言學的文本分類研究的方法進行文字分類結果的預測也已經得到了廣泛的科學進步,與以上研究領域相關的技術也廣泛地在基于機器學習的文本分類技術中進行運用,本文將在文本分類研究領域專家學者的研究基礎上進行進一步研究與探討。

1)對于文本進行表示

VSM依舊是目前研究的主要的方法,采用何種語意的單元來作為項及的計算數量權重的基本問題有兩個,一是絕大部分的文字識別對象都是采用詞這個單元來作為基本計算單位,以文字項的不同頻率來作為文字分類基本運算的不同權重。Debole曾表示將監督這一環節作為文字分類的權重這一概念,從而充分發揮項的能夠顯著來進行權重的平衡發展。

而除了VSM以外,還有一種模型在相關人士之間也十分流行,那就是針對項的概率分布以及在二維的視圖之上表示。文本分類研究專家Bigi等專家紛紛表示任意選取一個a文本以及b類的文本都可以被看成一個包括全部項的概率分布情況P(a,b),i=1…,這種分布方式叫作將分布進行特殊的概率表示,這種特殊的分布方法在一些情況中有著不錯的表現。

另外還存在著一種語義的單元之間的相互聯系,一些文字分類技術渴望利用自然的語言處理技術來進行基于機器學習的文字分類工作。而這種技術往往被BOW所忘記,所以,在這種新型的文字分類方法中,詞語的意思以及短語之中的項都被運用到不同的分類方法之中進行文字分類工作。但是這種新型的文字分類處理方法還不太成熟,這是因為這種新型的文字分類方法會導致分類器的運行速度遭到很大的影響,并且這些新型的文字分類表示方法相對于傳統的文字分類表示技術并沒有很顯著的提升,而且沒有絕對的優勢的產生。截止到現在,不屬于VSM的方法的合理程度以及在理論上以及實踐上的實際拓展應用上還仍然需要進一步的驗證才能放心使用,目前這種方式的文字分類方法還比較的單一,并沒有在相關領域進行進一步的實際應用[1]。

2)將空間的維度進行降低

對于空間維度降低的相關研究主要集中在幾個方面:將維度降低后的模型的實際算法與另一種算法進行比較,對特征數集的分類效果關系進行討論以及維度降低的幅度大小進行控制。對于空間維度降低的模型與之相對應的實際算法相關研究,到目前為止還仍然處于較為傳統的階段。(1)對于項以及其分類種別的相關研究通常采用概率統計的方法進行。(2)對于分布上相似程度較高的文本分類方法,應該采用信息熵的視角來進行探討,比如通過研究全局的信息來探討不同分類方法的可行性。(3)對于隱藏的特別含義的分析路徑研究,我們通常采用不相同的分析方法來設法得到線性的映射,這種映射可以通過對矩陣的不同角度進行分析,并對文本分類矩陣進行化簡工作,盡可能地使其變得簡潔。數據維度的降低也會對研究結果產生影響,所以在研究過程中必須對其加以注意。在實驗過程中,特征數目的增加通常會使分類器的理想效果產生不好的影響。在前人的研究文獻中,他們發現:對于空間在正常范圍內的維度降低可能會導致分類器特征數量的增加而隨之增加。產生的結果可能會迅速得到提升并且十分平穩。但是如果在實際測試過程中,特征的數量增長速度過于迅速,也可能會影響分類器的最終結果,并且會使分類器的性能有很大的降低。該項研究說明:將空間的維度進行降低在可以高效處理開銷的同時也可能會降低效果器的實際使用效果。在結果上面來看的話,BNS以及IG等一系列測量工具進行統計以及組合時具有一定程度的優勢,但是針對不同的分類器會更樂于選擇不相同的空間降低維度的方法。通常情況下使用的特征值會對不同的算法選擇效果上有著不同的反應[2]。

3)評估的方法

在理論研究之中,Li和Yang兩位學者都覺得對于訓練數據導致的一些不同誤差以及這些誤差的復雜程度會使分類器的不同能力都通通顯露出來。對平時研究中經常使用的不同分類的方法進行系統化分析。這兩位學者將分類器得到最理想效果的條件以及受其同質化的損失的函數進行分類,分為訓練當中的損失以及所構建的模型的復雜程度這兩個門類。

2基于機器學習的文本研究方法的主要挑戰以及當前取得的有效進展

就目前而言,對于機器學習相關領域的研究已經相對比較成熟,而基于機器學習的文本分類研究經過20年來的不斷發展,解決了之前無法解決的一系列問題。在掌握數據量比較稀少的時候,分類器的標注量反而比較平均。但是目前還是有許多問題無法得到合理的解決。近些年來基于機器學習的文本分類研究領域主要面臨的挑戰有以下幾點:(1)分類器的日常使用會被一些分類體系而影響,不同的類別適合不同的分類體系,要根據文本信息的體系而進行專門的識別工作。(2)在建立分類器之后得到的數據樣本相對于尚未獲得的數據數量過于稀少,導致產生的結果不能達到理想的效果。(3)在對于各個種類的分析時會遇到很多困難,比如遇到瓶頸問題是因為不同的文本數據更新的頻次太高,導致無法對其進行科學合理的分析。以上三個問題需要我們對文本分類技術進行進一步的探索。

1)針對數據集的偏斜問題的研究

隨著機器學習的文本分類方法的不斷研究,我們發現收集的數據分布情況通常是偏斜,或者說是沒有均勻分布。不同種類的差距有可能是數量級之間的差距。這是造成數據集分布不均衡的一大重要原因。

有效解決這一問題的合理措施有以下幾點:(1)進行重新取樣,可以進行對大類的信息進行選擇性忽視,或者是可以對小類信息的錯誤代價采取進一步提高的策略。(2)采用最新型的分類方法和戰略,比如傳統的單類SVM會把原點來當作整個研究的中心點,而如果將其分離,會使之前難以解決的問題轉化為被不同的數據分布所影響的問題。(3)運用更加優秀的效果評估方法來進行評測,比如ROC曲線,這種曲線在收集的數據偏斜情況下仍然能夠進行正常的評估。并且相對于其他曲線,在基于機器學習的文本分類方法中,ROC曲線還具有更易被機器進行抓取與識別的優勢[3]。

2)標注的瓶頸

在學習算法的過程當中必須要借助大量的樣本來進行標注,但是當前已經標注的樣本不能提供足夠的有效信息,而且在研究過程中可以獲取的樣本相對于未知的數據還是太少,這就制約了基于機器學習的文本分類技術的研究進程。因此,如何用少量的已經標注的樣本來進行研究是目前需要解決的關于標注瓶頸的問題。首先,要將預期的期望進行最大化應用,盡可能利用少量的樣本進行標注,這種方法可以深度優化文本分類效果,綜合提高文本分類的效率。另外一種解決方案是采用直推的方式,將分類器優先對少量的樣本進行推測,挑選重點的有特征的信息數據進行分類識別工作,從而起到優化改進分類器的效果,相對于傳統的標注分類方式,采用直推方法來對基于機器學習的文本進行分類識別能夠使識別效率大幅提升。以上兩種方法在對于標注的瓶頸優化解決上能夠起到了較大的幫助[4]。

3)對Web進行合理分類

通常所說的文本分類方法都是將文本自身進行分類,但是在互聯網視角上,尤其是Web頁面的分類,其中所含有的有用的信息將會對文本進行體現,從而可以側面測試并解決分類器的決策問題。在當前研究中,要怎樣合理的展現這些結構性的不同樣本信息來滿足統計仍然是目前機器學習的文本分類研究領域尚未定論的問題。

4)多層分類

一般來講,我們所研究的問題都是相對獨立的,學者們普遍認為這些問題之間并沒有聯系。但是在研究的種類比較多的時候,比如利用目前互聯網時代下豐富的Web信息來進行綜合管理研究上,我們必須使用多層次的信息分類方法。多層分類是指對所研究的樣本數據進行多個層次的研究探討,在面對難以解決的必須通過大量數據才能解決的問題時通常有較好的表現。所以在基于機器學習的文本分類方法中,采用多層分類這種方式處理文本信息是一種較為理想的分類方式。

3結束語

本文對機器學習的文本分類技術基礎進行研究并討論其優化方法,對基于機器學習的文本研究方法面臨的主要挑戰進行總結,并對當前取得的有效進展進行總結。重點討論了最近幾年面對的文本分類難題以及對文本分類相關學者的最新研究內容進行總結?;跈C器學習的文本分類技術在不同領域都有著廣泛的應用,但伴隨著時代的進步,人們的不同特殊需求也開始顯露,人們不再局限于以前傳統思想的束縛,越來越多的新型需求開始顯現出來,這些新型需求也對當前的文字分類技術提出了挑戰。文本分類技術還有許多問題仍然值得進一步研究,希望本文探討出的幾點結論能夠起到借鑒作用。

參考文獻:

[1] 周晶,沈雋城.基于大數據的機器學習技術對文本分類的研究[J].信息通信,2020,33(6):5-6.

[2] 王爽.基于機器學習的自動文本分類方法研究[D].成都:電子科技大學,2020.

[3] 白亞莉.基于機器學習的新聞文本分類技術[C]//2019中國信息通信大會(CICC 2019)論文集.成都,2019:397-403.

[4] 韋靈,倪志平.基于自然語言處理和機器學習的文本分類及其運用[J].科技視界,2019(27):88-89.

【通聯編輯:代影】

猜你喜歡
機器學習進展
Micro-SPECT/CT應用進展
扁平苔蘚的診斷與治療進展
仿生學應用進展與展望
科技傳播(2019年22期)2020-01-14 03:06:40
基于詞典與機器學習的中文微博情感分析
基于網絡搜索數據的平遙旅游客流量預測分析
時代金融(2016年27期)2016-11-25 17:51:36
前綴字母為特征在維吾爾語文本情感分類中的研究
科教導刊(2016年26期)2016-11-15 20:19:33
基于支持向量機的金融數據分析研究
機器學習理論在高中自主學習中的應用
寄生胎的診治進展
我國土壤污染防治進展
河南科技(2014年22期)2014-02-27 14:18:22
主站蜘蛛池模板: 久久国产高清视频| 粗大猛烈进出高潮视频无码| 中国一级毛片免费观看| 国产精品无码AV中文| 91青青视频| 熟妇丰满人妻av无码区| 免费人成黄页在线观看国产| 亚洲欧美激情小说另类| a天堂视频在线| 亚洲成人网在线播放| 夜夜高潮夜夜爽国产伦精品| 欧美啪啪精品| 亚洲国产成人超福利久久精品| 日本久久网站| 网友自拍视频精品区| 欧美在线观看不卡| 久久免费视频6| 亚洲一级毛片在线观播放| 亚洲性一区| 1769国产精品免费视频| 亚洲第七页| 全部毛片免费看| 久久久久无码精品国产免费| 婷婷五月在线| 国模极品一区二区三区| 人妻夜夜爽天天爽| 青青草国产精品久久久久| 99视频在线观看免费| 伊人成人在线视频| 亚洲精选无码久久久| 最新痴汉在线无码AV| 四虎影视8848永久精品| 亚洲天堂精品视频| 亚洲国产欧洲精品路线久久| 亚洲第一天堂无码专区| 永久成人无码激情视频免费| 国产在线自在拍91精品黑人| аⅴ资源中文在线天堂| 尤物特级无码毛片免费| 久久中文无码精品| 中文字幕在线不卡视频| 欧美色香蕉| 亚洲国模精品一区| 国内精品小视频在线| 色香蕉影院| 人妻丝袜无码视频| 午夜色综合| 亚洲综合18p| 视频一区亚洲| 国产不卡网| 国产精女同一区二区三区久| 国产无码制服丝袜| 免费高清a毛片| 99久久精彩视频| 久久无码av一区二区三区| 99人体免费视频| 97在线碰| 嫩草国产在线| 亚洲精品777| 九九线精品视频在线观看| jijzzizz老师出水喷水喷出| 欧美啪啪精品| 91丝袜在线观看| 1024你懂的国产精品| 亚洲欧美自拍中文| 日本不卡在线播放| 亚洲香蕉在线| 中文字幕无码电影| 亚洲天堂视频在线播放| 免费一级毛片完整版在线看| 欧美成人手机在线观看网址| 欧美日韩另类在线| 91成人在线观看| 国产啪在线91| 国产精品部在线观看| 欧美成人午夜影院| 久久精品国产国语对白| 国产欧美一区二区三区视频在线观看| 欧美v在线| 欧美日韩一区二区三区四区在线观看 | 免费一级无码在线网站| 亚洲国产高清精品线久久|