999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

深度學習視域下的文本特征提取方法分析

2020-10-15 01:15:09聶維劉小豫康世英
關鍵詞:深度學習

聶維 劉小豫 康世英

【摘? 要】特征提取是當前關于文本挖掘、自然語言處理、信息檢索、文本情感分析和網絡輿情分析等領域的研究重難點。一方面,特征提取是基于文本挖掘系統的基本因素;另一方面,從文本分類結果的角度而言,文本特征提取性能是分類結果的重要衡量指標。因此,論文詳細地闡述了傳統的文本特征提取方法和深度學習視域下的文本特征提取方法,并對基于深度學習視域下的文本特征提取方法在實際應用中出現的問題進行分析和創新,以期能夠幫助提高提取效率和提取質量。

【Abstract】Feature extraction is an important and difficult topic in the field of text mining, natural language processing, information retrieval, text sentiment analysis and network public opinion analysis. On the one hand, feature extraction is the basic factor of text mining system; on the other hand, from the perspective of text classification results, text feature extraction performance is an important measure of classification results. Therefore, this paper elaborates the traditional text feature extraction methods and text feature extraction methods from the perspective of deep learning, and analyzes and innovates the problems in the practical application of text feature extraction methods from the perspective of deep learning, so as to help improve the extraction efficiency and quality.

【關鍵詞】深度學習;文本特征;提取方法;自然語言處理

【Keywords】deep learning; text feature; extraction method; natural language processing

【中圖分類號】TP391.1;TP18? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? 【文獻標志碼】A? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?【文章編號】1673-1069(2020)09-0190-02

1 當前對文本特征提取的主要方法

隨著信息技術的不斷發展,計算機網絡的應用已經成為日常生活中不可缺少的組成部分。隨著近年來云計算應用和大數據的興起,網絡中所存儲的文件數量和內容都越來越多,越來越廣泛。在保證大量存儲文件中的文本信息能夠得到有效管理和組織的基礎上,如何快速、準確地獲取到文本信息中的內容成為當前文本挖掘、信息檢索或是網路輿情信息分析等行業首要解決的問題。由于網絡文本信息內容具有多樣性、復雜性、不規范性和冗余性的特點,因此,在對網絡文本信息進行特征提取時首先要對高緯度特征進行降維。另一方面,在高緯度特征空間中,提取最優特征子集也可以歸納至特征提取方法中。但就目前的提取方法而言,主要分為Filter過濾式和Wrapper封裝式兩種提取方式。特征提取方式作為文本分類的關鍵,對于文本分類的好壞起到直接的影響作用。一是由于特征提取的方式不同對于所提取內容的特征子集優劣不同。二是在特征提取過程中,要選擇出能夠有效展示信息完整性的子集特征,才能夠最大限度地保證文本分類的質量。

1.1 Wrapper封裝式特征選擇算法

Wrapper封裝式的提取方法相較于Filter過濾式的提取方法在很大程度上會過于依賴監督式機器的學習技術。監督學習主要是指在特征選擇的過程中,對于特征子集的訓練和學習。監督式機器根據所訓練的內容和特征對于特征子集產生一定的判斷結果,并對其優劣進行評定。由于監督機器需要設定固定的訓練模型,因此,對于數據較為龐大的樣本時仍然具有較大的局限性。

1.2 Filter過濾式特征選擇算法

Filter過濾式作為一項效率高、運算快的特征選擇提取方式,相比較于Wrapper封裝式的提取方法具有一定的獨立性,它是不依賴于訓練集和監督機器的。Filter過濾式特征選擇算法主要是根據特定的評估函數的運算,選擇出最能夠體現文本類別特征的合集。剛開始特征類別的合集僅僅是作為特征空間的子集存在的,在經過不同函數的評估和判定之后,得出相應的特征合集。目前Filter過濾式特征選擇算法包括距離測度、信息測度、一致性測度和相關性測度四個方面。

2 深度學習視域下的文本特征提取方法

特征提取作為機器學習中較為重要的特征工程任務,是相關處理機器所需要學習的重要內容之一,同時在數據挖掘和信息檢索中也起著不可忽視的作用。就目前來看,在機器學習的眾多人物中,特征提取往往在起著決定性作用。一方面,在常用類任務方面,分類結果是取決于特征提取的質量。另一方面,在傳統的特征提取方法中,人工提取是主要的提取手段,這種提取方法包含了冗余的分類任務和提取特征,使得人工提取難度增加,無論是在質量方面還是在效率方面都具有一定的局限性。為了解決這一問題的困擾,大多是對任務特征進行降維,在保證特征提取質量時,又加大了工作量。因此,傳統的特征提取方式并不能很好地滿足當前社會的需求。

近年來,隨著我國信息技術的不斷發展,對于特征提取的相關技術手段的研究內容也不斷增加。其中較為著名的有使用多個卷積層與池化層的卷積網絡來對高光譜圖像的特征進行提取,并通過實驗后具有不錯的檢測效果。在文本特征提取方面,主要是關于基于深度學習的特征提取方法居多,其中包括自編碼的神經網絡特征提取、受限波茲曼機特征提取和循環神經網絡特征提取等。這些基于深度學習理念的特征提取方法不僅對傳統詞袋模型進行了探討,同時對非傳統神經網絡特征提取方法也提供了一定的借鑒材料。因此,在這一時期內,結合深度學習理念的特征提取稱為研究熱點。

目前,基于深度學習理念的特征提取技術在圖像領域的應用不斷加強,而有關于文本特征提取的報道卻并不多見。在對中文文本提取特征的研究成果中,相關的研究內容更是稀缺。而傳統的手工特征提取方法不僅維度較大,同時也具有效率低和耗費資源等問題。因此,深度學習作為近年來文本特征提取的重要指導思想,對文本特征的提取難度和特征提取效率都具有一定的幫助。

因此,在本文中,對基于深度學習視域下的特征提取方法主要從卷積神經網絡結構和卷積循環神經網絡結構兩種處理方式來展開。同時對于兩種方式下的特征提取方式作了詳細的解釋,以期能夠更為準確地表達出文本信息的內容,從而獲得更好的分類效果。

2.1 卷積神經網絡

卷積神經網絡結構相對于特征提取方面的應用,更為常用的是在計算機視覺領域并且相關的應用技術都已經趨于成熟。隨著深度學習理念的發展,卷積神經網絡結構也被越來越多的學者應用于自然語言的處理領域,并且取得了較好的實驗效果。在當前的文本特征提取中,卷積神經網絡更常見地應用于對任務的分類中,分類效果良好。

2.1.1 TF-IDF

TF-IDF(term frequency-inverse document frequency)是在卷積神經網絡結構中的組成部分之一,是基于統計學的應用技術之一,主要是用來計算詞權重的方法之一,同時也是特征向量化的常用方法。TF-IDF目前更多地應用于信息檢索和數據挖掘等方面,該方法不僅能夠準確地評估某一個具體文檔在語料庫或其他文檔中的重要程度,還能夠詳細地分析出某一文件的具體權重,從而幫助區分文檔的獨立性。

2.1.2 Word2vec

Word2vec是與TF-IDF相似的,是作為卷積神經網絡結構的組成部分之一。而不同的地方主要體現在,TF-IDF主要是對文本權重的分析,而Word2vec則是詞嵌入工具。這種詞嵌入工具最早源于谷歌,同時也是在自然語言處理領域中較為常用的一種詞嵌入方式。在理論上,Word2vec是通過將每個特征詞映射至向量空間,并通過其中的某一個向量表現出來。通過所表現的向量來刻畫出具體的文本語言信息,從而使計算機特征之間的相關性更為明顯。Word2vec作為詞嵌入工具主要有兩種模型:一是跳字模型。跳字模型是根據文本中的中心詞來預測上下文的背景,同時根據檢測特征詞來調整中心詞的詞向量。二是連續詞袋模型。連續詞袋模型不同于跳字模型,主要是依據上下文的背景來預測中心詞,而后根據上下文之間的區別和變化來不斷調整中心詞的詞向量。

2.2 循環卷積神經網絡

卷積神經網絡結構相較于神經網絡結構而言,更具有局部特征的提取優勢,這主要是因為長短期的記憶網絡更能夠捕捉上下文信息。卷積神經網絡結構能夠對所需要提取的文本進行多組特征提取,并對所提取的多組文本特征進行池化,從而得到文本內容中較為重要的特征,最后再由提取出的重要特征送入LSTM神經網絡檢測,并得出最終結果。

3 結論

本文詳細地闡述了傳統的文本特征提取方式和基于深度學習理念下的本文特征提取方式,并對不同的特征提取方法作了一定的比較和探討。在特征提取方面,要充分考慮到本內容中特征詞的詞性,位置分布和相互之間的關系,只有充分考慮到這些因素,才能夠將特征提取和分類方法完美結合,才能夠對特征提取的內容進一步完善。

【參考文獻】

【1】聶維,劉小豫.深度學習視域下的文本表示方法研究[J].科技資訊,2019,17(18):30+32.

【2】龐景安.Web文本特征提取方法的研究與發展[J].情報理論與實踐,2006(03):338-340+367.

猜你喜歡
深度學習
從合坐走向合學:淺議新學習模式的構建
面向大數據遠程開放實驗平臺構建研究
基于自動智能分類器的圖書館亂架圖書檢測
搭建深度學習的三級階梯
有體驗的學習才是有意義的學習
電子商務中基于深度學習的虛假交易識別研究
現代情報(2016年10期)2016-12-15 11:50:53
利用網絡技術促進學生深度學習的幾大策略
考試周刊(2016年94期)2016-12-12 12:15:04
MOOC與翻轉課堂融合的深度學習場域建構
大數據技術在反恐怖主義中的應用展望
深度學習算法應用于巖石圖像處理的可行性研究
軟件導刊(2016年9期)2016-11-07 22:20:49
主站蜘蛛池模板: 欧美一区二区福利视频| 又黄又湿又爽的视频| 爆乳熟妇一区二区三区| 中文字幕无码电影| 免费在线a视频| 久久99国产综合精品女同| 欧美午夜在线视频| 成人一级免费视频| 亚洲精品va| 97久久超碰极品视觉盛宴| 国产成人高清在线精品| 啊嗯不日本网站| 夜精品a一区二区三区| 国产午夜福利片在线观看| 一级爆乳无码av| 人妻丰满熟妇αv无码| lhav亚洲精品| 四虎亚洲国产成人久久精品| 91在线激情在线观看| 午夜激情婷婷| 国产粉嫩粉嫩的18在线播放91 | 亚洲欧美精品一中文字幕| 国产va免费精品观看| 日韩午夜伦| 成人亚洲视频| 国产精品原创不卡在线| 色亚洲成人| 亚洲一欧洲中文字幕在线| 在线不卡免费视频| 国产精品嫩草影院av| 日韩黄色大片免费看| 一本久道热中字伊人| 亚洲av色吊丝无码| 91欧美亚洲国产五月天| 精品一区二区久久久久网站| 天天综合亚洲| 日韩成人免费网站| 福利在线免费视频| AV熟女乱| 国产精品无码久久久久AV| 亚洲国产日韩在线成人蜜芽| 青青草国产一区二区三区| 尤物精品视频一区二区三区| 青青草原国产av福利网站| 色窝窝免费一区二区三区| 亚洲午夜福利精品无码| 成人亚洲国产| 午夜色综合| h视频在线观看网站| 少妇极品熟妇人妻专区视频| 免费精品一区二区h| 亚洲制服中文字幕一区二区| 欧美激情网址| 亚洲福利一区二区三区| 国产69囗曝护士吞精在线视频| 四虎影视无码永久免费观看| 成人精品视频一区二区在线| 国产不卡网| 亚洲国产一成久久精品国产成人综合| 亚洲福利片无码最新在线播放| a在线亚洲男人的天堂试看| 91伊人国产| 狂欢视频在线观看不卡| 丰满少妇αⅴ无码区| 亚洲一级毛片免费观看| 中国一级毛片免费观看| 亚洲人成网站在线播放2019| 亚洲色偷偷偷鲁综合| 欧美a网站| 久草网视频在线| 国产成人精品视频一区二区电影| 波多野结衣AV无码久久一区| 色悠久久久| 亚洲一区二区日韩欧美gif| 国产爽歪歪免费视频在线观看 | 女人毛片a级大学毛片免费| 国产亚洲视频播放9000| 亚洲国产天堂久久综合| 国产十八禁在线观看免费| 国产农村妇女精品一二区| 真人免费一级毛片一区二区| 欧美黄色网站在线看|