999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

面向聚類的堆疊降噪自動編碼器的特征提取研究

2016-12-28 01:22:53張素智魏萍萍徐家興
現代計算機 2016年33期
關鍵詞:文本模型

張素智,魏萍萍,徐家興

(鄭州輕工業學院計算機與通信工程學院,鄭州 450002)

面向聚類的堆疊降噪自動編碼器的特征提取研究

張素智,魏萍萍,徐家興

(鄭州輕工業學院計算機與通信工程學院,鄭州 450002)

為解決短文本聚類時文本的高維稀疏性問題,提出一種基于堆疊降噪自動編碼器的短文本特征提取算法。該算法利用深度學習網絡形式,把多個降噪自動編碼器網絡逐層堆疊起來,將高維、稀疏的短文本空間向量變換到新的低維、本質特征空間。實驗結果表明,將提取的文本特征應用于短文本聚類,顯著提高聚類的效果。

自動編碼器;深度學習;特征提取;聚類

0 引言

近年來,隨著互聯網技術的迅速發展和移動通信設備的廣泛普及,以微博、微信、BBS等形式的短文本數量以指數級增長。短文本信息涵蓋多個領域,如經濟、政治、文化等,為人們搜索數據提供了很大的數據來源,但由于短文本本身具有樣本數量多、詞頻單一、用詞不規范、特征稀疏等特點,人們的利用效率與短文本產生的速度不匹配,增大了用戶獲取有效信息的負荷,給廣大用戶帶來時間和資金上的巨大浪費,也嚴重削弱著政府部門、公司、企業等管理者的決策效率。如何選擇有效地聚類算法,從中獲取有價值的隱含知識,己經成為一項迫切的需求。

向量空間模型(Vector Space Model,VSM)是[1]最早被用用于文本聚類,但該模型聚類的精確性和擴展性都不高。TF-IDF模型[2]在向量空間模型的基礎上,用文本中詞的權重向量表示文本,并對特征詞進行加權處理,但這種方法存在向量維度過高,數據稀疏的問題。許多研究人員提出了好多特征提取方法用于文本聚類。最經典的有最大熵模型[3]。

還有許多研究人員把主題模型用于文本聚類。自Blei等[4]提出LDA主題模型以來,史劍虹等[5]對LDA模型講行了改進,通過結合K-Means和HAC的混合聚類方法,對短文進行聚類,但是該模型對低數據處理效果佳。

以上提出的傳統的聚類方法對特征的識別度不高,尤其是處理維度過高的短文本數據時,更容易出現誤差。因此,如何選取更好的特征提取算法,提高短文本的聚類效果,是一個亟待解決的問題。針對以上這些問題,本文提出一種基于堆疊降噪自動編碼器的文本聚類算法,該算法將深度學習引入文本聚類中,實現非線性降維,使得聚類效果更加明顯。

1 相關技術

1.1 深度學習

深度學習[6]起源于人工神經網絡,由多隱層的多層感知器組成。它可以通過逐層學習算法從輸入的數據中獲取的主要驅動變量,屬于神經網絡模型,卻比簡單的神經模型更為復雜,所處理的問題也更為復雜多樣,如圖1所示。深度學習通常含有多層的隱層節點,它模仿人腦的機制來解釋數據,例如圖像、聲音和文本,進行從低級到高級的特征提取。

典型的深度學習模型有卷積神經網絡(Convolutional Neural Network)、DBN和堆棧自編碼網絡模型(Stacked Auto-Encoder Network)等,本文選取堆棧自編碼網絡模型進行研究。

圖1 深度學習網絡

1.2 短文本的預處理

本文的短文本預處理[7]首先需要對文本分詞,然后進行清洗,剔除無關詞組,把處理后的詞組當做詞袋,短文本特征向量的每一個度量均用詞袋中的每個詞組表示,使得每條短文本都可以用空間中的一個向量來表示。如下所示:

袋中詞的總數量用m表示詞;ti表示該短文本是否包含詞袋中的第i個詞,當t等于1時表示包含,當t等于0時表示不包含。

2 算法流程

2.1 基本思路

本文將堆疊降噪自動編碼器(Stacked Denoise Auto-Encoders,SDAE)用于短文本聚類,將短文本的高維稀疏向量向低維向量轉化,并使用剔除過高緯度中的干擾部分的低維向量所包含的文本信息的本質進行聚類分析,以便提高最終的聚類效果。算法分為如下過程:

(1)文本預處理、獲取文本空間向量:通過對短文本進行語義分析,提取關鍵數據并以此構建向量模型,將每條短文本都轉化為向量。

(2)采用最優梯度下降法,訓練第一個DAE網絡,得到訓練樣本在隱藏層的輸出值。

(3)把多個DAE網絡用深度網絡結構的形式逐層堆疊起來,前一層的輸出作為后一層的純凈輸入,逐層進行訓練形成一個由DAE上下連接而成的模型結構,即為SDAE。這一過程中包括加噪處理和正則化,最終提取出最優的低維特征向量。

(4)對得到的基于SDAE模型處理過的低維特征向量進行聚類處理,并和其它的聚類算法做實驗對比,驗證該模型的有效性。算法流程如圖2所示。

圖2 算法基本流程圖

2.2 基本的自動編碼器

自動編碼器(Auto-Encoder,AE)[8]是由輸入層、隱藏層和輸出層三層神經網絡構成的神經網絡,由編碼器和解碼器兩部分組成。向量x被輸入到編碼器之后得到一種編碼形式,再通過解碼器解碼得到重構數據。根據重構誤差函數值衡量自身的學習效果。AE的結構如圖2所示。

圖3 AE結構示意圖

本文選擇sigmoid函數作為自動編碼器的激活函數,編碼器對接收到的短文本向量x進行線性變化,經過sigmoid函數作用后,得到一個編碼結果y,計算方式如(2)式。編碼結果y再通過解碼器進行重構,最終獲得向量Z,計算公式如式(3)所示。

θ={W,b}為編碼參數,θ'={W',b'}為解碼碼參數,其中W表示一個d'×d的權重陣矩,W'為矩陣W的轉置,即W'=WT,而b和b'都屬于偏倚向量。

Z在滿足一定分布的條件概率下,盡可能的接近X,所以通過對下面重構誤差函數進行優化可以替代目標函數:

我們要分為兩種情況考慮式(4)函數形式的選擇:

(1)X為實數,即X∈Rd:X|Z~N(Z,σ2I),這時誤差函數可選擇為:

其中,C(σ2)為由決定的常數,σ2在優化時可忽略。

(2)X表示二進制數時,即:

本文選用扁平狀的S型函數作為誤差函數,分別用B(X)和B(Z)表示二者的均值。如果遇到不嚴格的二進制數,也可以用此函數表示:如式(7)所示:

經過W'=WT得到進一步的約束。求取argθ,θ'minEq0(x)[L(X,Z(X))]的最優,需要經過自動編碼器不斷地訓練,結合式(3),最優函數可重寫為:

2.3 降噪自動編碼器

當樣本被輸入到傳統的AE中時,往其中加入某種類型的噪聲,就構成了降噪自動編碼器(Denoise Auto-Encoders,DAE)[9]。降噪自動編碼器的最終目的就是對原有數據進行降噪,獲得更加清晰的輸入文本。例如:設原有樣本與結果樣本映射函數為qD(|X),則經過DAE編碼后得到的輸出值如式(10)所示:

經過解碼器解碼后得到的重構結果為:

和基本的自動編碼器相比,DAE只有損失函數和AE不同:

線性解碼器:

或非線性自動解碼器:

降噪自動編碼器具有非常強大的非線性表達能力,因此它經常對個別對象特有的特征進行充分描述,避免不了對輸入的數據過度擬合。針對以上問題,本文使用絕對值函數作為懲罰項,絕對值較小的系數會被自動壓縮為0。使用L1范式正則化[10],把公式(12)和(13)調整為公式(14)和(15)來完成此計算。

線性解碼器:

或非線性解碼器:

λ作為L1范式的參數,要確保模型擬合能力和泛化能力的均衡,需要根據實際數據進行多次調試。

DAE的解碼器損失函數與傳統AE不同的是,重構信號Y是由受污染信號重構得到的,樣本X每經過DAE訓練一次,都會根據qD(|X)產生一個不同的。計算過程如圖4所示。

圖4 DAE流程圖

2.4 堆疊加噪自動編碼器

把多個DAE網絡用深度網絡結構的形式逐層堆疊起來,前一層的輸出作為后一層的純凈輸入,逐層進行訓練形成一個由DAE上下連接而成的模型結構,即為SDAE。其學習過程如圖5所示。

圖5(a)表示第一層降噪自動編碼器DAE網絡,其訓練過程如圖3所示。用fθ對輸入的向量X進行降噪編碼,其中,fθ是通過訓練得到的編碼函數。

第二層DAE輸入的樣本是通過第一層DAE輸出的結果得到的,經過訓練得到該層的編碼函數fθ(2),如圖5(b)所示。

按以上的訓練過程重復訓練多次,基于自動編碼器的深度網絡的模型就得到了。對網絡所有層的參數用梯度下降法進行微調,可以達到最優的聚類效果,如圖5(c)所示。

圖5 SDAE計算過程

2.5 短文本聚類

經過堆疊降噪自動編碼器SDAE的處理后,高維的短文本向量就得到了降維轉換。本文將經SDAE編碼器處理后的結果用于文本聚類,探討其對聚類效果的影響。

自組織映射神經網絡SOM算法(Self Organizing Maps)[11]是一種簡單高效、對噪聲不敏感的聚類算法,本文使用SOM算法進行短文本的聚類分析。

本文把處理后的n維短本文向量做為輸入,建立一個二維網格,輸出節點數用m表示,i和j分別表第i個輸入神經元節點與第j個輸出神經元節點,它們之間的連接權用wij表示。

首先,以一定概率初始化n維向量x的連接權值。其次,計算找出t時刻輸入向量到所有輸出節點的最小距離dj,確定獲勝神經元i(x)。最后,調整連接權值向量,重復選擇dj最小的節點,直到學習完所有樣本,就完成了SOM神經網絡的訓練,得到最終聚類結果。

3 實驗及結果分析

3.1 評價指標

衡量聚類效果的指標有多種,本文選用Entropy和Precision[12]兩種指標。

Entropy稱為信息熵,其值越小,聚類的純度越高。信息熵的計算方法如式(16)和(17)所示:

分別用G和G'表示實際的聚類個數和實際的類別個數;Ai表示聚類中的某一個簇,其中label(di)表示每條微博,i=1,…,|A|的實際標注,Cj(j=1,…,G)等于其值標準的類標記。

聚類的質量隨著Precision值的增大而提高。它表示聚類結果的準確度,如式(18)所示:

用Precision的加權平均表示聚類結果:

3.2 實驗數據

本文選取比較有代表性的微博短文本數據作為分析對象,利用深度學習的思想對短文本進行特征降維,用SOM聚類方法處理后,與已有人工標注實驗數據進行對比,驗證該算法的有效性。數據來源于數據堂上的微博分類語料庫。該數據集經過人工標注,分為體育、娛樂、健康、教育、科技五大類。本文中每類各取1500條微博。

3.3 實驗過程

文本預處理:首先,去除與微博內容無關的內容,如短鏈接的字符串,只保留“http”關鍵詞;然后,對微博短文本數據進行清洗;最后,使用漢語中文分詞系統(參考NLPIR2016)對數據進行分詞、去停用詞等處理,得到微博數據詞袋。

為節省時間和效率,本文結合Glorot等[13]的研究結果可知,前8000個詞就能較全面地體現短文本的內容,因此從28261個分詞結果中取前8000個詞作為每條微博的特征集,按照前文敘述的方法,建立對應的空間向量。實驗共分成4個部分:直接采用SOM算法對短文本特征向量直接進行聚類;結合TF-IDF向量空間模型,在此模型的基礎上對特征詞加權處理,再使用SOM算法對短文本特征向量進行聚類;運用LDAGibbs模型[14]對語料集進行處理后,再使用SOM算法對短文本特征向量進行聚類;采用本文的方法即基于SDAE模型的SOM算法對短文本特征向量進行聚類。

3.4 實驗結果和分析

表1~4分別代表上述4種方法的聚類結果,圖4和圖5分別對應聚類結果的信息熵和準確度。其中SOM代表直接使用SOM算法對短文本向量進行聚類分析,TF-IDF+SOM代表在TF-IDF模型的基礎上使用SOM算法對短文本向量進行聚類分析,LDA-G+SOM代表在LDA-Gibbs模型的基礎上運用SOM算法對短文本向量進行聚類,DSAE+SOM代表經過堆疊降噪稀疏自動編碼器處理過再使用SOM算法對短文本向量進行聚類。

表1 SOM聚類結果

表2 TF-IDF+SOM聚類結果

表3 LDA-Gibbs+SOM聚類結果

表4 DSAE+SOM聚類結果

由綜合信息熵和準確度兩種衡量聚類效果的標準可知,直接使用SOM算法對高維的短文本進行聚類效果最差。LDA-G+SOM的方法僅比TF-IDF+SOM略好一些,DSAE+SOM在這幾種方法中取得最好的成績,聚類結果的純度和準確度都最高,綜合信息嫡為接近0.189,綜合準確度為接近88.9,說明該堆疊降噪自動編碼器SDAE能夠利用自己非線性的特性,對高維短文本實現非線性降維,顯著提高了聚類效果。

圖6 聚類的信息墑

圖7 聚類的準確度

通過運用降噪的方法,提高短文本向量的魯棒性和穩定性,再通過L1范式正則化,確保模型擬合能力和泛化能力的均衡。

4 結語

與人工提取的傳統方法相比,深度學習網絡不但能保證提取數據的本質特征外,其結果還能對許多自然語言處理任務起到較好的擴展應用。如何提高特征提取和聚類結果的可解釋性,將是本方法今后研究的主要問題。

參考文獻:

[1]Salton G,Wong A,Yang C S.A Vector Space Model for Automatic Indexing[J].Communications of the ACM,1975,18(11):613-620.

[2]Kuang Q,Xu X.Improvement and Application of TFoIDF Method Based on Text Classification[C].International Conference on Internet Technology and Applications,2010:1-4.

[3]Lewis D D.Representation and Learning in Information Retrieval[D].University of Massachusetts,1992.

[4]李學相.改進的最大熵權值算法在文本分類中的應用[J].計算機科學,2012,39(6):210-212.

[5]David M.Blei,AndrewY.Ng,Michael I.Jordan,Latent Dirichlet Allocation[J].Journal of Machine Learning Research,2003,(3):993-1022

[6]史劍虹,陳興蜀,王文賢.基于隱主題分析的中文微博話題發現[J].計算機應用研究,2014,1(3):700-704.

[7]Chao C,Jiang W.Study on the Subjective and Objective Text Classification and Pretreatment of Chinese Network Text[C].International Conference on Intelligent Human-Machine Systems and Cybernetics.IEEE Computer Society,2012:25-29.

[8]Alain G,Bengio Y.What Regularized Auto-Encoders Learn from the Data-Generating Distribution[J].Journal of Machine Learning Research,2014,15(1):3563-3593.

[9]Xia R,Deng J,Schuller B,et al.Modeling Gender Information for Emotion Recognition using Denoising Autoencoder[J].2014:990-994.

[10]劉勘,袁蘊英.基于自動編碼器的短文本特征提取及聚類研究[J].北京大學學報(自然科學版),2015,51(2):282-288.

[11]鄭思平.一種改進的動態SOM算法及其在聚類中的應用[D].華南理工大學,2010.

[12]Tao L,Shengping L,Zheng C,et al.An Evaluation on Feature Selection for Text Clustering.Proceedings of the Twentieth International Conference on Machine Learning.Washington,2003:488-495.

[13]Glorot X,Bordes A,Bengio Y.Deep Sparse Rectifier Networks.Proceedings of the 14th International Conference on Artificial Intelligence and Statistics.Fort Lauderdale,2011:315-323.

[14]王鵬,高鋮,陳曉美.基于LDA模型的文本聚類研究[J].情報科學,2015(1):63-68.

Research on the Feature Extraction of Clustering Based on Denoising Autoencoders

ZHANG Su-zhi,WEI Ping-ping,XU Jia-xing
(School of Computer and Communication Engineering,Zhengzhou University of Light Industry,Zhengzhou 450002)

The primary difficulty of text clustering lies in the multi-dimensional sparseness of texts.Proposes a short text clustering algorithm which based on the stack noise automatically reduction encoder.The proposed algorithm utilizes deep learning network form to stack up multinetwork of noise automatically reduction encoder step by step,and transforms the high dimensional and sparse short text space vector into a new low dimensional and essential feature s pace vector.The experimental results show that the extracted text characteristic is applied to short text clustering,which improves the clustering performance significantly.

Automatic Encoder;Deep Learning;Feature Extraction;Clustering

國家自然科學基金青年科學基金項目(No.61201447)

1007-1423(2016)33-0003-06

10.3969/j.issn.1007-1423.2016.33.001

張素智(1965-),男,博士,教授,研究方向為Web數據庫、分布式計算和異構系統集成

魏萍萍(1990-),女,碩士研究生,研究數據挖掘與集成

徐家興(1990-),男,碩士研究生,研究數據挖掘與集成

2016-09-22

2016-11-15

猜你喜歡
文本模型
一半模型
重要模型『一線三等角』
初中群文閱讀的文本選擇及組織
甘肅教育(2020年8期)2020-06-11 06:10:02
重尾非線性自回歸模型自加權M-估計的漸近分布
在808DA上文本顯示的改善
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
3D打印中的模型分割與打包
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學隱喻
論《柳毅傳》對前代文本的繼承與轉化
人間(2015年20期)2016-01-04 12:47:10
FLUKA幾何模型到CAD幾何模型轉換方法初步研究
主站蜘蛛池模板: 无码国产偷倩在线播放老年人| 中文字幕在线日韩91| 国产不卡国语在线| 久草美女视频| 萌白酱国产一区二区| 亚洲综合经典在线一区二区| 欧类av怡春院| 亚洲香蕉久久| 亚亚洲乱码一二三四区| 真实国产乱子伦高清| 2021天堂在线亚洲精品专区 | 国产另类乱子伦精品免费女| 欧美性天天| 国产成a人片在线播放| 精品少妇人妻无码久久| 国产成人1024精品| 黄色福利在线| 成人国产三级在线播放| 日韩区欧美国产区在线观看| 国产女人在线观看| 国产网站在线看| 国产精品无码影视久久久久久久 | 在线看AV天堂| 东京热高清无码精品| 手机精品福利在线观看| 亚洲中文字幕无码爆乳| 午夜丁香婷婷| 亚洲aaa视频| 精品福利一区二区免费视频| 欧美啪啪一区| 伊人久久大香线蕉影院| 伊人色天堂| 国产激情第一页| 免费高清a毛片| 国内精品伊人久久久久7777人 | 久久大香香蕉国产免费网站| 久久伊人色| 热99精品视频| 99久视频| 热re99久久精品国99热| 亚洲欧美一区二区三区蜜芽| 亚洲AⅤ永久无码精品毛片| 久久一日本道色综合久久| 国产精品所毛片视频| 国产人成网线在线播放va| 久久无码av三级| 国产亚卅精品无码| 国产精品久久久久久久伊一| 亚洲国产中文欧美在线人成大黄瓜 | 毛片免费在线视频| 激情综合婷婷丁香五月尤物| 国产在线拍偷自揄观看视频网站| 91娇喘视频| a网站在线观看| 天堂va亚洲va欧美va国产| 国产成熟女人性满足视频| 91原创视频在线| 国产午夜看片| 欧美精品啪啪| 在线免费不卡视频| 国产日韩欧美在线播放| 欧美亚洲中文精品三区| 激情综合网址| 久久亚洲欧美综合| a级毛片免费网站| 亚洲精品免费网站| AV无码国产在线看岛国岛| 国产日韩AV高潮在线| 中文字幕 日韩 欧美| 色偷偷男人的天堂亚洲av| 成人国产精品一级毛片天堂 | 91年精品国产福利线观看久久| 久久这里只精品国产99热8| 亚洲娇小与黑人巨大交| 色久综合在线| 国产成人成人一区二区| 色有码无码视频| 波多野结衣AV无码久久一区| 亚洲欧美国产视频| 亚洲浓毛av| 九九热精品视频在线| 青青操视频在线|