999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于CBOW模型的個人微博聚類研究

2018-07-10 09:25:54宋添樹李江宇張沁哲
電腦與電信 2018年4期
關鍵詞:語義

宋添樹 李江宇 張沁哲

(內蒙古科技大學 信息工程學院,內蒙古自治區 包頭 014010)

1 引言

微博是一種以140個字符為上限的新興的網絡社交平臺,根據應用目的分為官方微博和個人微博兩種。其中官方微博主要發表與其所在單位相關的廣告、通告以及其領域內事件等等,官方微博的內容隨時間順序排列整齊、不容易混亂。近年來,隨著個人電腦、智能手機的普及,人們逐漸將社交眼光放在了微博平臺上。由于微博平臺的便利性和計算機網絡的發展,個人微博的數量和事件的復雜度逐年增加,如果用戶想了解一個人的專業領域、興趣愛好以及表達方式方法等內容需要逐條瀏覽每條微博,不易查詢,費時費力,如果將相似事件的微博聚類在一起可以極大地解放勞動力,快速地對博主形成認知,還可以為其他應用軟件提供數據便利。當前國內外的聚類算法大都基于字數較長的文檔類型,主要方法有詞共現法、詞頻-文檔頻率法等刻畫空間點的分布再根據各類聚類算法對距離的不同應用進行聚類,此類方法聚類精確度較低,只能應用于粗放型的分類,對于個人微博字數較少的特殊情況來看,矩陣和二維表中出現0的情況十分普遍,因此并不十分適用個人微博中語義復雜、事件多變的情況。

因此本文依上述問題提出了基于語義相似度的個人微博聚類算法,將語義相似度大的微博聚類在一起。首先將個人微博進行分詞并去除停用詞;其次使用機器學習CBOW模型訓練詞語向量;再次使用改進的曼哈頓距離法計算相似度;最后使用clarans法進行聚類。

例如馮小剛微博:

(1)“《芳華》是一封情書,寫給青春的,寫給軍隊的,寫給那些女兵的大熒幕作品。”

(2)“青春不老,佳音終傳,誰的等待都不愿辜負。12月15日,電影全國及北美地區同步上映。”

按照詞頻-文檔頻率以及詞共現法分析,這兩條微博并不相關,但是在語義層面上來看這兩句話都與“電影”相關,因此本文的研究目的就是將語義層面上相似度大的微博聚類在一起,使用戶可以分類查看自己感興趣的內容。綜合考慮了個人微博特點,采用python語言爬取個人微博;使用jieba分詞工具進行精細分詞并去除停用詞;形成0、1組成的向量空間;使用CBOW模型訓練詞語向量,縮短訓練窗口,降低維度;根據較低維度的向量距離計算文本相似度;最后進行聚類。

2 相關工作

文本聚類工作應用十分廣泛,主要針對論文一類的文檔歸類;將混雜在一起不同領域的文章有效地分開,根據用戶設定的聚類粒度大小將文檔聚類。有相同屬性的文章聚類在一起,不同屬性的文檔則不屬于一類。

他人的相關研究對本文起了重要的作用。在中文語義相似度計算方面,趙世奇等人提出了LFIC(Linguistic Features Indexing Clustering)方法進行文本聚類,提取了文本的主題,同時基于漢語語言學將語義層面的相似度考慮進去[1]。劉群、李素建等人創建了How Net詞匯庫將詞語之間的關系用樹狀關系或網狀關系表示,根據從屬關系和并列關系計算詞語之間的相似度。這種體系對語義相似度的影響十分深遠[2]。王小林等人根據How Net體系結構運算量較大的弊端改進了語義相似度的計算公式,使相似度更加精確[3-4]。

在文檔聚類方面,Vesanto J等人提出了一種自組織映射數據挖掘(SOM)算法,該算法可以有效利用數據原型來可視化和探索數據的屬性,與傳統k-means算法相比有了明顯的提高[5]。Ding C H等人主要針對k-means聚類算法中高維災難問題提出了優化算法PCA(Principal Component Analysis),通過降維降噪算法優化聚類結構,實驗數據使用DNA和互聯網新聞數據證明了PCA算法比傳統k-means算法有更快的聚類速度和準確程度[6]。Elhamifar E等人針對現如今高維數據集合,如圖像、視頻、文本和網頁文檔,以及DNA微陣列數據等等,這些高維數據大多是多個低維數據的子集組成的集合,提出了一種稀疏子空間聚類的算法對位于低維子空間聯合中的數據點進行聚類[7]。Vimalarani C等人和Zhang D等人采用支持向量機SVM無監督學習結合一般聚類算法應用于文本聚類運算中,并取得了良好的效果[8-9]。

3 微博聚類

聚類過程主要分為五個部分:(1)預處理階段分詞并去除停用詞,漢語語言處理主要基于詞語來進行,將微博語句分詞將很大程度上方便計算過程。本文采用python語言調用jieba分詞詞庫將微博句子分詞;(2)將分詞結束后的微博文本形成一個詞匯-文檔0,1分布的二維表格,將這個二維表格作為機器學習的輸入端;使用CBOW機器學習方法訓練詞匯向量,縮短微博所代表的向量維度;(3)由詞匯向量可以算得微博語句向量;(4)句子向量代表了空間中的一個一個的點,采用本文改進的曼哈頓距離計算微博之間的相似程度;(5)根據所計算的相似程度最后采用clarans方法聚類。示意圖如圖1所示。

3.1 預處理

個人微博的聚類算法首先要獲取數據集合,本文主要基于用戶數量最多的新浪微博獲取個人微博數據。首先將個人微博數據集合按照時間順序排列形成最初的數據集合。最初的數據集合中含有無法處理的雜質內容,例如表情、圖片、視頻、音頻等。預處理的過程就是將這些無法通過正常自然語言處理進行計算的部分去除,過濾掉微博中的雜質之后形成個人微博集合T={t1,t2,...,tn}。此時個人微博集合中僅含有漢字部分。

將個人微博集合進行分詞、去除停用詞處理,將處理之后的集合表示為Tr={tr1,tr2,...,trn}。

圖1 個人微博聚類示意圖

3.2 機器學習

CBOW模型(Continuous Bag-of-Words)是一種用于神經網絡的語言模型。CBOW模型的訓練輸入是某一個特征詞的上下文相關的詞對應的詞向量,而輸出就是特定的一個詞的詞向量。其中,輸入詞向量為詞袋模型刻畫的詞向量,輸出為Softmax函數的浮點數降維的詞語向量。若給出訓練詞序列w1,w2,...,wn,CBOW的訓練目的是使每個詞語的平均對數概率最大化。

C(wn)為模型輸出詞語向量結果,N為訓練詞語的個數,k為訓練窗口的大小。給出詞語wn從訓練窗口-k到k之間計算正確預測詞語wn+j的對數概率。概率函數p通過Softmax函數刻畫。

使用CBOW模型,給出大量語料庫訓練詞語向量,獲得個人微博語句中每一個詞的詞語向量的值。本文實驗綜合考慮計算機性能以及算法優化這兩方面內容給定訓練窗口為50維度。

3.3 個人微博句子向量

通過3.2節中利用CBOW模型訓練得出詞語向量。每一個詞語都有一個特定的向量表示,每個個人微博語句都有一個或多個詞語組成,下面的過程就是將詞語向量合理地表示為句子向量。

詞語向量的本質是預測這個詞語上下文出現其他詞語的可能性,因此將句子向量看作是詞語向量的平均值能夠有效地表達出這種關系。

圖2 句子向量

其中vec(sentence)是句子向量,vec(wsi)是一個句子中的詞語向量。

每個個人微博語句向量表示完成之后,每個向量可以視作一個n維空間中的一個點。因此多個個人微博相當于在同一個n維空間中點的集合。將這些點合理地劃分粒度大小以及根據粒度大小合理地聚類。

3.4 聚類

獲得個人微博所代表的點之后進行個人微博之間相似度計算,句子之間的相似度歸結為兩個點之間的距離大小,普通的距離算法例如歐幾里得距離會產生大量的浮點數運算,在空間維度較高的條件之下會消耗大量的時間,因此優化距離算法是個人微博這類短文本聚類的首要工作。

曼哈頓距離(Manhattan distance)又稱為出租車距離,描述的是兩個點之間橫縱坐標之間距離而并非兩個點之間直線距離。利用曼哈頓距離計算兩點距離可以節省大量的計算機浮點運算。

其中Dis(p1,p2)為兩個個人微博所代表的點之間的曼哈頓距離。D1至Dn為n維向量空間,1到n維之間距離之差求和就是兩個點之間的具體距離,即個人微博之間的相似度。

得出兩個微博相似度之后采用clarans算法對個人微博進行聚類工作。

clarans(A Clustering Algorithm based on Randomized Search,基于隨機選擇的聚類算法),中心思想是隨機選擇一定數量的聚類中心,然后不停地移動聚類中心使得每個簇的成員到聚類中心的距離最小。每次計算兩個點的距離時,使用公式(4)計算。

算法1 clarans聚類

輸入:聚類中心的個數n,每個中心最大半徑maxneighbor

輸出:聚類結果

1 獲得聚類中心{vec1,...,vecn}

2 for n←1 to n

3Do←n

4 直到每個簇的成員到聚類中心距離最小時停止循環

5 do for n←1 to n

6 do ωk←{}設置第n個簇為空集

7 for n←1 to N

8 計算空間點到中心距離

9 if(veci

10 歸于此類

11 返回結果

4 實驗

新浪微博是近幾年來新興的即時網絡分享平臺,其用戶數量龐大、內容復雜多樣為本文提供了良好的數據來源。因此使用新浪微博作為測試數據很具有代表性。

本文采用python語言編寫爬取程序,再根據微博爬取結果進行聚類。

實驗節選自吳京,于謙,樊振東,李開復4人總計5000條左右的微博作為實驗數據。本文采用對比實驗來分析研究結果,分別采用BIRCH算法、DBSCAN算法進行對照。

實驗使用F值度量,F值為準確率與召回率的調和平均值。

圖3 對比實驗

如圖3所示,本文方法相比BIRCH聚類算法以及DBSCAN聚類算法有較為明顯的提高,其中樊振東的個人微博信息按時間順序排列較為整齊,因此三種聚類算法區別不明顯。因此本文方法在個人微博時間線較為混亂時更加有效。

5 結束語

本文采用CBOW模型訓練個人微博文本取得詞語向量,句子由詞語組成,將詞語向量計算獲得個人微博句子向量。個人微博向量可以視作空間中的一個點。根據曼哈頓距離計算個人微博相似度以此簡化算法,計算完相似度之后,根據clarans聚類算法將個人微博聚類。實驗結果表明,本文方法比傳統聚類算法BIRCH聚類算法以及DBSCAN聚類算法有較為明顯的提高。

研究工作的數據來源相對較少,聚類結果準確度依然有待提高;聚類數據量大時,會造成時間消耗量大的問題。因此找到精度以及時間消耗平衡是下一步研究的工作。

[1]趙世奇,劉挺,李生.一種基于主題的文本聚類方法[J].中文信息學報,2007,21(2):58-62.

[2]劉群,李素建.基于《知網》的詞匯語義相似度計算[C].第三屆漢語詞匯語義學研討會.臺北,2002:59-79.

[3]王小林,王義.改進的基于知網的詞語相似度算法[J].計算機應用,2011,31(11):3075-3077.

[4]王小林,王東,楊思春,等.基于《知網》的詞語語義相似度算法[J].計算機工程,2014,40(12):177-181.

[5]Vesanto J,Alhoniemi E.Clustering of the self-orga-nizing map[J].IEEE Transactions on Neural Networks,2000,11(3):586-600.

[6]Ding C H,He X.K-means clustering via principal component analysis[C].International conference on machine learning,2004.

[7]Elhamifar E,Vidal R .Sparse Subspace Clustering:Algorithm,Theory,and Applications[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence,2013,35(11):2765-2781.

[8]Vimalarani C,Subramanian R ,Sivanandam S N,et al.An Enhanced PSO-Based Clustering Energy Optimization Algorithm for Wireless Sensor Network[J].The Scientific World Journal,2016.

[9]Zhang D,Chen S.Clustering Incomplete Data Using Kernel-Based Fuzzy C-means Algorithm[J].Neural Process-ing Letters,2003,18(3):155-162.

猜你喜歡
語義
為什么字看久了就不認識了
語言與語義
“社會”一詞的語義流動與新陳代謝
“上”與“下”語義的不對稱性及其認知闡釋
現代語文(2016年21期)2016-05-25 13:13:44
“吃+NP”的語義生成機制研究
長江學術(2016年4期)2016-03-11 15:11:31
“V+了+NP1+NP2”中V的語義指向簡談
認知范疇模糊與語義模糊
“V+X+算+X”構式的語義功能及語義網絡——兼及與“V+X+是+X”構式的轉換
語言與翻譯(2014年2期)2014-07-12 15:49:25
“熊孩子”語義新探
語文知識(2014年2期)2014-02-28 21:59:18
“深+N季”組配的認知語義分析
當代修辭學(2011年6期)2011-01-29 02:49:50
主站蜘蛛池模板: 91年精品国产福利线观看久久| 99热这里只有精品久久免费| 亚洲伊人电影| 久久99精品国产麻豆宅宅| 久久国产亚洲欧美日韩精品| 国产精品美女自慰喷水| 四虎成人精品| 真人高潮娇喘嗯啊在线观看| 特级做a爰片毛片免费69| 亚洲人人视频| 尤物成AV人片在线观看| 99热这里只有精品5| 中文字幕资源站| 久久精品aⅴ无码中文字幕| 九九免费观看全部免费视频| 精品国产免费观看| 丝袜高跟美脚国产1区| 青青草国产免费国产| 亚洲AV无码乱码在线观看裸奔| 国产自无码视频在线观看| 日本亚洲国产一区二区三区| 久久久亚洲国产美女国产盗摄| 国产一区二区影院| 国产在线观看99| 波多野结衣久久高清免费| 亚洲性影院| 亚洲一区二区日韩欧美gif| 亚洲人成亚洲精品| 精品久久777| 九九热免费在线视频| 99精品免费在线| 色婷婷狠狠干| 美女高潮全身流白浆福利区| 老司机久久99久久精品播放| vvvv98国产成人综合青青| 成人国产一区二区三区| 无码精品国产VA在线观看DVD| 美女视频黄又黄又免费高清| 97久久免费视频| 中国成人在线视频| 亚洲最大在线观看| 91成人在线观看| 搞黄网站免费观看| 青青操视频免费观看| 自慰网址在线观看| 高清国产在线| 亚洲国产成人精品无码区性色| 污网站在线观看视频| 国产精品女同一区三区五区| 免费欧美一级| 网久久综合| 久久综合亚洲色一区二区三区| 中文字幕伦视频| 国产成人精品免费视频大全五级 | 国产素人在线| 日韩精品一区二区三区中文无码| 国产精品一线天| 国产精品白浆无码流出在线看| 青青操视频在线| 国内嫩模私拍精品视频| 亚洲av无码人妻| 高清无码手机在线观看| 国产成人一区免费观看| 亚洲色图综合在线| 巨熟乳波霸若妻中文观看免费| 国产精品亚洲五月天高清| 台湾AV国片精品女同性| 亚洲欧美日韩另类在线一| 国外欧美一区另类中文字幕| 激情乱人伦| 亚洲精品自在线拍| 国产精品第三页在线看| 久久免费视频6| 日本精品一在线观看视频| 综合人妻久久一区二区精品| 亚洲永久色| 亚洲欧美日韩另类| 国产精品部在线观看| 国产亚洲成AⅤ人片在线观看| 中文字幕在线看| 在线观看国产小视频| 全部免费毛片免费播放 |