999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于Word2Vec模型和K-Means算法的信息技術文檔聚類研究?

2020-04-27 08:53:58毛郁欣邱智學
中國信息技術教育 2020年8期

毛郁欣 邱智學

摘要:互聯網上與信息技術相關的文檔和學習資料較為分散,而且會隨著信息技術的發展而動態更新。作者提出了一種基于Word2Vec模型和K-Means算法的聚類方法,能夠實現對與信息技術相關的網絡文檔的聚類,并對不同來源和主題的技術文檔自動分類,此方法對構建信息技術知識庫和在線學習平臺具有較強的支撐作用。

關鍵詞:文本聚類;Word2Vec;K-Means算法;領域本體

中圖分類號:G434? 文獻標識碼:A? 論文編號:1674-2117(2020)08-0099-03

引言

隨著互聯網的發展,各個技術領域在網上都產生了大量的專業文檔和技術資料,且較為分散,再加上信息技術本身發展和迭代非常迅速,相應的文檔也會隨之不斷地動態更新,對應的文檔主題和內容呈現出較為明顯的動態性。例如,CSDN(信息技術社區)上的技術文章,基本上是按照網站設定好的固定類別(如游戲開發、人工智能、Python等)進行分類,同時允許作者添加一系列個性化標簽。但是隨著文章數量的增多,有限的固定類別顯然無法滿足精細化的文章分類需求,只能進行粗略、大概的歸類,而作者添加的標簽又帶有很強的主觀性和隨意性,不能完全作為分類的依據。因此,運用更加有效和準確的方法對互聯網上不同來源、不同主題的信息技術文檔進行研究和分析,具有十分現實的意義。互聯網上與信息技術相關的文檔屬于無結構文本,因此運用文本挖掘技術進行量化處理和分析是比較可行的方法。

總體來看,雖然目前關于Web文檔聚類或分類的研究已經比較多[1-2],但是直接針對信息技術文檔的研究還不多,而結合深度學習模型進行文本挖掘的研究也比較缺乏。為此,本文研究并提出一種基于Word2Vec模型[3]和K-Means算法的聚類方法,能夠實現對與信息技術相關的網絡文檔的聚類。該方法實現了對不同來源和主題的信息技術文檔的自動分類,對于構建信息技術知識庫和在線學習平臺具有較強的支撐作用。

信息技術文檔的特征處理

要實現對互聯網上多來源、多主題的信息技術文檔的自動分類或聚類,首先必須對文檔進行特征處理,本研究提出的特征處理流程如下頁圖1所示。

對于采集到的信息類網絡文檔,利用開源分詞工具進行分詞,完成文本預處理。文本預處理之后會產生很多的特征詞,如果直接使用預處理后的特征詞進行挖掘,不但會造成特征表示上的維度災難,而且也得不到高質量的聚類結果。[4]因此,需要進一步開展特征提取,從而為后續的挖掘以及最終的聚類帶來更好的效果。

本研究使用詞頻-逆文檔頻率TF-IDF[5]來計算信息類文檔中特征詞的權值,按權值大小排序,并選擇TF-IDF值超過特定閾值的特征詞作為初始特征。此外,由于同一個特征詞在不同的技術文檔中會重復出現且權值不同,故同一個特征詞取最大的TF-IDF值作為權值,并進行去重處理形成初始特征集。

點互信息PMI是從信息論里的互信息概念衍生而來的[6],這個指標常常用來衡量兩個事物之間的相關性,如兩個詞。本研究使用PMI算法將信息類文檔預處理語料作為輸入,先通過頻率計算詞語的共現概率,然后再計算詞語共現的標準化互信息值NMI,最后返回符合NMI閾值的特征詞列表及PMI特征詞共現列表。最終通過人工篩選初始特征詞和PMI算法過濾得到的特征詞,形成信息技術文本的特征集,完成特征提取工作。

Word2Vec是能把詞語轉化為多維詞向量的模型,根據詞語的上下文預測詞向量。詞向量由多維實數表示,雖然不能說明每一維度的實際含義,但它卻蘊含了豐富的信息。由于訓練時會根據前后就近位置預測詞語,考慮了詞語間的共現,所以它保持了同義詞之間強的相關性。運用Word2Vec詞向量模型訓練信息類文檔的文本語料,可以將其中的信息領域特征詞轉化為多維實數向量。與傳統的空間向量模型相比,它考慮了詞與詞之間的共現,同義詞所對應的詞向量在多維空間中會更加接近,為后續更準確的挖掘工作做好了鋪墊。

Word2Vec中有兩個重要的算法模型:Skip-gram模型和CBOW模型。這兩個模型都包含了三層,即輸入層、投影層和輸出層。CBOW模型是通過輸入特征詞上下文來預測特征詞的空間向量;而Skip-gram模型則是通過輸入特征詞來預測特征詞上下文的空間向量。[7]Skip-gram模型訓練時間比CBOW模型要長,但在Skip-gram模型中,每個詞都要受到周圍詞的影響,每個詞在作為中心詞的時候,都要進行次的預測、調整,這種多次的調整會使得詞向量相對更加準確。因此,在對信息技術文檔進行文本挖掘的過程中,選擇Skip-gram模型進行詞的向量化訓練。

Skip-gram模型是將一個詞語作為輸入,來預測它周圍的上下文。假設有一個句子結構為,Skip-gram模型就是通過輸入來預測 的詞向量。

基于K-Means和本體映射的信息技術文檔聚類

K-Means是經典的劃分聚類算法,算法的優點是時間復雜度低,聚類效果較好。因此,利用K-Means算法對經過向量化的特征詞進行聚類,步驟如下:

①隨機選擇個簇類中心點;

②遍歷所有數據點,把數據點劃分到距離最近的一個簇類中;

③劃分之后就有個簇,計算每個簇類中點的平均值作為新的簇類中心點;

④重復步驟②和③,直到聚類中心不再發生變化,或是迭代次數達到設定的值。

對K-Means聚類中的值的選擇,可以依據基于誤差平方和SSE的手肘法,計算公式如下:

其中,是第個簇,是中的樣本點,是的質心即中所有樣本的均值,SSE是所有樣本的聚類誤差,代表了聚類效果的好壞。在確定的取值后,使用K-Means聚類算法對從信息技術文檔中提取出的特征進行聚類。

同時,通過整理和分析信息技術領域的基本概念及其相互關系,初步構建一個面向信息技術領域的本體。其中,本體的部分概念結構如上頁圖2所示。

利用聚類算法對特征聚類,得到一系列的特征簇類,進一步對簇類進行整理和分析,將簇類及其特征詞映射到事先構建好的信息技術領域本體上(如圖3)。

結束語

針對互聯網上存在的大量與信息技術相關的專業文檔,本研究提出一種基于Word2Vec模型和K-Means算法的聚類方法,能夠實現對信息技術相關的網絡文檔的聚類。對經過預處理的文本,利用相對成熟的特征提取算法提取和過濾特征集合,然后利用Word2Vec模型進行特征詞向量化處理,在此基礎之上利用K-Means算法進行聚類。該方法實現了對互聯網上不同來源和主題的技術文檔的自動分類,對構建信息技術知識庫和在線學習平臺具有較強的支撐作用。

參考文獻:

[1]喬少杰,韓楠,金澈清,等.基于Multi-Agent的分布式文本聚類模型[J].計算機學報,2018(08):19-31.

[2]宋凱,李秀霞,趙思喆.基于CTM模型與K-means算法融合的文本聚類研究[J].情報理論與實踐,2017(11):135-138.

[3]周練.Word2vec的工作原理及應用探究[J].圖書情報導刊,2015(02):145-148.

[4]Chandrashekar G,Sahin F. A survey on feature selection methods[J].Computers & Electrical Engineering,2014(01):16-28.

[5]Salton G. The SMART retrieval system-experiments in automatic document processing[M].Prentice-hall,Inc Upper Saddle River,1971.

[6]Vergara J R,Estevez P A. A review of feature selection methods based on mutual information[J].Neural computing and applications,2014,24(01):175-186.

[7]Mikolov T,Chen K,Corrado G,et al.Efficient estimation of word rep-resentations in vector space[J].Computer Science,2013.

基金項目:浙江省高校“十三五”優勢專業建設項目(120801,電子商務),浙江工商大學2019年度校高等教育研究課題(xgy19024)資助。

主站蜘蛛池模板: 尤物国产在线| 亚洲资源站av无码网址| 国产精品人莉莉成在线播放| 日本黄色a视频| 国产SUV精品一区二区| 国产第一福利影院| 91视频精品| 国产99视频免费精品是看6| 九色免费视频| 色综合国产| 国产在线精彩视频二区| 一级毛片中文字幕| 久久免费看片| 亚洲床戏一区| 综合成人国产| 国产极品嫩模在线观看91| 无码日韩视频| 国产成年无码AⅤ片在线| 亚洲一级毛片免费观看| 2019年国产精品自拍不卡| 亚洲第一视频区| 国产精品美乳| 色婷婷狠狠干| 最新精品久久精品| 色综合中文| 一级毛片免费播放视频| 在线综合亚洲欧美网站| 欧美日韩中文国产va另类| 日韩精品亚洲精品第一页| 国产91蝌蚪窝| 国内丰满少妇猛烈精品播| 欧美一道本| 中文字幕资源站| 国产AV无码专区亚洲A∨毛片| 99国产在线视频| 婷婷六月在线| 青青草国产一区二区三区| 亚洲区一区| 欧美精品另类| 日韩国产 在线| 99资源在线| 67194亚洲无码| 亚洲美女高潮久久久久久久| 国产aⅴ无码专区亚洲av综合网| 国产www网站| 视频一区亚洲| 在线欧美一区| 全部毛片免费看| 欧美午夜视频| 亚洲无码视频一区二区三区| 国产精品无码作爱| www.国产福利| 四虎影视国产精品| 丁香五月婷婷激情基地| 免费观看成人久久网免费观看| 中文字幕色站| 亚洲一区国色天香| 精品国产自在现线看久久| 欧美三級片黃色三級片黃色1| 欧美天堂久久| 九九久久精品国产av片囯产区| 亚洲swag精品自拍一区| 欧美成人a∨视频免费观看| 伊人成人在线| 久久福利片| 国产福利在线观看精品| 亚洲开心婷婷中文字幕| 亚洲一区黄色| 国产亚洲精品在天天在线麻豆| 欧美曰批视频免费播放免费| 试看120秒男女啪啪免费| 国产精品亚洲va在线观看| 欧美在线黄| 91色综合综合热五月激情| 成人福利一区二区视频在线| 在线精品亚洲国产| 免费在线色| 精品人妻一区无码视频| 国产最新无码专区在线| 一级毛片基地| 亚洲区第一页| 中文字幕久久波多野结衣|