999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

數據挖掘技術在圖情領域的應用研究

2018-02-11 13:14:36史曉康
神州·下旬刊 2018年12期
關鍵詞:數據挖掘圖書館研究

史曉康

摘要:數據挖掘是近年來發展較為迅速的數據分析和知識發現方法。本文采用KMeans聚類算法,對近年數據挖掘技術在圖書情報與數字圖書館領域的應用與研究的相關文獻的關鍵詞進行聚類,以便對數據挖掘在圖書情報與數字圖書館領域的研究發展動態有一個直觀和充分的認識。

關鍵詞:數據挖掘;圖書情報;數字圖書館;聚類

1.引言

數據挖掘是從海量數據中獲取正確的、新穎的、潛在有用的、最終可理解的模式的非平凡過程。數據挖掘結合了數據庫的數據管理、機器學習與傳統統計學的數據分析技術,是知識發現(KDD Knowledge Discovery in Database)中的重要環節,也是近年來發展較為迅速的領域之一,在模式識別、情報檢索、專家系統等領域有著廣泛的應用。

隨著互聯網的發展,傳統的圖書館也在朝著數字圖書館的方向發展,傳統的圖書情報領域也經歷著變革,研究也更為多元化。其中,采用數據挖掘的方法對圖書情報領域相關問題研究,從中獲取出正確的、新穎的、潛在有用的、最終可理解的知識是一種不錯的嘗試。本文使用數據挖掘中的相關聚類算法,對近年來數據挖掘技術在圖書情報與數字圖書館領域的應用進行主題詞聚類研究,以期望尋找到其內在聯系。

2.數據來源與研究方法

本研究的數據來源為CNKI。在CNKI上進行檢索,設置學科為“圖書情報與數字圖書館”,篇名或關鍵詞含“數據挖掘”,來源類別中選取了SCI、EI、CSSCI等核心期刊,并按照發表時間降序排列,選取了最新發表的200篇文獻,提取關鍵詞作為分析的數據源。

研究方法的選取,采用數據挖掘的方法對關鍵詞進行聚類,期望尋找其內在聯系。本文采用經典的KMeans算法。KMeans算法是原型聚類中最有代表性的方法,其基本思想是:先對原型進行初始化,隨機選擇k個樣本作為初始均值向量,然后對原型進行迭代更新求解,直到當前均值向量均不再變化或達到最大迭代次數為止。

3.研究過程

3.1 文本預處理

從CNKI上下載到最新的200篇數據挖掘在圖書情報與數字圖書館領域的應用的文獻的元數據,保留關鍵詞列,同時使用文本編輯軟件Ultraedit統一關鍵詞的間隔符,

同時,對論文中表達相同意思的不同詞語(如同義詞、英漢互譯詞等)進行統一,以尋求更好的聚類效果。具體如表1所示。

3.2向量空間模型表示

向量空間模型是由Gerard Salton 等人于1968 年提出的文本表示模型,目前已經被成功運用于文本分類、自動索引和信息檢索等研究領域。由于向量空間模型的簡單有效性,本文將使用向量空間模型對文獻關鍵詞進行線性化,將之轉換成數學上可分析和處理的形式。該模型的主要思想是將每一文獻都映射成由一組規范化正交詞條矢量組成的向量空間中的一個點,各特征(關鍵詞)表示空間中的維度。本文采用Python編程實現,同時設置min_df=2,即要求關鍵詞出現的次數大于等于2,才進行保留。最終得到的是200*88的矩陣,即表明200篇文獻中含有出現頻率大于1的88個不同的關鍵詞。

3.3TF-IDF加權表示

在傳統的布爾代數值表示方法中,當在文獻i中出現特征詞j時,矩陣a[i][j]取1,否則取0。這種表示方法比較單調,忽視了特征詞的很多優秀的內在性質,如詞頻、特征詞對整個文獻集合的影響。TF-IDF 相對詞頻計算公式是由Salton 和McGill 于1983 年提出的文本特征表示方法。它的主要思想是,如果某個詞或短語在一篇文獻中出現的頻率比較高,并且在其他科技文獻中很少出現,則認為此詞或者短語具有很好的類別區分能力。TF-IDF 權重方法不僅改進了布爾權重法表示的單一性,還結合了特征詞的詞頻并且體現了特征詞對整個文獻集的作用。其計算公式如下所示。

tfidf(w)=tf*log()

其中,tf表示詞頻,即一個單詞在一個文檔中出現的次數;df(w)表示在文檔集合中,含有該單詞的文檔的數據;N表示文檔集合中的總文檔數;tfidf(w)表示一個單詞在一個文檔中的相對重要性。本文采用python編程對關鍵詞進行加權處理。

3.4KMeans聚類

采用python的機器學習包scikit-learn對文檔進行聚類,采用的是之前所介紹的KMeans算法。設置KMeans的n_clusters=4,即表明將200篇文檔聚為4個簇。

3.5可視化

為了更直觀地看到聚類效果,可以對數據進行可視化處理。但是,由于文本數據的特征比較多,維度比較高,無法直觀地以圖表形式展現。因此,筆者首先采用了主成分分析(PCA Principal Component Analysis)的方法進行降維。主成分分析是最常用的一種降維方法,其基本思想是:對于正交屬性空間中的樣本點,尋找一個超平面對所有樣本進行恰當的表達,這個超平面具有這樣的性質:

Ⅰ 最近重構性:樣本點到這個超平面的距離都足夠近;

Ⅱ 最大可分性:樣本點在這個超平面上的投影能盡可能分開。

筆者在這里將原始特征空間降為三維空間。之后,采用python的matplotlib繪圖庫,繪制了降維之后的3D圖,三維空間中的每一個點表示一篇文檔,并為屬于不同簇的文檔用不同的顏色和標記進行區分,具體結果如圖1所示。雖然在降維過程中丟失了一部分信息,但還是能夠較好地反映出樣本的分布情況。

4.結果討論

由圖1的輸出結果可知,200篇關于數據挖掘在圖書情報與數字圖書館領域的應用的文獻被聚為4個簇,通過查看簇中心向量,可得到各簇的高頻關鍵詞分布如表2所示。

從表2可以看出,對文獻關鍵詞進行聚類,我們能了解到近年數據挖掘在圖書情報與數字圖書館領域的研究發展動態。具體來說,主要有以下方面:

Ⅰ 數據挖掘與傳統的圖書館、檔案現代化、文獻數字資源等相結合的研究;

Ⅱ單純采用分類、聚類、關聯規則等數據挖掘算法的知識發現;

Ⅲ 數據挖掘與其他數據分析方法如數據倉庫、文獻計量、知識圖譜、社會網絡分析等相結合,對圖書情報領域相關問題進行分析的研究;

Ⅳ 數據挖掘技術在圖書館服務、智慧服務、知識服務等信息服務與應用領域的應用研究。

可見,隨著近年來數據挖掘技術的不斷發展,其在圖書情報與數字圖書館領域也發揮著越來越重要的作用,采用數據挖掘的理念和方法進行研究分析,是圖書情報領域未來的發展方向之一。

參考文獻:

[1]周志華著.機器學習[M].北京:清華大學出版社.2016.

[2](美)韓家煒,(美)坎伯著.數據挖掘 概念與技術 英文版 原書第3版[M].北京:機械工業出版社.2012.

[3]劉勘,周麗紅,陳譞.基于關鍵詞的科技文獻聚類研究[J].圖書情報工作,2012,04:6-11.

[4]王富強,韓宇平,王朋,王靜.水資源學研究的關鍵詞共詞聚類分析[J].水利水電科技進展,2014,04:29-33.

猜你喜歡
數據挖掘圖書館研究
FMS與YBT相關性的實證研究
遼代千人邑研究述論
探討人工智能與數據挖掘發展趨勢
視錯覺在平面設計中的應用與研究
科技傳播(2019年22期)2020-01-14 03:06:54
EMA伺服控制系統研究
圖書館
小太陽畫報(2018年1期)2018-05-14 17:19:25
基于并行計算的大數據挖掘在電網中的應用
電力與能源(2017年6期)2017-05-14 06:19:37
飛躍圖書館
一種基于Hadoop的大數據挖掘云服務及應用
圖書館里的是是非非
主站蜘蛛池模板: 欧美亚洲第一页| 久99久热只有精品国产15| 亚洲日韩每日更新| 亚洲精品无码抽插日韩| www.亚洲色图.com| 亚洲黄色网站视频| 日本在线欧美在线| 国产乱子精品一区二区在线观看| 欧美 国产 人人视频| 高清无码一本到东京热| 亚洲无码高清视频在线观看 | 爱爱影院18禁免费| 亚洲日韩精品无码专区97| 高潮爽到爆的喷水女主播视频 | 国产午夜一级毛片| 一级全黄毛片| 久久狠狠色噜噜狠狠狠狠97视色| 亚洲资源在线视频| 亚洲福利视频网址| 国产中文在线亚洲精品官网| 国内老司机精品视频在线播出| 成人午夜久久| 91视频国产高清| 久久99热这里只有精品免费看| аⅴ资源中文在线天堂| 国产SUV精品一区二区6| 露脸一二三区国语对白| 综合色88| 国产精品黑色丝袜的老师| 毛片一区二区在线看| 一本无码在线观看| 久久婷婷色综合老司机| 91小视频在线观看| 亚洲精品无码AⅤ片青青在线观看| 亚洲午夜18| 色综合天天综合| 日本一区二区三区精品视频| 91成人在线免费视频| 亚洲成aⅴ人在线观看| 久久综合一个色综合网| 亚洲三级片在线看| 成人国产精品视频频| 国产大片黄在线观看| 中文字幕在线一区二区在线| 国产毛片片精品天天看视频| 婷婷伊人五月| 久久久久亚洲AV成人人电影软件| 热这里只有精品国产热门精品| 成人在线不卡视频| 国产一级视频久久| 久久国产香蕉| 伊在人亚洲香蕉精品播放| 日本人妻一区二区三区不卡影院| 少妇露出福利视频| 71pao成人国产永久免费视频| 亚洲日韩高清在线亚洲专区| 欧美性久久久久| 欧美国产综合视频| 2021国产精品自拍| 伊人欧美在线| 日韩在线观看网站| 午夜免费视频网站| 一级福利视频| 免费A∨中文乱码专区| 在线观看精品国产入口| 亚洲大尺码专区影院| 性视频一区| 亚洲成肉网| 久久婷婷六月| 欧美日本不卡| 国产成人精品亚洲日本对白优播| 在线精品自拍| 日韩欧美国产三级| 国产又粗又猛又爽| 婷婷午夜天| 国产一区二区三区日韩精品| 国产色偷丝袜婷婷无码麻豆制服| 亚洲一区二区无码视频| 在线国产你懂的| 国产精品3p视频| 在线亚洲天堂| 日韩国产精品无码一区二区三区|