韓雪
[摘 要] 選取CNKI收錄的知識發現相關研究文獻,利用STAI構建高頻關鍵詞共現矩陣,運用SPSS繪制聚類樹狀圖,采用社會網絡分析及共詞分析等方法對2012年至2017年五年內知識發現領域研究熱點及趨勢進行分析,通過梳理國內知識發現領域研究現狀,以期為知識發現的研究和發展提供借鑒和指導。
[關鍵詞] 知識發現;社會網絡分析;共詞分析;可視化
doi : 10 . 3969 / j . issn . 1673 - 0194 . 2018. 03. 055
[中圖分類號] G250 [文獻標識碼] A [文章編號] 1673 - 0194(2018)03- 0136- 03
0 引 言
隨著大數據時代的來臨,數據的指數級增長和廣泛的可用性為知識發現提供了巨大的潛力,并為在各個學科和各領域中的應用帶來了新的挑戰,知識發現與數據挖掘也成為了國內學術界研究的熱點[1]。本文運用社會網絡分析方法和共詞分析方法,通過關鍵詞共現網絡和關鍵詞共詞聚類分析,探索我國知識發現研究熱點和內容結構,通過與國際研究前沿領域的比較,以期為后續知識發現研究與實踐的開展提供參考和建議。
1 數據來源與研究方法
1.1 數據來源
本文選取CNKI中國學術期刊網絡出版總庫為數據來源,檢索式為“主題=知識發現”;檢索時間從2012年1月1日至2017年5月1日,得到2 277檢索結果,經過數據清洗,去除新聞及通知等不相關檢索內容,共獲得2 216條檢索結果。
1.2 數據處理工具
在進行研究分析前,對數據進行預處理工具是數據分析的重要環節。本文使用文獻題錄信息統計分析工具(Statistical Analysis Toolkit for Informetrics, SATI)[2]對檢索結果進行字段信息抽取、條目頻次統計,最后構建共詞矩陣,將共詞矩陣導入社會網絡分析軟件Ucinet和SPSS進行分析,形象的展示知識發現的研究熱點與前沿發展趨勢。
1.3 構建共現矩陣
將從CNKI中檢索到的內容以endnote格式導出,然后導入SATI中,選擇作者以及關鍵詞作為字段抽取,進行頻次統計,生成高頻關鍵詞矩陣,將生成的矩陣保存為Excel格式,導入ucinet和SPSS中,為后續分析做準備。
1.4 研究方法
本文利用社會網絡分析方法構建高頻關鍵詞共現網絡圖譜,采用共詞聚類分析法,利用SPSS繪制關鍵詞聚類樹狀圖揭示知識發現領域研究結構及其存在的內在聯系[3]。
2 高頻關鍵詞共現網絡分析
將在SATI中生成的關鍵詞共詞矩陣導入ucinet,使用netdraw進行可視化分析生成高頻關鍵詞共現網絡,如圖1所示。其中節點越大,連線越多表明該關鍵詞屬于知識發現領域核心的關鍵詞,在該領域具有重要作用。由圖1可知,數據挖掘、知識發現、圖書館、關聯數據、關聯規則是知識發現領域的熱點研究問題。其中數據挖掘與知識發現處在該領域的絕對中心,一方面關于知識發現與數據挖掘關系的探討一直受到學者的關注,另一方面在某種程度上可以說,知識發現在其他領域的應用是圍繞著數據挖掘展開的。
3 高頻關鍵詞聚類分析
聚類分析是一種“物以類聚”的研究方法,它的基本思想是根據數據對象的特征,將特征相似的數據對象歸為一類,使得同一類中的數據對象的距離小于與其他類間的數據對象的距離,主要目的是用來判別數據對象之間關系的親疏程度。聚類分析方法又分為劃分法和層次法,層次聚類法是指將數據對象聚類成具有層次嵌套結構的樹狀圖,位于最頂層的根節點對應的是整個數據集,處于最底層的對應的是單獨的數據點[4],本文使用層次聚類法探討知識發現領域高頻關鍵詞之間的內在聯系,探究知識發現領域的研究熱點。
將高頻關鍵詞共現矩陣導入SPSS 20.0分析軟件中進行系統聚類分析,經過詳細比較研究,本研究采用組間聯接、歐式平方距離的方法聚類效果最好[5],得到高頻關鍵詞聚類樹狀圖,如圖2所示。對聚類結果進行分析,可以看出,在這五年中,知識發現領域的研究熱點大概可以分為四類:知識發現方法與技術研究;圖書館知識服務研究;知識發現應用領域研究;粗糙集理論與應用研究。
(1)知識發現方法與技術研究
包括關鍵詞關聯規則、Apriori算法、數據挖掘、決策樹、數據倉庫、聚類以及數據分析。其研究主要集中在關聯規則算法的研究與改進,決策樹算法研究與應用,數據倉庫關鍵技術研究,旨在通過改進技術提高數據挖掘的質量和效率,保證數據分析的正確性和有效性。
(2)圖書館知識服務研究
包括關鍵詞數字圖書館、知識服務、大數據等,其研究主要集中在圖書館知識發現系統研究,數字圖書館知識服務平臺研究,圖書館個性化服務研究。此類研究主要依托圖書館的海量資源、成熟的服務體系及大量用戶的知識需求,通過知識挖掘對各類文獻資源進行整合分析,針對不同用戶的需求為其提供精準的知識發現服務,旨在通過提供更好的信息服務內容和手段,提升用戶體驗[6]。
(3)知識發現應用領域研究
包括關鍵詞物聯網、聚類分析、關聯數據、可視化、中醫藥、本體、知識管理,其研究內容集中在將知識發現理論應用物聯網、關聯數據、中醫藥等領域,當前關聯數據被W3C推薦為語義網的最佳實踐,利用關聯數據數據量大、結構統一的特點,將知識發現與關聯數據結合進行語義網環境下的知識發現[7];在中醫藥領域,通過構建中醫藥學的本體工程進行中醫藥學知識發現,利用知識發現技術進行中醫病案數據庫研究、探索中醫診療規律[8]等方面也成為研究熱點。
(4)粗糙集理論與應用研究
包括關鍵詞粗糙集、屬性約簡、形式概念分析、概念格、屬性偏序結構,其研究重點在粗糙集理論與應用研究上。將粗糙集理論應用于知識發現研究,可以大幅提高數據處理的能力[9]。
4 結 語
本文主要以CNKI上發表的知識發現相關研究論文為基礎,基于社會網絡分析和共詞聚類分析,聚焦知識發現研究熱點,結果顯示近年來,知識發現領域研究熱點集中在提高知識發現能力以及知識發現與各領域結合方面,在知識發現挖掘方法、中醫藥學、生物醫學等領域發展較快,并已有一些研究成果, 隨著數據挖掘方法技術的不斷提高,知識發現將在各領域有更廣泛的應用。
主要參考文獻
[1]KDD2016Program.http://www.kdd.org/kdd2016/program/accepted-papers.html[EB/OL].(2017-01-15)[2017-12-09].
[2]劉啟元,葉鷹.文獻題錄信息挖掘技術方法及其軟件SATI的實現——以中外圖書情報學為例[J].信息資源管理學報,2012(1):50-58.
[3]鐘偉金. 共詞分析法應用的規范化研究——主題詞和關鍵詞的聚類效果對比分析[J]. 圖書情報工作,2011,55(6):114-118.
[4]王學東,杜曉曦,石自更. 面向學術博客知識交流的社會網絡中心性分析[J]. 情報科學,2013(3):3-8,16.
[5]白雪. 聚類分析中的相似性度量及其應用研究[D].北京:北京交通大學,2012.
[6]高勁松,李迎迎,梁艷琪,等. 基于文獻數據可視化的知識發現模型研究[J]. 圖書館學研究,2016(2):49-56.
[7]顧洪濤. 我國高校圖書館研究熱點探析[D].大連:遼寧師范大學,2014.
[8]陳蘭蘭. 基于社會網絡分析和共詞分析的國內關聯數據研究[J]. 圖書與情報,2013(5):129-132.
[9]農田泉. 知識發現技術在中醫藥研究中的應用[J]. 中醫學報,2013(2):210-211.
[10]王國胤,姚一豫,于洪. 粗糙集理論與應用研究綜述[J]. 計算機學報,2009(7):1229-1246.