摘 要:文章從文獻計量分析的角度,定量分析了計算機領域的2311995篇文獻,對國內計算機領域的主要研究機構、主要研究學者及該領域的研究熱點行了統計與分析,構建了國內計算機領域研究熱點的知識圖譜,并對圖譜進行了分析和解讀,以期獲取我國計算機領域的研究熱點有哪些,有哪些主要的研究機構,他們各自關心的研究主題又有哪些,等等。
關鍵詞:知識圖譜;計算機;研究熱點;數據分析
中圖分類號:TP39 文獻標識碼:A
Abstract:This paper quantitatively analyses 2311995 articles in the fields of computer science,from the view of literature metrology,collecting and examining data about major research institutions,main computer research scholars and the hot domains in this field,mapping knowledge research focus in the field in China,and analyzing and interpreting the spectrum to obtain what are the research hot domains,which are the main research institutions,and what their respective topics of research are concerned with,etc.in the field of Computer Science in China.
Keywords:knowledge spectrum;computer;hot domains;data analysis
1 引言(Introduction)
當今社會,計算機的應用已滲透到社會的各個領域,正在日益改變著傳統的工作、學習和生活的方式,推動著社會的科學計算,成為國民經濟基礎性、先導性、戰略性、支柱性產業,是中國搶占國際經濟制高點的重要引擎[1]。但是計算機領域的學科發展現狀如何,該領域的研究熱點有哪些目前還沒有系統全面的研究。
中國知網是全球最大的知識門戶網站,集期刊、報紙、博士碩士學位論文、會議論文、圖書、年鑒、多媒體教育教學素材為一體的知識服務網站。本文以中國最大中文期刊數據庫——中國知網的海量數據為基礎,利用SPSS統計軟件,以及知識圖譜的方法和工具對計算機領域的主要學術機構、學者、論文關鍵詞等數據進行了統計分析,以期獲取我國計算機領域的研究熱點有哪些,有哪些主要的研究機構,最主要的學者和他們的團隊成員有哪些,他們各自關心的研究主題又有哪些等。
2 研究方法(Research method)
文獻計量學方法是對文獻和文獻工作進行定量研究的方法[2],它采用數學語言進行定量分析,以數學公式或圖形來表現規律,對問題的陳述及計算都采用簡明的數學符號,從而簡化和加速了思維過程[3],具有深刻的描述性能和高度的概括能力[4]。使用可視化的方式,即用科學知識圖譜的研究方法來定量,并且形象直觀地監測與評價學科的發展,正是科學計量學、文獻計量學、信息計量學等近10多年來一直共同關注的一個問題,而且也已經取得了很大進展[5]。
本文利用文獻計量學及知識圖譜的理念及技術對計算機領域的上百萬篇文章進行定量統計分析。
3 研究步驟(Research steps)
3.1 數據來源
本文所統計分析的原始數據源自于中國知網數據庫,選擇對中國知網所收錄的計算機相關領域2311995篇核心期刊文獻進行統計分析,這些數據具有較高的準確性和權威性,是有價值的研究數據。
核心期刊是指某學科(或某領域)的核心期刊,是指那些發表該學科(或該領域)論文較多、使用率(含被引率、摘轉率和流通率)較高、學術影響較大的期刊[6]。由于核心期刊是期刊中學術水平較高的刊物,對核心期刊中收錄的計算機領域研究文獻進行檢索分析,可以更準確的獲得計算機領域的研究熱點[7]。
3.2 數據獲取及預處理
(1) 數據檢索
進入中國知網(CNKI)期刊數據庫,在學科專輯導航中選擇“計算機硬件技術”“計算機軟件及計算機應用”“互聯網技術”“自動化技術”“數據庫”等計算機學科,共檢索到2311995篇相關文獻。
(2) 數據預處理
通過數據檢索,檢索出計算機領域的核心期刊文獻之后,利用知網的文獻題錄導出功能,把文獻的題名、作者、單位、關鍵詞等題錄數據導出,把所有的題錄數據進行匯總[8],共得到2311995條題錄數據,對導出的原始數據進行整合,便于之后對數據的分析。
3.3 數據統計與分析
3.3.1 單項關鍵詞統計
對數據預處理后,通過對獲取到的題錄數據中關鍵詞進行分列處理,其次對分列后的關鍵詞進行整合,進而統計高頻關鍵詞[9]。選取前幾位的高頻關鍵詞包括“數據庫、單片機、計算機、神經網絡、遺傳算法、數據挖掘、網絡安全、仿真、PLC、數據采集、無線傳感器網絡、教學改革、故障診斷、云計算、圖像處理、電子商務”等關鍵詞。通過這些高頻關鍵詞,可以看出計算機領域的關注點。高頻關鍵詞分布見圖1。
3.3.2 關鍵詞共現統計
共現分析是將各種信息載體中的共現信息定量化的分析方法[10],可深刻、精確地挖掘隱含的或潛在的有用的文本知識,發現研究對象之間的親疏關系,揭示研究對象所代表的學科或主體的結構與變化[11]。
選取計算機相關學科所收錄的2311995篇文獻的前四個關鍵詞進行關鍵詞共現統計,構建關鍵詞共現網絡。通過關鍵詞共現網絡,可以發現,計算機領域的研究主題包括:計算機網絡安全、計算機的應用、利用神經網絡進行故障診斷、神經網絡及遺傳算法在數據挖掘中的應用、單片機與無線傳感器、單片機與數據采集、基于云計算的數據挖掘、數據庫與計算機網絡等。關鍵詞共現網絡詳見圖2。
3.3.3 作者單位統計
對檢索到的2311995條題錄數據,利用Excel軟件對作者單位進行分列匯總,按單位發表文獻數量排序,發文篇數最多的為清華大學,其次為上海交通大學,排第三位的是浙江大學,發表文獻頻次從高到低前20位依次為:清華大學、上海交通大學、浙江大學、西北工業大學、華中科技大學、哈爾濱工業大學、國防科技大學、武漢大學、北京航空航天大學、東南大學、西安交通大學、華南理工大學、南京航空航天大學、同濟大學、天津大學、重慶大學、中國科學技術大學、華中理工大學、東北大學、西安電子科技大學。發文數量居前20位的機構基本上為我國的重點本科院校。前二十名單位詳見圖3。
3.3.4 作者統計
統計文獻中作者出現頻次可以分析得出計算機領域的領軍人物[12]。使用獲得的2311995條題錄數據,統計其中作者的出現頻次,統計得到排序前十五名的作者,依次為:王士同、楊靜宇、于戈、周明全、趙海、王耀南、蔡自興、陳志剛、桂衛華、潘泉、李仁發、楊炳儒、周明天、吳敏、王汝傳。
這些高產作者均是計算機、信息技術領域的知名學者,排在前五位的作者簡介:王士同,教授(博導),原江南大學信息學院院長,現任江南大學數媒學院首席教授;楊靜宇,南京理工大學模式識別與智能系統國家重點學科學術帶頭人、博士生導師;于戈,現任東北大學計算機軟件與理論研究所所長,2015年12月16日起任計算機科學與工程學院執行院長,一級教授,博士生導師;周明全,教授,博士生導師。北京師范大學信息科學與技術學院院長,教育部虛擬現實應用工程研究中心主任,教育部計算機科學與技術委員會軟件工程教學指導委員會委員。趙海,現任東北大學計算機科學與工程學院計算機系統結構研究所教授、博士生導師,學科責任教授,面向先進裝備制造業嵌入式技術實驗室(省教育廳重點實驗室)主任,享受國務院特殊津貼。相繼創建了東大新業信息技術股份有限公司、沈陽市科技局無線傳感器網絡重點實驗室、沈陽市發改委物聯網應用基礎研究工程實驗室等。現任中國民主同盟中央委員、民盟遼寧省委副主委、遼寧省政協常委,曾任沈陽市人民政府參事、沈陽市委咨詢委員會委員。曾獲遼寧省第二批百千萬人才工程百人層次人選、遼寧省優秀博士學位論文指導教師、沈陽市青年專業技術人才、沈陽市優秀科技工作者稱號。
4 結論(Conclusion)
通過對計算機領域的2311995篇研究文獻的文獻計量學實證研究得出:計算機領域的主要研究機構集中于我國的重點本科院校,研究領域主要集中在“數據庫、單片機、計算機、神經網絡、遺傳算法、數據挖掘”等方面。隨著人工智能技術的發展,與之相關的計算機網絡安全、計算機的應用、利用神經網絡進行故障診斷、神經網絡及遺傳算法在數據挖掘中的應用、單片機與無線傳感器、單片機與數據采集、基于云計算的數據挖掘、數據庫與計算機網絡等主題成為計算機領域的關注熱點。
參考文獻(References)
[1] Mohanapriya D.,Mahesh K..A novel foreground region analysis using NCP-DBP texture pattern for robust visual tracking[J].MULTIMEDIA TOOLS AND APPLICATIONS,2017,76(24):25731-25748.
[2] Chen Wang,Hongxun Yao,Xiaoshuai Sun.Anomaly detection based on spatio-temporal sparse representation and visual attention analysis[J].Multimedia Tools and Applications,2017,76(5):6263-6279.
[3] Luming Zhang,Yang Yang,Rongrong Ji,et al.Special issue on "visual semantic analysis with weak supervision"[J].Multimedia Systems,2017,23(1):1-3.
[4]吳運兵,陰愛英,林開標,等.基于多數據源的知識圖譜構建方法研究[J].福州大學學報(自然科學版),2017,45(03):329-335.
[5] 吳運兵,楊帆,賴國華,等.知識圖譜學習和推理研究進展[J].小型微型計算機系統,2016,37(09):2007-2013.
[6] 蘇永浩,張馳,程文亮,等.CLEQS——基于知識圖譜構建的跨語言實體查詢系統[J].計算機應用,2016,36(S1):204-206;223.
[7] 劉嶠,李楊,段宏,等.知識圖譜構建技術綜述[J].計算機研究與發展,2016,53(03):582-600.
[8] 劉知遠,孫茂松,林衍凱,等.知識表示學習研究進展[J].計算機研究與發展,2016,53(02):247-261.
[9] 王曉陽,鄭驍慶,肖仰華.智慧搜索中的實體與關聯關系建模與挖掘[J].通信學報,2015,36(12):17-27.
[10] 楊良斌.數據挖掘領域研究現狀與趨勢的可視化分析[J].圖書情報工作,2015,59(S2):142-147.
[11] 王巍巍,王志剛,潘亮銘,等.雙語影視知識圖譜的構建研究[J].北京大學學報(自然科學版),2016,52(01):25-34.
[12] 詹川.大數據研究的知識圖譜分析[J].圖書館論壇,2015,
35(04):84-91.
作者簡介:
張小娟(1981-),女,碩士,講師.研究領域:信息組織與信息檢索,文獻計量,知識圖譜,數據分析.