樊利勤+曹紅兵



[摘 要]以廣西大學工程學學科為例,以SCIE數據庫為依據,運用Excel對數據的排序、篩選、分列、替換以及函數統計等統計方法,對SCI論文中的機構、作者、學院等字段進行處理,并借助Excel對作者、地區和機構合作、發表期刊、論文與年代關系、學院貢獻等數據進行深入分析,為學校支持學科發展和制定學科建設規劃提供參考,同時深化Excel在學科服務的應用,推動文獻計量學的普及。
[關鍵詞]Excel;學科服務;廣西大學;工程學
[中圖分類號]G252[文獻標志碼]B[文章編號]1005-6041(2017)03-0054-05
1 引 言
教育部2013年工作要點中提出了“推進優勢學科創新平臺和特色重點學科項目建設,加快建設一流大學和重點大學”的高校建設目標與要求。2015年10月,國務院印發《統籌推進世界一流大學和一流學科建設總體方案》,強調了堅持“以一流為目標、以學科為基礎、以績效為杠桿、以改革為動力”的基本原則,加快建成一批世界一流大學和一流學科[1]。2016年2月,《教育部2016年工作要點》中進一步要求,要“加快世界一流大學和一流學科建設”,制訂“雙一流”實施辦法[2]。在這樣的背景下,全國各個高校都非常重視本校的學科建設,紛紛集中建設自己的重點學科,研究合理投入和分配資金,整合和調節學科資源。而這項工作的前提和基礎是必須進行學科評估。于是,學科評估工作開始在各高校逐漸受到重視并廣泛開展起來。
SCI(Science Citation Index,科學引文索引)論文及其引用是國際通行的一種對自然科學基礎研究成果進行評價的客觀、定量和易操作的指標,它在衡量國家、科研機構或大學的科研實力,評價科研人員學術水平等方面發揮著重要的作用[3]。一所高校被SCI數據庫收錄科技論文的數量和質量成為了評價該??蒲兴胶途C合研究能力的重要依據。而SCI論文的統計非?;ㄙM時間和精力,往往需要借助比較專業的統計分析工具才能順利完成。本文以廣西大學工程學學科為例,詳細介紹Excel對SCI論文中的機構、作者等不同字段的程式化處理方法,并從學科服務角度對工程學學科的作者、地區和機構合作、發表期刊、論文與年代關系、學院貢獻等關鍵數據進行提取和深入分析,有利于學科服務評價工作的開展,也為相關部門支持學科發展和制定學科建設規劃提供基礎數據。
2 數據與方法
2.1 數據采集
本文數據來源于Web of Science中的SCIE(SCI-Expanded,科學引文索引擴展版)數據庫,檢索式為:AD =guangxi univ* and SO=“4OR-A Quarterly Journal of Operations Research”or“ACI STRUCTURAL JOURNAL”or……or“tm-Technisches Messen”等ESI工程學學科907種刊物,文獻出版年為2005—2015,文獻類型為Article、Review和Letter,檢出文獻381篇。采用Excel對檢出文獻進行統計,根據作者、通訊作者及地址項,析出第一作者或通訊作者為廣西大學的數據。最后,根據廣西大學科研管理系統中列出的論文標題,對析出數據進行清洗,歸并不同英文表達的第一作者和通訊作者。數據檢索日期為2016年1月20日。
在SCIE數據庫中,將檢索到的文獻結果按照被引頻次降序方式進行排序,選擇文獻添加到標記結果列表,然后在標記結果列表中選擇輸出選項,導出格式采用“保存為其他文件格式——制表符分隔(Mac,UTF-8)”,將結果導入Excel表格中進行統計。
2.2 數據處理和統計方法
2.2.1 文獻第一作者的切分處理。將原始數據導入到Excel表格中后,按照下載的文獻排序順序給每篇文獻相應的序號,便于后續統計的對應。然后將數據的序號和字段標識為AF的內容復制到新的Excel表格,利用Excel表格中的分列功能,選用分號分隔符將文獻的第一作者分開,從而得到文獻的第一作者。
2.2.2 廣西大學機構的切分處理。將數據的序號和字段標識為C1內容復制到新的Excel表格。以Guangxi Univ為目標機構,首先使用Excel表格中的替換功能,將C1內容中包含有“Guangxi Univ”的檢索記錄全部替換為“!Guangxi Univ”,再利用Excel表格中的分列功能,選用“!”分隔符將Guangxi Univ機構分開,便可得到包含有Guangxi Univ的目標機構。在處理數據的過程中,添加“!”是為了在分列時區分于原數據中的標點符號,更方便于分列。
2.2.3 廣西大學通訊作者切分處理。將數據的序號和字段標識為RP內容復制到新的Excel表格。以Guangxi Univ機構的通訊作者為目標通訊作者。首先使用Excel表格的查找功能,查找RP內容中包含有Guangxi Univ機構的檢索記錄,并將記錄標上顏色做記號,然后使用Excel表格的篩選功能,按顏色篩選出沒有標上顏色記號的檢索記錄,清除內容即可得到包含有Guangxi Univ機構的檢索記錄,最后再Excel表格的分列功能,分別選用“(”和“)”分隔符號分列,就可以將通訊作者和廣西大學機構分開。
2.2.4 廣西大學機構第一作者的切分處理。將數據的序號和字段標識為C1內容復制到新的Excel表格。以Guangxi Univ為目標機構,使用Excel表格的分列功能,先選用“[”作為分隔符號對C1內容進行分列,得到2008年以前(含2008年)和2008年以后的分列記錄,然后分別對2008年以前(含2008年)和2008年以后的分列數據進行處理。由于Web of Science(SCI、SSCI)數據庫中2008年以前(含2008年)C1內容中的機構沒有帶文獻作者,故需要人工添加作者,通過合并和分列功能處理,得到Guangxi Univ目標機構。對2008年以后的分列數據進行處理,則是對切分出來的2008年以后數據的前三列數據,首先使用Excel表格的查找功能,查找2008年以后的分列數據中包含有Guangxi Univ機構的檢索記錄,并標上顏色做記號,然后使用Excel表格的篩選功能,按顏色篩選出沒有標上顏色記號的檢索記錄,清除內容即可得到包含有Guangxi Univ機構的檢索記錄,再利用合并和分列功能將作者和機構分列,對作者進行分列,選擇分列后的第一列作者即是Guangxi Univ目標機構2008年以后數據的第一作者。最后把2008年以前(含2008年)和2008年以后的作者、機構按照序號的對應合并,并與文獻第一作者進行比對,就是Guangxi Univ目標機構第一作者。endprint
2.2.5 通訊作者被引頻次和發文量的統計方法。將下載的原始數據字段標識為TC的內容復制到切分好的通訊作者結果中,然后使用Excel表格的排序功能,按照通訊作者升序或降序排序,將排序后的通訊作者復制粘貼在同一Excel表格中,使用Excel表格的刪除重復項功能去除通訊作者中拼寫相同的通訊作者,最后使用sumif函數統計通訊作者的被引頻次。通訊作者發文量的統計使用Excel表格的數據透視表功能。
2.2.6 廣西大學第一作者被引頻次和發文量的統計方法。將下載的原始數據字段標識為TC的內容復制到切分好的目標機構第一作者結果中,使用Excel表格的排序功能,按照目標機構第一作者升序或降序進行排序,統一第一作者中同一作者的不同拼寫方式,然后統計目標機構第一作者的被引頻次和發文量,統計方法與通訊作者被引頻次和發文量的統計方法一樣,故不再重復。
3 結果與分析
3.1 高產作者
論文發文量衡量的是科研人員的“學術生產力”[4]。對于從事基礎研究的人員,發表論文的數量和質量可以反映其個人對學術界的貢獻[5]。表1是廣西大學工程學發文數量最多的10位作者,同時統計了署名廣西大學第一作者或通訊作者的發文量,有助于了解廣西大學自主創新的能力。表中顯示,廣西大學工程學學科個人發文量在10篇以上的作者有5位,分別是Chen Wuhua、Jian Jinbao、Zhong Xianci、Yang Lufeng、Cui Yaodong。其中發文貢獻最大為Chen Wuhua,發文32篇,貢獻率為8.40%,其署名第一作者或通訊作者的發文量是22篇。第二是Jian Jinbao,發文20篇,貢獻率5.25%,第一作者或通訊作者的發文量是9篇。第三是Zhong Xianci,發文18篇,發文貢獻率為4.72%,第一作者或通訊作者的發文量是13篇。再次是Yang Lufeng和Cui Yaodong,發文量分別是17篇和14篇。表明了這些作者是廣西大學工程學科研實力最強的作者。
3.2 高影響力作者分析
科技論文的被引情況是衡量其質量和國際影響力的重要標準。對某一研究領域來講,質量較高的論文一般都具有較高被引頻次。一定程度上,科技論文被引用頻次的高低不僅揭示論文的學科走向、背景狀況和發展軌跡,客觀評價論文質量和科研人員的學術水平,還在于其可以評價論文在國際上的影響力[5—7]。廣西大學工程學學科在2005—2015年發表了381篇文獻,有277篇被引用至少1次以上,被引用率達72.7%。表2是廣西大學工程學SCI論文被引頻次最多的前10位作者。表中顯示,Chen Wuhua對工程學學科的貢獻最大,個人總被引頻次778次,貢獻率為29.68%;其次是Zheng Wei-xing,個人總被引頻次526次,貢獻率20.07%;再次是Lu Xiaomei,個人總被引頻次291次,貢獻率11.10%。表明了這些作者為廣西大學工程學學科進入ESI學科并一直保持ESI優勢學科做了很大的貢獻。
3.3 SCI論文合作情況分析
在科學研究中,國家間、地區間、單位間的合作顯得越來越重要。2005—2015年10年間,廣西大學工程學學科被SCI收錄的論文中,合作機構有142個。按照合作論文數量進行統計,合作最為頻繁的科研機構是中國科學院和西悉尼大學(17篇),如圖1,其次是廣西民族大學(15篇)、華中科技大學(15篇)、華南理工大學(10篇)、清華大學(10篇)。前10個合作機構的論文數量是113篇,占全部合作論文總數的30.62%。
廣西大學與國際上20個國家或地區合作,合作論文139篇,占工程學學科發文量的36.48%。如圖2,其中合作論文數超過20篇的國家有3個,分別是英國32篇,合作論文占比8.40%,澳大利亞27篇,合作論文占比7.09%,美國26篇,合作論文占比6.82%。
3.4 SCI收錄廣西大學論文期刊的影響因子分析
影響因子是SCI對科學期刊進行統計、評估的一個參數,決定了各期刊在“期刊引證報告(JCR)”中的排序和級次。某一期刊在某年的影響因子是指該年度引用該期刊前兩年論文的總次數與前兩年該刊物發表的論文總數之比[8]。本文所引用的SCI收錄期刊的影響因子依據是2015年美國科學信息研究所公布的數據。2005—2015年廣西大學工程學學科SCI論文分布在159種期刊,其中國內刊物8種,共收錄22篇,占論文總數的5.77%;國外刊物151種,共收錄論文359種,占論文總數的94.23%。期刊影響因子最高的刊物是IEEE TRANSACTIONS ON FUZZY SYSTEMS,影響因子為6.701,發文量1篇,該期刊在工程學學科的期刊影響因子中排名第7位,其次是JOURNAL OF POWER SOURCES,影響因子6.333,發文量7篇,該期刊在工程學學科的期刊影響因子中排名第10位。影響因子最低的刊物為,IEICE TRANSACTIONS ON FUNDAMENTALS OF ELECTRONICS COMMUNICATIONS AND COMPUTER SCIENCES,影響因子0.236,發文量1篇。名次居前的10種刊物影響因子平均值為5.142(表3)。但影響因子排位靠前的10種刊物中,僅刊載廣西大學論文41篇,占SCI論文總數的10.76%。
2005—2015年SCI所收錄的廣西大學工程學學科381篇論文,其中研究論文379篇,綜述2篇。SCI收錄廣西大學論文數量最多的10種刊物統計(表4),全部為國外刊物。這10種刊物的影響因子平均值為3.452。被SCI收錄廣西大學論文最多的刊物為“MATHEMATICAL PROBLEMS IN ENGINEERING”和“CHEMICAL ENGINEERING JOURNAL”,論文發文量分別為15篇和13篇;影響因子分別為0.644和5.310。因此,從總體上看SCI收錄廣西大學論文期刊的影響因子較低,所刊載論文在國際上的影響力也不大。endprint
3.5 SCI論文數量與年代發展關系的統計分析
從論文數量可以發現學校科研論文數量有了較大幅度提高,表明科研原創能力有了一定提高。廣西大學工程學學科從2014年進入ESI全球前1%優勢學科,至今,繼續保持進入世界前1%的行列。圖3顯示,廣西大學工程學學科在2005—2015年10年被SCI所收錄的論文數量中,2015年被SCI收錄的論文最多,收錄了77篇,是2008年被收錄論文的8倍多,論文的收錄情況與年度發展發生了很大的變化,從2005—2008年,論文收錄呈現下降的趨勢,到2008—2015年,收錄出現增長的趨勢,特別是2013-2015年間,論文收錄的增幅都比以往大。這與學校從教學型大學轉型研究型大學,以及學校承擔的各類科研課題數量增多、學校科研水平和實力整體快速發展是密切相關的。
3.6 學院貢獻度分析
學科貢獻度分析有助于對機構內二級單位學科規劃與調整。以廣西大學工程學學科為例,分析各二級單位(包含二級學院和國家級重點實驗室)對工程學學科的SCI論文貢獻度,得到該學科涉及校內15個單位。對工程學學科貢獻比較大的單位主要集中7個單位(見表4),其中數學與信息科學學院貢獻度最大,其發表論文數量109篇,貢獻度占比29.54%,其次是土木建筑工程學院,其發表論文數量60篇,貢獻度占比16.26%。
4 總結與討論
Excel是一種常用的辦公軟件,方法簡單易用,數據呈現直觀,深受用戶喜歡,且不需要經費購買,為圖書館節約了經費。雖然有文章提到使用Excel對SCI論文及其引用數據進行處理,但操作方法語焉不詳。本文通過詳細介紹Excel在學科服務統計中的操作步驟和具體應用,對于剛剛開展或即將開展學科服務的大學有一定借鑒意義。通過綜合Excel對數據排序、篩選、分列、替換以及函數統計,輕松地把繁瑣的SCI論文字段信息按照要求進行切分處理,但在切分處理時要注意以下幾點。
(1)按照下載的文獻排序順序添加記錄序號,并且每次按要求切分處理時都要跟著序號,這樣才能保證論文字段跟切分的字段內容不會錯亂,也方便排序。
(2)論文字段內容切分處理時最常用的功能是Excel表格的分列功能,那么在分列時要注意選擇相應的分隔符。
(3)在使用Excel表格的篩選功能時,需要做相應的標記,便于把需要的內容篩選出來。
(4)作者統計時,歸并同一作者不同的英文表達方式,便于重復項的去除。
Excel在處理SCI論文方面具有獨到的優勢,如何在學科服務中更好地發揮它的功用,仍需要不斷地學習和摸索,今后可以通過研究Excel在共詞分析、聚類分析等復雜數據的分析,獲取研究熱點,同時,還可以通過研究更多的SPSS等常用軟件在學科服務中的應用,借此推動文獻計量學的普及和應用。
[參考文獻]
[1]國務院關于印發統籌推進世界一流大學和一流學科建設總體方案的通知[EB/OL].[2016-11-16].http:∥www.gov.cn/zhengce/content/2015-11/05/content_10269.htm.
[2]中華人民共和國教育部.教育部2016年工作要點[EB/OL].[2016-11-16].http:∥www.moe.edu.cn/jyb_xwfb/moe_164/201602/t20160205_229511.html.
[3]師昌緒,田中卓,黃孝琪,等.科學引文索引(SCI):國際上評定科研成果的一種方法[J].科學通報,1997(8):888—894.
[4]賈 潔.基于SCI的學術研究發展分析[J].情報科學,2009(4):581—587.
[5]董政娥,徐惠華,陳惠蘭.基于SCI-E數據庫分析東華大學科研發展[J].東華大學學報(自然科學版),2009(5):601—608.
[6]張 羽.1958—2003年SCI(科學引文索引)收錄遼寧大學論文統計與分析[J].遼寧大學學報:自然科學版,2005(1):82—85.
[7]邱嘉怡.2000—2006年SCI收錄和引用中山大學論文情況分析[J].科技情報開發與經濟,2008(3):3—5.
[8]匡登輝,王娟萍.從2007年SCI收錄南開大學論文看學科發展[J].圖書館工作與研究,2009(5):74—78.endprint