摘要:以Web of sciences、ESI(基本科學指標數據庫)等數據庫為統計分析源,對1996—2006年中國計算機科學的發展現狀和發展態勢從文獻計量學的角度進行了統計分析,通過論文數量、被引頻次、篇均被引頻次和影響因子等項指標研究了計算機科學論文產出隨時間的變化趨勢、主要領域的發展狀況及刊登論文期刊的影響力。
關鍵詞:計算機科學; 文獻計量分析; 時間序列; 主題分布; 期刊分布
中圖分類號:G350;TP1文獻標志碼:A
文章編號:1001-3695(2007)12-0028-04
計算機科學是系統地研究那些描述、轉換信息,包括其理論、分析、設計、效率、實現和應用的算法過程的科學[1]。它有很強的應用背景,在各個領域中發揮著重要的作用。本文試圖采用文獻計量學和科學計量學的研究方法,借助美國科學情報所(ISI)編制的Web of science數據庫,分析我國計算機科學領域論文(以下簡稱國際論文)的產出狀況,從中了解我國計算機科學研究的現狀及發展。這對于決策部門把握計算機學科的整體狀況、規劃布局、促進發展具有重要的參考價值。對該學科研究人員了解學科現狀、進一步明晰其研究與應用目標、集中有限力量在重點領域有所突破,也具有重要意義[2]。
1數據來源
本文以ISI出版的Web of science數據庫為統計源,依據ISI2005年出版的《Journal Citation Reports》(JCR)的期刊分類體系,選擇了JCR中“computer science”學科為統計對象。對該學科下分七個主題(subjects)的350種期刊(去重后)1996—2006年的數據進行了檢索,共得到機構署名中包含有“Peoples R.China”的論文11 955篇。從中最終選取第一單位為我國大陸機構的論文7 314篇。筆者以這7 314篇論文作為本次研究的樣本,對1996-2006年我國計算機科學領域的發展狀況從文獻計量學的角度進行了分析。其主要基于三個方面,即國際論文的時間分布、主題分布和期刊分布。這里所說的“computer science”包括七個主題:artificial intelligence、cybernetics、hardware architecture、information systems、interdisciplinary applications、software engineering和theory methods。
2國際論文的時間分布
圖1可直觀看出我國計算機科學領域1996—2006年國際論文的發展演變情況。
如圖1所示,11年間我國計算機科學領域的國際論文從1996年的218篇上升至2006年的1 608篇,年平均增長率為22.68%。通過數據擬合表明,論文呈指數增長狀態。這與我國被SCI收錄的論文總數的增長是同步的[3]。反映出我國計算機科學研究的科研產出能力在迅速提高。
3國際論文的被引用情況
科學論文不是孤立存在的,它是被深嵌在某學科的文獻系列之中[4]。那些對科學進步具有實質性貢獻的論文將會得到同行的關注,后人將在前人有價值的研究工作的基礎上進行更深入的開創性工作。這種科學進步的傳承關系可以在論文的引證與被引證中得到揭示[5]。計算機科學領域也不例外。表1列出了該領域國際論文的被引用情況。
1996—2006年我國計算機科學領域的國際論文發文量為7 314篇。截至2007年4月底被引文獻為3 612篇,被引率為49.4%,即有1/2的文獻發表后被引用。特別是1999年,該年度發表的329篇論文中,有76.29%的論文被引用。論文總被引頻次為18 316次。被引次數在4次以上的論文為1 419篇,占論文總數的19.4%,但卻貢獻了14 654次被引,占總被引次數的80%,符合二八規律。被引頻次超過100次的國際論文有4篇,最高為185次,是2001年清華大學的Hua SJ發表在《Bioinformatics》上的文章。
表1中列出了世界篇均被引頻次和TOP1.0%引文基準(被引頻次)1997—2007年4月的數據。雖不是與1996—2006年的時間段完全吻合,但相差時間不長,數據還是可以用來比較的。從表1中可以看出,從1997—2006年的10年中,有8年篇均被引頻次超過了世界平均值,11年的平均值兩項相比也很接近;但是我國從1997—2006年歷年入圍TOP1.0%的論文百分比很低,不超過2.0%。
圖2、3所示的是1996—2006年我國計算機科學領域國際論文的被引用情況。從圖中可以看出,1996—2004年國際論文的被引用頻次是呈曲線上升,至2004年達到峰值;2006年發表的論文在當年也有10.28%的論文被引用。有研究表明,科學文獻被引用的最佳年限,中文文獻大致為出版后的2~5年,而外文文獻約為3~8年[6]。表1中的被引用率的數據充分說明了這點。如圖3所示,篇均被引頻次在1998年達到了高峰。
4國際論文的主題分布
筆者依據7 314篇國際論文所刊登期刊的主題類別進行了分類。具體數據如表2所示。
由表2和圖4可知,我國計算機科學領域國際論文,按七個主題分布有如下特點:
a)Interdisciplinary applications所占論文最多,占全部論文總數的24.1%,位列第一。這與計算機科學是一門應用性較強的學科相符;第二~七位依次是artificial intelligence、software engineering、information systems、theory methods、hardware architecture和cybernetics,分別占論文總數的17.8%、16.1%、14.0%、13.6%、11.3%和3.3%。
b)年平均增長率最高的是hardware architecture,為69.43%;其余主題的年平均增長率依次為cybernetics、information systems、software engineering、artificial intelligence、interdisciplinary applications和theory methods。
c)由圖4可見,計算機科學七個主題均呈不同形態的增長趨勢。通過對七個主題論文數量隨年代分布曲線的數學擬合發現,有五個主題的曲線符合指數增長規律。指數增長是一種非線性增長,它與前期總量緊密相關。指數增長具有不同的速率,衡量這一速率的指標就是倍增期。倍增期越短,說明指數增長的速率越快;反之,就越慢[5]。通過擬合得到了這五個主題的指數增長曲線方程,并計算出這五個主題的倍增期(表3)。綜合分析表中所列的前期總量、曲線的指數和倍增期,可遴選出現階段最具活力的計算機科學研究領域。
由表3可知,倍增期<2,指數系數>0.3,論文數量>1 200篇的主題為information systems和software engineering。說明這兩個主題是計算機科學領域中發展最為活躍的主題。2006年information systems的國際論文數已躍為第一,就是證明。倍增期>2,0.2<指數系數<0.3的主題為artificial intelligence。它的論文數量位列第二,是具有發展優勢的主題。倍增期>2,0.1<指數系數<0.2的主題是interdisciplinary applications和theory methods。雖然interdisciplinary applications主題的論文數量最多,但這兩個主題發展勢頭稍遜于前三個主題。圖5為information systems主題的模擬曲線圖。
Hardware architecture主題的曲線擬合符合線性增長規律。它的擬合方程為Y=-28.473+20.382t。該主題呈良好的上升態勢發展。
Cybernetics學科的曲線卻呈三年一個周期的周期性變化,但總體是呈上升趨勢。下一個周期預計出現在2007年。對此,筆者將在今后作進一步的分析研究。
d)由圖4可見,artificial intelligence、hardware architecture、information systems和software engineering四個主題在某個時間點之后有一個快速增長期。Artificial intelligence的時間點出現在2002年。它在1996—2001年的發展比較平穩,平均增長率為16.72%,而從2002—2006年論文的數量呈冪函數增長,平均增長率提高了一倍以上,為38.80%。Hardware architecture學科的時間點出現在2000年。該主題在經過1996—1999年的論文數徘徊之后,從1999年的15篇激增至2000年101篇,呈線性態勢增長。Information systems的時間點在2002年。它從2001年的33篇猛增至2002年的94篇。Software engineering的時間點在2000年。它從1999年的33篇增至2000年的102篇。
5國際論文產出的主題被引分布
表4為我國計算機科學領域國際論文按七個主題分類后,論文的被引用情況分布。由表4可知,七個學科中,總被引頻次和篇均被引頻次最高的均為artificial intelligence,為6 441次,占總被引次數的28.96%,被引率為57.83%,篇均被引率為3.95%;其余被引頻次從第二~七位為interdisciplinary applications、theory methods、hardware architecture、information systems、software engineering和cybernetics。圖6為計算機科學領域七個主題的篇均被引圖。
在計算機科學領域國際論文7 314篇中,取刊登50篇被引頻次最高論文的期刊。這50篇論文刊登在26種期刊上,如表5所示。由于50篇論文中某些論文屬于計算機科學領域中多個主題,本文的處理是涉及某一主題就計算一次。
由表5可知,50篇論文涉及計算機科學領域的七個主題。其中論文數和期刊數占前三位的是:artificial intelligence主題,論文篇數為24篇,占論文總篇數的36.9%,期刊七種,占期刊總數的23.3%(其中期刊《Neural Networks》發表高被引論文8篇);Interdisciplinary applications主題論文14篇,占21.5%,期刊七種,占23.3%;Theory methods主題論文13篇,占20%,期刊六種,占20.0%。
6國際論文期刊分布
根據2005年度JCR的公布數據,計算機科學領域七個主題內共有350種期刊(去掉重復)。我國大陸機構在1996—2006年間發表的7 314篇計算機科學領域的國際論文,刊登在其中的288種期刊中,占期刊總數的82.3%。這說明我國學者的國際發文能力已經覆蓋了該學科被SCI收錄的絕大多數期刊。
350種期刊中影響因子最高的為7.4,是屬于theory methods主題的美國期刊《ACM Computing Surveys》。該刊收錄了我國南京大學的H.Zhu于1997年發表的題為“Software unit test coverage and adequacy”的文章。自此以后,我國均無論文在此刊上發表。影響因子最低為0.038,是屬于artificial intelligence主題的《Engineering Intelligent Systems for Electrical Eengineering and Communications》,共發表我國論文12篇,占論文總數的0.16%。總被引頻次最高為17 684次,是屬于interdisciplinary applications主題的英國期刊《Bioinformatics》,共刊登我國機構論文60篇,占論文總數的0.82%。刊登論文最多的期刊為屬于interdisciplinary applications主題的英國期刊《Computers Mathematics with Applications》,數量為591篇。該刊的影響因子為0.43,位列interdisciplinary applications主題84種期刊的第64位。
7結束語
通過對我國計算機科學領域國際論文的時間分布、主題分布和期刊分布的考察,可以得出以下的相關結論:
a)從整體論文數量來看,我國大陸研究機構計算機科學領域的研究能力迅速提高。1996—2006年論文的數量呈指數增長,為提高我國計算機科學領域的國際地位作出了較大貢獻。據ESI統計,1997—2007年4月我國計算機科學領域的論文數量位居世界第三。
b)從論文被引情況來看,我國大陸研究機構發表的計算機科學領域的國際論文的篇均被引率為2.5,與計算機科學領域世界的篇均被引率2.53十分接近。在統計時間段內,多數年份的篇均被引頻次超過了世界平均水平,但是入圍高影響力范圍的論文數量很少。這說明我國尚缺乏引起國際計算機科學界關注的具有較強影響力的論文。
c)2000—2004年間發表的論文是目前計算機科學研究的主要傳承基礎。但是從圖3的曲線來看,較早發表的論文仍然在目前的研究中發揮著重要作用,如1998年的篇均被引頻次為6.5。
d)我國計算機科學領域國際論文的數量和被引頻次的分布完全符合廣泛存在的二八定律,即20%的論文貢獻了80%的被引頻次。
e)在計算機科學領域七個主題的發展中,information systems和software engineering兩個主題是目前發展較為活躍的領域。
f)在計算機科學領域七個主題的發展中,人工智能領域無論是在發展的態勢上,高被引論文數量上,還是在單篇論文的被引率上均呈現良好的發展勢頭,應該是計算機科學領域中的優勢主題。
g)我國計算機科學領域的學者目前國際發文能力已覆蓋80%以上的該學科期刊,已有在影響因子和被引頻次最高的期刊上發文的實力。
h)我國目前計算機科學領域具有高影響力的論文數量較少,大量的論文分布在影響力較低的期刊上。
參考文獻:
[1]李國杰.對計算機科學的反思[J].中國計算機學會通訊,2006,2(1):78-82.
[2]馮藥,鄭軍衛.基于文獻計量學的國際遙感學科發展態勢分析[J].遙感技術與應用,2005,20(5):528-530.
[3]梁立明,馬肖華.從中德合著SCI論文看中德科技合作[J].科學學與科學技術管理,2006,27(11):2228.
[4]包昌火.情報研究方法論[M].北京:科學技術文獻出版社,1991.
[5]金碧輝.世界科學中的中國系列研究報告之四[R].1993.
[6]蔡筱英,金新政,陳氫.信息方法概論[M].北京:科學出版社,2004.
“本文中所涉及到的圖表、注解、公式等內容請以PDF格式閱讀原文”