〔摘 要〕本文以CNKI收錄期刊中1996-2005年的研究競爭情報的期刊論文為研究對象,按論文的被引次數,將檢索得到的文獻劃分為高被引文獻、中等被引文獻和低被引文獻。然后從論文作者的機構和地區、來源期刊、發文時間和關鍵詞4個方面對高被引文獻進行了計量分析,同時對期刊論文被引的影響因素進行了分析。
〔關鍵詞〕競爭情報;高被引文獻;定量分析
〔中圖分類號〕G35 〔文獻標識碼〕A 〔文章編號〕1008-0821(2009)07-0020-04
Quantitative Analysis on High Cited Articls on Competitive Intelligence in ChinaTian Dafang
(Library,Anhui University of Finance and Economics,Bengbu 233041,China)
〔Abstract〕The paper studied the articles on competitive intelligence from the CNKI from 1996 to 2005.First the paper separated the documents into three sorts which were high cited documents,medium cited documents and low cited documents based on the cited times and the contributive proportion.Then the paper analyzed the data from the authors’ institution and district,the source journal,the publishing time and keywords.At last the paper analyzed the affect factors of the articles which were cited.
〔Key words〕competitive intelligence;high cited documents;quantitative analysis
在中國科協等單位主辦的第四屆中國科技期刊發展論壇上,與會專家紛紛表示,應以單篇文章的具體引用次數來評價論文質量,以促進我國科技期刊的發展[1]。任勝利博士撰寫的博文“有多少論文沒有被引用?”列出了很多學科和我國科技論文未被引率的估算數據,他認為被引用次數是測度論文重要性的“計量儀”[2]。這反映出學者對期刊論文質量思考和關注。論文被引不能完全與論文的質量對等,但它從一個側面反映了學術論文被同行關注和利用的效果,是反映學術論文質量的一個重要指標。
競爭情報作為情報學研究的一個分支,借助情報學研究方法與企業實踐,近年來發展迅速。經過十幾個年頭的發展,競爭情報已經由學術研究進入應用實踐,已經由高等院校、情報機構進入到工商企業。我國的競爭情報的發展已經進入到一個更注意實踐和效益的階段[3]。從文獻[4-8]的研究看,我國競爭情報研究的期刊論文的數量已經達到一定規模。但對這些期刊論文被引的情況還沒有相關研究,本文選擇競爭情報領域的被引次數較多的期刊論文為研究對象,一方面對這些文獻進行統計和分析;另一方面要結合這些文獻的屬性,探討影響論文被引的影響因素。
1 數據來源
從數據的全面性、權威性、準確性和可獲取性等方面綜合比較,本文以《中國學術期刊網絡出版總庫》作為數據來源。檢索時間限定在1996-2005年,檢索式為:題名=“競爭情報”,數據來源是CNKI收錄的所有期刊。共檢索到1 029條記錄,經去重及舍棄一些通訊、會議介紹等文章,最后確定954篇文獻為高被引文獻遴選的數據集。這些文獻篇均被引次數為5次,被引5次以上的有339篇,約占總體的36%;被引1次和2次的有259篇,約占總體的27%;209篇被引是零次,約占總體的22%。如果排除自引,則被引較少或沒有被引用的比例要達到50%以上。為了對比不同數據庫來源文獻和被引文獻的情況,本文還以CSSCI為數據源,檢索式均為題名包括“競爭情報”,來源文獻的檢索時間為1998-2005年,被引文獻的時間為1996-2005年;檢索到來源文獻384篇,被引文獻去重后共387篇,均被引次數為2.6次。
圖1是分別從2個數據庫得到被引文獻情況,從中可以看出,2個數據庫中被引次數和被引篇數2條曲線都呈現一個反向的趨勢,即被引次數多的文獻較少,而被引次數少的文獻較多;這反映出期刊論文的被引呈現一個集中與分散的分布狀態。
按被引頻次的累積貢獻率和被引次數2個指標,本文將CNKI中檢索到的文獻分為高被引文獻、中等被引文獻、低被引文獻,每類文獻對整體引用的累積貢獻率約為33%。其中高被引文獻共有62篇,被引次數在17次以上,占總被引篇數的6%。CSSCI的高被引文獻確定為42篇,被引次數在6次以上,占總被引篇數的11%,占總被引次數的37%。2個數據庫的高被引文獻合并去重后共有79篇文獻,其中26篇重合;只在CNKI中的文獻有36篇;只在CSSCI中的有16篇。這種結果的差異是因為2個庫的來源期刊不同,所以期刊論文被引的數據也不一致。 因此,如果要通過論文被引次數來評價一篇論文時,要注意根據評價的目的來選擇合適的數據庫作為統計源。由于數據的可獲得性和采集難度,本文只對CNKI庫中的高被引文獻進行統計和分析。

注:被引次數1、被引篇數1的數據來自CNKI,被引次數2、被引篇數2數據來自CSSCI。
2 數據分析
2.1 作者及其機構、地區
科學產出常常集中在一個很小的、自主選擇的學者團體,它由本學科的精英構成,它能為主題領域發展的進步定調子。他們被克萊因命名為特定科學領域的“無形學院”[9]。學術共同體成員往往會關注主題領域的精英,在同等條件下,他們的成果一般優先引用,以增強研究人員成果的權威性。62篇高被引文獻去重后的作者數為77人,作者分布在全國14個省市的47個高校、科研機構和企業。根據加權被引數量(權重大小見表1)的統計和文獻[6-7]的統計結果看,包昌火、段宇鋒、謝新洲、陳峰、彭靖里的發文和被引的次數都較多;而沈固朝、邱均平、邱曉琳、趙剛和張翠英的發文量較少,但被引次數較多。由此看出,作者的發文數量與被引數量之間不存在必然的聯系。

從地區看,北京、江蘇、天津和湖北的高被引文獻數為47篇,占總體的76%;排在前七位的機構分別是北京大學信息管理系、南京大學信息管理系、北京大學新聞與傳播學院、中國科學技術信息研究所、南開大學國際商學院信息資源管理系、中國兵器工業集團第210研究所、中國科技情報學會競爭情報分會。這些機構共涉及高被引文獻40篇,占總體的65%。從文獻[7]的數據看,1996-2005年競爭情報研究的合著作者比例在不斷上升,平均為32%。本文統計的高被引文獻的合著比例為56%,高出近二十個百分點。這反映出合著作者的文獻被引用的概率相對較大。另外從合著的規模看,目前還主要是以2人、3人為主,3個作者合著以上的數量很少。
從上面的數據可以發現,高被引文獻多數來自于國內競爭情報研究領域的核心陣營,無論從其發文數還是高被引文獻數,都處在領先的位置。來自于這些機構的作者的文獻被引用的概率要大于其它機構的研究人員。
2.2 來源期刊
學術期刊是學術成果與同行分享的平臺。一般情況下,高質量期刊上的文獻容易引起學術同行關注和引用。從表2和圖2可以發現以下幾點:①國內競爭情報領域的高被引文獻大部分都刊登在國內情報學領域的權威期刊上。《情報學報》和《情報理論與實踐》最為突出,被引篇數占到了高被引文獻的53%。這反映了文獻被引與學術期刊有一定關聯性,即高質量學術期刊上的發文被引的機率相對較大。②期刊發文數量與論文被引數量不一定正相關。如《現代情報》、《情報雜志》、《情報資料工作》、《圖書情報工作》等發文較多,但是高被引文獻較少。論文評價是對個體的評價,期刊評價是整體的評價,兩者在評價的標準、方式等方面都有區別,評價的結果不能相互代替。③對于一種學術期刊而言,通常情況下,其刊載某個主題領域的文獻數量與被引的數量呈現正向的關系,但發文數量與高被引文獻數量之間的相關性不強。如圖2的14種期刊的總發文數和總被引文獻篇數歸一化之后的曲線基本重合,而高被引文獻數與另兩條曲線的一致性較差。

2.3 發文時間
大部分文獻被引的高峰通常在發文后的2~3年之內,時間越長則被引的機率會逐漸減少。從表3看,這些高被引文獻在數量上呈現一個馬鞍形分布,以2005年為一個時間點,距離它時間較近和較遠的文獻被引的數量較少,而距離適中的被引數量較多。如果數據采集的時間變化,則這些高被引文獻被引的數量也會發生變化,同時會有新的高被引文獻出現。但總的來看,發文時間與文獻被引之間存在著一定的聯系。

2.4 關鍵詞
關鍵詞是為了文獻標引工作而從學術論文中選取出來的,用以表示全文主題內容的信息款目的單詞或術語,是未規范的自然語詞[10]。62篇文獻共有關鍵詞199個,篇均關鍵詞數3.2個,去重后共有101個(部分只有英文關鍵詞的去重時轉換為對應的中文關鍵詞)。從關鍵詞出現的頻次來看,除競爭情報(54次)、競爭情報系統(10次)、企業(8次)、知識管理(7次)外,其它詞的頻次都很低,這主要是由于數據量較小的緣故。但從表4的內容來看,這些文獻的研究內容都是圍繞“競爭”、“企業”、“信息”、“情報”和“知識”這幾個核心詞干展開的。從研究主題而言,每一個方面的深入研究都可能被同行引用;從被引的角度看,除競爭情報系統和知識管理兩個方面外,集中于某一個更深入研究主題的高被引文獻數量還較少。

3 結 論
英國巴斯大學經濟學與國際發展系的John Hudson教授做過一次很有趣味的文獻計量學研究。他以《美國經濟學評論》和《經濟學雜志》這2種經濟類頂級期刊上1981-1997年發表的所有論文為樣本,試圖發現引文與哪些因素有關。第一,他發現,論文的頁碼數越多(篇幅越長),則越容易被引。第二,假如你的論文是整本期刊的第一篇,則在5%的顯著水平上,更可能被引用。第三,被引總量隨自引的增加而增加。第四,最有意思的是,含有高被引論文的那一期,其他論文也沾光了,其被引量也跟著提高。這項研究表明,文章被引用牽涉了不少偶然因素[11]。此外,論文被引還可能與刊載期刊的出版周期、是否被數據庫收錄、期刊的級別等因素有一定聯系。
結合本文的統計數據,競爭情報領域的期刊論文在整體上看,是否被引與刊載的期刊、發文作者、發文時間的相關性較強。即高質量的學術期刊上發文被引的機率較大;學術共同體中的核心作者的文獻被引較多;多作者的文獻比單作者文獻引用的次數相對較多;期刊論文發表后2~3年被引較為頻繁。論文研究的主題與被引之間的相關性不強。
對于單篇文獻,被引次數多少與刊載的期刊、發文作者、研究主題相關性不強;但與發文時間相關性較強,一般情況下發文后2~3年內被引較為頻繁。另外,由于數據庫來源期刊不同,不同數據庫查詢某篇文獻的被引次數上也不相同,查詢期刊論文被引的數據應來自同一數據庫才有可比性。有些期刊論文的被引次數較少,其質量不一定不高,還應考慮文獻的類型及其實用價值等因素。“以刊論文”和“以被引次數”對單篇文獻的評價都是不充分的,還要結合專家評價等方法綜合評價。
參考文獻
[1]朱作言院士:論文質量評價要看具體引用次數[EB/OL].http:∥www.sciencenet.cn/htmlnews/2008/10/212134.html,2008-11-20.
[2]任勝利.有多少論文沒有被引用?[EB/OL].http:∥www.sciencenet.cn/blog/usercontent.aspx?id=42720,2008-11-15.
[3]圖書情報工作網刊2008年第四期“學科熱點欄目內容”[EB/OL].http:∥www.lis.ac.cn/download/LISNET/2008-04/學科熱點.pdf,2008-11-20.
[4]田海云.90年代我國競爭情報研究的計量分析[J].情報資料工作,2001,(1):27-28.
[5]吳瀟.競爭情報論文定量分析及趨勢預測[J].情報理論與實踐,2002,25(6):438-440.
[6]岳凌云.1989-2005年我國企業競爭情報論文的計量分析[J].情報科學,2006,24(4):550-553.
[7]劉冰,張潔.對十年來我國競爭情報文獻的計量分析[J].情報科學,2006,24(10):1527-1531.
[8]張祖坤.競爭情報科學論文的文獻計量學研究[J].圖書館學刊,2006,(5):22-24.
[9](美)埃利澤#8226;蓋斯勒.科學技術測度體系[M].周萍,等譯.北京:科學技術文獻出版社,2004:161.
[10]葉繼元.學術規范通論[M].上海:華東師范大學出版社,2005:123.
[11]武夷山.文獻引用的可控與不可控[EB/OL].http:∥www.sciencenet.cn/blog/usercontent.aspx?id=16805,2008-12-20.