●鮑玉芳,馬建霞(.中國科學院蘭州文獻情報中心,蘭州 730000;2.中國科學院大學,北京 0090)
諾貝爾獎與科學家論文數量、被引頻次的相關性
——基于2000-2010年諾貝爾化學、物理學獲獎者的實證研究
●鮑玉芳1,2,馬建霞1
(1.中國科學院蘭州文獻情報中心,蘭州730000;2.中國科學院大學,北京100190)
[關鍵詞]諾貝爾獎;發文數;被引頻次;相關性
[摘要]通過統計2000~2010年諾貝爾化學、物理學獎獲獎者從其出生年至今的所有Web of Science發文數據,包括論文發表量與被引頻次,在化學、物理學的學科差異基礎上,對這兩個指標進行分析,發現:(1)科學家在獲獎之前都經過大量積淀;(2)獲獎者在獲獎前大多數擁有被引頻次很高的論文;(3)獲獎之后有論文再發表;(4)獲獎之后所發論文的被引頻次沒有顯著增大;(5)物理化學兩個學科的發文量與被引頻次都沒有直接關聯。
為了研究諾貝爾獎對科研效率的影響,本文以2000~2010年諾貝爾化學、物理學獎58位獲獎者為研究對象,統計從其出生年至今的所有Web of Science發文數據,包括論文發表量與被引頻次,根據他們在得獎前后的論文發表數量與引用情況,在學科差異的基礎上,結合一些其他的影響因素,探討諾貝爾獎是否可以推動科學家在獲獎后繼續進行更加深入的研究、發現更多創新成果,研究諾貝爾獎與科學家論文發表數量、被引頻次的相關性。
諾貝爾化學、物理學獎都始于1901年,至今已有166位科學家獲化學獎,196位科學家獲物理學獎。本文研究對象是2000~2010年兩個獎項58位獲獎者,[1]并調查了其基本信息,包括姓名、出生年代及國家、是否逝世、獲得諾貝爾獎的原因、獲獎時所在機構或單位、科學家的研究領域等。
利用Web of Science的“唯一作者記錄集”功能,結合作者獲獎時所在機構、研究方向,根據特征作者記錄集,選擇查看相應的記錄集,最后得到作者在Web of Science核心合集所有的發文數據。其中,唯一作者記錄集[2]與作者的研究方向、所在機構有關。所以,某些情況下作者涉及多個記錄集,比如更換單位地址、從事多個研究方向、引用不同著作等。因此,使用“唯一作者記錄集”能夠通過更多條件限制作者,在一定程度上提高了檢索結果的準確率,降低檢索噪聲。
因為Web of Science數據庫中作者署名多為縮寫,故存在查準率偏低的現象。為了減少這種情況對數據分析造成的影響,需要對數據進行進一步清洗。根據全記錄集顯示的字段信息,將與作者基本信息有較大反差的結果剔除。例如,AU字段表示作者,對比AF作者全名字段將與所查作者簡稱一致的其他作者刪除;PY字段表示出版年,把PY字段值與作者出生年過于接近的數據剔除,對出現作者署名的論文全部計入,最后經過篩選和整理,最終得到58位獲獎者的發文總數(檢索日期是2014年3月5日)。
2.1發文數量分析
經過統計得到58位科學家在Web of Science (WOS)上發表論文的數量,如圖1、圖2所示。顯而易見,物理學獲獎者的發文量要明顯低于化學獎,化學獎2000年獲獎者Alan J.Heeger發表論文1109篇,物理學獎2000年獲獎者Zhores I. Alferov發表論文522
篇,兩個學科最大發文量竟相差587篇,而且大約50%的作者其發文量都集中在200篇以下。

圖1 諾貝爾化學獎2000~2010年獲獎者WOS發文總數

圖2 諾貝爾物理學獎2000~2010年獲獎者WOS發文總數

圖3 諾貝爾化學獎2000~2010年獲獎者WOS發文周期分布
為了更加直觀清楚地顯示每位作者的論文發表情況,降低由發文周期不同而導致的影響,提出了年均發文數量指標,即發文總數/發文周期,具體數據如圖5、圖6所示。

圖4 諾貝爾物理學獎2000~2010年獲獎者WOS發文周期分布

圖5 諾貝爾化學獎2000~2010年獲獎者WOS年均發文量

圖6 諾貝爾物理學獎2000~2010年獲獎者WOS年均發文量
本文將Web of Science中論文發表時間的統計初年與統計末年的差值定義為發文周期,由于年齡以及獲獎時間的差異,每個作者的發文周期并不相同。比如2000年獲獎者Alan J.Heeger,論文發表時間是1961~2013年,那么發文周期為52年,按這種方法計算,58位獲獎者的發文周期分布情況,如圖3、圖4所示。
僅從年均發文數量看,盡管這是一個相對平衡的指標,但是,從圖5、圖6可以看出,每位作者的年均發文量依然存在很大差異,比如在化學獎方面,2000年獲獎者Alan J.Heeger年均發文20.92篇,位列第一;其次是2007年獲獎者Gerhard Ertl,年均發文15.24篇;發文量最少的科學家是2001年獲獎者William S. Knowles,他的發文周期為65年,總發文數是33篇,年均發文0.51篇,也就是說平均每兩年生產一篇論文,論文產出率相對較低;其獲獎前所發論文的均被引頻次是86.63次,獲獎后所發論文的均被引頻次是69.67次;比較圖6顯然可知,物理學獎獲得者的WOS年均發文量普遍要低于化學獎,也存在
各作者的發文量差異大的現象。從引文分析角度說,論文發表數量并不能充分衡量其對科學的貢獻。
總體而言,2000~2010年諾貝爾化學獎、物理學獎的58位獲獎者的論文產出量并不均等,而且數量具有明顯差異。那么,科學家一年要發表幾篇論文合適呢?這是一個未知的難題,論文數量如果被“教條化”,想必也就失去了原本的意義,加之學科屬性,有些學科發表論文是很有難度的,而且某些成果是沒有辦法以論文的形式展現出來,比如研究成果需要大量時間、人力物力消耗的實驗物理學,還有些科研團體并不非常看重SCI。所以,僅僅把WOS發文量作為評判科研實力的硬性指標,可能會埋沒一位優秀的科學家。[3]
2.2獲獎前后被引頻次分析
以獲獎年為界限,將作者發文周期分成兩部分,即獲獎前和獲獎后,分別統計兩個階段所發表文章的數量、最大被引頻次論文的出版時間,計算每個階段全部論文的被引頻次之和,得到階段平均被引頻次。
(1)平均被引頻次。通過這個指標,可以看出每位作者在獲獎前后兩個時間段內所發表論文的被引頻次是否會受到諾貝爾獎的影響。分別以2000~2010年作為分界線,相應統計58位獲獎者在獲獎前后的論文發表情況,將獲獎年計入獲獎前階段。一般情況下,獲獎前階段的時間跨度要明顯大于獲獎后階段,所以,計算各階段每篇論文的平均被引頻次,即獲獎前(后)被引總數除以發文總數,以消除時間跨度導致的誤差。比如,2000年化學獎獲得者Alan J.Heeger發文時間是1961~2014年,那么其獲獎前階段是1961~2000年和獲獎后階段是2001~2014年;獲獎前發表論文838篇,總被引頻次是75070次,平均被引頻次是89.58次;獲獎后發表論文271篇,總被引頻次是27709次,那么平均被引頻次是102.23次。由此計算58位獲獎者獲獎前后每篇論文平均被引頻次分布,如圖7、圖8所示。獲獎后所發表的論文平均被引頻次幾乎全部低于獲獎前的平均被引頻次,除了化學獎2000年得主Alan J.Heeger、2001年得主K. Barry Sharpless、2006年得主Roger D. Kornberg以及物理學獎2006年得主George F. Smoot。其中,獲獎后所發論文比獲獎前平均每篇被引頻次提升最大的是George F. Smoot,由151.36次增至231.12次,漲幅約為80次。盡管獲獎后論文被引頻次增長這種認知結果更容易接受,比如,有些作者為了抬高自身論文的“質量”而去刻意引用一些諾貝爾獲獎者的文章,這種引用行為目的是提高自身論文的受關注程度。[4]然而,這種總體下降的趨勢可能與年代劃分方法有關,因為本文把獲獎年劃入了獲獎前階段,難以避免由于獲獎使得論文受到“蜂擁、追捧”的現象。而且諾貝爾委員會采取“延遲授獎”的方式,使得有些科學家獲獎的原因是多年前的研究成果,如1946年化學獎獲獎者薩姆納、1953年化學獎獲獎者赫爾曼,都經過了漫長的等待才獲得諾貝爾獎。[5]足以見得他們在獲獎前的大量積淀,因此,不能排除獲獎前就已經發表被引頻次高達上千次論文的可能性。

圖7 諾貝爾化學獎2000~2010年獲獎者得獎前后論文篇均被引頻次比較

圖8 諾貝爾物理學獎2000~2010年獲獎者得獎前后論文篇均被引頻次比較
(2)最大被引頻次。評價論文質量的一個重要指標是論文的被引頻次。一般而言,被引頻次越高,說明論文受關注程度高,學術影響力越大,那么該論文可能就是某一領域的研究熱點,甚至是學科發展中的重要事件。[6]當然,引用動機的不同,一篇文章中如果出現錯誤的觀點,也可能會帶來很高的被引頻次。[7]本文對第二種情況不作統計,默認被引頻次在一定程度上代表了論文質量。58位作者獲獎前后的論文最大被引頻次如圖9、圖10所示,其獲獎后所發表論文(以出版日期為標準)的最大被引頻次幾
乎都低于獲獎前。為了更清晰地表現出作者論文被引的差異,兩位獲獎者的論文最大被引頻次在圖中沒有完全體現,分別是2008年化學獎獲得者Roger Y. Tsien在1985年發表于Jouenal of Biological Chernistry的文章A new generalion of Ca2+ indicalors wilb greally improved flnorescence ptoperties,被引次數為19369次;2010年物理學獎獲得者Andre Geim、Konstantin Novoselov在2004年發表于Science?的文章Electric FieldEffect in Atomically Thin Carbon Films,被引頻次為12751次。有些作者獲獎前后論文的最大被引頻次差值非常顯著,如上所述Roger Y. Tsien,獲獎后最大被引頻次217的論文是2009年發表于Journal of Biological Chemistry的文章A new generalion of Ca2+ indicalors with greally improved fiuorescence properties,最大被引頻次差值為19152次。最大被引頻次正向差(即,獲獎后所發論文的最大被引頻次上升)的作者僅有2位,即2002年化學獎獲得者Koichi Tanaka,最大被引頻次由4次上升到98次;2006年物理學獎獲得者George F. Smoot,最大被引頻次由3717次上升到4056次。

圖9 諾貝爾化學獎2000~2010年獲獎者論文最大被引頻次比較

圖10 諾貝爾物理學獎2000~2010年獲獎者論文最大被引頻次比較
(3)學科共性。通過對化學、物理兩個學科獲獎者的發文數量與被引頻次的計算,已知諾貝爾2000~ 2010年化學獎28位獲獎者共計發文數量9366篇,平均每位獲獎者一篇論文被引(計算方法:作者全部文章被引頻次和除以發文總數,得到每位獲獎者一篇文章的平均被引頻次,然后加和除以獲獎者數量,得到算術平均值)為97.59次;物理學獎30位獲獎者共計發文數量6077篇,平均每位獲獎者一篇論文被引102.56次。雖然在發文量方面,化學獎獲得者論文數量要高一些,但是平均每位獲獎者一篇論文的被引頻次都在100左右波動。而且,無論是平均每篇論文被引頻次(獲獎前所發表論文的平均每篇被引頻次與獲獎后所發表論文的平均每篇被引頻次比較)還是最大被引頻次,兩個獎項幾乎都是獲獎后低于獲獎前。同時,都出現了個別獲獎者被引頻次的峰值,其被引頻次顯著高于其他獲獎者。
2.3年均被引頻次分析
本節主要針對作者的全部文章進行被引頻次的分析,即在發文周期跨度中收錄在Web of Science核心合集的所有論文,將其每一年所發表論文的被引頻次相加,得到年度被引頻次和,除以每一年的發文總數,按年份繪制出作者該年每篇論文平均被引頻次的變化曲線,研究作者每年的發文情況以及在獲獎后是否迎來科研創作的新高潮、被引頻次是否發生明顯變化。由于同一年獲獎者的發文量、被引量都有很大區別,所以為了更清楚地體現每位作者的變化趨勢,特將個別年份中平均被引頻次超出普遍水平的文章作為離群點,沒有完全顯示其平均被引情況,現將這些離群點匯總如下:化學獎——2002年獲獎者John B. Fenn 1989年平均被引1579次、2004年獲獎者Avram Hershko1998年平均被引2210次、2008年獲獎者Martin Chalfie 1994年平均被引1388次、2008年獲獎者Roger Y. Tsien 1985年平均被引1997次;物理學獎——2004年獲獎者H. David Politzer 1973年平均被引2026次、2004年獲獎者Frank Wilczek 1973年平均被引1971次、2005年獲獎者Roy J. Glauber 1963年平均被引2274次、2006年獲獎者George F. Smoot 2008年平均被引4956次、2008年獲獎者Yoichiro Nambu 1961年平均被引1063次、2008年獲獎者Toshihide Maskawa1973年平均被引1449次。
通過觀察這58位作者在發文年時間跨度中每年所有文章的平均被引頻次,可以發現如下共同點。(1)被引頻次由小到大。所有的成功都不是一蹴而就的,都經過了大量的積累與沉淀,獲得諾貝爾獎更是如此。被引頻次的增長代表了作者學術影響力逐漸增
大的趨勢,僅靠首篇論文就大獲成功的作者實屬罕見,作者都是在不斷的嘗試與努力過程中得到鍛煉和提高的。(2)被引頻次差值顯著。每一年中論文的最大被引頻次之間的差值很明顯,化學、物理文獻的半衰期相對較長,研究成果的更新速度相對緩慢。當有新成果出現時,就可能會出現被引頻次較高的論文,以推動學科發展與科研進步。(3)出現一個或多個科研峰值。峰值表示當年出現了某一篇被引頻次很高的論文,或者所發論文被引頻次普遍相對較高,代表科研活動順利進行,出現了良好成果。(4)諾貝爾獎并未有效提高被引頻次。大多數科研峰值并沒有出現在作者的獲獎年,而且獲獎年后發表的論文被引頻次沒有出現顯著提高,甚至有明顯下降趨向。(5)學科差異并不顯著。無論化學還是物理,兩個獎項獲得者的論文數量與被引頻次,并未由于學科的不同而出現顯而易見的變化。此外,2000年物理學獎獲得者Jack S. Kilby,自1980年以后年均被引頻次曲線相對較為平緩,沒有出現顯著的被引頻次差值,其中一個很重要的原因是年齡。獲獎者的年齡偏大是影響科研的一個因素,有人統計1901~2001年諾貝爾化學獎獲得者最早做出與獲獎有關成果的年齡,表明35~39歲這個年齡段是化學家出成果的最佳時期,但是獲獎者的年齡卻越來越大。[8]2000~2010年化學獎、物理學獎獲得者的年齡分布參差不齊,按照獲獎時的年齡計算,年齡最小不超過40歲,最大接近90歲。
結合2000~2010年諾貝爾化學獎、物理學獎獲獎者的基本信息,對他們的發文數量與被引頻次進行分析,探討諾貝爾獎是否可以推動科學家在獲獎后繼續進行更加深入的研究、發現更多的創新成果。通過研究諾貝爾獎與科學家論文發表數量、被引頻次的相關性發現以下五點。
(1)科學家在獲獎之前都經過大量積淀。盡管除了僅有的幾位科學家發表的論文數量很高外,大部分科學家都不是所謂的“高產作者”。毋庸置疑,所有的成功都不是一蹴而就的,攀登科學的高峰更是如此。雖然每位科學家的論文產出量并不均等,數量存在明顯差異,最多高達1098篇(2000年化學獎得主Alan J.Heeger)、最少只有15篇(2009年物理學獎得主George E. Smith),然而不能僅從發文數量說明學術影響力,比如愛因斯坦的發文量并不高,但其對科學的貢獻程度無人不知,況且這與發文年的時間跨度等其他因素也是有關的。
(2)獲獎前大多數擁有被引頻次很高的論文。論文被引頻次峰值的出現預示著科學家的受關注程度增大,在一定程度表示學術影響力增強。大部分論文被引峰值出現在獲獎年之前,獲獎后所發表論文的平均被引頻次、最大被引頻次幾乎全部低于獲獎前,而且有些作者論文的最大被引頻次差值非常顯著。另外,平均被引頻次總體下降的趨勢可能與年代劃分方法有關系,除了2001年化學獎獲得者K. Barry Sharpless、2006年化學獎獲得者Roger D. Kornberg、2006年物理學獎獲得者George F. Smoot在獲獎后明顯出現了最大峰值。
(3)獲獎之后有論文再發表。從數據統計結果看,這58位科學家獲得諾貝爾化學獎后,除2010年化學獎獲得者Richard F. Heck都有新的論文發表。截至統計末年,2000年獲獎者Alan J.Heeger獲獎后又發表了260篇論文,2010年化學獎獲獎者Akira Suzuki在獲獎后發表了1篇論文,這是科學家在獲獎后發文數的兩個極值,說明獲得諾貝爾獎并不是科學的最終目標,科研是一個持續的過程。
(4)獲獎之后所發論文的被引頻次沒有顯著增大。被引頻次高的論文可能與得獎有關系,但是延時授獎的辦法使得被引頻次的峰值不一定出現在獲獎年。科學家獲獎后所發論文的被引頻次沒有顯著增大,反而出現了降低現象,可能與其論文質量下降有關系[3]或者可能因為“掛名”而發表論文,加之獲獎者年齡增大,論文產出效率減少,而且論文創作壓力在獲獎之后明顯減小,在一定程度上也是論文發表量下降一個不可避免的現實因素。
(5)學科差異影響不明顯。物理學和化學領域諾貝爾獎獲得者都有較大的發文數量和較高的被引頻次。因此,兩個學科獲獎者的發文數量與被引頻次之間沒有直接關聯性,也就是說發文數量高并不一定意味著有高的被引頻次。反之亦然。
綜上所述,對于2000~2010年諾貝爾化學獎、物理學獎獲獎者而言,諾貝爾獎并未使科學家在獲獎后所發論文的被引頻次顯著提高,“馬太效應”并不顯著。在一定程度上可以認為,諾貝爾獎是對科學家研究成果的獎勵,記錄了科學史上的重要貢獻,但并沒有促進科學家的科研創新。
[參考文獻]
[1]Nobel Media.諾貝爾官網[EB/OL].[2014-03-05].http://www.nobelprize.org/nobel_prizes/chemistry/lau
reates/index.html.
[2]Webof Science.幫助[EB/OL].[2014-03-05]. http://images.webofknowledge.com/WOKRS512B4.1/help/zh_CN/WOS/hp_results_tellmemore.html.
[3]徐保軍,劉華杰.科學家每年應發表幾篇科研論文[J].科技導報,2008,26(14):96-97.
[4]郭紅梅,等.對諾貝爾獎獲得者論文施引行為的馬太效應初探[J].情報科學,2011,29(6):830-832.
[5]門偉莉,張志強.科研創造峰值年齡變化規律研究[J].科學學研究,2013,31(8):1623-1629.
[6]金碧輝,等.論期刊影響因子與論文學術質量的關系[J].中國科技期刊研究, 2000, 11(4):202-205.
[7]楊思洛.引文分析存在的問題及其原因探究[J].中國圖書館學報,2011,37(193):108-117.
[8]葛君,岳晨.諾貝爾化學獎獲獎者的統計分析[J].圖書館理論與實踐, 2004(2):55-58.
[收稿日期]2014-12-16 [責任編輯]菊秋芳
[作者簡介]鮑玉芳(1990-),女,中國科學院蘭州文獻情報中心碩士研究生,研究方向:情報分析技術;馬建霞(1972-),女,研究館員,學科咨詢部主任,研究方向:知識發現與分析。
[基金項目]本文系國家自然科學基金項目“基于科學基金項目及知識產出的研究前沿探測”(項目編號:71373260),中國科學院西部之光聯合學者項目“基于計算情報方法的甘肅省戰略新興產業技術創新競爭與發展研究”(項目編號: Y200201001)的研究成果。
[文章編號]1005-8214(2015)08-0040-05
[文獻標志碼]B
[中圖分類號]G250.252