梁振輝 魏順平
【摘要】文章運用 Hirsch 指數(簡稱 h 指數)方法以及與之相近的 w 指數方法,通過對中國知網(CNKI)中國引文數據 庫收錄的教育技術學領域的 CSSCI 來源期刊在 1998 年至 2007 年所刊發論文的被引用數據進行統計分析,對 1998 年至 2007 年
10 年間中國大陸地區教育技術學領域研究人員的科研績效進行了評價,評選得到了“1998 至 2007 年段中國大陸地區教育技術 學領域最具科研績效的前 30 位研究人員”,并對 h 指數與其他評價指標進行了相關性分析。分析結果表明,利用 h 指數來評價 研究人員的科研績效,一定程度上可以反映“總被引頻次”、“論文數量”、“篇均被引頻次”三項指標的評價結果,h 指數可以 說是一項更為綜合的評價指標。
【關鍵字】h 指數;教育技術學;研究人員;科研績效評價
【中圖分類號】G40-051 【文獻標識碼】A 【論文編號】1009—8097(2009)01—0021—07
一 問題的提出
h 指數是美國加州大學圣迭哥分校的物理學家 J.E.Hirsch 教授在 2005 年提出的一項旨在評價科學家個人績效的指標。h 指數的定義是:一個科學家的分值為 h,當且僅當在他(她) 發表的 Np 篇論文中有 h 篇論文每篇獲得了不少于 h 次的引文 數,科學家剩下的(Np-h)篇論文中每篇論文的引文數都小于h 次。[1]根據 h 指數的定義,假如一個研究人員的 h 指數為 9,則意味著他發表了至少 9 篇論文,并且僅有 9 篇論文的被引次 數不少于 9 次。在計算某位研究人員的 h 指數時,可以將這位 研究人員的論文按照其引文數降序排列,然后從排序最高的論 文開始向下逐條計數,一直到某篇論文的排序號大于該篇論文 的引文數,則該篇論文的序號數減 1 就是該位研究人員的 h 指 數數值。Hirsch 討論了 h 指數在評價研究人員個人績效中的應 用,并且提出了他們晉升應達到的門檻。例如,他認為研究型 大學教師晉升為正教授的指數的典型值應約為 18。[2]
在 h 指數的基礎上,中國科技大學的吳強提出一種新的科學家個人績效的評價指標——w 指數。[3]w 指數與 h 指數類似, 但做了些巧妙的修改。舉例來說,假如一個研究人員的 w 指數 為 9,意味著研究者發表了至少 9 篇論文,并且僅有 9 篇論文 的被引次數不少于 90 次。吳強指出,w 指數是對 h 指數的重要 改進,因為它“更準確的反映了一個科學家的高質量論文的影 響”,并且他也承認這一指數“可以被稱為 10h 指數”。根據 吳強的研究,研究人員的 w 指數為 1-2 意味著他“已經具備了 某一領域的基礎”。w 指數為 3-4 意味著這位研究人員已經掌 握了“科學活動的藝術”,而“杰出的研究者”屬于那些 w 指數為 10 以上的人。吳強把“頂尖科學家”留給了通過 20 年工作 w 指數達到 15 或者通過 30 年工作達到 20 的科學家。
在 h 指數提出之前我們通常是采用信息計量學的方法來 評價研究人員,從信息計量的角度定量地對研究人員進行評 價,其結果比較客觀、比較準確。在信息計量學中,研究人 員的學術成就和對學科貢獻主要體現在發表的文獻數量和文 獻被引次數兩個方面,其中文獻數量說明作者生產的文獻產 量或科研能力,而文獻被引頻次則更能說明作者生產的文獻 的質量,交流程度和學術水平。因此,一般從論文數量和被 引頻次兩個方面考察作者的影響力。路秋麗、田雨等人(2008) 曾從論文數量、總被引頻次、篇均被引頻次三個方面考察中 國教育技術學領域研究人員的科研績效,并評選出了 16 位教 育技術學領域的關鍵學者。[4]然而,正如 J.E.Hirsch 教授 所指出的,應用“論文數量”、“總被引頻次”、“篇均被 引頻次”等單項評價指標存在一定的缺陷。他認為“論文數 量”的缺點是不能測度論文的重要性和影響力;“總被引頻 次”的缺點是作者的影響力會被少數重要的合作論文夸大; “篇均被引頻次”缺點是數據不容易獲得,容易造成獎少懲 多。[1]J.E.Hirsch 教授認為 h 指數能夠測度科學家個人工作 的主要影響力,并能夠避免上述指標的一系列缺點。 J.E.Hirsch教授進一步指出,即使兩個科學家的論文數或 引文數量有很大差別,但假如他們具有相似 h 指數,那么仍 然可以認為他們的整體科學影響力是可比的。反之,科學生 涯相同的兩個科學家,即使具有相近的論文或引文數量,假 如他們的 h 指數有很大差別,同樣可以認為具有較高指數的科學家是一位更加“優秀”的科學家。因此,本研究將采用 h 指數作為主要指標來對中國大陸地區教育技術學領域的研究 人員進行科研績效評價(這里“中國大陸地區”用于限定研 究人員的學術活動范圍,而不是限定研究人員的所在研究機 構),并輔之以 w 指數的計算,同時與“論文數量”、“總被 引頻次”、“篇均被引頻次”等三項指標的評價結果進行比 較,以發現不同評價指標之間的差異。
二 研究方法
本文的研究對象是中國大陸地區教育技術學領域的研究 人員,我們可以從中國大陸地區教育技術學領域重要的學術期 刊中獲得該領域研究人員發表論文的信息以及論文被引用的 信息,并以此為基礎開展對研究人員科研績效的評價。筆者參 考《CSSCI 來源期刊(2006-2007)》[6],選取該引文索引來源期 刊中屬于教育技術學領域的學術期刊包括《電化教育研究》、《中國電化教育》、《中國遠程教育(上)》、《開放教育研究》、《現代教育技術》、《現代遠距離教育》等六個期刊(后文簡稱 為“六大學術期刊”),并獲得這六大學術期 1998 年至 2007 年 所刊發的論文及其引文信息以作為分析數據(盡管在《CSSCI 來源期刊(2008-2009)》[5]中,《現代遠距離教育》已經不在其中, 但這并不影響對該期刊 2007 年以前的論文的分析)。本研究所 選擇的期刊范圍較路秋麗、田雨等人(2008)選取的期刊范圍 更廣,可以對中國大陸地區教育技術學領域的研究人員科研績 效做出一個更為客觀的評價。研究的具體過程包括利用中國知 網(CNKI)的中國期刊全文數據庫[7]完成“六大學術期刊”論 文基本信息下載與整理、利用中國知網(CNKI)的中國引文數 據庫 0完成“六大學術期刊”被引用信息下載與整理、研究人 員所發表論文的數量、總被引頻次與平均被引頻次計算、研究 人員的 h 指數和 w 指數計算、各項評價指標的綜合比較等環節。
這里筆者沒有采用 CSSCI 數據庫,因為從 CSSCI 數據 庫中下載相關數據效率較低。當然,CSSCI 的引文數據庫更 具權威性,其引文來源僅限于 CSSCI 為數不多的來源期刊。 而中國知網(CNKI)的中國引文數據庫的引文來源則更為廣 泛,其來源包括中國知網(CNKI)的中國優秀碩士學位論文全文數據庫、中國知網(CNKI)的中國博士學位論文全文數 據庫、中國知網(CNKI)的中國期刊全文數據庫、中國知網(CNKI)的中國重要會議論文全文數據庫等,相比于 CSSCI 引文數據庫,更能反映論文的影響范圍。兩個引文數據庫各 具特色,在本研究中筆者選用中國知網(CNKI)的中國引文 數據。感興趣的讀者可以采用 CSSCI 的引文數據庫來分析。
1期刊論文基本信息下載與整理
中國期刊全文數據庫提供專業檢索界面,可編寫檢索語句,于是筆者編寫了如下檢索語句,如圖 1 所示。

經檢索(檢索時間為 2008 年 9 月 2 日),返回 14102 條 記錄,其片段如圖 2 所示。

在中國知網(CNKI)的中國期刊全文數據庫的初級檢索系統中不能進行每個作者所發論文數量的分類匯總計算,我們需要將這些結果逐頁復制到 Microsoft Excel 軟件的表格中, 并清除所有格式,可得到如圖 3 所示的 Excel 表格。

在這個表格的基礎上我們便可以進行分類匯總計算了。由于具有 10000 行以上記錄的 Excel 表格操作起來非常緩慢, 于是筆者將 Excel 表格中的數據導入到 SQL SERVER 2000 數 據庫中,得到“論文數據表”,其片段如表 1 所示。

通過 T-SQL 語言對論文數據表進行查詢分析,可對“六大學術期刊”的所有作者及發表文章情況進行統計。經對“論 文數據表”以“第一作者”作為分類字段(這里忽略同名作者 的干擾),以論文計數作為匯總方式進行分類匯總,得到“作 者-論文分類匯總表”,共有 6462 名作者(這里指第一作者, 下同)以及每位作者發表論文的數量,其片段如表 2 所示。

然而,僅僅依據“論文數量”進行排名,大量來自“六 大學術期刊”的編輯將進入前列(如表 2,論文數量位居前 5 位的就有 4 位期刊編輯),這就會大大影響研究人員在“論文 數量”上的排名。這里,筆者將借助下文提到的“引文數據 表”(因為通訊稿或評論等文章的被引頻次往往很低),先查 詢“引文數據表”得到“總被引頻次”居于前 100 位的作者 列表,再查詢“論文數據表”得到“論文數量”排名居于前100 位的作者列表,然后取這兩個列表的交集,發現“論文數 量”排名居于前 100 位的作者列表中有 34 位作者不在交集 中。通過查詢這 34 位作者的單位信息,發現有 16 位是期刊編輯。這 16 位編輯的文章需要從“論文數據表”中剔除出去。 另外,筆者發現,編輯所撰寫的文章在論文記錄的“單位”信 息上均有“本刊記者”的字樣,于是筆者先查詢論文記錄的 “單位”字段包含“本刊記者”的記錄,并對這些記錄中的作 者字段進行分類匯總,發現共有 40 位作者。將前后兩次得到 的編輯名單加以合并,并將這些編輯發表的論文從“論文數據 表”中剔除。然后對“論文數據表”以“第一作者”作為分類 字段,以論文計數作為匯總方式再次進行分類匯總,并以“論 文數量”逆序排列,得到新的“作者-論文分類匯總表”,其 中發表論文數量居前 50 位的研究人員列表如表 3 所示。

2期刊被引用信息下載與整理
筆者通過中國知網(CNKI)的中國引文數據庫的專業檢 索界面,編寫如圖 4 所示檢索語句。經檢索(檢索時間是 2008 年 9 月 2 日下午 3 時),共得到 7927 條記錄,結果如圖 5 所示。

同樣,在中國知網(CNKI)的中國引文數據庫中無法進 行每位研究者的被引頻次求和計算,也需要將這些結果逐頁 復制到 Excel 表格中,在去除標記并對一些列如“被引文獻作 者”、“被引文獻來源”進行分列操作后,如圖 6 所示。

為方便計算,筆者將這個 Excel 表格導入到 SQL SERVER 2000 的數據庫中,得到“引文數據表”,其片段如表 4 所示。

然后通過 T-SQL 語言對引文數據表進行查詢分析。通過SQL SERVER 的查詢分析器,可以對每位作者的“總被引頻 次”、“平均被引頻次”、“被引文獻數”等三項指標進行 計算。經對“引文數據表”以“第一作者”作為分類字段, 以“被引頻次”求和作為匯總方式進行分類匯總,接著再以 論文計數作為匯總方式進行分類匯總,并計算每位作者的“篇均被引頻次”,最后以“總被引頻次”逆序排列,得到“作者-引文分類匯總表”(這里忽略同名作者的干擾),該 表共有 4211 名作者(這里的作者指的是第一作者,下同)以 及每位作者的“被引文獻數”、“總被引頻次”和“篇均被 引頻次”。其中,“總被引頻次”居前 50 位的研究人員列表 如表 5 所示。

3研究人員的 h 指數和 w 指數計算
按照 h 指數和 w 指數的定義,筆者利用 SQL SERVER的查詢分析器編寫相關算法對“引文數據表”中所有作者進行兩個指數的計算,并將計算結果按 h 指數逆序排列,得到“作者-h 指數-w 指數數據表”,其中 h 指數不小于 7 的作者 共有 36 位,如表 6 所示。

筆者認為,導致教育技術學領域研究人員 h 指數偏低的原因有兩個:一是本研究選取的文獻數據持續時間不長,只有 10 年,相對于一個研究人員的科研生涯還是比較短暫的;二是國 內論文的參考文獻數量普遍偏低,根據張偉遠(1999)的一項 比較研究[9],中國大陸地區有參考文獻的文章中,60%的文章只有 1 到 4 份參考文獻,在英美兩國的期刊中,60%的論文有9 份以上的參考文獻,45%的論文有 20 份以上的參考文獻。
前文已經提到,w 指數為 3-4 意味著這個研究者已經掌握了“科學活動的藝術”。表 6 是依據 h 指數排名得來,可能會 將一些發文量較少、然而“篇均被引用頻次”卻很高的作者排除在外。下面筆者再以 w 指數為條件,選取 w 指數不小于 3 的作者名單,仍然按 h 指數逆序排列,得到如表 7 所示結果。

表 7 中灰色區域部分的作者是表 1 中未曾出現的作者, 這些作者雖然發表論文較少,但論文的被引頻次卻很高,如 李克東教授 1998 至 2007 年間在“六大學術期刊”以第一作者名義發表論文 8 篇,有 5 篇論文的被引頻次在 50 次以上。
4各項評價指標的綜合比較
為了比較研究人員科研績效評價不同評價指標之間的差異,下面筆者把按照三項不同的評價指標即“論文數量”、 “總被引頻次”、h指數分別得到的“作者-論文分類匯總 表”(取前 50 條記錄,記為數據表 T1,其內容即文中的表 3)、 “作者-引文分類匯總表”(取前 50 條記錄,記為數據表 T2, 其內容即文中的表 5)、“作者-h 指數-w 指數數據表”(取 h 指數不小于 7 的記錄,記為數據表 T3,其內容即文中的表 6) 進行整合,把這三個表中所包含的所有作者的三項指標計算 出來,并對作者是否在 T1、T2、T3 等三個數據表出現加以標 識(1 表示出現,0 表示未出現),并按 h 指數為主關鍵字, “總被引頻次”為次關鍵字,“論文數量”為第三關鍵字, 三個關鍵字均為逆序排列,得到“作者-三項指標綜合數據 表”。筆者將在 T1、T2、T3 等三個數據表均出現的作者選擇 出來,形成如表 8 所示的研究人員列表,共 30 位作者。筆者 將這 30 位作者界定為“1998 至 2007 年段中國大陸地區教育 技術學領域最具科研績效的前 30 位研究人員”。


關于表 8,這里需要做一些說明:
(1) 列“T1”用于表示該作者是否在數據表 T1 出現,
1 表示出現,0 表示未出現;列“T2”用于表示該作者是否在 數據表 T2 出現,1 表示出現,0 表示未出現;列“T3”用于表 示該作者是否在數據表 T3 出現,1 表示出現,0 表示未出現。
(2)每位作者在“作者-論文分類匯總數據表”中的排 名在列“論文數量排名”中給出,在“作者-引文分類匯總數 據表”中的排名在列“被引總頻次排名”中給出。讀者可以 比較表 8 中的三個不同排名以了解不同評價指標的差異。
(3) “作者單位”根據每位作者最新發表的論文的署 名單位得來。
(4) 表 8 中,有兩位作者是例外,即張倩葦和胡小勇, 這兩位作者由于論文數量的關系未能在 T1 中出現,但是由于 這兩位作者的 h 指數較高,因此筆者仍然將這兩位作者納入 到“1998 至 2007 年段中國大陸地區教育技術學領域最具科研 績效的前 30 位研究人員”行列。
以表 8 為基礎,筆者對不同評價指標進行相關性分析, 以進一步了解不同評價指標之間的關系。筆者采用 SPSS 15.0 For Windows 的 Pearson Correlation 相關性計算方法對四項評 價指標即 h 指數、“總被引頻次”、“論文數量”、“篇均 被引頻次”兩兩之間的相關性進行計算,其結果如表 9 所示。

從表 9 中我們可以看出,h 指數與其他三項指標均呈顯 著的正相關,且與“總被引頻次”的相關性系數非常高,達 到了 0.906;論文數量與篇均被引頻次的相關性系數為 0.038, 相關性不顯著。以上相關性分析表明,利用 h 指數來評價研究人員的科研績效,一定程度上可以反映“總被引頻次”、“論文數量”、“篇均被引頻次”三項指標的評價結果,h 指 數可以說是一項更為綜合的評價指標。當然,在使用 h 指數作 為評價指標時,仍然需要結合其他評價指標來對具有相同 h 指 數的作者進行內部排名。
為進一步了解大陸地區教育技術學領域科研機構的科研績 效情況,筆者對表 8 以“作者單位”作為分類字段,以“第一 作者”計數作為匯總方式進行分類匯總,得到如表 10 所示結果:

如表 10 所示,上述 30 位作者中,有 7 位來自北京師范大學,4 位來自華南師范大學,占總人數的 36.7%,說明這兩 所學校在教育技術學領域有著較強的學術實力。
三 研究結論
本研究采用 h 指數作為主要評價指標,并輔之以 w 指數,對中國大陸地區教育技術學領域 1998 年至 2007 年 10 年間研 究人員的科研績效進行了評價,評價得出了“1998 至 2007 年 段中國大陸地區教育技術學領域最具科研績效的前 30 位研究 人員”,這是對路秋麗、田雨等人(2008)評價得出的“中 國教育技術學領域的關鍵學者”的一次較大調整,有助于對 當前階段中國教育技術學領域的研究人員狀況有一個更為客 觀的認識;并與其他評價指標進行了相關性分析,分析結果 表明利用 h 指數來評價研究人員的科研績效,一定程度上可 以反映“總被引頻次”、“論文數量”、“篇均被引頻次” 三項指標的評價結果,可以說是一項更為綜合的評價指標, 一定程度上改進了路秋麗、田雨等人(2008)采用的科研績 效評價方法。當然,本研究所作出的科研績效評價結果并不 能完全真實的反映當前中國大陸地區教育技術學領域研究人 員科研績效,究竟此次得出的“1998 至 2007 年段中國大陸地 區教育技術學領域最具科研績效的前 30 位研究人員”是否客 觀還需交由教育技術學領域的廣大研究人員一起來評議。
本研究所采用的論文和引文數據的持續時間只有 10 年, 這對于一個研究人員的科研生崖和研究人員 h 指數的計算都 顯得過于短暫,這可以說是本研究的主要缺陷。由于國內的 期刊數據庫起步較晚,許多期刊雖然創刊較早,但是期刊數 據庫中的數據卻只存儲了近十幾年的數據,而不是全部的數 據。以《中國電化教育》和《電化教育研究》為例,兩個雜 志創刊于 20 世紀 80 年代初,中國知網(CNKI)期刊數據庫 中所收錄的這兩個期刊的論文卻是從 1994 年開始的。因此, 要利用 h 指數對中國教育技術學領域的某一代研究人員作出 更為全面的評價,還需等待 15 到 20 年時間。
參考文獻
[1] J.E. Hirsch.衡量科學家個人成就的一個量化指標[J].科學觀 察,2006,(1):2-7.
[2] Henk F. Moed,劉俊婉,金碧輝. h 指數構建有創意 用于評價 要慎重[J].科學觀察,2006,(1):15.
[3] Qiang Wu. The w-index: A significant improvement of the h-index[DB/OL].
[4]路秋麗,田雨,魏順平.教育技術領域關鍵學者研究[J].電化教 育研究,2008,(8):26-31.
[5] 南京大學中國社會科學研究評價中心.CSSCI 來源期刊(2008-2009)學科分類[DB/OL].
[7] 中 國知網 (CNKI). 中 國期刊 全文 數據庫 [DB/OL].
[8]中國知網(CNKI).中國引文數據庫 [DB/OL].
[9]張偉遠.中、英、美三國開放與遠程教育研究論文的比較 研究[J].開放教育研究,1999,(Z1):59-62.