




摘" "要:國家一流大學和一流學科建設背景下,客觀、科學的學科評價方法對于學科建設的引導至關重要,但目前主流學術評價以英文為導向,中文學術評價則仍以期刊為單位,不能反應學科進展的基本狀況,因此研究中文學術論文對學科的貢獻值得重點關注。為明確適宜用于學科評價的文獻發表年限范圍,在探討文獻老化現象及其測度指標與實證研究現狀的基礎上,文章以6608種中文學術期刊為對象,采集并整理了2003年-2023年的3899萬篇中文學術論文,及其引用這些論文的3507萬篇引文的大樣本數據,結合文獻情報相關理論和數據分析,提出學科活躍期的概念,依據概念計算出國務院學位辦公布的所有一級學科的活躍期。實證結果表明,學科活躍期的概念和計算方法具有科學性和合理性,與預判的大致學期活躍期規律基本一致,符合最初的科學假設,不僅僅首次用大樣本數據計算出各個學科的活躍期,同時也可以在人才評判、趨勢研判、學科績效評價中,根據不同學科的活躍期選取科學的時間范圍等研究提供重要理論和事實依據。
關鍵詞:學科評價;學科活躍期;大數據;知識老化
中圖分類號:G203" "文獻標識碼:A" "DOI:10.11968/tsyqb.1003-6938.2024072
Theoretical and Empirical Research on the Active Period of Disciplines Based on Large Sample Data
Abstract In the context of building first-class universities and disciplines, objective and scientific disciplinary evaluation methods are crucial for guiding discipline development. However, current mainstream academic evaluations are English-oriented, while Chinese academic evaluations still focus on journals, which fail to reflect the basic status of discipline progress. Therefore, research on the contribution of Chinese academic papers to disciplines deserves particular attention. To determine the appropriate time range for literature publication in disciplinary evaluation, this article, based on the phenomenon of literature aging and the current state of empirical research and measurement indicators, uses a sample of 6,608 Chinese academic journals. It collects and organizes 38.99 million Chinese academic papers published between 2003 and 2023, as well as 35.07 million citations of these papers, forming a large dataset. Combining theories of bibliometrics and data analysis, the article proposes the concept of the \"active period\" of a discipline and calculates the active period for all first-level disciplines listed by the State Council's Academic Degrees Committee. Empirical results show that the concept and calculation method of the discipline's active period are scientific and reasonable, aligning closely with the expected pattern of discipline activity, and confirming the initial scientific hypothesis. This study not only calculates the active periods for various disciplines using large sample data for the first time, but also provides important theoretical and empirical evidence for research in areas such as talent evaluation, trend analysis, and disciplinary performance assessment, allowing for the selection of appropriate time frames based on the active periods of different disciplines.
Key words subject evaluation; period of subject activity; big data; knowledge aging
2015年,國務院印發《統籌推進世界一流大學和一流學科建設總體方案》[1],2017年,教育部、財政部、國家發改委印發《統籌推進世界一流大學和一流學科建設實施辦法(暫行)》[2],一流大學和一流學科建設成為重要的國家戰略。實施辦法提出“一流學科建設高校應具有居于國內前列或國際前沿的高水平學科,學科水平在有影響力的第三方評價中進入前列”,由此可見科學的第三方學科水平的評價體系至關重要。目前我國學科水平評價基本上都依賴科睿唯安公司的基本科學指標數據庫(Essential Science Indicators,ESI),社會將某個學科進入ESI前百分之一、千分之一、萬分之一的學科定義為達到世界先進水平、世界一流水平和世界頂尖水平[3]。ESI選取Web of Science核心合集中過去11年學術論文為數據源,以被引頻次為主要指標項[4],能較好地反映近期學術研究動態,因此受到普遍認可和采用。
由上述定義有兩點可以明確:一是ESI的數據源僅限于被SCIE和SSCI索引的期刊;二是數據源的時間范圍統一界定為過去11年,沒有體現學科差異。這會帶來兩方面的問題或疑問:一是發表于國內期刊的論文完全不被納入評價體系,對學科水平的貢獻度為0,不符合實際情況;二是不同學科的知識老化的年限不同,這是客觀存在的自然規律,盡管還沒有能將其量化,但將時間統一確定為過去11年不能很好地反映不同學科的真實動態。因此本研究提出中文學術論文的學科活躍期理論,盡可能用大樣本數據進行計算,得出所有一級學科的學科活躍期,量化和表征不同學科知識老化速度的差異。
1" "研究現狀與相關文獻情報分析指標評價
1.1" "文獻老化現象及其測度指標
文獻老化是科學的自然規律,反映不同學科的知識淘汰規律。最初主要用于圖書館行業的館藏管理,因數據獲取和信息技術受限,主要側重于理論和模型的構建。本研究提出假設,即與其關注文獻老化,不如關注其尚未老化的時間,也就是學科活躍期,再通過大數據分析和計算出具體的時間,就可以應用于學科建設規劃、學者論文引用、人才引進等場景,并重點在學科評估與評價領域發揮作用。
文獻老化最早由Gosnell在《Obsolescence of Books in College Libraries》一文中提出,指隨著時間的推移,文獻資料逐漸變得不再有用或不再有效的過程[5]。在文獻老化現象的測度指標中,最經典的指標是文獻半衰期,包括歷時半衰期和共時半衰期。歷時半衰期最早由Bernal提出,類比物理學中放射性物質的衰變現象,即一半的原子解體所需的時間,文獻的歷時半衰期指已發表的文獻中有一半已不被利用的時間[6];共時半衰期最早由Burton和Kebler提出,指現時尚在利用的全部文獻中較新的一半是在多長時間內發表的[7]。在實際計算過程中,二者常以發生引用來代表被利用??梢?,歷時半衰期更能直觀反映文獻的老化現象,但其涉及時間跨度大,嚴格來講需要窮盡文獻的“一生”,給統計帶來困難,而共時半衰期從文獻現時利用的角度入手,間接反映文獻老化現象,具有較強的可操作性。
1.2" " 不同學科文獻老化規律的實證研究
以文獻老化及其測度指標為基礎,許多學者研究了不同學科文獻老化的規律。如潘靜采用共時法計算了化學學科的半衰期,以2010年-2012年的數據為例,其引用半衰期和被引半衰期分別為6.36年和6.28年[8];童國平采用共時法分析了中國社會學學科的引用半衰期和被引半衰期,結果表明引用半衰期和被引半衰期存在差異,分別為6.5年和4.5年[9];黃利平采用歷時法分析了圖書情報和管理學的文獻老化規律,其歷時半衰期分別為3年和3年-5年[10];俞培果以《數學學報》《物理學報》《化學學報》等期刊為代表,對歷時半衰期和共時半衰期進行比較,認為歷時半衰期和共時半衰期存在差異[11]。文獻調查發現,在不同學科文獻老化規律的實證研究中,多數學者基于共時法引出了引用半衰期和被引半衰期概念進行研究,少數學者采用歷時法進行研究或對歷時法和共時法進行對比研究。研究結果表明,不同學科文獻的老化速度存在差異,引用半衰期和被引半衰期存在差異,歷時半衰期和共時半衰期也存在差異。
1.3" " 關于學術活躍期的研究
學科活躍期和文獻老化是兩個相關聯但不同的概念,學科活躍期是指一個學科領域內研究活動頻繁、新知識產生迅速的時期,而文獻老化則是指隨著時間的推移,早期文獻對當前研究的貢獻逐漸降低的現象。一般而言,在學科活躍期,文獻產出量增加,但因為新的研究成果快速積累,可能導致某些舊知識被淘汰,從而使得文獻老化速度加快。
目前國內已有不少學者針對學術活躍期或作者活躍期開展研究。如陳剛通過對中國廣告研究的發展脈絡進行梳理,認為伴隨著社會和行業的變化,中國廣告研究將進入新的學術活躍期[12]。森維哈和嚴煒煒以丁香園為例分析學術型社區協同交互生命周期,研究發現相較于冷門版塊,熱門版塊的協同交互行為活躍期和衰退期更長[13]。魏緒秋和郭鳳嬌基于動態Altmetrics數據研究學術論文持續關注度,結果顯示,對于大部分論文而言其社交活躍期相對較早,大部分學術論文階段持續性較短[14];隨后魏緒秋等采集以Altmetrics為主題的學術論文歷年的引證文獻數據(直接引證數據)和二級引證文獻數據(間接引證數據),并分別從生命起始、活躍期、持續性三個方面對學術論文的學術生命力進行探討,表明Altmetrics學術論文引證文獻和二級引證文獻的生命力活躍期有所差異,在量化學術論文生命力活躍期時,以學術論文引證文獻測度值最佳,學術論文的生命力老化隨時間具有變化性[15];魏緒秋還以2020年Top100論文為例借鑒“最大引文年限”、學科擴散廣度等指標,測度了學術知識在News上的擴散效果、擴散峰值與論文在News上活躍期即時性的關系等[16]。閆瀟等以同篇文獻參與署名作者的文獻貢獻規模及研究團隊為參量進行統計,分析中國慣性/地磁組合導航方法學術文獻核心科研團隊學術活躍期[17]。侯志軍和田家瑋基于2016年-2020年12種教育學期刊發表的10294篇高等教育研究文獻數據分析中國高等教育研究活躍作者的群體特征[18]。
綜上,針對文獻老化的研究還存在以下問題:第一,已有研究多以文獻老化的定義出發,研究文獻老化規律。盡管現有研究針對不同學科文獻老化規律開展實證研究,并初步達成共識認為歷時半衰期較共時半衰期更能客觀反映文獻老化的規律,但歷時半衰期嚴格講需要窮盡文獻的“一生”統計上存在一定困難。第二,在共時法在共時法基礎上引出的引用半衰期實際上反映的是某學科文獻保持活躍的時間周期,不適合用于學科文獻老化規律的研究。第三,文獻活躍期存在關聯。一般而言,在活躍期文獻產量增加,有可能導致文獻老化速度加快;然而目前較少有研究討論文獻活躍期與文獻老化的關系,并開展學術或學科活躍期的研究。
2" "學科活躍期的定義與價值分析
在以上文獻綜述的理論基礎上可看出,研究知識老化規律是開展學科評價的必要條件,是選定參與學科評價的文獻范圍的重要依據。本研究認為已經老化的知識對學科的貢獻度較低,應該將其排除在計量范圍之外,因此提出活躍文獻和學科活躍期的概念,結合物理學半衰期定義,將學科活躍期概念確定為:各學科文獻發表后被引頻次達到峰值后又降低至峰值一半的歷時年限。
2.1nbsp; " 學科活躍期定義的數據闡釋
為更好地理解學科活躍期的定義及驗證學科活躍期定義的合理性,結合事實數據作如下簡要分析和說明。以6608種中文學術期刊為對象,選取2003年的文獻進行研究,將文獻按中圖分類號映射到《研究生教育學科專業目錄(2022年)》的99個一級學科(除軍事與交叉學科外),計算其被2003年-2023年文獻引用的頻次,觀測其在這一期間的年度被引用趨勢。國家新聞出版廣電總局(現國家新聞出版署)分別于2014年和2017年公布了兩批認定的學術期刊,共計6430種,因期刊隨年代變化可能存在變更,本研究將現存已認定的學術期刊,與北大核心、CSSCI、CSCD等核心數據庫收錄的期刊進行了合并、去重處理,最終為6608種,因此完全稱得上大樣本數據分析。
以公共管理學學科2003年的論文為例,展示其被引頻次隨時間的變化趨勢(見圖1)??梢钥吹狡涑尸F明顯的先升高后降低趨勢,并且在第3年達到被引峰值,這一趨勢實際上反映的即是文獻發表后的活躍度趨勢。按照上述學科活躍期的定義,公共管理學學科2003年發表的文獻活躍期即為被引頻次達到峰值16114次后又降低至8057次的年限,其活躍期約為12.5年。進一步研究發現,其他一級學科文獻也呈現同樣的趨勢,但是峰值年限存在差異,表明學科活躍期的定義對各學科具有普適性。
2.2" " 學科活躍期的計算方法
根據學科活躍期的定義,計算學科活躍期數值的關鍵是確定被引頻次峰值及其降低至峰值一半的年代。仍以6608種中文學術期刊為對象,將2003年-2023年的文獻數據按中圖分類號映射到《研究生教育學科專業目錄(2022年)》的99個一級學科(除軍事與交叉學科外),再以公共管理學為例,計算被引頻次及活躍期。根據2003年-2023年各年度公共管理學發表文獻的被引頻次事實數據,可以找到2003年-2017年各年度被引頻次降低至峰值一半的年代,2017年-2023年各年度的事實數據由于發表年限不夠長還不足以支持找到被引頻次峰值一半的年代。因此取2003年-2017年各年度活躍期的平均值作為1204公共管理學學科的活躍期(見表1),其值為9.5年,為了學科水平評價時文獻范圍獲取的便利及文獻寧多勿少的原則,取整數值為10年。
同時通過數據觀察到,隨著時間推移,學科活躍期在逐漸變短,這是大多數學科的現狀。分析其原因,主要受學科本身發展趨于穩定、跨學科交流、科技全球化,以及數字化、人工智能等因素進步的影響。尤其是近年來,學科發展呈現顯著跨學科融合特征,如公共管理學逐漸滲透到政治學、經濟學和社會學等學科領域[19]。且信息技術促進方法、工具和分析能力不斷演進,加速了知識更新速度,對學科活躍周期產生影響。
用公式對學科活躍期的計算步驟和方法作如下表達:
(1)各年度的學科活躍期Nx的確定:當Nx滿足≤lt;,其中表示當年的文獻被引頻次的峰值,表示當年的文獻在Nx年的被引頻次,表示當年的文獻在Nx-1年的被引頻次,則該年度學科活躍期即為Nx;
(2)若干年學科活躍期均值p的計算:p=,其中Nx-n表示事實數據可支持找到最近年份的學科活躍期;
(3)學科活躍期值P的確定:P=p(當p為整數時)或P=p+1(p不為整數時,P取整數部分)。
上述以事實數據為依據的學科活躍期的計算方法具有結果客觀性強的優勢,但為找到被引頻次峰值及其降低至一半的年份,需要較長的觀測期,對文獻的數據質量和數量均有較高要求。
2.3" " 學科活躍期的價值分析
學科活躍期定義了各學科文獻發表后活躍的年限,體現了學科間的差異,其直接價值主要體現在學科評價方面,其間接價值主要體現在促進學科和教育發展方面。
學科活躍期是進行客觀學科評價的基礎。在評價過程中,文獻范圍的選取是其中的重要課題,因為各學科選取范圍應具有差異性,學科活躍期正是反映學科差異性的客觀標準,對于學科評價至關重要,將直接影響學科評價結果的有效性。
學科活躍期為學術研究提供參考。學科活躍期實際上是通過各學科文獻活躍的年限來反映學科知識的更新速度,學科活躍期短代表該學科文獻老化快即在較短時間內就失去了價值,學科活躍期長代表該學科文獻老化速度慢即在較長時間都還具有參考價值。因此,通過了解學科活躍期,學者可以基本判斷學科知識的更新速度,從而為學術研究方向的選取提供參考,學科活躍期短的學科可能更加注重研究的創新性和前沿性,學科活躍期長的學科可能更注重在已有理論和方法基礎上開展深入或廣泛研究。
學科活躍期促進學科和教育發展。學科活躍期在客觀的學科評價中的作用,間接促進了學科和教育的發展。依托學科活躍期,可以讓學科評價更加完善和公正,學科評價結果為各學科發展提供參考,其有效性對各學科和教育發展有著重要指引價值。
3" "全部學科活躍期的計算與結果討論
在學科活躍期的定義與計算方法基礎上,進一步擴大數據采集和清理范圍,采集6608種學術期刊2003年-2023年發表的全部文獻及其被引頻次數據,共有3899萬篇中文學術論文,以及引用這些論文的3507萬篇引文,并將全部文獻按中圖分類號映射到《研究生教育學科專業目錄(2022年)》的99個一級學科(除軍事與交叉學科外),從而計算、發布和分析全部學科的活躍期值情況。
3.1" " 數據的獲取與清理
(1)期刊范圍遴選。從維普中文期刊數據庫中獲取其影響因子等評價指標,經過人工核查,最終選擇了6608種期刊作為評價來源期刊。
(2)文獻數據獲取。以6608種期刊作為來源期刊,從維普中文期刊數據庫中提取來源期刊在2003年-2023年的所有文獻,形成文獻數據集。
(3)文獻數據的清理及標識。首先根據文獻數據集中每篇文章的參考文獻相關信息,分析計算并標識出文獻數據集內部的引用關系,最終得到每一篇文獻的施引文獻清單。再建立中圖分類號與《研究生教育學科專業目錄(2022年)》的99個一級學科(除軍事與交叉學科外)的映射關系,根據文獻數據集中每篇文章的中圖分類號標識,對每篇文章標識其教育部學科分類。
3.2" " 全部學科活躍期的計算結果
對99個一級學科的活躍期值計算(見表2)可知,考古學在該文獻觀測范圍內還不能找到被引頻次達到峰值后又降至峰值一半的年份,其學科活躍期肯定大于21年,但其具體數值需要進一步延長年限進行觀測和計算得出。
3.3" " 結果討論
從上述全部學科活躍期的計算及其結果可以總結出如下基本結論:
(1)學科活躍期的計算需要較長的時間觀測區間。在所采集的2003年-2023年的文獻觀測范圍內,考古學還不足以找到被引頻次達到峰值后又降至峰值一半的年份,表明上述以事實數據為基礎來計算全部學科活躍期需要較長的時間觀測區間。
(2)大數據在評價分析中具有重要價值。全部學科活躍期的計算是學科評價的重要組成部分,在計算過程中需要開展大量的數據采集與清理工作,體現了大數據在評價分析中的重要價值。
(3)各學科活躍期存在事實差異。從表2的結果可以看到各學科活躍期的確存在事實差異?;钴S期最短的學科是“網絡空間安全”和“信息資源管理”兩個學科,活躍期值都是7年;活躍期最長的是“考古學”,其活躍期>21年,第二是“中國史”19年,第三是“世界史”17年。
(4)計算得到的學科活躍期客觀反映了學科文獻的老化規律。從計算結果中可以看到,考古學、中國史等傳統學科,其活躍期很長,即這些學科的文獻發表后在很長一段時期內都具有較高的價值。相反,如網絡空間安全、信息資源管理等與新技術相關的學科,其活躍期較短,即這些學科的文獻老化和更新的速度快,發表后會在較短的時間內失去價值。這一結果符合科學界基本認知,表明活躍期的計算結果符合客觀規律。
3.4" " 信息資源管理學的觸動
作為學科活躍期最短同時也意味著最活躍的學科之一,僅有7年活躍期的信息資源管理學值得反思。按理說,圖書館學、檔案館學等二級學科本來相對傳統,但知識也在快速淘汰,分析其正面價值在于,信息資源管理學創新與變革力度大,充分與信息技術、數據管理、信息系統等研究領域關聯,在以國家戰略為導向和數智技術驅動的新環境下[20],技術不斷創新與快速迭代,推動信息管理系統、數據庫管理技術和信息存儲等領域向云計算、分布式存儲和智能化、智慧化轉型。負面的擔憂在于,在高度活躍的同時,信息資源管理學是否忽視學科基礎構建和傳統價值的“守正”,是否過度依賴信息技術、概念創新而導致學科定位模糊,導致學科在理論深度和歷史積累方面不足。
3.5" " 學科活躍期的應用場景
以事實數據為依據可以計算出各學科的活躍期,活躍期客觀反映了尚有價值或對學科有貢獻的文獻范圍??梢詰糜谌瞬旁u判、學科趨勢研判和學科評價等不同場景。
在人才評判方面,學術成果是人才評判的重要方面,不同年齡的學者學術成果的數量必然存在差異,不能用成果的累積數量作為人才評判和引進依據。學科活躍期可以為不同年限產出的學術成果權重提供參考,以便形成更科學的人才評判體系。在學科趨勢研判方面,學科活躍期反映了不同學科文獻的老化速度,在學科趨勢研判中,可參考學術活躍期的長短,判斷學科發展的活躍情況。一般來說,學科活躍期短的學科,相對來講學科發展也更活躍。在學科評價方面,學科活躍期應用于學科評價,是本研究提出的初衷,也是學科活躍期最直接和最具價值的應用方面,解決了學科評價中所選取的文獻范圍不體現學科差異的不足。
4" "結語
用大數據探究發現學科知識的更新與老化,不僅僅是科學自然規律,也是圖書館開展學術評價的重要理論基礎。目前少有針對中文學術論文的學科貢獻度研究,尤其是針對學科評價的文獻發表年限選擇方面的研究較少,且多以基于文獻老化規律針對某一具體學科開展文獻引用半衰期或被引半衰期的實證研究。本研究提出學科活躍期的概念并開展實證研究,計算出99個一級學科的活躍期,該計算結果符合基本認知,具有科學性和合理性。基于不同學科的活躍期,未來可以更加有效地進行科學研究、人才評估、學科趨勢研判等學術活動,形成更為科學、合理和嚴謹的學科評價與分析體系。
參考文獻:
[1]" 國務院關于印發統籌推進世界一流大學和一流學科建設總體方案的通知[EB/OL].[2024-11-05].https://www.gov.cn/zhengce/content/2015-11/05/content_10269.htm.
[2]" 教育部 財政部 國家發展改革委關于印發《統籌推進世界一流大學和一流學科建設實施辦法(暫行)》的通知[EB/OL].[2024-10-25].http://www.moe.gov.cn/srcsite/A22/moe_843/ 201701/t20170125_295701.html.
[3]" 梁木生,王秉中.中國高等院校進入ESI前1‰學科分析研究[J].圖書館工作與研究,2016(5):71-77.
[4]" Scope and Coverage[EB/OL].[2024-10-25].http://esi.help.clarivate.com/Content/ scope-coverage.htm.
[5]" Gosnell C F.Obsolescence of books in college libraries[J].College amp; Research Libraries,1944(2):115-125.
[6]" Bernal J D.The transmission of scientific information: A user’s analysis[C].Proceedings of the International Conference on Scientific Information,Washington DC,1958:16-21.
[7]" Burton R E, Kebler R W.The “half-life” of some scientific and technical literatures[J].Journal of the Association for Information Science and Technology,1960,11(1):18-22.
[8]" 潘靜.基于文獻計量學的我國化學學科半衰期分析[J].圖書與情報,2014(4):61-66.
[9]" 童國平.基于文獻計量學的中國社會學學科半衰期分析[J].西南民族大學學報(人文社會科學版),2014,35(11):233-237.
[10]" 黃利平.基于引文分析的文獻老化研究——以圖書情報和管理學為例[J].情報雜志,2011,30(10):30-35.
[11]" 俞培果.兩種文獻老化測度方法的比較研究[J].情報業務研究,1993,10(4):199-205.
[12]" 陳剛.推動中國廣告研究的第四次學術活躍期[J].廣告大觀(理論版),2014(4):1.
[13]" 森維哈,嚴煒煒.學術型社區協同交互生命周期分析——以丁香園為例[J].情報科學,2018,36(6):79-83.
[14]" 魏緒秋,郭鳳嬌.基于動態Altmetrics數據的學術論文持續關注度研究[J].情報理論與實踐,2019,42(5):128-133.
[15]" 魏緒秋,李長玲,郭鳳嬌,等.基于引證數據的單篇論文學術生命力研究[J].情報雜志,2020,39(1):154-161.
[16]" 魏緒秋.學術知識在News上的擴散效果研究——以2020年Top100論文為例[J].情報探索,2022(12):32-38.
[17]" 閆瀟,張家培,王漢熙.中國“慣性/地磁組合導航方法”學術研究整體態勢[J].武漢理工大學學報,2020,42(12):96-108.
[18]" 侯志軍,田家瑋.中國高等教育研究活躍作者的群體特征分析[J].復旦教育論壇,2022,20(3):76-83.
[19]" 婁成武.新時期中國公共管理學科的特點與發展趨勢[J].公共管理與政策評論,2021,10(4):12-15.
[20]" 曹樹金,曹茹燁.基于研究主題和引文分析的信息資源管理學科發展探究[J].信息資源管理學報,2023,13(2):12-29.
作者簡介:楊新涯,重慶大學人文社會科學高等研究院研究館員,博士生導師;田園,重慶大學人文社會科學高等研究院博士研究生;卓應忠,重慶維普智圖數據科技有限公司總經理;周松,重慶維普智圖數據科技有限公司數據總監;文佩丹,重慶大學圖書館館員;涂佳琪,重慶大學圖書館副研究館員;胡佳,重慶大學人文社會科學高等研究院副研究館員;譚乃豪,重慶大學人文社會科學高等研究院碩士研究生。