齊東峰
(中國國家圖書館 北京 100081)
學術期刊作為報道、傳播科研成果的重要載體,自十七世紀中葉第一種學術期刊《學者雜志》(Journal des Scavans)問世以來,就成為了文獻信息資源的重要組成部分。學術期刊誕生初期,期刊的種類少、刊載的文章數量少,它所承載的文獻信息很容易獲取。然而,隨著社會的進步和科學技術的不斷發展,學術期刊的種類快速增長,其所刊載的文獻信息數量也隨之成倍增長。如今,社會的進步日新月異,全球每年出版的學術論文數以百萬計。據《烏利希全球連續出版物指南》(Ulrichsweb Global Serials Directory)統計,至2020年2月,全世界在發行中的(Active)學術期刊共20余萬種。另據國際科學技術和醫學出版商協會(International Association of Scientific,Technical and Medical Publishers,簡稱STM)統計,全球同行評議的英文學術期刊約33 100種,每年發表的論文多達300萬篇以上[1]。
學術期刊數量及其刊載文章從無到有、由少至多。對于學術期刊的使用者而言,面對逐漸增加且浩如煙海的學術文獻,如何更快速有效地獲取自己所需的信息?對于圖書館而言,如何在期刊數量龐大與資源建設經費有限的矛盾下合理配置資源?這些逐漸成為一種復雜的、艱深的問題,需要科學、系統地加以解決。因此,隨著圖書館學、情報學、文獻計量學的逐步發展,學者們基于對學術期刊的性質、特點、功能及人們利用文獻規律等諸多方面的研究,逐步發現并建立了適合學術期刊不同歷史發展階段的評價方法、體系和工具。
從1665年第一種學術期刊產生后,學術期刊很快在歐美各國成長起來,并表現出了強勁的影響力與生命力,至十九世紀末,其數量已有一萬種。雖然這一時期的學術期刊也已經細化到數學、物理、化學、生物、醫學、動物學、人類學、工程、地質學、考古學、語言學、經濟學、政治學等方方面面,但由于出版規模尚不算宏大,并且各種期刊分散在不同的國家,在當時能夠獲取相關的期刊信息已實屬不易,更無法談及對世界上的學術期刊進行系統性的評價。
20世紀初,社會的文明程度逐步提高,科學技術快速發展,尤其是自然科學領域,如數學、物理、化學、冶金、機械、交通運輸、采礦和電子電器等學科領域,科學研究的經費投入越來越高,科學發現和科研產出越來越多。全球的學術期刊品種數量,尤其在發達國家,呈現出螺旋上升的趨勢。19世紀中葉歐美各國的科技期刊僅有1 000余種,19世紀末時達10 000種,到20世紀中葉,該數字已猛增到35 000種[2]。學術期刊,不僅數量在不斷地發生著變化,涉及的學科領域也越來越廣,很多期刊的品質越來越高。與此同時,相同領域的不同學術期刊之間也出現了一定的質量或業界口碑的差距。
受此影響,文摘索引類期刊也不斷地變化。一方面,大量的文摘索引類刊物應運而生,截至20世紀六十年代,全球的文摘類期刊已到達了1 500多種[3]。另一方面,在許多學科領域,為了適應學術期刊刊載內容的精細化發展,文摘類期刊開始分輯出版,從每種出版一輯增至多輯,有的文摘期刊甚至出版幾十至上百輯。然而,即便文摘索引類期刊能夠隨著學術期刊出版的迅速發展而發展,但它們作為檢索工具已不能且不應該將世界上某一學科領域的所有論文文獻都收錄進來。說不能收錄全面,是因為進入20世紀后,發表在學術期刊中的學術成果開始呈幾何倍數增加,除歐美國家外,其他國家的學術期刊也逐步進入發展期,因此任何一種檢索工具都很難達到“大而全”或“小而全”的規模。說不應該收全,則是由于在學術期刊快速發展的階段,大多數期刊品質在逐步提升,但部分學術期刊因為在編輯出版的過程中存在著一定的問題,導致辦刊水平相對低下。因此,一些文摘索引類期刊檢索工具開始制定選擇來源期刊的標準,有選擇性地對學術期刊及其刊載論文進行收錄。這些檢索工具對編輯出版、論文評審制度、學術期刊刊載論文的質量、編委、是否采用同行評議等方面均有一定的要求,在某些學科領域甚至對期刊刊載論文自身的時效性和國際性也有一定的要求。因此,它們除具備文獻檢索、為學術期刊評價提供基礎數據的功能外,這種對學術期刊的篩選,也間接地起到了期刊評價的作用。
最初,文摘或索引等二次文獻期刊的產生,主要目的在于發現存世的學術期刊并讓更多的需求者獲取相關信息,并沒有特意針對哪些期刊更加重要、更具價值等方面的問題去收錄或編制文摘或索引。然而,一種文摘或索引期刊所收錄的文獻量畢竟是有限的,而隨著世界上學術期刊數量的不斷增多,它們逐漸無法全面地收錄本學科領域出現的所有期刊文獻,只能有選擇性地進行收錄。于是,二次文獻期刊以及后來的二次文獻數據庫只能根據學術期刊的定性與定量評價對其所收錄學科領域的期刊進行遴選,從而確定收錄刊源。正是基于全球學術期刊數量的急劇增長給文獻管理與利用帶來了越來越大的困難這樣一個前提,學者們才開始注重期刊文獻數量與質量的規律以及文獻科學管理的研究。學術期刊評價就是在這樣的社會背景下開始萌芽的。
2.2.1 謝潑德引文的啟示作用
談期刊文獻數量與質量規律的發現,必須從“引文”談起,因為后來的文獻計量相關發現與發明,均始自人們對引文的重視。所謂“引文”,即指引用文獻(citation)或參考文獻(Cited Reference),是專業的研究人員在形成自己的研究成果時引用或參考其他相關人員所撰寫的文獻資料[4]。19世紀下半葉,美國一位叫作弗蘭克·謝潑德(Frank Shepard)的法律出版商注意到了美國聯邦法院和州法院以及美國其他聯邦機構各種判例之間的關系,在判例和援引案例之間建立索引,使之形成援引和被援引的關系,并統一編制成一覽表,甚至標出判例是否已被修改、撤銷、推翻或加入新的限制條件。律師們將該一覽表黏貼在自己的卷宗上,可以快速了解某一判例是否仍然適合援引,非常方便。以至后來,律師們幾乎人人都有一本。1873年,謝潑德成立了謝潑德引文公司(Shepard's Citations Inc.),將該一覽表編制成法律判例的檢索工具出版。這就是著名的《謝潑德引文》(Shepard's Citations)。利用《謝潑德引文》對判例、法規或其他法律資料進行檢查、評價的過程,甚至被稱為“謝潑德法”(Shepardizing)。《科學引文索引》的創始人尤金·加菲爾德(Eugene Garfield)曾這樣評價《謝潑德引文》:“它用施引與被引的關系將判例和法律條文形成了一個關系網,很多法律訴訟因為在改引文中查到了相關判例而訴訟成功,這是其他檢索工具無法做到的。”[5]加菲爾德在回憶創建《科學引文索引》的歷史時也親口承認《謝潑德引文》是他創造《科學引文索引》的靈感來源和原始模型[6]。
2.2.2 文獻統計與引文分析的嘗試
19世紀末至20世紀初,文獻與情報研究人員在《普爾期刊文獻索引》與《謝潑德引文》的基礎上對文獻計量分析開始了嘗試性的工作。
1917年英國動物教授、文獻學家弗朗西斯·科爾(Francis J. Cole)與動物學家內莉·伊爾斯(Nellie B.Eales)在《科學進展》(Science Progress)雜志上發表了題為“比較解剖學的歷史,第一部分——文獻的統計分析”(The history of comparative anatomy: part I—a statistical analysis of the literature)的文章,首次利用文獻統計的方法對1543年至1860年之間歐洲各國學術期刊上發表的比較解剖學文獻進行了分析,既展示了不同時間段內比較解剖學的發展情況,又揭示了他們所統計的論文在不同國家的分布情況,并在文章中論述了對文獻進行統計分析的功能與作用[7]。
1922年,英國專利局圖書館學家愛德華·溫德姆·休姆(Edward Wyndham Hulme)以“有關現代文明發展的統計書目”(Statistical Bibliography in Relation to the Growth of Modern Civilization)為題在劍橋大學進行了兩次演講,提出了“統計書目”(Statistical bibliography)的說法[8]。休姆對叢書《國際科技文獻目錄》(International Catalogue of Scientific Literature)中收錄的期刊部分進行了統計分析,并根據分析結果列出了生理學、細菌學、血清學與生物學四個學科領域的學術期刊排序表[9]。休姆這一研究既是用文獻計量的方式闡明現代文明發展的新方法,也是初步利用文獻統計的方式進行期刊評價的一次嘗試。
1927年,格羅斯(P.L.K. Gross)與格羅斯(E.M.Gross)在《科學》(Science)雜志發表了一篇題為“大學圖書館與化學教育”(College Libraries and Chemical Education)的文章,通過對化學教育學術期刊的引文進行統計分析,將被引期刊按被引次數的多寡從高到低排序,列出了核心期刊表,從而為訂購化學教育領域的學術期刊提供了定量的決策依據[10]。格羅斯的這篇文章第一次提出了“引文分析”(Citation analysis)這一概念,認為文獻的被引頻次在一定程度上能夠反映文獻自身的價值,可稱得上是學術期刊評價與文獻計量學方面具有開創性意義的研究成果[11]。
20世紀三十年代至六十年代,研究者們在期刊文獻研究方面的一個顯著特點是開始注重理論研究。一些研究者在文獻統計與分析的基礎上,開始從典型到一般進行歸納,從局部到整體進行發掘,尋找文獻的規律,以期建立具有普遍指導意義的理論性結論[12]。一些從載文、引文與使用等角度對學術期刊進行評價的相關理論與定律因此相繼出現,如布拉德福定律、加菲爾德定律、普賴斯指數和特魯斯威爾定律等。
布拉德福定律、加菲爾德定律、普賴斯指數和特魯斯威爾定律分別從期刊的載文規律、引文規律、生命周期、使用規律四方面構成了期刊評價的理論基礎。布拉德福定律從期刊載文量的角度揭示了科學文獻的分散與集中,為圖書館核心期刊遴選提供了最基本的理論支持。加菲爾德定律從期刊論文與參考文獻之間引證關系的角度,為核心期刊遴選提供了重要的量化測度指標。普賴斯指數從期刊論文的科學價值生命周期的角度對于引文數據的量化提供了時效性的參考。特魯斯威爾定律則從用戶的角度出發,以文獻傳播與流通的數據作為量化準則,為學術期刊評價及圖書館期刊的續訂與撤訂提供了理論依據。
20世紀三十年代,布拉德福在提出文獻分散與集中定律的同時,第一次提出了學術期刊“核心區”(nucleus)的概念。最初的“核心區”主要反映特定學科領域相關論文分布的情況。20世紀六十年代,加菲爾德通過對期刊參考文獻的大量統計與分析,既證明了布拉德福定律的正確性,又從引文的角度發現了期刊文獻集中與分散的規律,在學術期刊“核心區”的基礎上提出了“所有學科的核心期刊加在一起不會超過1 000種,實際上,各學科最重要的核心期刊總和甚至少于500種”的論斷,并相繼推出了《科學引文索引》《社會科學引文索引》《藝術與人文引文索引》等具有期刊評價功能的工具。引文分析法的出現和引文工具的使用,使圖書情報領域對期刊評價的理解發生了根本性的變化,它不僅僅反映特定學科領域相關論文分布的規律,同時也反映了學術論文的學術價值以及相應期刊的質量。此時,期刊評價由對期刊論文數量的統計的評價轉變為對期刊文獻質量和學術價值的評價。1969年,特魯斯威爾又從文獻利用的角度驗證了80/20法則在文獻領域的適用性,也從文獻利用的角度為期刊的評價及核心期刊的遴選實踐增加了重要理論支撐。從此,學術期刊的評價開始向指標化、體系化的方向深入發展。
在學術期刊評價理論的基礎上,國內外文獻信息服務機構、各領域的科學家、出版機構等通過深入的研究與實踐活動逐漸形成了一些具有實操性的期刊評價工具。只是不同的期刊評價工具研究與運用主體,對期刊評價的目的略有不同。例如,圖書館等文獻信息收藏與服務機構通常以采選期刊和剔除老化期刊為目的;科學家們則試圖利用期刊評價工具找出其研究領域最具有影響力的期刊,發表學術成果;出版機構則希望通過期刊評價工具指導其編輯實踐與出版政策的制定等,從而提高其出版物的質量與影響力。基于此,國內外陸續誕生了由各種不同期刊評價工具研究主體研制的具有不同評價功能的學術期刊評價工具。國內外較為著名的期刊評價工具主要有“Web of Science的期刊收錄與評價體系”、“Scopus的期刊收錄與評價體系”、北京大學圖書館主持編制的《國外人文社會科學核心期刊總覽》和南京大學圖書館主持編制的《國外科學技術核心期刊總覽》等。
雖然目前國外學術期刊評價指標較為多樣化,但總體而言,主流評價指標與對應的評價方法和體系是以衡量引文量、被引頻次、學術期刊自身載文量、時間窗等數據及其相互之間的關系為基礎,并以此計算學術期刊的老化速度、權威程度、影響力等。隨著期刊出版、網絡技術、學術交流以及信息傳播等相關環境的不斷變化與發展,未來學術期刊評價的指標與方法也將更加多元化、更加公眾化、更加注重用戶的體驗與評價、更加注重評價的深度與廣度。
雖然布拉德福定律、加菲爾德定律、普賴斯指數和特魯斯威爾定律分別從期刊的載文規律、引文規律、生命周期、使用規律四方面構成了期刊評價的理論基礎,但由于加菲爾德發現的引文規律與分析方法逐漸形成了成熟的理論體系并被廣泛地接受,因此傳統的期刊評價在20世紀下半葉至21世紀初則更多地圍繞著學術期刊載文的引文關系展開,影響因子、五年影響因子、即年指標等學術期刊計量指標一直在學術期刊評價活動中發揮著重要的作用,甚至Web of Science的期刊收錄與評價體系一直以來也被視作學術期刊評價的核心工具。即便在21世紀初,愛思唯爾推出了Scopus的期刊收錄與評價體系,谷歌推出了谷歌學術指標(Google Scholar Metrics),其平均理論也沒有跳出引文規律與引文分析法的窠臼。無論是Scopus平臺使用的引用分數、SCImago期刊排名指數、篇均來源期刊標準影響指標、h指數,還是谷歌學術指標所倚重的h5指數,均建立在了引文分析法的基礎之上。然而,基于引文分析的學術期刊評價雖然有文獻檢索、發現研究前沿、預測研究趨勢等作用,但在網絡信息如此發達的時代,它的局限性與缺陷已經日益凸顯。一方面,學術成果從發表到被引用的周期較長導致無法即時反映影響力[13];另一方面,在學術社交網絡如此發達的今天,在線科研交流的周期更短、評審制度更加自由、交流單元逐漸細化到了科研工作者個人或科研機構,學術成果的發布形式更具多樣化,許多學術成果的貢獻者與使用者通過不同的社交媒體對學術期刊作出了重要的評價,這些評價不僅彌補了傳統引文分析方法重現象輕質量的缺陷,同時也從用戶的角度出發開展學術期刊評價,使學術期刊的評價更具真實性與全面性。
近年來,基于新興媒體的學術期刊評價模型逐漸進入學術期刊評價領域。它們對學術期刊的網絡使用情況、被獲取情況、被提及情況、社交媒體的引用和評價情況進行數據挖掘和分析,形成了重要的評價方法,這就是所謂的“替代計量學”(Altmetrics)的方法。20世紀末,隨著信息網絡時代的到來,學術期刊評價的計量指標研究對象與范圍已不再囿于傳統的計量指標,逐步擴展到網絡領域。早在1997年,丹麥學者阿曼德(T. C. Almind)與英格文森(P.Ingwersen)率先提出“網絡計量學”(Webmetrics)這一術語,認為可以運用信息計量學的方法手段把網絡頁面看作傳統的引文,并結合計量學方法、計算機技術及網絡技術來計量分析網絡信息的規律[14]。2009年,學者卡內倫(C. Neylon)和吳(Wu Shirley)提出了“單篇論文評價計量”(Article-Level Metrics)的概念,認為通過研究科研人員收藏論文的相關數據測度單篇論文的影響力更有價值[15]。2010年,在網絡計量和單篇論文評價計量的基礎上,美國信息學教授杰森·普里姆(Jason Priem)與布萊德利·黑明格(Bradley M. Hemminger)提出了“科學計量2.0”(Scientometrics 2.0)假說,希望利用Web2.0環境下的社交媒體、文獻管理工具、開放獲取平臺等不同渠道產生的指標數據為學術論文即時全面的評價提供依據。同年,普里姆在推特(Twitter)上提出了“替代計量學”(Altmetrics)這一術語,并聯合塔拉博雷利(D. Taraborelli)等學者在網站上發表“替代計量學”宣言。2011年,“替代計量學”研討會首次召開,學術期刊評價相關人士紛紛參與會議,從不同方面探討了替代計量學的內涵、理論及挑戰等問題,引發了替代計量學研究熱潮。受此影響,Altmetric.com、ImpactStory、PlumX Metrics、PLoS ALMs等替代計量學相關工具也不斷涌現。Altmetric.com是麥克米倫出版集團旗下數字科學(Digital Science)公司開發的產品,主要通過追蹤學術內容的在線所受關注的狀態,提供學術期刊論文在社交媒體、文獻管理工具等網絡平臺上的被提及或關注的相關數據[16]。ImpactStory是由普里姆與希瑟·皮沃瓦(Heather Piwowar)聯合開發,通過收集和歸并評價對象的統計數據,如保存、引用、推薦、討論等,并據此生成報告,其主要評價對象包括論文、數據集、軟件及演示文稿等[17]。PlumX Metrics由安德拉·米卡雷克(Andrea Michalek)與邁克·布斯曼(Mike Buschman)創建,是整合傳統引用指標與替代計量指標的評價工具。它將傳統引用量和替代計量數據整合在同一界面上,形成學術成果影響力鳥瞰圖,旨在為學術成果提供更為全面的影響力評價。其評價對象非常廣泛,包括論文、數據集、報告、圖書及其章節、網絡課程、期刊、會議論文、網頁、臨床試驗、政府文件、手稿、專利等[18]。PLoS ALMs全稱為“PLoS Article-Level Metrics”,是由著名的高質量開放獲取期刊出版者PLoS與社會科學領域的預印本論文開放獲取在線存儲機構SSRN所提供的替代計量指標形成的評價工具,能夠追蹤PLoS出版的所有學術論文影響力的相關信息,包括每一篇論文的下載量以及該論文在社會媒體和博客上被提及、被評論、標注、評級等相關數據[19]。
針對新興媒體的相關數據,不同替代計量學工具都擁有著許多相同的計量指標。從替代計量的數據來源看,替代計量指標主要包括博客替代計量指標(Blogs altmetrics)、推特替代計量指標(Twitter altmetrics)、新聞替代計量指標(News altmetrics)、政策文件替代計量指標(Policy document altmetrics)、臉書替代計量指標(Facebook altmetrics)、視頻替代計量指標(Video altmetrics)、同行評議替代計量指標(Peer review altmetrics)、問答平臺替代計量指標(Q&A altmetrics)等。從網絡活動與交互的類型上看,替代計量指標還可以分為閱讀替代計量指標(Readership altmetrics)、下載替代計量指標(Download altmetrics)、收藏替代計量指標(Favorite altmetrics)、分享替代計量指標(Share altmetrics)、提及替代計量指標(Mention altmetrics)、評論替代計量指標(Comment altmetrics)、再利用替代計量指標(Reuse altmetrics)等[20]。
當然,相較于傳統的學術期刊評價指標,利用新興媒體數據形成的學術期刊替代計量評價指標和評價工具是全新的學術交流評價體系。這雖然是學術成果影響力的總和評價,但由于數據源的查詢方式不同、更新頻率不同、收集方式不同等因素,仍缺乏統一遵循的最佳實踐標準,仍有待進一步規范與完善。
學術期刊的評價總是一種相對的評價,是在特定的時間,利用特定的指標與評價體系,在某些特定的條件下進行的,因此這種評價只能是一種特定歷史階段的評價,存在缺陷是在所難免的[21]。例如,影響因子這一指標就會受到情況發行頻率、刊載論文容量、學科領域、時間窗口界線等諸多因素的影響而導致計算值難以公平、公正、合理[22]。h指數存在對高被引和低被引文章均不敏感、未充分考慮時間窗口界線等問題。特征因子存在著對學科敏感性較弱、評價結果區分度較差、受網絡結構影響較大等問題。SCImago期刊排名指數存在著未對原創文章與綜述文章進行區分,造成測量值評價準確性降低的問題[23]。引用分數這一指標同樣存在著將期刊論文、綜述、評論等類型的文章賦予相同權重的問題,它在數據的計算方法上與影響因子差別不大,無法從根本上解決影響因子目前已存在的問題。
在新媒體融合時代的大背景下,學術期刊評價經歷了從傳統的單一簡單指標到復合指標、由單一的評價方法到綜合性評價方法、由單一維度到多維度的演化及動態發展過程[24]。在當前期刊評價指標及其評價方法存在眾多問題的情況下,學術期刊評價也應根據時代特征與環境作出一定的改變,多維度、多指標融合地進行學術期刊的綜合評價。未來的期刊評價將會更加深入地分析各評價指標的優缺點,充分利用不同評價指標的側重點,有針對性地改進不同指標的缺陷,形成多指標融合的評價方法。這種深度的融合,更加契合學術期刊需要從載文、引文、網絡關注、社交媒體評價等不同的側面反映其影響力的需求。深度融合的綜合性評價,既可以根據特定的需求,從某一個側重點,如引用頻次、網絡關注度、用戶行為數據等,深入評價學術期刊,也可以將多個指標進行綜合,通過測度學術期刊多方面的不同特征值,全面反映其綜合影響力。
目前,專注于學術期刊評價與研究的一些機構,已經嘗試著邁出了多評價指標深度融合的第一步。2017年6月,科睿唯安宣布與Impactstory建立一種全新的戰略合作伙伴關系,致力于開發并創新型分析與工作流解決方案。同年,PlumX Metrics被愛思唯爾收購。如今,在所有Scopus界面下,用戶可以查到學術文獻的PlumX Metrics相關數據。
從索引文摘類期刊的萌芽算起,國外學術期刊的評價走過了二百余年的歷史。在這二百余年中,期刊的評價經過了由簡入繁、由淺入深、由粗至精的發展過程,在不斷地積累經驗、創新方法,盡最大可能地滿足學術期刊在不同時代發展的需求。然而,學術期刊評價作為實踐性非常強的科學評價活動,不可能普適于與學術期刊相關的編輯、作者、用戶、出版機構、文獻服務機構等,而是要在不同的環境下,將評價方法本地化,科學合理地為相關評價活動服務。