孔 超 丁 璇 馬金玉
(金陵科技學院圖書館,江蘇 南京 211169)
基于主成分分析的紙質學術期刊選購方法
孔 超 丁 璇 馬金玉
(金陵科技學院圖書館,江蘇 南京 211169)
構建紙質學術期刊評選指標,并利用主成分分析法對紙質學術期刊進行評價,為在有限的經費下科學選購紙質學術期刊提供參考。
主成分分析 學術期刊 紙質期刊
期刊一直以更新快、信息量大著稱。無論在傳統紙質資源時代還是現今網絡時代,對于以科研和教學為主要任務的高校而言,學者在工作中閱讀學術期刊論文的數量多于其他文獻資料。據有關學者對北美地區統計:在大學內,授予教學榮譽的教授平均論文閱讀量達20%,授予科研榮譽的平均閱讀量達33%,在其他機構中獲得榮譽與獎勵的學者,論文閱讀量甚至高出60%以上[1]。因此,學術期刊的采購在高校文獻資源建設中有很重要的地位。當前學術期刊以兩種媒介方式呈現,一種是電子期刊全文數據庫,一種是紙質期刊。電子期刊由于自身查詢使用的便捷性,得到了眾多師生的青睞,在高校文獻資源建設經費上的比重越來越高,使得紙質期刊的采購受到了影響,更使得紙質學術期刊買不買、怎么買成為一個值得研究的問題。
在當前環境下,電子期刊不可能完全取代紙質期刊,兩者并存的局面將持續。首先,根據相關研究顯示,人們在進行深度閱讀時,尤其是在獲取權威性和學術資料時,選擇紙質文獻閱讀的比例很高[2]。其次,電子期刊全文數據庫價格成倍增長,對于采購方而言,數據庫商態度強勢難以議價,通過收藏相關紙質期刊同樣可滿足科研教學人員的需求,從而增強議價能力,提高采購經費的購買覆蓋面。再次,紙質期刊的時效性高于電子期刊,電子期刊信息發布具有滯后性,各學科領域的發展態勢、最新進展、實驗成果等都只能在第一時間通過紙質期刊與讀者見面[3]。因此,如何在有限的經費下科學地選購紙質學術期刊,成為本次研究的重點。
在當今信息時代,文獻數量按指數規律增長,限于采購資金、收藏條件和高校自身學科設置等實際條件,即使是各學科的核心期刊也不可能全部采購,當然也沒必要全部收藏,因此需要設定科學的評選指標,構建合理的評選模型,依托本校學科設置特征,有針對性地進行采購。
1.1 紙質學術期刊評選指標的確立
在期刊評選時,單一使用任何一種指標都可能造成不同程度的片面性,因為客觀事物具有互相聯系、互相制約的多個側面,考慮到這個因素,筆者本次研究選取了8個指標作為紙質學術期刊選購參考因素[4]-[5]。
1.1.1 篇均引文數(X1)
篇均引文數=該期刊論文引用文獻數量總和/該刊發表論文總數
一般來說,論文的引文數量可以在一定程度上反映論文作者的創新程度以及作者借鑒其他科研成果的能力[7]。其體現出論文作者對其他學者研究成果的認可。可以說引用文獻是學術論文的一個重要組成部分,因此,考察期刊的篇均引文數,可以分析一份期刊的學術規范和學術深度。
1.1.2 基金論文比(X2)
基金論文比=該刊發表的含有基金資助論文/該刊發表論文總數
一般情況下,基金資助項目代表了某研究領域的新熱點、新前沿,圍繞基金資助項目所撰寫的學術論文,從整體上來說,應該具有更高的質量和學術價值。所以,基金論文比越高,應該說該期刊的整體質量也相對較高,影響也相對較大。
1.1.3 篇均被引數(X3)
篇均被引數=總被引數(該刊發表論文被統計源中來源期刊論文引用的次數)/該刊發表論文總數。
一般來說,篇均被引數反映了期刊的學術影響,它可以被用來計算期刊在某一學科領域長期的、實際的學術影響。
1.1.4 篇均他刊引用數(X4)
篇均他刊引用數=他刊引用數(該刊發表論文被統計源中其他期刊引用次數)/該刊發表論文總數。
這一指標排除了期刊的自引,主要為了杜絕一些期刊通過盲目自引來擴大本刊數據,同時也為非統計源期刊提供一個更加公平競爭的環境。
1.1.5 影響因子(X5)
影響因子=該刊前兩年發表論文在統計當年被引用的總次數/該刊在統計年的前兩年發表論文總數。
影響因子是國際上通用的期刊評價指標,是衡量學術期刊影響力的一個重要標尺,由E.加菲爾德提出。它是指期刊論文獲得的客觀反映,一般情況下,影響因子越大,期刊的影響力就越大。當然,影響因子也具有一定的片面性,例如對于小篇幅期刊而言具有明顯的優勢。
1.1.6 篇均二次文獻轉載數(人大報刊復印資料)(X6)
篇均二次文獻轉載數=二次文獻轉載總數/該刊發表論文總數。
二次文獻轉載指標是我國幾種重要的二次文獻對各期刊中論文全文轉載的數量統計,筆者采用的是中國人民大學《報刊復印資料》的文獻數據。這些文摘刊物對期刊全文轉載數量的統計,從一個角度反映了各期刊對科學熱點的跟蹤和對學術走向的關注程度。另一方面,許多作者在閱讀了二次文獻轉載的全文后,當他們在論文寫作過程中引用這些論文時,往往標注的是二次文獻的出處,而非原刊出處,采用這一指標也從一個方面彌補了原刊由于作者引用二次文獻帶來的被引數據損失。
1.1.7 Web即年下載率(X7)
Web即年下載率=該刊當年出版并上網的論文在當年被下載的次數/該刊當年出版并上網的論文總數。
Web即年下載率相對其他指標,更具有合理性,因為讀者不是根據自己掌握和了解的有限期刊去找文章,而是從主題去查文章,避免讀者對期刊的可獲取性和主觀認識存在偏差,保證了每一份期刊相對讀者而言,獲取機會都是相等的。所以,Web即年下載率在期刊選購指標體系中具有很重要的意義。
1.1.8 即年指數(X8)
即年指數=該刊當年發表的論文在當年被引用的總次數/該刊當年發表論文總數
指期刊所載論文發表的當年被引數量與發文數量之比,即指定期刊所發表的論文在當年的篇均被引率[6]。即年指數體現了一種期刊被引用的速度,可以衡量該期刊對本學科熱點問題的關注程度是否處于學術前沿,是否被學界和讀者及時關注。
1.2 紙質學術期刊評選方法的確立
在對某一事物進行實證研究中,為了更全面、準確地反映出事物的特征及其發展規律,人們往往要考慮與其有關系的多個指標,這些指標在多元統計中也成為變量。這樣就產生了如下問題:一方面人們為了避免遺漏重要的信息而考慮盡可能多的指標;另一方面隨著考慮指標的增多增加了問題的復雜性;同時由于各指標均是對同一事物的反映,不可避免地造成信息的大量重疊,這種信息的重疊有時甚至會抹殺事物的真正特征與內在規律。基于上述問題,人們就希望在定量研究中涉及的變量較少,而得到信息量又較多。主成分分析正是研究如何通過原來變量的少數幾個線性組合來解釋原來變量絕大多數信息的一種多元統計方法[8]。
主成分分析是把p個隨機變量的總方差分解為p個不相關的隨機變量的方差之和,使第一主成分的方差達到最大,第一主成分是以變化最大的方向向量各分量為系數的原始變量的線性函數,最大方差為λ1。表明了λ1的方差在全部方差中的比值,稱a1為第一主成分的貢獻率。這個值越大,表明了Y1=μ1'X這個新變量綜合X1,X2,…,Xp信息的能力越強,也即由μ1'X的差異來解釋隨機變量X的差異的能力越強,因此稱Y1=μ1'X為X的主成分。
進行主成分分析的目的之一是減少變量的個數,所以一般不會取p個主成分,而是取m<p個主成分,通常以所取m使得累積貢獻率達到85%以上,這樣每個主成分都含有盡可能多的原始指標信息,從而使問題的分析簡化。
本次研究可以根據這m個綜合指標,對樣本進行綜合評價,即把這m個指標再綜合為一個評價值,以它的大小作為比較樣本的依據。由于各主成分反映原始信息量的作用不同,因此計量樣本的評價值的地位也有所區別,即所占的權重也不一樣,將各個主成分的貢獻率Ki來設為Wi相對應的權值,則樣本的綜合評價值的計算式為:,其中它稱為主成分的貢獻率,反映了第i個主成分包含原始數據總信息的一個比值。
根據紙質學術期刊的8個評選指標和上述原理,運用主成分分析法評選紙質學術期刊的實證過程如下。
2.1 收集原始數據
本次實證樣本為圖書情報類期刊,共38種,分別為:中國圖書館學報(M1)、大學圖書館學報(M2)、圖書情報工作(M3)、情報雜志(M4)、圖書情報知識(M5)、情報科學(M6)、情報理論與實踐(M7)、圖書館論壇(M8)、現代圖書情報知識(M9)、圖書與情報(M10)、圖書館建設(M11)、情報資料工作(M12)、現代情報(M13)、圖書館學研究(M14)、圖書館雜志(M15)、圖書館(M16)、圖書館工作與研究(M17)、圖書館理論與實踐(M18)、高校圖書館工作(M19)、圖書館學刊(M20)、農業圖書情報學刊(M21)、情報探索(M22)、中華醫學圖書情報雜志(M23)、大學圖書情報學刊(M24)、新世紀圖書館(M25)、四川圖書館學報(M26)、晉圖學刊(M27)、山東圖書館學刊(M28)、河南圖書館學刊(M29)、圖書館界(M30)、河北科技圖苑(M31)、評價與管理(M32)、當代圖書館(M33)、圖書館研究與工作(M34)、科技文獻信息管理(M35)、貴圖學刊(M36)、上海高校圖書情報工作研究(M37)、圖書情報論壇(M38)。
以維普期刊資源整合服務平臺的期刊評價報告、CNKI中國知網中國引文數據庫以及人大復印資料全文數據庫為原始數據來源,為了保證數據的準確和完整,本次研究所有數據均選自2011年數據,計算出38種期刊的8個指標數值。
2.2 主成分分析法計算過程
2.2.1 原始數據標準化,并計算相關矩陣
將8個指標數據帶入SPSS16.0軟件中計算相關矩陣,具體結果如表1所示:

表1 Correlation Matrix
2.2.2 求解特征根、特征方程并提取主成分

表2 Total Variance Explained
根據上表數據顯示,前兩個特征值的累計百分比為85.244%,因此確定主成分為兩個。根據上述計算,將原8個原始變量提取為兩個主成分,根據兩個主成分計算出綜合指標,進行期刊綜合排序,由于主成分分析本質是一種矩陣變換過程,并不要求各主成分都具有實際意義,因此本次研究將其作為計算過程的中間變量帶入評選模型。

表3 Component Matrix
上表給出了主成分系數矩陣,可以說明各主成分在各變量上的載荷,從而得出各主成分的表達式:

根據公因子表達式計算因子得分,將因子得分值設為新變量FAC1_1、FAC2_1。上述兩個公因子是分別從不同的方面反映期刊的學術影響力的總體水平,單獨使用某一公因子很難全面做出綜合評價,因此將各公因子對應的方差貢獻度比例作為權數計算綜合得分:
Score=(69.212/85.244)FAC1_1+(16.032/85.244)FAC2_1
按照計算出的綜合因子得分Score,本次選定樣本綜合得分情況如表4所示。

表4 期刊綜合分值排序
從表4可以看出,圖情類核心期刊排名前五的為中國圖書館學報、大學圖書館學報、情報雜志、圖書情報知識、圖書情報工作;圖情類非核心期刊排名前五的為現代情報、高校圖書館工作、中華醫學圖書情報雜志、新世紀圖書館、圖書館學刊。通過主成分分析法的評選,可以方便我們對日常紙質期刊訂購的評選工作,減少人為的主觀因素,同時增加評選客觀性。
3.1 評選對象的選擇和指標的設置
科學地設置指標體系,合理地選擇評價指標和評價對象,是有效選購紙質學術期刊的前提,也是評選關鍵之一。首先在考慮紙質期刊評選時不能一概而論,要注意學術期刊的學科類別,將相同學科類別的期刊聚類進行評選。其次,要注意評選指標的選擇,既要體現期刊的學術價值,也要考慮實際工作中取得數據的便利程度。本次研究所涉及的8項指標,能夠在中國知網的引文數據庫和維普數據的期刊引證報告中方便地查詢到,可以增強紙質期刊評選的可操作性。再次,相同學術類別的期刊出版周期不一定一致,在考慮評選指標時,要多用相對比較指標,盡可能少用總量指標,這樣可以保證指標評分的準確性。本次研究的指標選擇時,充分地考慮這個因素,多數指標均為相對比較指標,避免由于出版周期的不一致性,而影響評選的準確性。
3.2 數據的處理
利用主成分分析法計算紙質期刊評選綜合分數時,對數據樣本應該是有要求的,一般情況下使用主成分分析法需要樣本數據量達到指標項數的兩倍以上,本次研究的樣本數(38種期刊)已經達到使用主成分分析法的要求,若樣本數低于指標項數的兩倍時,筆者認為還是可以嘗試使用該方法進行運算,來指導紙質期刊選購的實際工作,但評選的效果可能不太顯著,屬于有偏估計。
在確立主分量時,有兩點需要注意,一是主分量數目的多少,筆者認為可以根據實際作出判斷,可以按照λ的值大于1的個數作為主分量的個數,也可以考慮把累計方差貢獻率作為提取主分量的依據。一般情況下,筆者認為累計貢獻率大于85%時就足夠了。本次研究提取了兩個主成分,提取的主成分的λ值均大于1,方差累計貢獻率達到了85.244%,都滿足了提取主成分的要求。
在提取主成分時,除了考慮上述所提及的要求外,主分量是否具有一定的解釋意義對實際的評選工作也有一定的幫助,如果需要對主分量也具有一定的解釋意義,可以通過因子旋轉的方法來實現,一般有5種因子旋轉的方法,本次研究對主分量的解釋含義未做要求,研究的重點在于最終的綜合評分,因此未選擇因子旋轉的方式,從方法原理上講不旋轉的原始主成分提取的結果更加嚴謹。
本次研究采集的數據為2011年的截面數據,在今后的研究中可以考慮采用面板數據帶入主成分分析法,以增強數據的連續性。
[1]崔麗芬.電子期刊對于學術交流模式的影響——轉變過程中的問題討論[J].浙江高校圖書情報工作,2010(4):1-12.
[2]鄧香蓮,裴永剛,張衛.解析新媒體環境下國民閱讀的特點——基于上海市民閱讀現狀的實證研究(五)[J].科技與出版,2012(6):110.
[3]馬滴滴.紙質期刊不可取代[J].圖書館,2009(6):108.
[4]王引斌.測定核心期刊的新方法——主成分分析法[J].情報科學,1998(5):395-396.
[5]蘇新寧.構建人文社會科學學術期刊評價體系[J].東岳論叢,2008(1):36-38.
[6]朱獻有.中國科學計量指標:論文與引文統計[M].中國科學院文獻情報中心,1998:105.
[7]傅文奇,楊冠燦.2000~2010年SSCI收錄信息科學和圖書館學論文比較研究——以我國內地、臺灣和香港地區為對象[J].情報資料工作,2011(5):109-112.
[8]何曉群.多元統計分析[M].第2版.北京:中國人民大學出版社,2008:152-161.
孔 超男,1980年生。碩士,館員。研究方向:圖書情報計量學。
丁 璇女,1980年生。碩士,館員。研究方向:圖書館管理。
馬金玉女,1971年生。本科學歷,副研究館員/副編審,金陵科技學院學報副主編。研究方向:期刊研究。
G255.2
2014-02-14;責編:徐向東。)