□吳淑娟 王憲洪 蔣玲
近年來對于碩博士論文進行引文分析的文章多是對論文后所有引文進行分析,而且主要是通過對引文的分析來了解圖書館的文獻保障情況,多是為館藏建設提 供依據[1][2][3][4]。目前 專門對 網絡引 文進行分析 的 文 章 不 多[5][6][7],引 文 分 析 的 學 科 也 只集中在某一個學科,尚未見從多個學科角度對網絡引文進行分析。本研究將免費的網絡學術資源作為引文分析的對象,從多個學科揭示碩博士在學習和研究中利用網絡免費學術資源的情況,從而考量網絡文獻在碩博士研究和創新中的作用是否日益突出。
本研究選取北京地區普通高校的碩博士論文作為研究對象。為了使研究結果全面、客觀,力求涵蓋不同層次、學科的學校以及不同專業的碩博士,故進行分類研究。高校涵蓋985工程高校、211工程高校和一般普通高校。學科范圍包括哲學、經濟學、法學、教育學、文學、歷史學、理學、工學、管理學。本研究最終確定了15所高校作為研究對象。其中985工程高校4所,211工程高校5所,一般普通高校6所。在選取不同高校的同一學科時,盡量選取同一學科下的不同專業,以便能涵蓋更多的專業。
選取15所高校從2005年到2011年的碩博士論文作為數據來源,對論文的數量、引文數量、網絡引文的數量、網絡引文的類型、網絡引文的語種、含網絡引文的可訪問性和文件類型進行統計分析。含網絡引文的論文數用Wa表示,論文總數用a表示,引文總數用C表示,網絡引文數用W表示。

采用spss統計分析工具對數據進行統計分析。
主要利用中國博士學位論文全文數據庫、中國優秀碩士論文全文數據庫、萬方中國學位論文全文數據庫和各高校的碩博士論文庫。
學科分布和高校分布如表1:

表1 按照學科選定的高校列表
選取的碩博士論文共3807篇,其中碩士論文2856篇,博士論文951篇。引文總數286841篇,篇均參考文獻量為75.34,篇均參考文獻數量高于平均值的學科為歷史學、工學、理學、哲學、文學。含網絡引文的論文數為1313篇,網絡引文數為11641篇,篇均網絡引文率為8.9,網絡引文占引文總數的百分比為4%,含網絡引文的論文數占論文總數的百分率為34.5%,其中法學的篇均網絡引文率高于平均值,見表2。
2.2.1 按照不同學科分析
采用非參數統計中的Kruskal-Wallis檢驗,可以對各個學科的網絡引文數是否存在顯著性差異進行檢驗,結果顯示,卡方統計量=563.58,p值<0.001,因此在0.05的顯著性水平下,拒絕原假設,認為不同學科間網絡引文數具有顯著差異。
為了解具體是哪些學科的網絡引文數與其他學科有顯著差異,采用未假定方差齊性的多重比較法分析,并做出各學科引用網絡文獻均值圖,結果如表3、圖1所示。

圖1 各學科引用網絡文獻均值圖
確定顯著性水平為0.05,則p值<0.05表明拒絕原假設,即學科之間存在顯著性差異。根據表2結果以及圖1中各學科引用網絡文獻均值情況,得到結論如下:
① 法學碩博士論文網絡引文數顯著高于其他8個學科;
②教育學碩博士論文網絡引文數顯著高于哲學、文學、歷史學、理學、工學和管理學;
③理學碩博士論文網絡引文數顯著少于除經濟學以外的7個學科;
④ 哲學、文學、歷史學、工學、管理學的碩博士論文的網絡引文數沒有顯著差異。

表2各學科博士論文網絡引文數據量描述統計

表3 多重比較結果
2.2.2 按照不同學歷分析
將所得數據按照不同學歷(博士、碩士)整理,利用整理得到的數據,采用t檢驗方法對博士論文和碩士論文兩個總體的均值是否具有顯著性差異進行檢驗。得到結果見表4:

表4 方差齊性的Levene檢驗結果
方差齊性的Levene檢驗結果顯示,在顯著性水平為0.05前提下,p值=0.231>0.05,故不能拒絕原假設,即認為不同學歷引用網絡文獻數的方差相等。因此,均值的t檢驗以假設方差相等得出的結論為準。
對均值的t檢驗顯示,p值為0.001,小于顯著性水平0.05,故拒絕原假設,即認為不同學歷的學位論文引用網絡文獻數據有顯著差異。分別計算博士、碩士論文網絡引文數的均值,得到每篇博士論文平均引用網絡文獻10.05篇,而每篇碩士論文平均引用網絡文獻8.37篇,即博士論文中網絡引文數顯著高于碩士論文。
2.2.3 按照不同學校分析
將搜集數據按照985工程、211工程高校以及普通高校分類,利用整理得到的數據,采用方差分析的方法對不同學校類別的均值是否具有顯著性差異進行檢驗。方差齊性檢驗p-value=0.845>0.05,故在0.05的顯著性水平下不能拒絕原假設,即認為不同學校類別引用網絡文獻的方差相等。假定方差相等的前提下,方差分析結果見表5:

表5 方差分析表
從方差分析表5可看到,檢驗p-value=0.009,小于顯著性水平0.05,拒絕原假設,即認為985工程高校、211工程高校和普通高校三者的碩博士論文的網絡引文數存在顯著性差異。
使用多重比較的方法在三者之間進行兩兩相互比較;在假定方差相等情況下,LSD多重比較結果如表6所示:

表6 多重比較結果
根據多重比較結果顯示,p-value<0.05時,說明學校之間網絡引文數存在顯著差異,即可知985工程高校和211工程高校之間存在顯著性差異——985工程高校網絡引文數顯著高于211工程高校。
2.2.4 根據網絡文獻來源類型分析
本研究將網絡文獻來源分為政府信息源、綜合網站學術信息源、開放獲取信息源、學術機構信息源、科研信息源、教育信息源、古籍信息源、港臺地區學術信息源、新聞報刊信息源、個人文獻信息源、參考工具信息源、圖書館信息源(特藏和導航)、學科信息源。將搜集的網絡文獻數據按照來源網站進行整理分析,得到各種網絡文獻來源的均值圖,見圖2。
從圖2可見,來自學術機構信息源、政府信息源、新聞報刊信息源以及學科信息源的最多,均值分別是50.42、45.16、39.96、31.75。最少的是來自其他信息源(包括開放獲取信息源和古籍信息源),平均值為0.82。對數據進行非參數統計中的Kruskal-Wallis檢驗,進一步檢驗不同來源的網絡文獻數是否具有顯著差異。結果顯示,卡方統計量等于191.681,p值小于0.001,因此在0.05的顯著性水平下,拒絕原假設,認為不同網站來源的網絡文獻數量具有顯著差異。

圖2 按照來源分類的網絡文獻均值
為了解具體是哪些網站的引用數量與其他網站有顯著差異,采用未假定方差齊性的多重比較法分析,結果如表7所示(由于比較類別比較多,故僅將差異顯著的情況列出)。

表7 網站來源多重比較結果

政府信息源港臺地區學術信息源-40.644 0.025綜合網站學術信息源-15.600 0.010新聞報刊信息源-35.444 0.007學科信息源-26.533 0.001其他39.133 0.001科研信息源新聞報刊信息源39.044 0.001港臺地區學術信息源35.444 0.007個人文獻信息源32.689 0.017其他6.444 0.028科研信息源個人文獻信息源6.356 0.031新聞報刊信息源-32.689 0.017學科信息源-23.778 0.004其他圖書館信息源13.200 0.029科研信息源13.111 0.031其他30.222 0.000科研信息源30.133 0.000學科信息源港臺地區學術信息源 26.533 0.001個人文獻信息源 23.778 0.004
多重比較結果顯示:
① 其他信息源、科研信息源的網絡文獻量均顯著低于政府信息源、綜合網站信息源、新聞報刊信息源、學科信息源、個人文獻信息源、圖書館信息源;
② 政府信息源、綜合網站信息源、新聞報刊信息源、學科信息源的網絡引文數量都顯著高于港臺地區學術信息源;
③個人文獻信息源的網絡引文數量顯著低于新聞報刊信息源、學科信息源;
④ 學術機構信息源、教育信息源、參考工具信息源的網絡引文數量與其他所有信息源沒有顯著差異。
2.2.5 根據語種分析
將搜集到的網絡引文按照語種進行整理,分布情況見圖3。

圖3 按照語種分類的網絡引文均值
從均值來看,漢語和英語的引文數量遠遠高于其他語種。故將漢語、英語與其他語種分開比較:即(1)比較漢語、英語之間是否存在顯著差異;(2)比較俄語、日語、法語、德語、韓語之間有無顯著差異。
(1)比較漢語、英語之間是否存在顯著差異。
對漢語、英語兩總體的方差同質性進行檢驗,檢驗顯示沒有證據表明方差不相等,故使用單因素方差分析法對均值進行檢驗,結果見表8。

表8 漢語、英語的單因素方差分析表
結果表明,p值等于0.299>0.05,即在0.05的顯著性水平下,不能拒絕原假設,即認為漢語和英語的網絡文獻引用數量沒有顯著差異。這可能是因為隨著國際學術交流增多,學生的英語水平和能力提高,很多學生在參考文獻時,都比較關注國外先進文獻,故使用英語文獻的數量也增加,甚至提高至與國內文獻的地位相同。
(2)比較俄語、日語、法語、德語、韓語之間有無顯著差異。
考慮到這幾類語種的樣本數量比較少,有的甚至不足5(韓語的樣本量僅為4),故直接采用非參數統計中的Kruskal-Wallis檢驗進行差異性檢驗,p值為0.185,大于顯著性水平0.05,故不能拒絕原假設,即沒有證據表明俄、日、法、德、韓這五類語種之間的網絡文獻數量存在顯著差異。
2.2.6 根據年份分類的網絡文獻分析
將網絡文獻數量按照年份整理,并做出每年的網絡文獻均值折線圖(圖4)。

圖4 網絡引文年度均值折線圖
2008年的網絡文獻均值達到最大值,為107.41篇;2005年的網絡文獻均值最小,僅為40.88篇。對各年網絡引文數量進行方差同質性檢驗,Levene檢驗p值為0.181,不能拒絕方差相等的原假設,故采用單因素方差分析進行深入分析。

表9 按年份分類的單因素方差分析表
表9是按年份分類進行的方差分析結果,p值等于0.53,大于顯著性水平0.05,故不能拒絕原假設,即沒有證據顯示各年份的網絡文獻數量具有顯著性差異。
2.2.7 網絡引文的可訪問狀態
筆者對所有網絡引文的URL逐一進行了訪問,6094條網絡引文的URLs可以訪問,占網絡引文總數的52.3%。5547條網絡引文的URLs無法訪問(包括該頁面不存在、禁止訪問、頁面錯誤、該頁面無法打開、服務器錯誤),占網絡引文總數的47.7%。
2.2.8 網絡引文的文件格式類型
筆者根據引文中所涉及到的文件格式,將文件格式分為以下幾種類型:HTML(包括JSP、ASP、PHP)、DOC、PDF、XLS、PPT。各種文件格式類型的分布見表10。

表10 網絡引文的文件格式類型分布
從總體統計可看出,篇均網絡引文率為8.9%,網絡引文占引文總數的4%,含網絡引文的論文數占論文總數的34.5%。部分學科,例如法學、管理學、教育學、經濟學這四個學科,含網絡引文的論文數占論文總數的百分比分別為74.2%、37.9%、36.2%、35.1%。從這些數據可看出,雖然目前網絡文獻占引文總數的比例仍然很小,但是已經達到了一定規模,說明在學術研究中,碩博士已經意識到了網絡免費資源的學術性和新穎性,開始逐漸認同和使用這些資源來從事學習和研究。
按照學科分析的結果,法學網絡引文數顯著高于其他8個學科,教育學顯著高于除經濟學之外的其他6個學科,而理學則顯著低于除經濟學之外的其他學科。而其他6個學科之間并無顯著差異。
按照學歷分析的結果,博士論文篇均網絡引文數高于碩士論文,說明博士在查找、吸收和利用網絡文獻方面好于碩士,同時也說明這些免費網絡文獻的學術性在增強,得到越來越多的學者的接受。
按照學校分析的結果,可知985工程高校和211工程高校之間存在顯著性差異——985工程高校網絡引文數顯著高于211工程高校。而985工程高校、211工程高校和普通高校之間并沒有顯著差異。說明在使用網絡免費資源方面,普通高校的碩博士生和985工程、211工程高校在使用的意識和實際利用方面差別不大。
從網絡免費文獻的類型來看,均值排在前五位的分別為學術機構信息源、政府信息源、新聞報刊信息源、學科信息源、綜合網站學術信息源。再綜合多重比較的結果,可以看出碩博士比較信賴的網絡免費資源主要集中在政府信息源、綜合網站信息源、新聞報刊信息源、學科信息源,而利用比較少的信息源為科研信息源、其他信息源。
從網絡免費文獻的語種分析來看,目前主要集中在中文和英文文獻,中文和英文的引用數量沒有顯著差別,反映出碩博士對中外文文獻的吸收能力基本持平,也說明他們的研究基本上能借鑒國內外的前沿的研究趨勢。而其他語種的數量微乎其微。
從網絡文獻的年代分析來看,沒有結論顯示越接近目前的年份,碩博士論文對網絡文獻的需求越大。姚蓉、廖永霞對1999-2006年間評選出的776篇全國優秀博士學位論文的引文分析中得出網絡資源的引用呈逐年增長的趨勢[10],本文并未得出該結論,可能是因為數據的年代分布不均勻所致。
從網絡引文的可訪問狀態分析來看,52.3%的網絡引文可訪問,而47.7%的網絡引文無法訪問,無法訪問的原因包括該頁面不存在、禁止訪問、頁面錯誤、該頁面無法打開、服務器錯誤。從本研究來看,網絡引文的穩定性較差,接近一半的網絡引文不能訪問,這為研究者參考網絡引文帶來了障礙,在未來我們應該考慮建立相應的網絡引文保存和數字對象的識別系統(DOI),來不斷地定位和交換這些數字資源。
從網絡引文的文件格式類型來看,目前使用最普遍的文件類型是HTML格式,包括JSP、ASP、PHP等這些動態的網頁格式,其次是PDF格式的文件為大家所廣泛使用,再其次是DOC文件格式,而PPT和XLS格式的文件使用相對很少。
本研究力圖盡可能多地反映不同學科不同專業的網絡文獻引用情況,但是在實際搜集數據的過程中,存在學校、專業、學科的分布不均勻,不具有典型代表性的缺憾,尤其是年代分布因為搜集數據來源的限制,導致年代分布有些不均勻,這些都是在今后的研究中有待改善的方面。
網絡免費學術文獻已經成為學者治學的重要的參考來源,隨著網絡學術文獻的質量和學術性的不斷提升,加之獲取方便和免費的優勢,已經得到越來越多的學者的接受和認可,圖書館應該重視這些免費網絡學術資源的建設,尤其在進行學科服務的過程中,針對網絡免費學術資源使用率高的學科,按照使用頻率高的網絡免費文獻類型搜集資源進行學科導航服務,讓圖書館的數據庫資源和網絡的免費資源成為學者治學的左膀右臂。
參考資料
1 Conkling T.W.,Harwell K.R.,Mccallips C.,et al.Research Material Selection in the pre-web and post-web Environments:An Interdisciplinary Study of Bibliographic Citations in Doctoral Dissertations.The Journal of Academic Librarianship,2010,36(1):20-31
2 Kumar H.A.,Dora M..Citation analysis of doctoral dissertations at IIMA:A review of the local use of journals.Library Collections,Acquisitions,and Technical Services,2011,35(1):32-39
3 劉良璧.從碩士學位論文引文分析透視重點學科文獻保障情況.圖書館建設,2010(04):58-61
4 姚蓉,廖永霞.全國優秀博士論文參考文獻分析與研究.圖書館建設,2007(06):127-130
5 胡德華,金建彬.基于網絡引文的網絡學術資源利用效率研究.情報科學,2009(03):379-383
6 Nayak B.M.A.K.,Sahu N K.Scholarly use of web resources in LIS research:a citation analysis.Library Review,2006,55(9):598-607
7 Mardani A..An investigation of the web citations in Irans chemistry articles in SCI.Library Review,2012,61(1):18-29
8 Saberi M.K.,Abedi H..Accessibility and decay of web citations in five open access ISI journals.Internet Research,2012,22(2):234-247
9 Alireza J.M.N.Y.Analyzing web citations availability and half-life in medical journals_A case study in an Iranian university.Aslib Proceedings:New Information,2013,65(3):242-261
10 同4