張雪蕾,魏青山(西安交通大學圖書館)
高校機構知識庫網絡影響力研究與思考
張雪蕾,魏青山(西安交通大學圖書館)
利用層次分析法構建高校機構知識庫網絡影響力評價指標體系,從網站鏈接認可度、網站可見度和網站關注度三項指標考察我國部分高校機構知識庫的網絡表現,結合灰色關聯分析法,發現我國高校機構知識庫網絡影響力普遍較低。結合網絡分析結果,提出應從優化網站架構、注重外鏈建設、存繳特色資源等方面強化,以提升我國高校機構知識庫網絡影響力。
機構知識庫;網絡影響力;評價指標
機構知識庫 (Institutional Repository,簡稱 IR)是2002年《布達佩斯宣言》發布以來,開放獲取運動的一項重要產物,旨在日益開放的網絡時代使得學術資源能夠為公眾便利地獲取,從而促進全球學術交流。高等學校肩負著學術傳播的重任,構建IR是開放獲取運動發展的必然結果。自2008年起,西班牙網絡計量實驗室發布世界知識庫網絡計量學排名(Ranking Web of Repository),從網頁規模、能見度、文檔豐富度及學術成果數4項指標對全球知識庫進行排名。[1]
本文以“世界知識庫網絡計量學排名(2015年7月版)”為基礎,借鑒前人研究成果,利用層次分析法和專家論證,對世界知識庫網絡計量學排名的評價指標做出了部分調整,構建了基于網絡計量學的高校IR影響力評價指標體系,對各高校IR進行評估,并通過分析排名結果,找出我國IR網絡表現不足之處;針對發現的問題,結合筆者這幾年的工作實踐,提出一些深入思考。
2.1網絡影響力概述
國外針對網絡計量學的研究起步較早。20世紀末,Peter Ingwersen提出了網絡影響因子指標這一概念;[2]1999年,德克薩斯州大學奧斯汀分校的Sybil Shearin研究了如何利用網絡計量學來改善搜索引擎指標,提升網站的能見度;2003年,Musgrove等人在研究中發現網站的內鏈建設在網絡計量中有重要作用;2005年,胡弗漢頓大學的Li Xuemei基于網絡計量學對國際大學網站網絡影響力進行了研究。[3]
張洋等針對網絡鏈接分析術語混亂的問題,建議對術語規范化;[4]岳增慧等通過網絡空間鏈接特征,網絡空間規模、鏈接數量和影響力等多項指標對中美高校圖書館進行評價;[5]劉文云等構建了我國省級圖書館網絡影響力評價指標體系,包括網站規模、流量、被鏈接量、關注度和利用率5個評價指標;[6]丁敬達等在此5個指標基礎上,新增了網站PR值指標對我國高校IR網絡影響力進行分析;[7]邱均平等在借鑒世界大學網絡計量排名(Ranking Web of University)[8]評價指標基礎上,從鏈接、顯示度、內容豐富度和學術文檔的角度評價了我國部分大學的網絡影響力;[9]吳茵茵使用鏈接總數、外部鏈接總數、網頁總數、鏈接效率、網絡影響因子和外部網絡影響因子等6項指標對中美26所高校的網絡影響因子進行測定。[10]
綜合國內外研究現狀,學者大都運用鏈接分析法對不同類型網站的網絡影響力進行評價,提出如何優化搜索引擎、如何提高外鏈數目等有助于網站發展的策略。目前,多是針對某一特定行業網站進行評價分析,尚未形成完整的網絡計量評價指標體系。
2.2指標體系模型的構建
利用層次分析法構建了高校IR網絡影響力評價指標體系模型,如圖所示。構建的指標體系模型涵蓋了網站鏈接認可度(外部鏈接數、鏈接效率、外部網絡影響因子);網站可見度(網頁規模、學術成果論文數、文檔豐富度、PR值(PageRank));網站認可度;網站訪問總量。各指標內涵見表1所示。此處針對網站認可度指標的選取做出一點說明,認可度通常是指根據網絡流量來判斷網站的人氣及粘著性,常用的統計指標有網站點擊量、網站訪問量、訪問人次等,通常利用站長之家、流量統計工具等來獲取數據。但由于大部分IR在流量工具中只能統計到訪問量,其余指標無法統計,故僅選用總訪問量作為評價指標。

圖 高校IR網絡影響力評價指標體系模型
2.3各項指標權重的確定
在確定評價指標后,通過專家論證對上述各項指標權重加以確定。利用Saaty提出的9級比例標尺來評價各指標重要性,構建比較判斷矩陣(如表2-表4所示),對各矩陣進行一致性檢驗,并對層次進行總排序及一致性檢驗,最后得出各項指標的權重。[11]

表1 高校IR網絡影響力指標內涵

表2 一級指標判斷矩陣A

表3 二級指標判斷矩陣B1

表4 二級指標判斷矩陣B2
求解出各判斷矩陣的特征向量和最大特征值λmax,得:
一級指標判斷矩陣A: λmax=3.009,特征向量W0=[0.587,0.324,0.089]T
二級指標判斷矩陣B1:λmax=3,特征向量 W0= [0.143,0.286,0.571]T
二級指標判斷矩陣 B2:λmax=3.994,特征向量W0=[0.167,0.499,0.167,0.167]T
本文針對最高層級排序,即對矩陣 A進行單層次排序結果為總排序結果。針對于 A矩陣下的不同矩陣 B1、B2,分別需要在不割裂各指標間相互關系的基礎上計算總排序權重,計算結果見表5。除對各判斷矩陣進行一致性檢驗,還需進行組合一致性檢驗,以確定組合權向量是否可作為最終的決策依據。檢驗結果如下:=0.026,=0.63,=0.041<0.1,可認定所有的判斷具有整體滿意的一致性。

表5 高校IR網絡影響力評價指標體系層次總排序(權重表)
其中,一級指標中網站鏈接認可度權重為0.587,所占比例最高;其次為網站可見度和網站關注度。二級指標中,權重比例排名前三的指標分別是外部網絡影響、鏈接效率和學術文檔數目。
3.1研究對象的選擇
通過對我國部分高校IR建設調研、多次參加IR學術會議,參照中國機構知識庫推進工作組發布的《中國機構知識庫案例匯編手冊》,本文選擇了清華大學、北京大學、中國人民大學、西安交通大學、廈門大學、蘭州大學、西北工業大學、江蘇大學、北京師范大學、北京工業大學、北京科技大學、北京郵電大學和首都師范大學共計13所高校IR作為網絡影響力分析樣本,且樣本中IR系統可分為DSpace(4家)和產品軟件(9家)。根據上述指標體系模型,對各IR進行評價和結果分析。
3.2數據采集與處理
鑒于早期主流分析網絡影響力的工具,如AltaVisa、AllTheWeb、Hotbot等已停止服務,[12]本文采用測試集合的方式進行,即不同評價指標通過不同的測試工具進行數據采集(采集時間為2015年10月23日至10月25日)。
(1)外部鏈接數目。通過各IR網站URL在全球最大外鏈查詢數據庫Majestic SEO和Ahrefs來獲取目標IR外鏈數目,取均值計算。
(2)鏈接效率。通過Google搜索引擎獲取各IR的鏈接總數。檢索式以廈門大學IR為例(linkdomain: dspace.xmu.edu.cn),獲得鏈接總數后,計算出各IR鏈接效率。
(3)網頁規模。通過Google搜索引擎獲取到的網頁總數,檢索式以廈門大學IR為例(site:dspace.xmu. edu.cn)。
(4)外部網絡影響因子。通過Google搜索引擎獲取網頁總數后,計算出各IR外部網絡影響因子。
(5)學術文檔數。通過Google Scholar檢索到的各大學學術成果總數。由于各大學署名情況較為復雜,檢索時盡量避免單位名稱不規范性帶來的影響,故本文僅選擇各大學官方英文署名方式進行檢索,如廈門大學(Xiamen University)。
(6)文檔豐富度。通過Google搜索引擎獲取到的存檔為PDF格式的學術成果總數。檢索式以廈門大學IR為例(filetype:pdf site:dspace.xmu.edu.cn)。
(7)PR值。站長工具(http://tool.chinaz.com)PR查詢功能,統計各高校IR網站PR值。
(8)總訪問量。通過訪問各高校IR網站的流量工具獲取總訪問量。針對總訪問量進行一點說明:大部分高校IR網站流量工具統計時并沒有去掉爬蟲、蜘蛛或惡意IP等訪問量,導致不能客觀反映網站的真實總訪問量情況。
由于上述各項指標單位不統一,不利于后續數據處理,故需要將采集到的數據進行標準化處理后繼續使用。采用極差標準化變換法,標準化后的各項指標均滿足 0≤Yij≤1。
從統計數據可以看出,各高校IR按照不同指標排序結果各異,很難說明按照哪種指標評價更能正確體現IR的網絡影響力。因此,本文先利用灰色關聯分析法描述各指標間關系的強弱,各指標在綜合評價中作用不同,可對關聯系數求加權平均值,得出綜合評價結果。[13]
3.3評價結果與分析
通過上述計算,最終得到各高校IR的關聯度,對其關聯度排序,評價結果如表6所示。

表6 IR網絡影響力關聯度排序
從表6數據可以看出,關聯度最大即網絡影響力最大的前三所IR分別是北京大學、廈門大學和蘭州大學,網絡影響力較小的后三所IR分別是北京郵電大學、中國人民大學和首都師范大學。北京大學IR是在CALIS三期“機構知識庫建設及推廣項目”時,北京大學圖書館作為示范館搭建的IR平臺。北京大學作為我國知名學府,科研產出碩果豐厚,學術論文數指標表現優異,綜合評價后其網絡影響力名列榜首;廈門大學是我國高校最早啟動IR建設的高校,經過多年發展有較高的網絡影響力;蘭州大學IR剛剛完成建設工作,但是其外鏈數目、網頁規模等各項指標均有不俗表現。前三名的IR均是在開源軟件DSpace的基礎上進行二次開發。
將采集的數據進行歸一化處理,標準化后的各項指標均滿足 0≤Yij≤100。通過與權重相乘后求和,可得各高IR網絡影響力分值(見表7)。
由表7可以看出,所選的樣本高校IR其網絡影響力差距較大,總體發展并不均衡,且使用DSpace系統的IR網絡影響力明顯優于使用商業軟件。網絡影響力較大的網站其外部鏈接數、鏈接效率、外部網絡影響因子、網頁規模、學術文檔數、文檔豐富度指標表現優異,而影響力較小的網站都比較普遍存在某項指標數值偏小。從單項指標來看,僅有廈門大學IR各項指標均排名在前6位,這與該IR建設時間長、知名度高等因素密不可分。蘭州大學作為新上線IR,有7項指標排名在前6,僅總訪問量指標排名第8,這與其剛上線不久的現狀相符合,其網絡影響力實力在未來不容小覷。北京師范大學IR系統采用的是商業軟件,雖然總訪問量第一,但其網站鏈接認可度的各項指標都表現一般,導致排名中段。且除北京大學、清華大學和廈門大學外,其余各高校PR值均為0,網站亟待進一步優化來提升網站的重要性。以上分析表明,我國IR的網絡影響力首先與選擇的系統平臺有關,其次各指標排名與高校科研成果產出量及存檔量有關。

表7 各IR網絡影響力評價指標排序及總分值
3.4問題與討論
數據采集是排名的重要基礎,利用不同工具采集數據會導致不同結果,且在不同時間對同一搜索引擎的檢索結果也不盡相同,因此微觀指標的排名結果可信度不高,但宏觀排名仍具有一定的參考價值。目前,我國僅有5所高校IR在RangkingWebofRepository進行了注冊,排名按順序為廈門大學、北京大學、清華大學、北京科技大學和西安交通大學。對比此次排名與世界知識庫網絡計量學排名(2015年7月版),總排名、網頁規模、能見度和文檔豐富度幾項指標均與本文設計指標排名基本一致,但仍略有差距。其中原因如下:(1)學術論文指標是由于本文數據采集僅使用了官方英文表達方式,造成會有部分成果并未統計到,且學術論文指標占比30%;(2)Altmetrics指標涉及的部分網站由于網絡開放性等因素無法訪問,且該指標占比達到25%;(3)同一指標的處理方式不同,如外部鏈接數目,本文選擇均值法,但知識庫排名的計算方法為去掉前十的反向鏈接后,兩個外鏈數目的平方根之和;(4)本文的采集時間為2015年10月,世界知識庫排名新版發布時間為2015 年7月;(5)本文選取的指標與權重略有不同,新增了PR值、總訪問量等指標。
雖然部分學校在不同排名中略有差異,一方面說明網絡數據變化快,單一依靠網絡數據來評價網站并不非常可觀;另一方面,不同排名的整體趨勢趨向一致,表明排名是可供參考的。正如網絡影響力高的IR,無論是選取何指標、權重,都會排名表現優異。
4.1盡可能選擇通用的IR系統
搭建IR系統的軟件多以開源為主,早期主要有DSpace、EPrints、Fedora、Digital Commons等軟件。近年來,IR+、Hydra、Drupal、Islandora等支持內部資源語義關聯、非文本資源保存的新型開源軟件逐步進入市場,[14]這些開源、通用的系統具備機構知識庫需要訪問的多接口性,易于被訪問和被發現,各高校可以結合自身現狀及各軟件優缺點來選取適合本校IR建設的軟件平臺。從世界機構知識庫排名來看,前100名的IR大都采用了通用的開源軟件,正如本研究中蘭州大學采用了中國科學院CSpace軟件,在短期發布就取得很好的網絡影響力。開源軟件設計標準、搜索引擎更是針對開源軟件進行的優化處理,因此建議國內高校優先采用開源通用的IR系統,這有利于提升IR網絡排名。
4.2選擇通俗易懂的IR域名,不要采用生僻域名
域名的選擇對IR來說至關重要,合適的域名應能簡短表達出網站內容,便于公眾第一時間了解這是什么網站,并有利于搜索引擎發現和鏈接,對于一些不太出現在域名中的字符應該盡量避免或者去除。在本文數據采集中,發現有部分高校IR網站尚未注冊域名或以aspx.為擴展名,導致無法在Google和外鏈查詢工具中采集到數據,嚴重影響了IR排名。
4.3完善網站自身框架,提升網站整體表現力
網站組織體系框架越完整,網站的信息整合、揭示程度越高,公眾獲得的資源越為豐富。通過合理完善網站的自身架構,即增加內鏈數目可形成較為完備的網絡層次體系,使得信息揭示更為充分。[5]同時,內部鏈接要具備豐富性和完整性,每個內部鏈接都可以返回到網站主頁。各高校在進行IR建設的同時,可采取優化網站導航設置、增加質量與內容并重的網頁、增加網站互動等手段,提高IR網站綜合評定水平,從而提升網站鏈接的認可度與網站可見度。
4.4加大IR宣傳推廣力度,增加外部鏈接數
網站鏈接宣傳推廣好,網站導入性就強,外部鏈接數目就多。國內高校要加大對IR的宣傳,采用多種手段,如電子郵件、微信推送、海報等,增強IR在校園的能見度,增加用戶的訪問行為,鼓勵本校學者主動存繳,提高IR網頁規模。同時要及時在國際知名網站如OpenDOAR、ROAR及各大搜索引擎中注冊登記,這能夠有效增加IR外鏈數目。知名網站本身PR值就高且外部鏈接多,被越來越多的知名網站外鏈,IR的PR值越高,在搜索引擎排序越為靠前,越能被公眾發現、利用。
4.5注重特色資源存繳,豐富存檔類型
IR的存檔內容不再局限于常規的學術論文成果,還可以存檔科研數據、視頻音頻等非文本資源。應在弘揚我國特色文化的基礎上,更貼近讀者需求。各高校IR可與本校特色文化相結合,吸引讀者訪問、使用和轉載,如北京大學機構知識庫存檔了昆曲傳承計劃相關的視頻、圖片資料;浙江大學機構知識庫一度將古代拓片的圖片作為特色資源存繳;臺灣交通大學收集系所當年的老照片,用圖片形式記錄歷史等。特色資源及豐富的存檔類型,有利于成果被各大社交網站轉載,提高成果能見度,提升IR網絡影響力。
IR的網絡影響力雖然能夠促進學術成果的開放獲取,但并不意味著高校在建設過程中要過度關注網站排名,而采用各種手段刻意制造質量不高的網頁、鏈接等內容,一味追求擴大網頁規模,甚至付費購買友情鏈接來增加外鏈數目,忽略IR網站的可持續發展。IR網站應立足本校實際情況,在網站結構優化、學術文檔的質量、網站加值應用、與其他系統共享集成等方面下功夫,只有質量保證的IR才能真正發揮其網絡影響力。
[1]世界知識庫網絡計量學排名[EB/OL].[2015-10-20].http://repositories.webometrics.info/.
[2]蘭娜.我國省級公共圖書館網站網絡影響力評估研究[D].石家莊:河北大學,2015.
[3]夏旭.高屋建瓴 臻于至善——《網絡計量學》評介[J].圖書情報知識,2012 (3):125-129.
[4]張洋,趙蓉英.網絡鏈接分析的基本術語及其規范化[J].圖書情報工作,2007,51(9):20-24.
[5]岳增慧,等.中美高校圖書館網絡空間鏈接特征的比較研究[J].情報科學,2011,29(9):1363-1369.
[6]劉文云,周泰冰.我國省級公共圖書館網絡影響力評價研究[J].圖書館建設,2011(3):85-89.
[7]丁敬達,朱夢月.高校機構知識庫網絡影響力評價研究——基于我國重點大學的實證分析[J].圖書館雜志,2014,33(7):13-23.
[8]世界大學網絡計量學排名[EB/OL].[2015-10-20].http://www.webometrics.info/.
[9]邱均平,等.中國大學的網絡產出、顯示度和影響力研究[J].情報科學,2011(3):325-332.
[10]吳茵茵.中美大學網絡影響因子研究[J].情報科學,2008(7):1048-1055.
[11]張炳江.層次分析法及其應用案例[M].北京:電子工業出版社,2014:67-73.
[12]付威風,鄭春厚.網絡計量學常用工具比較研究[J].圖書館學研究,2009(7):24-27,14.
[13]劉思峰.灰色系統理論及其應用[M].7版.北京:科學出版社,2014:66-75.
[14]張旺強,等.幾種典型新型開源機構知識庫軟件的比較分析[J].現代圖書情報技術,2014 (2):17-24.
Research on Web Impact of University Institutional Repositories
Zhang Xue-lei,Wei Qing-shan
This article applies analytical hierarchy process(AHP)to construct university institutional repository web impact evaluation index system,and investigates the website performance of some institutions of domestic higher education from the aspects of website link recognition,website visibility and website attention.Applying gray relative analysis method,is found that the web impact of university institutional repositories is generally low.Based on above analysis,this article puts forward the suggestion that we should strengthen the optimization of website structure,pay attention to the construction of the external link and special resources,so as to improve the web impact of university institutional repositories.
Institutional Repository;Web Impact;Evaluation Index
G250.76
B
1005-8214(2016)07-0061-05
張雪蕾(1988-),女,西安交通大學圖書館信息技術部館員,研究方向:機構知識庫、電子資源流量控制;魏青山(1974-),男,西安交通大學圖書館信息技術部副研究館員,研究方向:機構知識庫、特色數據庫開發、學科服務、數字資源整合。
2015-12-17[責任編輯]閻秋娟