李銘翁 淳光
〔摘 要〕機構知識庫是一種新型學術傳播方式,它通過網絡實現知識傳播,因此網絡影響力是評價機構知識庫的重要因素之一。美國、英國是當今機構知識庫數量最多的國家,而中國、印度又是發展中國家的新興代表,本研究對中美英印機構知識庫網站的網絡影響力進行實證評價,指標采用網站規模、外鏈數、顯示度、文獻量、MozRank。采用TOPSIS法對其網絡影響力排名;用Spearman相關分析檢驗指標與排序之間的相關性。結果顯示排名呈美國>英國>中國>印度的趨勢。
〔關鍵詞〕機構知識庫;網絡影響力;對比分析
DOI:10.3969/j.issn.1008-0821.2015.07.014
〔中圖分類號〕G25074 〔文獻標識碼〕A 〔文章編號〕1008-0821(2015)07-0073-06
〔Abstract〕Institutional repository is a new way of research communication,which realizes knowledge dissemination through network.Thus network impact is one of the important factors to evaluate Institutional repository.US.and UK.own the largest number of institutional repository at today,and China and India are the representative of developing country.This study made the empirical evaluation of institutional repositories network influence in China,US.,UK.and India.The study used five indices:the scale of website,the site links,the extent of display on the internet,the papers and MozRank.Network impact of IR were ranked by TOPSIS Method;Correlation test between indicators and rank was analyzed by Spearman Correlation Test.The result showed that the network impact of IR in US.is the best,and UK.is the second,China and India are third and four.
〔Key words〕institutional repository;network influence;comparison analysis
機構知識庫(Institutional Repository,以下簡稱IR)是科研教育機構保存知識資產、展示知識能力、推動知識成果廣泛傳播和應用的重要平臺,近年在國際科技教育領域迅速發展。它是依托網絡建立的共享數據庫,對各種數字化產品進行收集、保存、管理、檢索和利用,具有學術傳播、電子出版、長期保存、知識管理、促進教育、科研評價、開放共享等功能[1]。鑒于IR以網站為信息傳遞平臺,所以網絡影響力是評價機構知識庫質量優劣的重要指標之一,網絡影響力的大小決定著IR在網絡中的傳播效果,對IR的運行和發展起著重要作用。
目前世界各國都大力發展機構知識庫,依據2014年8月對開放存取知識庫名錄Open DOAR(The Direct of Open Access Repositories)統計,近五年IR數量增加了2倍多,其中以發達國家發展最為迅捷,從數量、質量都遠超發展中國家。發達國家以英國與美國為主,發展中國家以中國與印度為典型。故本文以這4個國家作為研究對象,從網絡計量學角度出發,首先建立評價指標體系,然后對其網絡影響力進行分析比較,比較目前發達國家與發展中國家間的差距,重點找出我國IR存在的問題,促使我國的IR能更好更快地發展,更全面、更便捷地服務于科技創新。
1 資料來源與方法
11 資料來源
依據國際權威的開放存取知識庫名錄OpenDOAR(http:∥www.opendoar.org/),從List of repositories進入,在Asia欄目下選擇China(中國)和India(印度),在North America欄目下選擇United States(美國),在Europe欄目下選擇United Kingdom(英國),4國共注冊有784個機構知識庫。排除無法打開、網站規模異常、Open Site Explorer抓取不到數據等的網站,最終統計為618個(見表1)。
來的誤差,本次研究采用了VPN(虛擬專用網絡),即使用各國國內的服務器進行測試。鑒于目前主流分析網絡影響力的搜索引擎如Alltheweb、Altavista、Yahoo Site Exploere早已停用,本文使用了測試工具集合的方式,即對于不同指標采用不同測試工具。
2 網絡影響力評價指標體系構建
21 網絡影響力指標
網絡影響力是對網絡信息資源建設水平和綜合利用效率的客觀測度,評價的出發點通常是網絡信息資源間的鏈接關系或用戶訪問網絡信息資源的情況。著名計量學專家邱均平教授對網絡影響力評價,使用了網站規模、外鏈數、顯示度、內容豐富度以及學術影響力[2-3]5個指標。劉文云、黃賀方等也提出各自的見解,但其具體指標基本一致[4-5]。西班牙人文與社會科學研究中心網絡計量實驗室發布的《世界大學網絡計量排名》和武漢大學中國科學評價研究中心的《中國重點大學網絡影響力排行榜》采用的5個指標也較上基本相同[6],說明這5個指標是較為認可的指標。易程等在研究成果中顯示外鏈數、學術論文數與機構知識庫世界排名相關性比較強,而文檔豐富度與世界排名呈現弱相關[7],故本文不考慮使用文檔豐富度。endprint
MozRank是Open Site Explorer推出的指標,是評價網站質量的有效指標。其原理在于通過一系列嚴謹而科學的算法計算出一個得分,分值越高愈能說明該網站的質量、等級和受歡迎程度,與Google的PR值類似。
綜合以上研究成果,本文采用網站規模、外鏈數、顯示度、文獻量、MozRank 5項指標評價IR的網絡影響力。
22 指標說明
網站規模:即搜索引擎索引到的該網站的網頁總數。信息容量大的網站,被其他網站鏈接次數就多[5]。采用百度、360搜索、搜狗、谷歌、必應及雅虎[8]這5個搜索引擎,使用“site:網址”檢索,取其最大值[5]。
文獻量:即IR有的文獻數量。可從Open DOAR網站中直接獲取。
顯示度:即IR出現在搜索引擎收錄的網頁的次數。鑒于Google搜索引擎目前在全球覆蓋面較廣,故本指標采用此引擎,用IR在Open DOAR的注冊的英文全稱進行檢索。
外鏈數:即一個網站被外部網站鏈接的次數。從Open Site Explorer中獲取。
MozRank(簡稱“M”):通過抓取互聯網中超鏈接的連接關系判定等級,分值為0~10分。影響分值的因素:外鏈數量和鏈接源的權重(即鏈向這個網站的網頁頁面的權重),分值越高說明該網站越受歡迎,一般而言MozRank≥7說明該網站關注度高;而4≤MozRank<7說明網站一般。從Open Site Explorer中獲取。
3 評價方法
31 采用TOPSIS法,對機構知識庫的網絡影響力排序 本研究采用基于客觀評價的TOPSIS分析法,它是系統工程中有限方案多目標決策的常見方法[9],是對基于歸一化后的數據矩陣分析,找出有限方案中的最優方案和最劣方案,然后獲得某一方案與最優方案、最劣方案的差距(用差的平方和的平方根表示),從而得出該方案與最優方案的距離,并依此作為評價各方案優劣的依據。
32 采用比較分析法,對中美英印的IR進行比較研究 比較是認識事物的基礎,是人類認識、區別和確定事物異同關系的最常用的思維方法。要想了解我國IR質量如何,實際應用如何,就必須與其他國家的IR進行比較,找出我國IR的不足之處,提出需要解決的問題。
33 運用統計學方法,研究國家間的指標差異情況
通過Excel對數據進行描述性統計,采用SPSS170進行統計學分析。運用Spearman相關分析以確定各指標與排名高低的相關性,根據相關系數判定有益于提高排名的指標。此外,對中國、美國、英國、印度4個國家的數據進行秩和檢驗及其兩兩比較,以P<005為差異有統計學意義。
4 結 果
41 綜合指標排序
采用TOPSIS法將評價結果從高到低排名,由于IR較多,且中印未進入前10,這里顯示排名前10及中印首位的IR(見表3)。如圖可見:在618個IR中,美國和英國占據前10名,中國首名香港大學僅列17位,印度首名也僅77名,這說明了發達國家和發展中國家在IR的網絡影響力上具有明顯差距。
42 指標比較
經檢驗,本數據不服從正態分布,故不使用均數和標準差,而采用中位數為主、輔以四分位間距、最大最小值來反映中美英印的整體水平(見表4~表8)。
將各指標的中國、美國、英國、印度4個國家的數據進行秩和檢驗,顯示4國間均具有統計學差異(P<005),后進行兩兩比較,得出:除外鏈數和MozRank中國與印度(分別是0147和0144)間不具有統計學意義,其他指標各國均具有顯著統計學差異(P<001)。
從各指標看出各國趨勢是:從中位數來說,除了網站規模和文獻量我國分列第1和第2,美國和英國基本占據前兩名;從最大最小值來說,美英數據差異極大,層次參差不齊,中印較均衡;四分位間距的情況同中位數類似。
中位數可反映各國IR的總體水平,將表中各國指標的中位數再次做TOPSIS分析,最終得出4國IR網絡影響力為:美國>英國>中國>印度的結果。
43 區間分布情況
以155為間距,將618個IR綜合排名分為4個區間,得出4國IR在4區中的數量分布(見表4),第一區為最優,第四區則為最差。可見:美英分布較均衡,各區比例相差較小,而中印的大部分位居第四區。
44 各評價指標與排名的相關分析
將排名與5個指標分別進行Spearman相關分析,顯示排名結果與所有指標均具有較大相關性(相關系數R>03為具有相關性,R>07位強相關),且均為正相關。其中M值和外鏈數相關度最大(R=087和R=0728),其次是文獻量、顯示度、網站規模(R=0462、0441、0418)。說明M值和外鏈與IR的排名呈現顯著強正相關,M值的提升和外鏈數的增加可以顯著提高IR的網絡影響力。
5 分析與討論
英美等發達國家發展的歷史比我們悠久,其在各個領域已經形成了科學而嚴謹的規范和行為準則。通過研究可看出:作為發達國家的美國、英國機構知識庫的網絡影響力遠大于發展中國家的中國和印度,且4國呈美國>英國>中國>印度的排序,值得我們深入挖掘其中的關鍵信息。
51 網站維護
一個網站運作后,只有不斷改進設計、提供更多的服務,不斷更新、增添信息,網站才會具有活力,實現建立站點的最終目的,因此網站維護非常重要。在統計中最終可用于比較的網站比例是英國最高,占8982%,美國第二,占7849%,中國和印度分別占6667%和5147%,說明英國與美國的IR不僅在OpenDOAR注冊,同時還重視其適時的維護,保障IR的可用性。
52 各國指標比較
網站規模是決定網站信息資源豐富度和用戶信息檢索效率的重要因素,按中位數排名,該指標為中國>印度>英國>美國。縱觀統計數據,中國IR整體較均衡,網站規模最大的是香港大學IR,有507 000個網頁,最低的是清華大學IR,有12 217個網頁;而美國和英國卻出現了優劣差距非常大,英國網站規模最低的僅151個網頁,美國最低的僅418個網頁。由于英美IR數量較多,覆蓋面廣,而又沒有一個統一的建設指導機構,因此IR的建設情況參差不齊,發展較好的IR各指標相當優秀,反之各指標指數較低他們更注重中國目前的IR數量較少,主要集中在重點高等院校和中國科學院,因此發展較均衡。endprint
文獻量是指IR中存放的文獻數量,直接體現IR內容的豐富程度,文獻量越大網站被公眾利用的機率的概率就越高,網絡影響力也會越大。該指標排名為美國>中國>印度>英國,從排名看中國IR的文獻量大于英國和印度,但次于美國。目前中國科學院系統已經實行文獻的呈繳制度并與職稱評聘掛鉤,這對保障IR的文獻量有好處。
顯示度是通過搜索引擎搜索網頁數而得,目前網絡搜索引擎已經成為人們獲取網絡信息資源最主要、最便捷的工具,所以搜索引擎對IR信息資源能否被用戶利用起著至關重要的作用,也直接影響用戶對IR網站的訪問行為、認知程度和利用程度[11]。該指標的中位數排名為英國>美國>印度>中國,中國位于最后。表3可見,中國的顯示度小于1 000的有5384%的IR,而美國僅有1158%,英國有1692%,這應引起中國IR的建設者們重視,如果IR的網頁無法被搜索引擎檢索到,那么利用率將大受影響。
外鏈在很大程度上反映網站的被認可度和知名度,以及外部影響力和網絡輻射力,是網站建設質量的主要評價指標。該指標排名為美國>英國>印度>中國,中國仍為最后。說明中國IR被認可度不高,當然影響該指標的因素有多種,比如文獻的價值、連接的成功率、網絡的速度等等,今后中國IR的建設和維護要加強這方面的檢測與設備的改進。
M值代表一個鏈接流行度評分。它反映了任何給定的網頁在互聯網上的重要性。網站通過獲取其他網頁鏈接到本身的數量和質量來提高MozRank。傳入環節的質量越高,MozRank越高。該指標的排名為美國>英國>印度>中國。中國仍位于最后。這進一步說明中國IR的被關注程度較差,這與IR的網絡建設、內容質量、傳輸等都有很大關系。中國的IR與英美發達國家的IR相比還有較大的差距,應該引起政府相關部門重視,提倡IR聯盟,除了有較強的IR硬件設施外,還應進一步提升IR的內在質量,吸引其他網站的鏈接。
53 各國分區情況
分析各國分區的情況可見,中國在第一區中的IR僅占1923%,而英國和美國的IR分別占2684%和266%。第四區中國和印度占的比例就最大,分別為6154%和5143%,而英國和美國分別占178%和2759%。這說明中國和印度的較大部分IR質量較差,排名靠后。
54 統計學分析
通過Spearman相關分析,顯示5項指標中M值鏈和外鏈數與網絡影響力的相關度最大,而我國IR這兩項排名卻在最后,證明中所以我國所以我國IR較大的差距。更要重視MozRank和外鏈數的建設,將MozRank和外鏈數的建設作為提高IR網絡影響力的一項重要工作。通過秩和檢驗及其兩兩比較,我們可以看:至少英美和中印是具有顯著差距的,我國只有不斷的趕超,不斷學習,才能追趕甚至超越發達國家的IR建設水平。
6 小 結
61 中國IR應該面向全球
IR是開放獲取運動的一個重要部分,是機構知識管理的有力工具。中國高等院校和研究機構較多,學術資源豐富,目前很多研究機構,特別是高等院校都構建了IR,但卻沒有在OpenDOAR注冊,就北京而言,在OpenDOAR上注冊的僅清華大學、北京大學和北京科技大學。這說明中國的IR開放獲取意識還不強,不夠規范,沒有形成國家層面、學校層面以及科研人員層面的普遍認知,因此跟不上信息社會發展的進程。中國應該認真研究與學習國外IR建設的成功經驗,充分利用自身的豐富資源,創建國際化學術環境,為中國的科技創新提供良好的環境與條件。
62 加大政府干預力度
在數字化時代,如何充分利用互聯網,將學術研究機構產生的大量信息資源進行高效利用、傳播與管理,是學術界普遍面臨的挑戰。同時,面對壟斷造成的日益高漲的價格壁壘,急需一種新的信息保存及獲取方式來促進學術資源的高效利用,IR便可緩解這些矛盾,因此要加強國家政府層面的政策支持。
總之,IR在國內還屬于一個新興事物,應當充分借鑒國內外已有經驗,加大宣傳推廣,爭取多方面支持,并通過有效地政策及制度來保證機構知識庫的長久發展。
63 本次研究可能的存在問題及解釋
(1)目前關于IR網絡影響力的研究大部分采用層次分析法等,借鑒TOPSIS法進行此項研究極少使用,望本次研究能為TOPSIS法在IR網絡影響力的運用提供一定的借鑒,在不進行人為增加權重的情況下,其能否科學的體現IR的網絡影響力還有待進一步研究。
(2)對顯示度采集工具的選擇:Google作為全球市場占有率最高的搜索引擎,是網絡計量學研究的首選之一,本文顯示度指標即采用該搜索引擎,并且為了更好地測試效果使用了VPN(虛擬專用網絡)。但是針對谷歌在國內的使用情況不及百度,本文又使用了百度分別檢索中英文顯示度,并將中英文顯示度進行疊加,結果顯示百度的顯示度指數遠不及Google,說明百度爬蟲對IR網站的采集力度不及Google,故選Google。對指標數據的解釋:在網絡中,個別數據指標由于是動態的,同一搜索引擎,同一檢索對象,不同時間點數據差異很大,因此我們選擇在盡可能短時間內就將全部研究對象檢索完畢,從而最大限度的保障數據的準確。
參考文獻
[1]趙繼海.機構知識庫:數字圖書館發展的新領域[J].中國圖書館學報,2006,(2):33-36,50.
[2]邱均平,等.網絡計量學[M].北京:科學出版社,2010:128-129.
[3]邱均平,程妮.中國重點大學的網絡影響力評價研究[J].科學學研究,2009,(2):190-195,175.
[4]劉文云,周泰冰.我國省級公共圖書館網絡影響力評價研究[J].圖書館建設,2011,(3):85-89.
[5]黃賀方,孫建軍.基于鏈接分析的網站評價實證研究——以四大門戶網站為例[J].情報雜志,2011,(1):74-77.
[6]虞飛華.不同搜索引擎在中國大學網絡影響力評價中的比較研究[J].情報科學,2013,(5):98-103,122.
[7]易程,李春,林維波.世界機構知識庫網絡計量學排名影響因素研究[J].大學圖書館學報,2013,(2):74-78.
[8]中國互聯網絡信息中心.中國互聯網絡發展狀況統計報告(2005年7月)[EB-OL].http:∥www.cnnic.net.cn upload files pdf 2005 7 20 210342.pdf,2006-01-06.
[9]魯春陽,文楓,楊慶媛,等.基于改進TOPSIS法的城市土地利用績效評價及障礙因子診斷——以重慶市為例[J].資源科學,2011,(3):535-541.
[10]潘志敏.用TOPSIS法對我院各病區工作進行綜合評價[J].中國衛生統計,2001,(4):41-42.
[11]張云瑾.臺灣地區機構知識庫建設特點及其啟示[J].福建師范大學學報:哲學社會科學版,2010,(4):56-59.
[12]新華社書目報.中國科學院國家科學圖書館組織建立全院機構知識庫網格服務系統[EB/OL].http:∥www.nlc.gov.cn/newtsgj/yjdt/2010n/11y2182/201011/t2010112234555.htm.
(本文責任編輯:孫國雷)endprint