李銘 翁淳光



[摘要]本文鑒于大數據時代機構知識庫對于保存及共享科研成果,利用網絡實現自由傳播的重要意義,對我國內地及港澳臺地區(qū)機構知識庫網站的網絡影響力進行指標評價,除了應用網絡影響力的多項基礎指標外,還引入SEO分析。根據最終結果,本文運用TOPSIS法對網站進行排名,并對內地、臺灣及港澳地區(qū)的機構知識庫進行比較分析,找出內地機構知識庫現存的問題。本文建議要加大政府干預力度,改變重建設輕維護的現狀,重視SEO優(yōu)化,重視規(guī)范化與標準化建設機構庫,盡快與國際接軌。
[關鍵詞]機構知識庫;網絡影響力;SEO分析;評價
[中圖分類號]G250.74
[文獻標識碼]A
[文章編號]1008-0821(2015)04-0017-05
機構知識庫(Institutional Repository,IR)承擔著保存機構知識資產和支持知識開放共享的重要職責,是新型學術信息交流體系和教育科研知識基礎設施的有機組成部分,是機構管理科研成果、傳播學術知識、支持社會科技創(chuàng)新的支撐性基礎設施。數字科研的迅速發(fā)展、數字知識內容和科研成果的形態(tài)日益豐富、知識內容的應用形態(tài)和應用方式日益活躍,科研機構各個層級對IR的要求也越來越高,由此可見IR的質量將直接影響我國的科技創(chuàng)新發(fā)展。
鑒于IR的網絡特性,因此對IR的網絡影響力進行多指標評價,既可以看出國內IR質量差異、結構差異,也可以找出其存在的主要問題,有利于進一步提高改進,與國際接軌。
1 網絡影響力綜合評價指標的構建
1.1網絡影響力指標
網絡影響力是對網絡信息資源建設水平和綜合利用效率的客觀測度,評價的出發(fā)點通常是網絡信息資源間的鏈接關系或用戶訪問網絡信息資源的情況。我國著名的計量學專家邱均平教授對網絡影響力評價指標使用了網站規(guī)模、外鏈數量、顯示度、內容豐富度以及學術影響力,此外劉文云、黃賀方等對網絡影響力評價指標也提出各自的見解,其具體指標基本一致。
西班牙人文與社會科學研究中心網絡計量實驗室從2004年開始每年發(fā)布《世界大學網絡計量排名》,武漢大學中國科學評價研究中心從2008年起發(fā)布《中國重點大學網絡影響力排行榜》,這兩個排名也均包含了網站規(guī)模、外鏈數、文檔豐富度、學術文檔數、顯示度5個評價指標。易程等在研究成果中顯示外鏈數、學術論文數與IR世界排名相關性比較強,而文檔豐富度與世界排名呈現弱相關。鏈接效率為外鏈數/網站規(guī)模所取得的值,來源于外鏈的數量越多,其鏈接效率就越高,網站相對影響力就越大,而且鏈接效率與網絡影響因子存在顯著的線性正相關性,鏈接效率越高,網絡影響因子越大,其社會影響力就越大,因此鏈接效率是反映網站影響力大小的一個重要指標。
SEO是搜索引擎優(yōu)化(Search Engine Optimization)的英文縮寫,是指通過采用易于搜索引擎索引的合理手段,使網站各項基本要素適合搜索引擎的檢索原則,并且對用戶更友好,從而更容易被搜索引擎收錄及優(yōu)先排序。據《中國互聯網絡發(fā)展狀況統(tǒng)計報告》顯示,84.5%的網絡用戶得知新的網站是依靠搜索引擎,58.2%的網絡用戶通過搜索引擎檢索所需信息,截止2014年6月,我國搜索引擎用戶規(guī)模達5.07億。所以網站如果想要提高自身網絡影響力就必須對自身進行優(yōu)化,以便于搜索引擎索引,因此本次研究引入了SEO指標。
1.2評價指標體系形成
依據綜上所述,本研究將我國IR網絡影響力評價指標確定為:目標層與準則層(見圖1)。目標層的具體指標為:可見度、認可度、SEO分析。準則層的具體指標為:網站規(guī)模、文獻量、顯示度、外鏈數、網絡影響因子、鏈接效率、MozRank、Followed Linking Root Domains與Equity-Passing Links/Non-Equity-Passing。
2 數據來源及指標說明
2.1數據來源與獲取時間
依據國際權威的開放存取知識庫名錄Open DOAR,點擊國家和機構板塊,找到亞洲欄目下的中國(China)、香港(Hong Kong)、臺灣(Taiwan),共注冊有99個IR(其中內地33個,香港7個,澳門1個,臺灣58個)。排除無法打開、網站規(guī)模過小(數據量≤100)、Open Site Explorer抓取不到數據的網站32個,最終統(tǒng)計為67個(見表1)。
鑒于目前主流分析網絡影響力的搜索引擎,如Alltheweb、Altavista、Yahoo Site Exploere早已停用的問題,我們使用了測試工具集合的方式,即對于不同指標采用不同測試工具。指標數據收集時間為:2014年8月20~24日。
2.2指標說明
2.2.1可見度
可見度包括網站規(guī)模、文獻量、顯示度。
網站規(guī)模:即搜索引擎索引到的該網站的網頁總數。采用百度、360搜索、搜狗、谷歌、必應及雅虎,取其最大值。
文獻量:即IR擁有的文獻數量。從Open DOAR中獲取。
顯示度:即IR網站名稱在搜索引擎中的收錄數。鑒于Google在當今全球的覆蓋面,故統(tǒng)一使用Google檢索其英文全稱。
2.2.2認可度
認可度包括外鏈數、網絡影響因子、鏈接效率。
外鏈數:即IR域名被外部域名鏈接的次數,是評價一個網站的核心指標,可衡量其網絡影響力。來源于Open Site Explorer。
網絡影響因子:即在指定時間,特定網絡對象的每個網頁平均被外部鏈接的次數,WIF=外鏈/網站規(guī)模。
鏈接效率:指外鏈數/總鏈接數,可客觀的表明網站鏈接來源的組成結構。
2.2.3SEO分析
SEO分析的指標包括MozRank、Followed Linking Root Domains、Equity-Passing Links/Non-Equity-Passing,均來源于Open Site Explorer。endprint
MozRank(簡稱“M”):通過抓取互聯網中的超鏈接的連接關系判定網站等級,滿分10分。影響分值的因素有外鏈數量和鏈接源(即鏈向這個網頁頁面的權重),分值越高說明該網站越重要,一般而言M≥7說明該網站SEO做得較好,網站質量高。
Followed Linking Root Domains(簡稱“F”):即導入到這個域名的外部網站數量,外鏈是衡量網站影響力的重要因素,這一指標顯示向本站發(fā)出外鏈的網站數量,發(fā)出外鏈網站越多,影響力越大。
Equity-Passing Links/Non-Equity-Passing(簡稱“E”):即質量鏈接占比,質量鏈接是Open Site Explorer認為擁有鏈接價值,能夠提升搜索引擎排名的鏈接,非質量鏈接則相反。質量鏈接占比=質量鏈接/(質量鏈接+非質量鏈接)。
3 研究方法
本研究采用基于客觀評價的TOPSIS分析法,它是系統(tǒng)工程中有限方案多目標決策的常見方法,是對基于歸一化后的數據矩陣分析,找出有限方案中的最優(yōu)方案和最劣方案,然后獲得某一方案與最優(yōu)方案和最劣方案的差距(用差的平方和的平方根表示),從而得出該方案與最優(yōu)方案的距離,并依此作為評價各方案優(yōu)劣的依據。
具體步驟如下:
(1)將網站規(guī)模、文獻量、顯示度等9項指標從左至右構成決策矩陣X;
(2)將矩陣X經數據歸一后得到矩陣Z;
4 結果與分析
4.1IR總排序
將評價結果由高到低排序(見表3),顯然香港大學學術庫網絡影響力第一名,其文獻量達到14余萬條,外鏈數達到6934個,M值5.62,發(fā)出外鏈網站有357個,近2個月內增加了9個外鏈(多數數據庫,特別是內地的均是0)。說明香港大學的學術庫非常優(yōu)秀,因此其網站的影響力就很大。內地的廈門大學學術典藏庫和清華大學IR建庫較早,得益于大學豐厚的學術沉淀,廈門大學學術典藏庫和清華大學IR在此次分別排名第9和第10名。
4.2IR地區(qū)分區(qū)情況
以17為間距,將67個IR分為4等分,得出內地與港澳臺IR在4區(qū)中的數量分布(見表4)。第一區(qū)表示網站的網絡影響力各項評價指標最優(yōu),第四區(qū)表示各項評價指標最差。第一區(qū)的IR均為大學,其中臺灣有14個,內地2個,香港1個,這說明大學對于數字信息的需求與渴望。大學有豐富的數字資源、有形式多樣的數字創(chuàng)新成果,將這些資源整合共享,有利于社會創(chuàng)新與社會發(fā)展。因此臺灣從領導層開始重視IR的建設,當局政府將此作為重要工作交由大學圖書館執(zhí)行,無論在網站結構建設、信息資源建設、服務器設備配置等方面都非常重視,并以臺灣大學為機構典藏的營運范例,開發(fā)機構典藏軟件,完備相關行政作業(yè)流程文件,標準規(guī)范,從而得到用戶的認可,同時體現了網絡如何釋放大數據帶來的好處,并充分發(fā)揮其優(yōu)勢。
根據TOPSIS排序可見,IR的網絡影響力最大的是臺灣。臺灣在第一區(qū)和第二區(qū)占的比例最大,而內地則有50%在第四區(qū),說明國內各地區(qū)間在IR的建設中存在較大差異。臺灣IR充分利用了大學的各種資源優(yōu)勢,并由政府委托圖書館統(tǒng)一組織構建,因此克服了由于學校規(guī)模、人力、財力不足等因素的干擾。《2014年全球信息技術報告》根據網絡就緒指數排名,顯示香港排名第8位,臺灣排名第14名,內地排名第62位,這與本研究結果基本一致。
4.3內地IR排序
內地IR主要為兩大系統(tǒng),一是大學;二是中科院。本研究中符合測試條件的大學系統(tǒng)有4個知識庫,中科院系統(tǒng)有16個知識庫。內地IR在2011年呈現井噴式的發(fā)展,此后其數量也平穩(wěn)增長,但是根據表3顯示,大學系統(tǒng)知識庫在第一區(qū)有僅2個,第三第四區(qū)各1個。而中科院系統(tǒng)第一區(qū)未見,第四區(qū)卻有9個,看來內地IR依然存在重建設輕維護的問題,網絡影響力總體有待提高。
4.4內地IR發(fā)展
為推進IR在內地的發(fā)展,2012年成立了中國IR推進組。但是目前尚有不少IR未在Open DOAR注冊,這說明內地從國家政府層面和各大學、研究機構的領導層面還沒有對IR的建設充分重視,因此對其如何規(guī)范化、制度化,標準化、政策化沒有相關政策支持,更難以與國際接軌。內地如此多的大學,但在Open DOAR注冊的IR只有5個(其中1個鏈接不上),臺灣卻有58個,香港有7個,內地的情況與《2014年全球信息技術報告》顯示的排名也一致。
5 討論
5.1IR的可用性
國內IR網站排除無法打開、規(guī)模太小以及Open Site Explorer抓取不到數據的網站后,內地可評價的網站只占6l%,臺灣67%,而港澳卻是100%。這是否與網站的結構、建設規(guī)范性、語言標準化有關。
5.2IR的可見度
IR的可見度直接影響其認知度,因此必須重視機構庫的網站建設,擴大網站規(guī)模,重視各種科學數據、音視頻資料、課件及社區(qū)檔案、計算機輔助軟件產生資料等非文本信息資源的收集。同時要重視和搜索引擎進行良好的互動,注意內容更新,不斷為網站建立有意義的鏈接,這些都會影響其網站的顯示度。
5.3內地IR的認可度
IR網站的網站規(guī)模和外鏈數直接影響其網絡影響因子,調查顯示網絡影響因子最高的是臺灣國立中央大學和真理大學機構庫,分別為9.0814和0.0795;香港最高的嶺南大學機構庫是0.03984;內地最高的是中科院地理科學與資源研究所和北京大學的機構庫,分別是0.0262和0.0167。由此可見內地IR要提升自己的網站影響力必須提高網站技術支持的力度,重視網站維護。
5.4內地IR的SEO分析
SEO分析工具是對網站質量的優(yōu)化分析,其中M值是判斷網站質量的指標,內地的IR都在3~4之間,臺灣和港澳略高一點,最高的是臺灣的國立中央大學5.79,說明內地的IR在網站質量指標上還有很大上升空間。F值的均數中內地僅14.35,臺灣58.36,港澳93.5,差距之大,足以使內地政府和機構庫管理者深思。E值是質量鏈接占比,這項指標較好,區(qū)間差異也較小。
6 結論
(1)中國的大學應利用自身豐富資源創(chuàng)建國際化學術環(huán)境,為學術社會網絡做貢獻,因此大學IR不僅應從數量上增加,而且要重視提高其網絡影響力。
(2)內地IR與港澳臺相比有一定差距,其中的一個重要問題就是政府政策干預力度不夠,基層領導規(guī)范管理與國際接軌有差距,開放獲取與資源共享理念有障礙,阻礙了國內的科技創(chuàng)新成果即時、無保留的公開、共享。
(3)國內學術界對搜索引擎優(yōu)化的必要性和重要性認識不夠,因此要增強SEO意識,更好地為讀者提供更優(yōu)質的網絡服務是當務之急。
(本文責任編輯:郭沫含)endprint