


(1.蘭州大學圖書館 甘肅蘭州 730000)
摘 要:文章通過文獻分析對網絡機器人探測技術的研究現狀進行總結;對DSpace、EPrints、Digital Commons、 University of Minho Statistics Add-on for DSpace以及 Institutional Repository Usage Statistics UK (IRUS-UK) 5個機構知識庫平臺中網絡機器人探測技術的應用進行了比較。探討了開放獲取機構知識庫建設過程中的用戶使用量統計問題的解決方案。分析得出:在開放獲取機構知識庫中同時應用網絡機器人探測技術與人工排除網絡機器人措施,對于提高用戶使用數據統計的準確性有一定的幫助;學術類搜索引擎是網絡機器人探測技術監控的重點對象。
關鍵詞:網絡機器人探測;開發獲取機構知識庫;用戶使用數據統計
中圖分類號:G202 文獻標識碼:A DOI:10.11968/tsyqb.1003-6938.2017042
1 引言
機構知識庫(IR)建設與開放獲取(OA)運動正在全球范圍內沖擊和改變著傳統的學術出版模式及傳播方式,影響和變革著傳統出版發行機制、知識交流利益分配方式、知識成果的價值判斷標準等,形成了一股不可逆轉的知識成果運動方式變革潮流[1]。 截至2016年11月,全球范圍內的學術性機構知識庫數量已超過4000個,這些機構知識庫中的很大一部分由學科聯盟或各高校自主建設,以用戶自存儲的模式來保存和展示科研人員的研究成果,通常這些資源支持開放獲取。
隨著用戶獲取信息的途徑越來越多,使用情況的統計數據成為分析和了解資源價值的重要手段。現階段對于下載量統計數據有兩種不同的觀點,一些認為下載量統計方式存在問題,統計結果為無用信息[2],另一些機構和用戶使用這些數據進行論文排名、作者排名、甚至定期將這些數據發布以進行宣傳。文章下載量有時還被作為預測文章被引次數的前期指標[3],可以說是學術和科學研究出版物的最重要指標之一。
無論持有哪種觀點,任何數據作為一個度量或僅作為簡單的宣傳推廣目的使用都必須是準確的。然而,各類搜索引擎以及惡意評論制造者對網絡機器人的使用對開放獲取機構知識庫的數據統計準確性提出了極大挑戰。有數據表明,由網絡機器人制造的流量,占到了網絡總流量的8.51%-32.6%[4]。網絡機器人在不同類型的網站上所制造的流量差別很大,有一項針對互聯網檔案館的調查表明,93%的使用請求來自于網絡機器人[5]。
有哪些技術可用來探測網絡機器人?主要的機構知識庫平臺是如何進行網絡機器人探測的?這些問題的探討對我國開放獲取機構知識庫建設過程中的用戶使用量統計問題的解決提供了參考。
2 網絡機器人探測技術
Tan 與 Kumar[6]最早開展了對網絡機器人探測技術的研究;Doran 與 Gokhale[4]對主要的網絡機器人探測技術進行了總結。雖然這些研究主要來自于計算機科學領域,但已有研究人員將研究重點聚焦在其在學術信息系統的應用上[7-9]。對Doran 與 Gokhale的分類體系進行簡化后,列出了用于網絡機器人探測的23個獨立變量(見表1)。
研究人員提出的變量分析方法各不相同,既有在服務器端對已知的機器人進行數據匹配的方式[8]也有利用復雜的機器學習技術的方式[10]。可以明確的是,沒有一種方法可以保證精確的探測到所有訪問過網絡服務器的機器人。因此,網絡機器人探測技術的階段性目標變成了在保證錯報數量最小(查準率)的基礎上最大程度的探測出網絡機器人(查全率),即在盡量少的把人工行為標注為網絡機器人行為的同時盡可能多的捕獲網絡機器人[11]。筆者對各項針對網絡機器人探測技術查全率、查準率以及F-值(查全率與查準率的調和平均數)的研究進行了匯總。可以看出,網絡機器人探測技術的查全率在0.85與0.97之間,查準率在0.82與0.95之間,F-值在0.84與0.94之間(見表2)。
在測試一項機器人探測技術時,研究人員首先要知道日志文件中的哪一個會話是網絡機器人所創
建。大部分情況下,檢測與標注數據的工作是應用另一項非測試的機器人探測技術以自動或半自動的形式完成的,但有時是通過人工形式進行的。 Doran 與Gokhale [12]分析了人工檢測與自動檢測數據集的優缺點,指出人工檢測準確率高,但可檢測的網絡機器人的范圍較小,且受到數據大小的限制,自動檢測所用到的技術本身就不可能完全準確,與所測試技術結果的對比不具有可信度。
由于專家的意見不統一、技術測試的局限性以及檢測技術精確度的影響,合理的機器人探測技術應用應該是一種混合模型,應用多種技術與數據來達到一個盡可能好的效果[13]。
3 網絡機器人探測技術在開放獲取知識庫中的應用
機構知識庫中的內容通常是通過主流搜索引擎的自動索引功能被用戶所發現。一方面,機構知識庫需要吸引搜索引擎以提升其內容的可見度;另一方面,出于準確的用戶使用數據統計的需求,機構知識庫需要應用機器人探測技術來剔除網絡機器人對使用量的影響。
通常,機構知識庫中的日志信息有以下缺陷:除下載請求之外的會話數據有限或不存在;知識庫中的會話通常只包含單獨的下載信息,而不包含下載之前的點擊量信息與下載之后的瀏覽信息;在日志中可見的信息局限在日期、時間、HTTP方法與響應碼、IP地址、用戶代理字符串以及referring 網站。這導致表1中所列的多種網絡機器人探測技術并不能在機構知識庫中使用,如Web頁面組件請求、圖像鏈接比、資源類別請求等。由于機構知識庫用戶實時交互技術使用較少,鼠標移動與鍵盤聲監測通常也無法進行,而使用驗證碼會導致機構知識庫中的資源無法被搜索引擎發現。基于以上原因,筆者歸納了國外主要的OA機構知識庫平臺所采用的網絡機器人探測方式(見表3)。
3.1 DSpace
DSpace是全世界范圍內應用最廣泛的機構知識庫系統,自2002年發布以來,已經有超過1600家機構使用。DSpace采用Apache SOLR進行用戶使用數據統計,該系統從2010年起,采用了網絡機器人探測技術來進行數據過濾[14]。
DSpace采用了3種方式來探測網絡機器人。首先,對每一個下載與頁面瀏覽記錄的用戶代理字符串進行檢測,使之與235個已知用戶代理模式(正則表達式)進行對比;其次,檢測訪問請求的IP地址,使之與6個最大的搜索引擎的IP地址列表進行對比。除此之外,對比列表還包括一份包含2528個IP地址的其他搜索引擎IP地址列表,以及與搜索引擎無關的48個已知網絡機器人列表。大部分IP地址列表可以通過網絡查詢自動更新。最后,對正式域名采用反向DNS名稱查找的方式使之與已知網絡機器人域名列表進行對比[15]。從2014年開始,基于用戶使用數據統計準確性的需求,DSpace 已經開始對其網絡機器人探測方式進行重新評估[16]。
3.2 EPrints
EPrints是全球最早上線的機構知識庫平臺,全球用戶數量排在DSpace之后,位居第二,有578家機構使用[17]。EPrints平臺中的用戶使用數據統計模塊叫IRStats 2,這個模塊中使用了網絡機器人探測技術[18]。
IRStats 對下載量數據的過濾基于兩種方式。一種方式是利用用戶代理字符串列表,該列表包含960個已知網絡機器人及爬蟲軟件信息。如果使用請求的用戶代理字符串記錄與列表信息相匹配,下載記錄數據在用戶下載量統計時將被過濾;第二種方式通過檢測單個IP地址申請下載的時間間隔來進行。默認情況下,如果同一IP地址在24小時內多次申請下載同一條信息,在進行用戶下載量統計時,只按一次計算。這一過濾方式的階段性目標是識別所謂的“重復下載”[19]。嚴格意義上來講,重復下載并不一定完全是網絡機器人的行為,但過濾軟件會把此類合法下載識別為網絡機器人行為,在數據統計時排除在外。此外,因為同一網絡機器人在24小時內對機構知識庫中所有文件進行單次下載的行為是被允許的,如果這個網絡機器人每24小時對這個機構知識庫中的所有文件進行下載,所有這些下載數據將被記錄在用戶下載數量之中。盡管如此,這種方式已經在沒有人工干預的情況下,很大程度上限制了網絡機器人的行為。
3.3 Digital Commons
Digital Commons是一個服務器托管機構知識庫平臺,全球用戶數有400個機構[20]。該平臺上的所有開放獲取資源都通過Digital Commons Network這一單一門戶來揭示,現有150多萬條OA數據。由于Digital Commons是一個集中管理的網絡知識庫,其機器人探測技術所需的數據集要大大多于單個的機構知識庫系統。大規模的數據集可以提供更加準確的用戶行為探測,這是本地部署的機構知識庫所不能比擬的。此外,機構知識庫所制定的數據規則,對使用平臺的所有機構均適用,這使得多個計數器可以兼容跨機構站點的下載統計數據。
Digital Commons 所使用的網絡機器人探測技術由一系列的過濾器組成。由用戶代理字符串已經申明的已知網絡機器人產生的下載以及使HTTP產生除200與302響應碼以外其他響應碼的下載,均不計入用戶使用量統計中。用戶在30秒內使用同一IP地址對同一資源的下載,也將被計數器排除在使用量統計之外[21]。referrer字段用來識別自動產生的鏈接地址。最后,Digital Commons使用內部的加權算法進行實時計算。這個算法有5個指標,包括一個IP地址24小時之內在平臺上對所有知識庫及所有文章的所有活動記錄、來自代理服務系統的請求、下載請求的定位信息、下載請求是否來自.edu 域名,第5個指標來自于交叉比較一個IP地址所代理的用戶數量與由每一個IP—用戶代理配對所產生的條目下載請求數量。
3.4 Minho大學統計組件
Minho 大學統計組件開發于2006年,是一個與DSpace相結合的開源統計系統。開發的初衷是向全世界展示Minho大學機構知識庫中的資源使用情況,促進機構知識庫的進一步完善[22]。此系統還具有全面的工作流以及管理數據統計功能。
Minho統計組件在數據庫中存儲了DSpace中所有的下載比特流(包括PDF格式與其他格式)。該系統采用多樣化的方式來探測網絡機器人。包括與包含793個已知網絡機器人的預設表單進行匹配,探測假網頁的訪問請求與來自 robots.txt 文件列表里的網址訪問請求。數據庫中包含被定義為網絡機器人的相關IP地址與用戶代理字符串,這些信息通過預先的日志分析產生。所有這些疑似網絡機器人的下載行為,在用戶使用數據統計中都會被過濾,不會被終端用戶所見。
為了標注下載信息,網絡機器人探測腳本讀取服務器日志文件,檢查每一個訪問請求的IP地址以及代理信息是否已經存儲在數據庫中。如果代理字符串在數據庫中找到,使用這個用戶代理字符串的所有新IP地址,將被標注為潛在的網絡機器人。如果IP地址與用戶代理字符串信息都不在數據庫中,探測腳本將對代理信息與預設代理列表以及假網頁與robots.txt 文件列表相比對。如果匹配成功,這個新的IP/代理配對將被記錄,由這個地址所產生的下載歷史數據是否在使用量數據統計時被剔除,需要進行人工決策[23](Minho統計組件的網絡機器人探測腳本的決策過程見圖1)。
除網絡機器人探測腳本以外,Minho統計組件還向用戶提供綜合管理界面,在一分鐘之內超過10次訪問請求或產生多次會話的IP地址將顯示在這個界面上[24]。在一定時間段內,高頻出現的IP地址也會顯示在這個界面上。這個工具將有助于人工決策是否將單個IP地址加入到疑似網絡機器人列表中。
3.5 IRUS-UK
IRUS-UK是應用于英國91個機構知識庫的使用量統計系統[25]。該系統遵循COUNTER-PIRUS業務規程,旨在為英國機構知識庫聯盟提供統一的用戶機構知識庫使用量[26]。
與Digital Commons Network一樣,IRUS-UK是一項大規模的服務,應用網絡機器人探測技術在中心服務上,在多個機構知識庫中進行跨平臺數據統計。這兩個系統都與開放獲取機構知識庫聯盟(COAR)的使用量統計小組合作,與此同時,IRUS-UK還致力于促進反網絡機器人工作組的成立[27]。
為了探測網絡機器人,IRUS-UK使用包含241個已知網絡機器人用戶代理模式的反網絡機器人列表,并且對過于活躍的IP地址進行了訪問限制。最初,IRUS-UK設置過濾在一天之內從91個機構知識庫中下載超過200次的IP地址的所有下載次數數據,下載超過100次的IP地址下載數據的一部分也會被過濾[28]。現階段,IRUS-UK將所有IP地址一天下載次數的最大值設置成了40次,并且長期進行加強網絡機器人探測技術的研究。
3.6 網絡機器人探測技術應用評價
5種OA機構知識庫平臺網絡機器人探測方式各有特點。 Dspace采用了單一的綜合日志分析模式,數據需求較少,實現難度較低,且采用了高效的 Solr索引技術[29],系統資源耗費較少,執行效率高,但有如下疏漏之處:一是IP地址列表并沒有實現自動更新,自2010年采用網絡機器人探測技術以來,DSpace使用的用于對比的IP地址列表就從未更新過;二是用戶代理字符串的更新并不及時,DSpace最后一次更新用戶代理字符串是在2015年4月;此外,DSpace的對比域名列表只包含了10種域名模式,以至于其網絡機器人探測更像是功能性或實驗性的,在實際應用中并不能發揮應有作用。EPrints雖然只采用2種數據來進行網絡機器人探測,卻兼顧了綜合日志分析模式與流量分析模式,數據分析方法比較全面,但存在網絡地址轉換給正確的識別網絡機器人帶來影響的問題。這就需要系統在查全率與查準率之間做一個平衡。通常,超時時間設置的越短,查全率越低、查準率越高;超時時間設置的越長,查全率越高、查準率越低。多用戶使用同一IP地址訪問EPrints時,所產生的使用數據統計問題也已經被多個用戶所提出[30]。Digital Commons采用了10個字段來進行網絡機器人探測,在5個OA機構知識庫平臺中為最多,大規模的數據集以使探測的全面性得到了保障。此外,服務器托管模式以及統一的規則有利于統計數據在更大范圍以及更多方向上應用。但其內部加權算法中的單個IP地址使用不同的代理字符串下載相同數量條目的計算是算法中的一個缺陷,在這種加權模式下,網絡機器人的行為將不被識別。Minho大學統計組件在數據需求上選擇了折中處理,同時引入自動機器探測與人工排查結合的兩階段探測模式重點突出對查準率的保證,但存在缺乏API和代碼級文檔的問題[23-24]。在數據庫中過濾網絡機器人使用量以及進行使用量重新統計需要耗費大量時間及系統資源,包括CPU、內存、數據量連接等。使用SQL語言進行使用量統計時容易產生大量的錯誤代碼,需要大量的時間去修復,整體系統運行效率較低。IRUSUK的部署模式與Digital Commons相近,但在探測字段需求上進行了簡化,且開發團隊長期重視網絡機器人探測技術的研究,算法版本迭代速度快,但其針對性強,應用范圍僅限于英國,全球推廣難度較大。
IP地址的靜態檢測問題是5個OA機構知識庫存在的共有問題。一是被檢測到的網絡機器人IP地址以及用戶代理字符串,并沒有自動被添加到列表中,這導致檢測結果具有很大的隨機性,某一次檢測中的正確結果可能在下次檢測時被忽略;二是一旦一個IP地址被標注為來自于網絡機器人,這個IP地址將永遠被加入黑名單。如果此后這個IP地址被正常使用者使用,此用戶的使用量還是會被系統過濾,而將IP地址從黑名單去除的方式極為有限;三是一旦一個用戶代理字符串與一個網絡機器人IP地址綁定,任何使用這個代理的新IP地址都會被認為是網絡機器人。為了解決這些問題,與DHCP配置相結合的探測技術將是研究的重點方向。
4 機構知識庫網絡機器人探測技術實施建議
4.1 探測方式
現階段主要的機器人探測技術主要是利用會話數據來識別網絡機器人。如本文所述,在實際的機構知識庫中,實時會話數據很少或沒有,于是使用行為被限定為直接使用搜索引擎一次性下載文檔的行為。使用可擴展的已知網絡機器人IP地址列表、可自動收割的用戶代理字符串來判定網絡機器人行為,是機構知識庫可采用的較為節約成本的模式。同時,在這種情況下,人工判斷一些可疑的IP地址是否為網絡機器人對于提高查全率與查準率有一定的幫助。筆者總結了可用于人工判斷網絡機器人行為的基本字段(見表4)。
4.2 探測對象
國外學者研究表明,對于OA學術期刊來說,大量的網絡機器人行為來自于少數幾個搜索引擎。在所調查的341個下載樣本中,有165個下載來自于Google學術的 Googlebot ,占總下載次數的48%[8]。在我國,學術類網絡搜索引擎近年來也快速發展。2014 年 6 月 13 日,“百度學術搜索”上線,旨在構建為用戶提供海量中英文檢索的學術搜索平臺,涵蓋各類學術期刊、會議論文[31],成為我國最大的學術類網絡搜索引擎。與國外的學術類搜索引擎一樣,百度學術也未向外公布其搜索來源,僅簡單介紹了收錄范圍。可以推測,各類OA機構知識庫也是其獲取學術資源的一個主要渠道。因此,網絡機器人探測的重點對象應放到主要的學術類搜索引擎上來。
4.3 數據利用
準確的用戶使用數據統計是機構知識庫功能升級的基礎,對用戶使用數據的合理利用,是網絡機器人探測技術應用的最終目標。Coyners[32]認為電子資源統計數據的分析可以直接推動服務提升和增強用戶支持。網絡機器人探測技術所監控的數據是挖掘讀者需求的重要數據來源,通過數據挖掘技術的應用可以實現對用戶數據進行關聯規則挖掘、聚類分析、趨勢預測等。在實際挖掘中可以采用C4.5決策樹算法,將用戶下載偏好類型作為類標簽,對影響分類的評價規則進行挖掘,揭示用戶偏好特點和規律,結合協同推薦算法,可以為用戶提供更加智能化、個性化的信息推送服務[33]。此外,國內領先的中國科學院機構知識庫通過利用用戶使用數據與其他科研數據的關聯、開放數據接口,實現了知識分析和信息可視化,以此來進行科研成果管理、科研產出評價等信息增值服務,促進了機構知識庫平臺功能的擴展和優化[34]。
在用戶使用數據利用存在的問題方面,Baker和Read[35]指出缺乏統一的數據統計標準是阻礙大規模跨平臺數據挖掘深入開展的根本原因。現階段,商用數據庫的用戶使用數據統計大多基于COUNTER標準。我國深圳大學設計了USSER平臺,基于數據庫商提供的原始 COUNTER報告,對其進行深入整合與分析,針對電子資源使用統計整合與分析難題進行了探索與實踐,初步取得了成效[36]。機構知識庫平臺的用戶使用數據統計同樣可以統一采用此標準,在此基礎上實現用戶使用數據在更深更廣的尺度上被充分利用。
5 結語
開放獲取機構知識庫的用戶使用量統計,不但是服務效果和服務價值體現的主要指標,其自身也有許多問題需要進一步研究,如網絡機器人探測技術在機構知識庫中的應用效果如何、向用戶提供的使用量數據準確性如何等。隨著大數據時代的來臨,各個開放機構知識庫構建部門已經意識到了使用統計數據的重要性,但是對如何方便地獲得和展示使用統計數據、進行數據共享、方便地整合與加工使用統計數據、實現使用統計數據的長期保存等問題仍需進一步研究。
參考文獻:
[1] 徐紅玉,李愛國.中國科學院系統與高等學校機構知識庫建設比較研究[J].圖書情報工作,2014,58(12):78-83.
[2] Cornell University Library (n.d.).arXiv.org e-Print archive[EB/OL].[2016-12-03].http://arxiv.org.
[3] Brody T,Harnad S,Carr L.Earlier Web Usage Statistics as Predictors of Later Citation Impact[J].Journal of the Association for Information Science and Technology,2006,57(8):1060-1072.
[4] Doran D,Gokhale S S.Web robot detection techniques: overview and limitations[J].Data Mining and Knowledge Discovery,2011,22(1):183-210.
[5] AlNoamany Y A,Weigle M C,Nelson M L.Access patterns for robots and humans in web archives[C].Proceedings of the 13th ACM/IEEE-CS joint conference on Digital libraries.ACM,2013:339-348.
[6] Tan P N,Kumar V.Discovery of Web Robot Sessions Based on their Navigational Patterns[J].Data Mining and Knowledge Discovery,2002,6(1):9-35.
[7] Van De Sompel H,Bollen J.An architecture for the aggregation and analysis of scholarly usage data[C].Digital Libraries,2006.JCDL'06.Proceedings of the 6th ACM/IEEE-CS Joint Conference on.IEEE,2006:298-307.
[8] Huntington P,Nicholas D,Jamali H R.Web robot detection in the scholarly information environment[J].Journal of Information Science,2008,34(5):726-741.
[9] Lamothe A R.The importance of identifying and accommodating e-resource usage data for the presence of outliers.: The negative impacts of inaccurate e-journal usage data[J].Information Technology & Libraries,2014,33(2):31-44.
[10] Stassopoulou A,Dikaiakos M D.Web robot detection: A probabilistic reasoning approach[J].Computer Networks the International Journal of Computer & Telecommunications Networking,2009,53(3):265-278.
[11] Geens N,Huysmans J,Vanthienen J.Evaluation of web robot discovery techniques:a benchmarking study[C].Industrial Conference on Data Mining.Springer Berlin Heidelberg,2006:121-130.
[12] Doran D,Gokhale S S.Detecting Web Robots Using Resource Request Patterns[C].International Conference on Machine Learning and Applications.IEEE Computer Society,2012:7-12.
[13] Duskin O,& Feitelson D G.Distinguishing humans from robots in web search logs: preliminary results using query rates and intervals[C].the Workshop on Web Search Click Data.ACM,2009:15-19.
[14] Dempsey L.Discovery happens elsewhere[EB/OL].[2016-12-03].http://orweblog.oclc.org/ discovery-happens-elsewhere/.
[15] VandeVelde K,Diggory M.SpiderDetector.java [EB/OL].[2016-12-03].https://github.com/DSpace/DSpace/blob/50b8cfd77
e2640c3ae07a4e8d3e2482cbaa8df6b/ dspace-api/src/main/java/org/dspace/statistics/util/SpiderDetector.java.
[16] D Space Community Advisory Team & Luyten B.DCAT Meeting October 2014[EB/OL].[2016-12-03].https://wiki.duraspace.org/display/cmtygp/DCAT+Meeting+October+2014.
[17] University of Southampton and EPrints.org.Registry of open access repositories[EB/OL].[2016-12-03].http://roar.eprints.org.
[18] Field A.IRStats2 technical documentation-eprints documentation[EB/OL].[2016-12-03].http://wiki.eprints.org/w/IRStats_
2_Technical_Documentation.
[19] Fran?觭ois S.IRStats2—The EPrints Bazaar[EB/OL].[2016-12-03].http://bazaar.eprints.org/365/.
[20] Digital Commons.Institutional repositories published with Digital Commons[EB/OL].[2016-12-03].http://digitalcommons.bepress.com/subscriber_gallery/.
[21] Amshey S,Connolly A,Bankier J G.personal communication[EB/OL].[2016-12-03].http://www.progectcounter.org.
[22] Carvalho J.Statistics AddOn DSpace DuraSpace[EB/OL].[2016-12-03].https://wiki.duraspace.org/display/DSPACE/Statist
icsAddOn.
[23] Dantas A,Miranda A.Stats Addon Version 4 for DSpace1.8.2 [S].Braga:University of Minho and KEEP SOLUTIONS,2012.
[24] Dantas A,Miranda A.Stats Addon Version 4 for DSpace1.5.1[S].Braga:University of Minho and KEEP SOLUTIONS,2008.
[25] IRUS-UK.IRUS-UK[EB/OL].[2016-12-03].www.irus.mimas.ac.uk/ .
[26] Needham P,Stone G.IRUS-UK: Making scholarly statistics count in UK repositories[J].Insights,2012,25(3):262-266.
[27] MacIntyre R.IRUS-UK:making scholarly statistics count in UK repositories[EB/OL].[2016-12-03].www.irus.mimas.ac.uk/
news/IRUS-UKatAltMetricConf2014.pdf .
[28] IRUS-UK.IRUS-UK position statement on the treatment of robots and unusual usage[EB/OL].[2016-12-03].www.irus.mimas.ac.uk/news/IRUS-UK_position_statement_robots_and_ unusual_usage_v1_0_Nov_2013.pdf .
[29] Diggory M,Luyten B.SOLR statistics[EB/OL].[2016-12-03].https://wiki.duraspace.org/ display/DSDOC5x/SOLR+Statistics.
[30] Joint N,Field A,Gregson M.Please change the way IRstats works[EB/OL].[2016-12-03].www.eprints.org/tech.php/15695.html.
[31] 百度學術搜索[EB/OL].[2016-12-03].http: / /baike.baidu.com/view/5844732.htm?fromtitle=百度學術 &type=syn.
[32] Conyers A.Building on sand:Using statistical measures to assess the impact of electronic services[J].Performance Measurement and Metrics,2006,7(1):37-44.
[33] 劉軍,金淑娜.Kaas知識即服務:面向讀者需求的分層知識服務模型及實踐[J].情報科學,2014(3):55-60.
[34] 劉巍,祝忠明,張旺強,等.基于機構知識庫的知識分析及可視化功能實現[J].圖書與情報,2016(3):125-131.
[35] Baker G,Read E J.Vendor-supplied usage data for electronic resources:A survey of academic libraries[J].Learned Publishing,2008,21(1):48-57.
[36] 陳大慶,葉蘭,楊巍,等.電子資源使用統計平臺USSER的設計與實現[J].圖書情報工作,2015,59(1):106-112.
作者簡介:胡文靜(1983-),女,蘭州大學圖書館館員,研究方向:信息資源管理。