劉 慧
(南京曉莊學院圖書館,江蘇 南京211171)
數字資源也稱電子資源,是文獻信息表現的形式之一,是將計算機技術、通信技術及多媒體技術相互融合而形成的以數字形式發布、存取、利用的信息資源的總和。主要是由圖書館購買的非紙本的各種參考資源,包括電子期刊、電子圖書及各種類型的專業數據庫和其他各種電子參考資源[1]。圖書館數字資源的使用統計分析是圖書館數字資源建設的重要組成部分,其目的是檢測圖書館數字資源建設和利用的情況與水平。目前,數字資源越來越多,并且價格也呈逐年上漲趨勢,而購買資源的經費是相對有限的。在這種矛盾日益加劇的情況下,在數字資源的購買和使用過程中,就需要有一套比較合理的評價和分析體系。通過一系列評估指標的評定,為圖書館數字資源的購買、成本計算、數字資源的利用及相關服務提供科學合理的依據[2]。以此來作為圖書館在數字資源建設和使用方面的決策參考。因此,定期開展數字資源的使用統計分析,對圖書館數字資源建設有著重大意義。
國內研究分為兩個方面:一是數字資源使用數據的獲取方式;二是統計數據的分析和利用[3]。徐革[4]將國外數字資源利用統計數據的獲得模式歸結為基于數據庫商提供的利用統計數據獲得模式、基于Web 調查的利用統計數據獲得模式、基于圖書館基礎架構的利用統計數據獲得模式3 種。陳陶等[5]以大連理工大學圖書館數字資源的采購和利用情況為例,分析了全年訪問數字資源總量統計、數字資源月統計數據、外文期刊全文數據庫全年下載量統計、利用率最高的期刊統計等統計項目的含義。
隨著高校圖書館有限經費與學校教學、科研的數字資源需求矛盾的日益增加,數字資源績效評價成為保證圖書館采訪工作公平和效率的重要措施[6-7]。目前,我國高校圖書館數字資源績效評價還沒有一個系統的理論框架,缺乏適用的績效評價和績效分析的實踐方法[8-9]。高校圖書館所購買的數字資源,具有訪問的有效范圍,抓住這個有效范圍為突破點,從讀者訪問的網絡行為進行統計,這樣可以更加客觀地反映出數字資源的使用。
當前數字資源的利用率統計存在一系列的問題:通過數據商的訪問量統計,出于利益的考慮,數據不準確乃至弄虛作假。訪問量統計不準確,不符合標準。統計數據不規范,數據不完整等情況時有發生。本文通過對數據統計的問題進行客觀研究,分析出各自的利弊。
數字資源數據收集,現在一般的方式是通過數據商提供的后臺進行統計,例如通過中國知網管理平臺可以進行使用情況統計,如圖1 所示:

圖1 中國知網年度統計
從圖1 中可以看出登錄次數、檢索次數、瀏覽次數和下載次數這幾個基本的使用方式的具體數據。針對中國知網的數據收集的方式比較容易,但是還不全面,由于本地鏡像登陸檢索和瀏覽下載不在此統計范圍之內。數據的收集是數字資源評價的基礎,收集到客觀的數據是評價的關鍵。高校的數字化校園建設,提供了一個數據收集的平臺。通過統計網關的方法,對各個用戶的使用情況進行分析,提取所需要的數據,可以得到我們所需要的數據收集信息。通過校園的網絡結構,加載網關統計服務器的方式,用以統計相關數據,如圖2 所示。
通過網關統計系統,統計校園網絡中的相關訪問數據,例如登陸次數、檢索次數、瀏覽次數和下載次數等等。其應用原理在于通過對整個校園網絡中訪問數據網關進行收集,篩選出我們所需要的網關信息,可以得出訪問量和下載量的數據。這樣做,可以避免人為的干擾,得出的數據較為準確。對圖書館而言,可以參考這些數據,為下一年的數字資源采購做決策支持。
數字資源數據的收集,國外通過數據關系系統的開發來嘗試解決使用數據的獲取性問題。這種方式符合國際的數字資源的評價標準,但是不符合中國的國情。國內對這個方面的研究比較薄弱,僅有少數學者對這個領域進行了相關的研究。例如香港科技大學圖書館自行開發了一套用以整理、分析紙本和電子期刊使用狀況的開放源代碼軟件JURO 系統[10]。迄今為止,成功具體的應用較欠缺。
數字資源數據是否有效,需要進行數據分析,數據分析的意義就是甄別數據的真實性。數據分析在高校中,最可靠的辦法就是依托高校數字化校園的身份認證系統,例如通過EZProxy 的認證方法提供URL 外置認證,設置認證網址,發送讀者賬號和密碼,返回正確的結果,這種方式理論支持LDAP、Radius、數據庫多種方式。與圖書館管理系統的集成,可以直接修改讀者密碼等操作。
數字資源使用數據的收集,通過建設校園網絡的網關服務器即可進行統計。數據的真實有效性原則,要深入進行詳細的讀者群分析,通過校園網絡的實名認證系統對相關讀者的使用信息進行分析。部分高校采用數字資源訪問管理與控制系統,對數字資源使用進行規范管理,同時對數字資源的使用進行一定的監控與分析功能。例如[11]清華大學圖書館與信息網絡工程研究中心合作開發了電子資源訪問管理 與控制系統,對用戶訪問電子資源進行管理和控制。

圖2 數字資源校園網絡內分析結構圖
數字資源的訪問管理,是系統對用戶實時監控的過程,基于用戶的訪問流量信息以及訪問頻率來判斷用戶行為是否合理,對用戶的訪問數字資源行為進行記錄。一般的記錄行為是通過訪問日志進行。分析系統通過調取日志信息,完成對數字資源的訪問統計,通過日志分析模塊,完成對各個數字資源使用頻率行為分析。如圖3 所示,用戶訪問網絡的時候,必須通過認證系統,才能夠正常訪問網絡資源,而通過訪問網絡的網關數據統計模塊,可以對用戶的訪問行為進行有效的統計分析,從而客觀的得出數字資源使用率數據。

圖3 用戶訪問的過程
日志是數據寫入的痕跡,通過對日志的來源數據進行規范化寫入,可以得到更加詳細的數據用以分析。日志信息是每個用戶在使用網絡的過程中留下的網絡痕跡,通過對這些痕跡數據中有效數據的獲取,可以得到原始的數據。
數據采集,即采集有效的數據,采集設備就是網內的服務器,只是各個服務器的功能不同,對于不同的服務器,采取的監控參數也不一致。采集設備的類型根據其功能類型可以分為三類:linux 設備(監控類服務器)、Oracle 設備(存儲數據服務器)以及WAP GW 設備 (網關服務器)。數據采集功能通過對服務器的訪問日志采集,收集有效的訪問記錄信息,達到采集的功能。
實時監控主要是展示接口服務器的基本屬性,其中可用性是指當前是否有響應。健康狀況是展示某個級別的告警信息。實時監控管理,主要是對統計分析系統的各個模塊進行監控和告警。同時保證在出故障以后能夠正常工作,主要有兩種方式:一種是系統自我修復;一種是人工修復。該功能是使系統能夠正常運行的必要模塊之一。
統計分析功能是網關統計的重要組成部分,對所采集的用戶網絡數據進行統計分析后,以設計好的模式展現出來,例如圖表形式等。它可以讓圖書館管理者和資源建設部門了解數字資源使用的實際情況,以至于更好的規劃好下一年度的數字資源的采購計劃等。同時,對這些數據要有備份的功能,這樣可以與不同時間段的數據相互對比,產生的結果是數字資源使用的最新狀況,以便于資源建設的實時調控。
統計的數據來源就是用戶的上網日志記錄,是來自于LogParser 解析后的文件入到數據庫后形成的24 小時原始日志表。
系統管理功能模塊提供系統的所有管理功能,包括各種配置功能、統計功能以及各種實用工具,除了上述介紹的日志寫入、數據采集、實時監控管理和統計分析功能以外,還包括用戶權限的管理、角色權限的管理等。
高校圖書館的服務對象為教師和學生,由于現有的高校都進行數字化校園的建設,身份認證方式上一般采用實名認證的方式,即教師使用工號,學生使用學號進行認證登陸數字化校園系統進行相關服務功能,圖書館系統的相關功能是支持認證系統的基礎。高校數字資源的評價,主要難點在于真實使用數據的獲取,如何獲取到真實的使用數據是圖書館管理者和資源建設部門最關心的一個問題之一。結合以上所述,本文研究的方法主要是與學校數字化校園配合起來,對讀者(教師和學生)的網絡行為進行分析,通過網關服務器以及相關的軟件,統計出與圖書館所購買或者即將購買的數字資源統一網關地址信息,得出可靠的使用信息的方法。
其中,現在高校數字化校園的平臺已經逐步實施,身份認證系統是對讀者上網的一種實名認證方式,如圖1 中的身份認證系統,可以對該讀者的網絡訪問信息進行身份識別,通過網關統計系統可以對該讀者訪問圖書館所要求統計的相應數字資源網站的IP 進行統計分析,得出實時的訪問數據。圖中的網關統計系統的功能就是對核心交換機的出口的訪問數據進行統計分析,抓取出需要統計的相應數據的功能。以上功能是對遠程包庫訪問的數據進行相應統計的功能。除了讀者使用遠程數字資源以外,本地資源的使用的訪問也必須計算在統計范圍之內,因為有一些數字資源既提供遠程資源,又提供本地安裝資源,所以,為了客觀公正性,必須要同時考慮到本地資源訪問的統計。這部分資源的訪問,應該是兩者之和。所以,圖中的網關統計系統,在其功能方面,必須也要包括本地資源訪問統計的功能。除此以外,現在圖書館的用戶使用不僅僅限制在校園之內,VPN 的廣泛使用給統計的準確性也提出了一個不小的技術性的難題,由于VPN 的工作原理,給現有的網關統計系統在兼容性方面造成一定的困難。由于VPN 訪問的過程中讀者的網絡環境各異,造成通過VPN 訪問圖書館數字資源的過程中不能正常下載的現象,但是網關統計系統中,記錄不能是已經下載的現象,這就造成統計的不準確的現象。
體系的建立,根據校園網絡的特征,現在數字資源的訪問包庫用戶,一般對IP 地址進行識別,也就是說,在校園網絡范圍之內,用戶可以訪問相關的數字資源。根據校園網絡可控性原則進行有效用戶訪問甄別,在校園網絡中通過專用服務器進行數據訪問分析,可以得出較為真實的數據,最大限度地減少虛假數據的問題。具體方案如圖4所示。
實名認證方案應用于各個高校的數字化校園的建設,在此基礎上進行相關功能的拓展,技術上不太復雜,身份認證賬號和密碼應該統一為教師工號或者學生學號,這樣便于讀者記憶,不容易遺忘。實名認證上網在社會上使用已經是一種硬性的規定。高校校園內的網絡管理部門也已經或者正在建設的單位也不在少數,結合網絡規劃部門進行數字資源的評估系統建設,對于圖書館來說,不僅可以在歷年的數字資源采購過程中得到相對客觀的使用數據,而且避免單獨建設造成資源浪費。高校數字化校園的建設工作,圖書館屬于其中的一個很重要的模塊之一。所以,從校園網絡出口處進行訪問相關的網關信息統計,統計數據相對準確,而且在技術層面上便于控制。
數字資源統計分析的結構,在校園網絡環境中,統計的范圍和實現的技術,在現有的信息技術平臺的條件下完全可以實現。在現有的平臺中,如何在實現功能的同時減少對網絡信息的干擾,以及降低網關統計服務器工作的壓力,是統計分析方案必須要重點考慮的問題。由于統計分析所需要統計的數據量比較大,對服務器的性能要求比較高,甚至工作過程中需要增加多臺服務器進行統計分析操作,對于高校圖書館來說,不僅增加了維護成本,而且對于系統建設資金方面造成了不小的壓力。所以,以最小的高性能服務器,降低對網絡信息的干擾,這是需要重點加強的地方。解決VPN 用戶的訪問統計,不僅是統計分析方案需要解決的問題,優化VPN 訪問機制,對其訪問數據做出客觀的統計,也是我們需要注意的地方。對于學校的公共機房的訪問問題,也需要建立相應的實名訪問認證系統,因為學生讀者相關數字資源的使用,基本上是通過學校內部的公共機房進行的。建立一個數字資源訪問平臺統計系統,更加全面地進行資源的訪問統計,是一個需要不斷改進優化的過程。當然,通過網絡行為分析系統進行相關數據的統計,可能會侵犯到用戶的隱私,各個行為的建立,必須建立在法律允許的范圍之類。而圖書館數字資源的統計和分析要想規避這樣的問題,必須預先設置好相關規則,如統計功能只針對設定好的數字資源的網關等信息等等。

圖4 校園網絡實名認證系統
數字資源的訪問統計可以為數字資源評價做出一個客觀的原始數據的統計,是評價的基礎工作。長期以來,如何公平公正的對數字資源進行評價,是各個圖書館比較困惑的事情。本文通過互聯網的結構從數據流動的方面進行分析,通過分析訪問數據入手,對各個讀者訪問的數字資源的相應信息進行客觀的統計,得出比較客觀的結果,解決長期以來部分商家提供虛假數據以及通過訪問量數據統計不準確的問題。數字資源的統計,采用技術的手段進行,可以減少人為因素的干擾,為來年的數字資源采購做決策性支持,同時從數據分析結果中也可以知道讀者對哪些方面的資源有一定的偏好性,在資源采購過程中,適當的增加讀者偏好性的資源量,可以優化資源。在網關條件下進行數字資源訪問的統計功能的實現,對于圖書館資源建設工作的意義在于可以客觀地將有限的資金投入到讀者真正需要的資源上去,可以提高圖書館的館藏使用率,同時可以引入競爭機制,促使數字資源提供商加大宣傳培訓讀者的力度,正確引導讀者使用數字資源,從而提高數字資源的整體使用,同時降低圖書館信息服務部門的一定的工作壓力。網絡行為的統計分析,是未來圖書館進行資源建設的客觀依據,是圖書館通過新技術進行相應升級的動力,不遠的將來,圖書館的資源建設通過這樣的統計分析系統可以更加規范。
[1] 向陽. 數字資源評估調研及思考[J]. 圖書情報工作,2005,(5):33-36.
[2] 段惠靜. 數字資源使用統計分析——以山西大學圖書館為例[J]. 晉圖學刊,2012,(5):24-27.
[3] 雷雪. 數字資源服務績效評估研究綜述[J]. 情報雜志,2010,(10):84-88.
[4] 徐革. 大學圖書館電子資源利用統計數據的獲得模式評析[J]. 大學圖書館學報,2007,(1):54-58.
[5] 陳陶,夏立娟,馬克芬. 圖書館電子資源利用統計與分析[J]. 圖書情報工作,2005,(4):92-95.
[6] 李小平,馬佳. 高校圖書館數字資源配置與優化策略[J].中華醫學圖書情報雜志,2012,21 (3):44-48.
[7] 趙俊顏. 國內外數字資源績效評價研究綜述[J]. 高校圖書館工作,2012,32 (2):62-66.
[8] 劉洪,邵怡,高華,等. 大學圖書館電子資源績效評價體系的構建及應用[J]. 情報科學,2010,28 (11):1702-1705.
[9] 李櫟,曹洪欣. 圖書館數字資源績效評價研究綜述[J]. 圖書館學刊,2013,(9):125-128.
[10] Journ alUsage Report Onl ine [EB/OL]. http:∥hkiug.ln.edu.hk/meetings/am2005/presentat ions/9-juro. Ppt,2014-07-14.
[11] 鄒榮,張成昱,姜愛蓉,等. 電子資源訪問管理與控制系統的設計及應用[J]. 圖書情報工作,2010,(1):121-124.