張云洋,胡志杰
(西藏大學圖書館,西藏 拉薩 850000)
互聯網時代,人們獲取信息的方式豐富多樣,信息檢索在很大程度上已經不受時間和空間的限制[1]。圖書館在長期的信息服務中,缺乏對讀者需求的準確定位。圖書館網站是師生讀者利用圖書館在線資源的統一入口,對圖書館網站利用的分析,是圖書館研究主動服務的有效方式。筆者在網站后臺增加行為記錄程序,用以記錄讀者訪問圖書館網站的日志數據,在此基礎上進行數據挖掘分析,掌握讀者的信息需求,提升圖書館服務水平。
西藏大學圖書館網站的用戶是學校的學生、教師和其他職工。學生全部住校,教職員工大部分住在學校,少數員工住校外。在校師生員工通過學校的校園網訪問圖書館網站,校外的教職員工通過VPN方式訪問圖書館網站。校內用戶使用校園網的固定IP段,利用校園網的IP地址分配表,可以通過來訪IP確定用戶操作時所在的樓宇或區域;校外用戶使用VPN方式間接登錄,通過識別VPN服務的主機IP,判斷訪問者來自校外。
1. 功能流程。在網站首頁中添加觸發程序,當用戶訪問圖書館網站時,網站記錄來訪事件,識別來訪信息,將提取到的信息寫入訪問日志數據庫[2]。流程如圖1所示。

圖1 網站日志記錄流程
2. 技術細節。(1)來源IP。通過瀏覽器HTTP請求的REQUEST信息提取來源IP,實現時要考慮來訪者可能使用了代理服務,所以要進行多輪判斷。用java編寫的提取來源IP地址的方法代碼如下:


(2)訪問時間。訪問的連接時間,在網站服務器端獲取當前時間。(3)其他信息。使用Web訪問時,useragent字段包含有大量標識客戶端瀏覽器、操作系統以及終端型號的信息,對后期的分析有重要意義。
將網頁后臺獲取的來訪信息,寫入后臺日志數據庫。
日志數據庫的數據表字段格式設置如下:

表1 訪問日志數據字段格式
由頁面后臺程序獲得的訪問信息是一些原始信息,在寫入數據庫之前,需要進行一些轉換等預處理操作。
重點是由“IP地址”計算“樓宇網絡”,這種推算是確定的。第一步,準備完整的校園網IP地址表,將全部的有線網絡和無線網絡IP地址分段,并將IP段地對應到某個樓宇甚至某個樓層。在對樓宇的命名上,要以“校區+功能+樓宇+樓層”的方式,如“納金校區-教工宿舍-5#”,方便識別和精確定位。第二步,通過IP地址表推算來訪IP所屬的樓宇或區域。還可以由agent信息提取來訪用戶的操作系統、瀏覽器和終端類型等信息,這些推算不完全確定。因為瀏覽器的版本信息過于繁雜,而且有的瀏覽器故意修改了agent信息的情況,個別用戶可能借助第三方工具修改了本機的user-agent信息[3]。
存取的訪問日志數據樣本如表2所示。

表2 訪問日志數據樣本
以西藏大學圖書館為例,在2017年4月至2018年3月期間,網站共收集到10萬余條訪問日志數據。通過對訪問日志的掌握,圖書館能直觀地了解用戶對資源的利用情況,并就一些關注的問題做進一步研究。
目前,西藏大學有納金、河壩林、財經學院、醫學院四個校區,師生主要集中在河壩林校區和納金校區,財經學院校區和醫學院校區的人數較少,使用校園網絡訪問圖書館資源的用戶也較少。校園網的每個IP地址可以定位到樓宇或者WIFI區域。
1. 校區分布。由表3可知,用戶訪問主要集中在納金校區與河壩林校區,這與兩個校區實際的常住人數是相匹配的。目前,西藏大學大部分的師生集中在納金校區,所以有接近70%的訪問來自納金校區;而河壩林校區常住師生人數規模比醫學院校區和財經學院校區大,后兩個分校區的訪問量與使用VPN的訪問量大致相當。

表3 校園網用戶校區分布統計
2. 樓宇分布。數據分析顯示,IP來源訪問量排名前14名的樓宇中,圖書館樓占了5名,校園網WIFI占據了3名,說明圖書館是師生讀者集中學習的主要場所,校園網WIFI是聯網的重要方式;圖書館電子閱覽室排第7位,說明電子閱覽室仍然是讀者查閱資料的重要場所。
3. 網絡接入來源。使用有線網絡訪問圖書館網站的連接占比81.10%,使用校園網WIFI訪問連接占比18.90%,一方面說明校園網有線網絡仍然是讀者上網的主要方式,另一方面說明師生熱衷于使用學校新建的校園WIFI,圖書館等公共場所的校園網WIFI取得了較好的使用效果。
1. 按月分析。數據分析顯示,2017年9月至12月訪問量較大。原因有二:一是下半年有新生入學,新生在接受圖書館的入館教育后對圖書館有大量的訪問;二是圖書館在全校范圍開展了學科服務進學院活動,廣泛深入地向師生推介了圖書館的各類資源,促進了師生對圖書館資源的訪問利用。
2. 按小時段分析。對上述訪問量較大的9月、10月、11月、12月的數據按小時段分析,發現每天的11點、15點、16點、17點讀者訪問最多。師生對圖書館網上資源的訪問,集中在每天的10點之后,下午及晚上的訪問量偏多,提示圖書館應注重保證各閱覽室在下午段的開放。
更進一步,對每天的最早與最晚訪問時間進行追蹤發現,每天最晚的訪問集中在凌晨0∶30至1∶30之間,每天最早的訪問在早晨7點至7點半之間,這表明每天的凌晨2點至5點是讀者利用圖書館在線資源的空閑段,技術部可以利用這段時間進行數據備份、維護等操作。每天最早訪問的樓宇是納金校區教工4棟、納金校區學生1棟和4棟、河壩林校區教工6棟等,說明每天最早起來查閱圖書館資料的師生主要集中在這幾棟樓。
通過來源IP來標識讀者所在的樓宇,能夠在較大程度上區分教師用戶和學生用戶。在信息資源的獲取與需求方面,教師讀者與學生讀者之間存在明顯的差異,希望通過主動發現來為師生提供更加個性化的服務[4]。通過搜集圖書館網站訪問日志,我們用數據證明了讀者對圖書館在線資源的需求與利用,這對建設圖書館網站及在線資源庫的工作是一種肯定,也將激勵我們更好地做好信息推送工作[5]。從網絡流量數據分析讀者的需求導向,進而提升圖書館的主動服務能力,是“互聯網+”時代圖書館的一個重要研究方向。