侯志江(天津理工大學圖書館 天津 300384)
侯玲娟(天津師范大學管理學院 天津 300387)
基于OPAC日志用戶行為分析的圖書采購新方法*
侯志江(天津理工大學圖書館 天津 300384)
侯玲娟(天津師范大學管理學院 天津 300387)
基于OPAC日志用戶行為分析方法可以較準確地了解用戶需求及其需求的滿足情況。而基于OPAC日志用戶行為分析的圖書采購方法是一種以用戶需求為導向、大數據驅動的新方法。它能夠及時發(fā)現短缺書,提高館藏有效覆蓋率;按需確定復本數量,提高借閱需求滿足率。通過對該方法的實踐發(fā)現,與傳統(tǒng)圖書采購方法相比,該方法具有更多優(yōu)勢,如準確、精細、高效,能更好地滿足讀者的需求。
圖書采購 用戶行為分析 館藏優(yōu)化 大數據 聯機公共目錄查詢系統(tǒng)(OPAC)
圖書采購工作是圖書館的一項重要基礎性工作,它從源頭上決定了圖書館的館藏質量和服務水平。圖書采購工作的終極目標就是要在同樣的資金預算下,最大程度地提高對讀者文獻需求的滿足率。但是長期以來,圖書采購工作一直面臨著幾個難題:第一,館藏有效覆蓋率欠佳,存在收錄盲區(qū),經常出現讀者需要某本圖書而館內卻沒有的現象;第二,館藏復本數量不夠合理,一些冷門圖書幾乎所有復本都無人借閱,而一些熱門圖書則由于復本數量不足,讀者需要等待很長時間才能借閱。這兩個擺在采購人員面前的難題,已經成為阻礙圖書館滿足讀者借閱需求的主要因素。究其根源,在于采購人員難以準確預測讀者需要哪些書,也無法提前得知每一本圖書的受歡迎程度。
基于OPAC(Online Public Access Catalogue,聯機公共目錄查詢系統(tǒng))日志用戶行為分析可以較好地彌補這些不足。在用戶訪問OPAC網頁時,網頁服務器會在后臺自動記錄一系列的用戶操作日志,如用戶檢索了什么書目、點擊了哪些鏈接等。這些網絡日志客觀地記錄了用戶的各種瀏覽行為,通過分析挖掘,可以較準確地了解用戶的需求及其需求的滿足情況。
OPAC日志是一個普通的文本文件,每一行是一條日志,代表一條訪問記錄。通常一條OPAC日志包含用戶IP地址、訪問時間、頁面URL、響應結果碼、瀏覽器類型等內容。需要指出的是,僅僅依靠上述基本字段所能獲取的信息非常有限。為了能夠深入了解用戶的瀏覽行為,圖書館還需要知道用戶訪問頁面的具體內容,但是由于所需存儲量太大,一般Web服務器都不支持在日志中記錄整個頁面內容。因此,圖書館可以通過一個外部腳本程序,實時監(jiān)控OPAC日志文件的增長并自動把每次訪問的對應頁面內容保存下來,作為擴展日志文件供后續(xù)統(tǒng)計分析使用。
讀者在需要某一本圖書時,首先想到的就是去OPAC中檢索。因此,筆者認為OPAC是最早發(fā)現讀者潛在需求的系統(tǒng),也最能客觀反映出讀者的實際需求。依據用戶在OPAC中表現出來的行為特征,圖書館可以改進圖書采購工作。
2.1 及時發(fā)現短缺書,提高館藏有效覆蓋率。
以Unicorn系統(tǒng)為例,其OPAC使用流程為:①打開“OPAC首頁”,輸入檢索詞;②查看“結果摘要頁”,摘要頁中顯示的搜索結果主要包括書名、作者等,但沒有索書號;③點擊某本圖書的“查看詳情”按鈕,在打開的詳情頁面中查看該書的索書號及館藏狀態(tài)。
如果在一次檢索中,“結果摘要頁”里的檢索結果數為0,說明在這次檢索中讀者沒有達到預期,圖書館沒有滿足讀者的借閱需求。造成這種現象的原因有兩種,一是讀者所選檢索詞很偏僻,二是圖書館沒有收錄這本圖書。圖書館可以通過程序對OPAC日志中的這種現象進行統(tǒng)計,如果一段時間內同一檢索詞出現這種現象的次數達到一定的閾值,則第二種原因的可能性將大大增加。因為不同讀者碰巧輸入相同“偏僻詞”的概率很小,很有可能是不同的讀者都對這本圖書產生興趣,都來圖書館查找它,但館藏中卻沒有。這時,程序可以自動生成報表通知采購人員,經人工篩選再發(fā)出采購訂單。
筆者對天津理工大學圖書館2014年上半年OPAC中檢索結果數為0且重復出現次數大于1的檢索詞進行統(tǒng)計分析,結果顯示,其中約70%是一些新出版的暢銷書書名或ISBN(International Standard Book Number,國際標準書號),其余是一些館藏沒有覆蓋的舊書和一些無規(guī)律的偏僻檢索詞。可見,該方法不僅可以快速發(fā)現市面上的新書、暢銷書,還可以有效地消除因預算或學科傾向等人為因素造成的館藏盲區(qū)。
值得注意的是,由于OPAC日志是一種流式數據,所以需要使用如圖1所示的滑動窗口的方式進行連續(xù)統(tǒng)計,而不能簡單地按時間切割。多個統(tǒng)計區(qū)間得出的結果可能有重復,所以還需要對書目進行一次去重。筆者根據實踐經驗發(fā)現,只有累積一段時間(如2周)的數據進行統(tǒng)計才能更好地發(fā)現埋藏在日志數據中的信息。OPAC用戶訪問量越大,日志數據量就越大,規(guī)律揭示也就越明顯。在實際中,各個圖書館的OPAC日志量會有差別,可以通過修改門限閾值和滑動窗口大小兩個參數來調整系統(tǒng)的靈敏度。

圖1 采用滑動窗口的方式確定統(tǒng)計時段
2.2 按需確定復本數量,提高借閱需求滿足率。
如前所述,在使用OPAC查詢書目時,用戶首先看到的是“結果摘要頁”,如果用戶在“結果摘要頁”中進一步點擊了某一本圖書的“查看詳情”按鈕,說明用戶對這本圖書很感興趣,想進一步查看它的館藏狀態(tài)和位置信息。此時,如果這本圖書可借,那么用戶借閱這本圖書的概率就會很大;如果用戶點擊了“查看詳情”按鈕,卻發(fā)現所有復本都已經借出去了,那么用戶一定有一些失望。從圖書館服務的角度來看,用戶的這次借閱需求沒能得到很好的滿足。
因此,圖書館可以篩選出OPAC日志中所有“館藏狀態(tài)頁”的頁面內容,并將其中所有館藏復本狀態(tài)是不可借(即出現“斷供”現象)的書目統(tǒng)計下來。經過一段時間的累積,可以得到同一本圖書出現“斷供”的次數,如果只是少數幾次則屬于正常現象,因為在有限的資源條件下,圖書館不可能保證每次讀者的需求都能得到及時的滿足。但是,如果某一本圖書出現“斷供”現象的次數達到一定的閾值(如超過20),就需要引起注意,說明這本圖書的復本數量已經不能滿足讀者的借閱需求,以至于出現多位讀者多次查詢卻總是不可借的情況。這時,圖書館就應該對這些圖書進行補充訂購,以增加館藏復本數量。
基于上述兩種方法可以得到一種完全依靠讀者需求驅動的采購方法。其具體操作可以分為兩步:首先,各圖書館仍然按照傳統(tǒng)方法確定采購列表,但所有圖書復本量都為1,這是為了保證館藏覆蓋率不低于舊的采購方式。然后,通過第一種方法自動發(fā)現短缺書目,通過第二種方法自動發(fā)現復本不足的情況,根據程序的反饋再做針對性的補充采購,這樣就形成了一種自反饋、自補償、自校正的動態(tài)模型。一本圖書的復本量作為目標變量經過多次迭代將自動歸斂到最優(yōu)化狀態(tài)。這樣既可以避免冷門圖書的復本量過多造成浪費,又可以將節(jié)省下的預算用來購置更多的熱門圖書的復本,以更大程度地滿足讀者的借閱需求。
2014年初,筆者對上述圖書采購方法進行了試運行,幾個月來,已經取得了非常不錯的效果。例如,通過該采購方法,筆者成功地發(fā)現了《繁花》、《出梁莊記》等一系列深受讀者喜愛的暢銷書以及《微信公眾平臺應用開發(fā)》、《大數據時代》等代表技術最前沿的新書。此外,該方法還發(fā)現了一大批復本量不足的書目,其中主要是各類考試用書,在補充復本后,借閱數據顯示這些圖書大多數又被一借而空,這有力地說明這種圖書采購方法滿足了更多讀者的借閱需求。
總結起來,基于OPAC日志用戶行為分析的圖書采購方法相比傳統(tǒng)圖書采購方法有以下優(yōu)勢:①準確。OPAC日志是讀者行為的真實記錄,能客觀、全面地反映讀者的潛在需求。相比之下,問卷調查或人工采訪獲得的數據可信度要低得多,而基于借閱量統(tǒng)計的方法只能統(tǒng)計已發(fā)生的借閱事實,并不能準確地預測和發(fā)現用戶潛在的需求或期望。②精細。傳統(tǒng)的圖書采購方法都是針對一個學科或《中國圖書館分類法》的一類圖書,而這種采購模式可以精細到某一本圖書,甚至一本圖書具體的復本數量。③高效。不依賴人力,采用動態(tài)迭代模型,由程序自動持續(xù)地運行。相比依靠讀者主動薦購的方式,該方法可以更加快速地獲取大批量的讀者需求信息。
基于OPAC日志用戶行為分析的圖書采購模式本質上是借助OPAC日志用戶行為分析技術,對傳統(tǒng)圖書采購模式的一種補充和擴展。實驗證明,它是一種行之有效、能夠較好地解決傳統(tǒng)問題的圖書采購模式,在提高讀者借閱需求滿足率的同時,提高了圖書館資金的利用率,達到了雙贏,對改進圖書采購工作有一定的參考價值。筆者建議,在實踐中,圖書館可以將其作為傳統(tǒng)圖書采購模式的一種有效補充,用于輔助采購人員改進圖書采購工作。
不過,上述圖書采購機制還有一些需要進一步完善的地方。例如,如何預防網絡黑客的惡意作弊行為,大量瑣碎的訂單會不會增加圖書采購人員和財務人員的負擔,等等。這些具體實施中的細節(jié)問題有待進一步研究和探索。
其實,OPAC日志用戶行為分析本質上是大數據技術在圖書館中的一個應用,本文從側面揭示了大數據的威力。舉一反三,如果圖書館可以根據OPAC日志中的檢索詞記錄,統(tǒng)計挖掘出讀者群體每月的關注熱點,然后針對性地舉辦一些專題講座活動,將能更好地滿足讀者的信息需求。希望本文能夠拋磚引玉,對大數據在圖書館的創(chuàng)新應用有所啟示。
New Mode of the Book Purchase Based on the User Behavior Analysis of OPAC Logs
The user behavior analysis of OPAC logs is an effective way to correctly understand users' needs and their satisfication situations. The book purchase mode based on the user behavior analysis of OPAC logs is a new mode that takes users' needs as the the guide and is driven by big data. It is able to find the blind area of the collection, improve the effective cover rate of the collection; determine the copy number according to needs, improve the satisfication rate of lending needs . The practice shows that the new mode has more advantages than traditional book purchese modes, such as the preciseness, the carefulness and the high efficiency, it satisfies users' needs better.
Book purchase; User behavior analysis; Collection optimization; Big data; Online Public Access Catalogue
G253.1
B
2014-09-09 ]
* 本文系天津市哲學社會科學研究規(guī)劃項目“不確定環(huán)境下物流配送集成優(yōu)化問題研究”的成果之一,項目編號:TJGL12-079。
侯志江 碩士,現工作于天津理工大學圖書館。
侯玲娟 工作于天津師范大學管理學院。