盛銓 方嵩松



摘要:以OPAC后臺日志數據為基礎,從中提取相關的有效字段,運用K-means法與Aprior算法等大數據分析方法,對高職院校圖書館用戶行為與需求進行聚類與挖掘,揭示出高職院校的用戶行為特征、規律及其關聯性,這對于高職院校改進服務有重要的借鑒意義。
關鍵詞:大數據;高職院校;圖書館;用戶行為;K-means;Aprior算法
中圖分類號:G434? ? ? ? 文獻標識碼:A
文章編號:1009-3044(2019)18-0001-03
隨著移動電話、平板電腦等移動設備以及在此基礎上產生的移動社交平臺等新媒體發展速度十分迅速,由此也使得高職院校圖書館服務面臨著新的機遇與挑戰,新媒體為所帶來的移動圖書館、圖書館微信公眾號以及桌面端網站,都極大地豐富了用戶使用圖書館資源與服務的手段,而用戶在借助于新媒體與圖書館進行交互的過程中又產生了海量的行為日志數據,對這些海量數據進行挖掘與分析,能夠有效揭示用戶的行為規律及其需求,進而有針對性地為用戶提供更具個性化的資源與服務,以實現高職院校圖書館服務方式的創新。
1 數據獲取與數據處理
本研究于2018年4月和5月期間,收集了浙江省某高職院校圖書館在該年在4月1日至5月31日的OPAC后臺日志數據,所獲取的數據跨越61天,數據總量共達到了3.67GB。該OPAC日志數據詳細記錄了用戶利用圖書館OPAC從事相關活動的信息,如用戶每次點擊行為起始與終止時間、用戶自身設備信息及其接入網絡的IP地址、用戶向OPAC系統提交的訪問請求內容信息、用戶訪問請求內容以及其他相關信息等。
由于OPAC原始的日志數據包含了很多個維度,本研究在對OPAC原始的日志數據進行分析的基礎上,根據研究目標確定了對數據挖掘有用的相關日志數據字段,包括:用戶每次點擊行為起始與終止時間、用戶自身設備信息及其接入網絡的IP地址、用戶向OPAC系統提交的訪問請求內容信息、用戶訪問請求內容以及其他相關信息等。我們對所獲取的數據進行了更進一步的篩選和清洗,相關工作包括數據噪聲的去除(包括數據中的空缺值和異常值等),去除了數據中許多字段不完整或者沒有意義的數據[1],最終形成了本研究的數據基礎,保留下來的數據比重占原數據的64.8%。基于這些數據,我們應用K-means算法對高職院校圖書館用戶行為與需求進行了挖掘。
為進一步明確高職院校圖書館用戶行為與其對圖書館資源與服務的需求,我們從中篩選了部分登陸過OPAC系統中“我的圖書館”的用戶,對其利用圖書館服務的相關數據信息進行了獲取與挖掘。通過對用戶登陸“我的圖書館”的行為數據與其IP地址和其預留在圖書館中的個人信息進行匹配,我們獲得了用戶個人信息、用戶點擊OPAC系統的信息均具備的用戶數據,這些數據約占到了總記錄數的42.75%。用戶通過OPAC檢索系統和“我的圖書館”服務系統所能夠獲得的圖書館服務主要有查詢服務、查看信息、借閱服務、信息修改、圖書預約、圖書續借、參考咨詢、新書推薦、借閱排行、圖書薦購等服務。
2 基于K-means方法的高職院校圖書館用戶行為與需求挖掘
2.1 數據分析流程
對高職院校圖書館用戶行為與需求進行挖掘和分析所采取的方法為大數據分析中常用的K-means算法,在具體執行該算法的過程中,通常需要先確定將數據聚類成多少個目標簇,聚類的簇數并沒有明確的規定,數據分析要人員可以根據自身已有的知識結構以及該算法在數據挖掘過程中的具體結果進行相應的嘗試[2]。但在很多情況下,K-means算法所設置的聚類簇數仍然有一個相對固定的范圍,通常該數量為10個左右。考慮到高職院校圖書館的用戶對象主要以本校的師生為主,用戶具有比較高的同質性,因此所設置的聚類簇數不宜過多,否則會導致聚類效果較差[3]。我們根據高職院校圖書館用戶的大致分類情況,將擬采用的K-means算法所獲得的聚類簇數設置為6個,其具體分析過程包含原始數據獲取、數據篩選、圖書館服務使用類別數量、點擊次數比較、檢索行為比重、系統服務操作行為比重、數據類型設置、數據過濾、K-means聚類等環節(見圖1)。
2.2 聚類分析結果
本研究通過K-means聚類分析算法所得出的聚類分析結果如表1所示。由于將K-means聚類簇數設置為6個,我們可以因此獲得六個聚類結果。在這六個類中,聚類3僅包含兩個記錄,且該聚類下的檢索行為點擊次數、系統服務操作行為點擊次數、點擊行為次數、持續時間、利用圖書館服務數量的值均要遠大于其他五個類,說明聚類3所包含的兩個記錄存在異常的情況,因此我們不需要對該類的相關信息進行更進一步的分析。
聚類1所包含了記錄數最多,記錄數占所有數據總量的18.57%,該類下聚集了大量用戶,共有827個用戶,是包含用戶數最多的類。該類下的用戶使用智能終端(如智能手機、平板電腦等)在OPAC上進行相關操作的比重最高,達到了75%。該類用戶在數據采集期間向圖書館OPAC系統所發起的會話數量平均值為3.025個,發起對話所包含的點擊行為數量平均有55.764個,在所有類中處于中等水平,說明該類用戶使用圖書館OPAC系統相關服務的行為比較正常。該類用戶訪問OPAC系統所實施的系統服務操作行為比重相對較低,所進行的檢索行為點擊次數和系統服務操作行為點擊次數分別為4.578次和2.226次,也都處于比較中間的水平,用戶點擊行為的持續時間大約為44.357秒。在該類中,用戶發起的會話包含的點擊行為次數也并不多,只有25.764次,所利用的圖書館服務數量為1.542個,說明這類用戶利用圖書館OPAC的目的比較統一和集中,主要利用的是圖書館某一個服務。總體來看,該類用戶對圖書館OPAC的利用處于中午水平,其目的主要以檢索為主,利用OPAC進行其他相關系統操作的次數并不高,因此圖書館可重點關注這類用戶在系統中到底檢索了什么信息,根據其檢索記錄,有針對性地為這些讀者推薦一些圖書信息,以使滿足這類讀者的文獻信息需求。
聚類2所包含的記錄數其次多,記錄數占到了所有數據總量的12.42%,該類下包含的用戶數量為443個,是用戶數量其次多的類。在該類下使用智能設備的用戶數量比較并不算高,只有26%,說明該類用戶大多使用的是桌面端的設備訪問圖書館OPAC。該類用戶發起的會話次數平均值為2.049個,比聚類1的用戶會話數量相對要少,該類用戶檢索行為的比重也比較高,達到了58%,該類用戶的系統服務操作行為比重也不算低,達到了24.6%,要高于聚類1,說明該類用戶在進行檢索的同時,也會發起比較多的系統服務操作。總體來看,該類用戶發起的會話數及其點擊行為數量都相對較少,且系統服務操作行為所占的比重相對較高,其桌面端的用戶占多數,這與本研究之前所得出的結論保持一致。針對這類用戶,圖書館在進行檢索結果精確推送的同時,還可在OPAC檢索頁面為其推薦更多的服務、資源供其選擇[4]。
聚類4和聚類5所包含的記錄數占所有數據記錄的比重分別為6.63%和4.27%,這兩類用戶屬于兩類行為相反的用戶群。其中,聚類4的用戶屬于以檢索為主要目的,主要利用桌面端設備進行操作,會在OPAC中反復修改檢索式,以獲取精確的檢索結果的用戶群,該類用戶進行其他的情況相對較少;聚類5的用戶屬于更愿意利用OPAC系統中其他服務的用戶,這類用戶以利用智能設備為主。另外,聚類6的用戶在檢索行為和系統服務操作行為的頻次上都不算多,但其點擊行為次數卻達到了117.54次,說明這類用戶喜歡比較喜歡漫無目的在OPAC系統進行相關無關操作,這類用戶利用圖書館的需求并不明確,需要圖書館為之提供必要的指導。
3 基于Apriori的高職院校圖書館用戶行為與需求挖掘
3.1 分析流程
Apriori算法的基本思想是以遞歸的方式反映從數據集中尋找出現頻次多的項集,進而產生選項集,對達到最小支持度要求的候選項集進行保留,而刪除那些不滿足要求的數據。在該算法執行的過程中,通常將最大前項數據的閾值設置為1,而小最置信度數據設置為10%,其具體流程如圖2所示。
3.2 關聯規則分析結果
表2顯示了基于Apriori算法的高職院校圖書館用戶數據聚類結果。可以看出通過數據聚類,OPAC系統各項服務之間的關聯規則被揭示出來。新書推薦和借閱服務兩項服務之間的關聯性最強,其次是借閱排行和查詢服務兩項服務,說明圖書館的新書推薦和借閱排行兩項服務還是起到了相應的作用,但這兩項結果的置信度并不算高。置信度最高的關聯規則是查詢服務與借閱服務之間關聯規則,說明高職院校的大部分用戶在OPAC系統進行相關查詢操作后,主要還是會選擇將該書從圖書館借出來。此外,我們還發出了查詢服務、查看信息服務與圖書預約、信息修改、參考咨詢、圖書薦購和圖書續借等服務之間關聯性,這些關聯規則的揭示,都有利于高職院校圖書館對當前的OPAC系統進行改進,更好地提升用戶對圖書館服務與資源的利用率。
4 討論
本研究運用K-means算法和Apriori算法,對高職院校圖書館用戶行為與需求進行了挖掘。通過K-means算法進行聚類分析,我們得出了六個類:第1類用戶對圖書館OPAC的利用處于中午水平,其目的主要以檢索為主,利用OPAC進行其他相關系統操作的次數并不高,因此圖書館可重點關注這類用戶在系統中到底檢索了什么信息,根據其檢索記錄,有針對性地為這些讀者推薦一些圖書信息,以使滿足這類讀者的文獻信息需求;第2類用戶發起的會話數及其點擊行為數量都相對較少,且系統服務操作行為所占的比重相對較高,其桌面端的用戶占多數,這與本研究之前所得出的結論保持一致。針對這類用戶,圖書館在進行檢索結果精確推送的同時,還可在OPAC檢索頁面為其推薦更多的服務、資源供其選擇;第3類僅包含兩個記錄,且該聚類下的檢索行為點擊次數、系統服務操作行為點擊次數、點擊行為次數、持續時間、利用圖書館服務數量的值均要遠大于其他五個類,該類存在異常的情況,故而舍去;第4類和第5類用戶屬于兩類行為相反的用戶群,第4類的用戶屬于以檢索為主要目的,主要利用桌面端設備進行操作,會在OPAC中反復修改檢索式,以獲取精確的檢索結果的用戶群,該類用戶進行其他的情況相對較少,而第5類的用戶屬于更愿意利用OPAC系統中其他服務的用戶,這類用戶以利用智能設備為主;第6類用戶在檢索行為和系統服務操作行為的頻次上都不算,但其點擊行為次數卻達到了117.54次,說明這類用戶喜歡比較喜歡漫無目的在OPAC系統進行相關無關操作,這類用戶利用圖書館的需求并不明確,需要圖書館為之提供必要的指導。
另外,從基于Apriori算法的高職院校圖書館用戶數據聚類結果揭示的各項服務之間的關聯規則來看,新書推薦和借閱服務兩項服務之間的關聯性最強,其次是借閱排行和查詢服務兩項服務,說明圖書館的新書推薦和借閱排行兩項服務還是起到了相應的作用,但這兩項結果的置信度并不算高。置信度最高的關聯規則是查詢服務與借閱服務之間關聯規則,說明高職院校的大部分用戶在OPAC系統進行相關查詢操作后,主要還是會選擇將該書從圖書館借出來。高職院校圖書館可基于這些關聯規則,對現有的圖書館OPAC系統及其相關服務進行改進,以提升圖書館資源與服務的利用率。
參考文獻:
[1] 劉魯川, 王菲. 移動瀏覽器用戶的感知匹配與持續使用意向研究[J]. 情報科學, 2014(2):106-111.
[2] 陳臣. 基于大數據的圖書館個性化服務用戶行為分析研究[J]. 圖書館工作與研究, 2015, 1(2):28-31.
[3] 何勝, 馮新翎, 武群輝,等. 基于用戶行為建模和大數據挖掘的圖書館個性化服務研究[J]. 圖書情報工作, 2017(1):40-46.
[4] 陳廉芳. 大數據環境下圖書館用戶小數據的采集、分析與應用[J]. 國家圖書館學刊, 2016, 25(3):069-074.
【通聯編輯:王力】