宇 婷(鄭州工業應用技術學院圖書館)
隨著網絡技術和計算機的發展,圖書館的發展也是日漸提高,目前,用戶對于圖書館的檢索要求更高,迫切的需要一個智能化的檢索系統,滿足用戶快速檢索到自己需要的圖書內容,而數字化的圖書館檢索系統,就可以滿足用戶對于智能檢索的要求,這種控制系統也是目前圖書館智能化發展的中心。[1]在現代圖書情報學,研究數字圖書館日漸變的重要,基于多學科技術和理論的支撐,數字圖書館的研究獲得一定的發展空間。[2]在數字圖書館用戶服務建設中,關于序列模式挖掘的研究則比較少,原因是因為挖掘工作因傳統序列模式挖掘活動時間因素變的非常復雜。[3-5]在現實生活中,序列模式對用戶能夠快速的查找到自己所需的圖書具有指導意義。[6]本文基于概念格的數字圖書館,對用戶知識序列模式挖掘進行了研究,目的是基于數字圖書館用戶檢索行為中的挖掘序列模式,對數字圖書館用戶服務進行完善和改進。

圖1 用戶知識關聯規則挖掘系統流程圖
圖1 為以概念格為基礎的用戶知識關聯規則挖掘的流程圖,這幅圖的工作原理就在于,智能數字化的圖書檢索系統能夠對用戶的選擇進行預判,以及對用戶曾經輸入的信息進行記憶,當用戶再次需要進入系統進行圖書查閱時,其立刻快速的滿足用戶需要。系統核心部分為可變階段,在進行挖掘時,若獲得的規則無實際意義,則對置信度閾值和支持度進行調整,重新在原格結構基礎上提取。若得到的規則具有實際意義,則這個規則能夠對用戶的需求進行準確判斷,幫助用戶獲得其需求成果,如果這個規則無法滿足用戶的需要,則對閾值再次進行調整。
在進行圖書館用戶系統工作時,主要是將數字圖書館用戶個性化服務水平提高。[7]圖2為置信度閾值為49.21%,支持度閾值為30.50%時的關聯規則,規則“j(停留久)=>p(非黑夜模式)”的置信度為65.54%,支持度為49.21%。這表明在數字圖書館“長時間駐留并在白天訪問”中,該節點為全部用戶的49.21%代表,而占據大部分比重的,則是白天訪問的用戶以及能夠長時間在圖書館逗留的用戶。而在另一個部分中,規則“j=>fs(高速接入+PDF文檔+經常使用)”具有49.21%的置信度,36.48%的支持度。這表明在使用數字圖書館時,該節點代表36.48%的用戶采用“長時間駐留+PDF文檔+訪問學術信息+經常使用+高速接入”用法。在“長時間駐留”的用戶中,能夠對圖書管理系統綜合利用的用戶特征的用戶比重為49.21%,具體見表1。

表1 置信度閾值為49.21%,支持度閾值為30.50%時的關聯規則
對更多零散用戶個性化知識需求,若認為36.48%的用戶份額對其關注仍不能充分體現,對于規則“gj(財經類+長時間閱讀)=>dmqx(農村IP/速度不佳+晚上進入系統+網頁文件+不太常用)”而言,其置信度為100%,支持度為11.49%。這表明在訪問數字圖書館過程中,該節點代表在所有用戶中有11.49%的用戶使用以上所有部分的節點的可信度是100%。根據選用實驗數據源,處于同一節點規則包括eg=>cikmopt、cg=>eikmopt、gk=>ceimopt,置信度均為 100%,支持度為11.49%。例如規則gk=>ceimopt,該節點代表在所有用戶中,使用“短時間停留+查詢財經類圖書+正常利用+地址轉換+城市地址+網頁文件+高端品瀏覽+白天訪問+XLS文檔+中速接入”的用戶比重為11.49%。在城市,這部分用戶大多數情況下都是處于一種快節奏得生活方式,首先來說,大部分人白天都處于上班時間,沒有時間對圖書進行瀏覽,另外,由于城市地區的人口眾多,互聯網比較擁擠,所以實際的互聯網傳輸速度較慢,其次,生活在城市地區的居民,他們都會注重時尚的信息,所以綜上所述,得出結論,具體的情況見表2。

表2 置信度閾值為100.00%,支持度閾值為10.05%時的關聯規則
分析以概念格為基礎的數字圖書館用戶知識關聯規則挖掘,對找出用戶使用方法間的潛在聯系有益,能夠有效的從用戶的角度去考慮圖書的檢索方式,進而會給用戶一種便捷的體驗。[8]在研究中,通過調整閾值,獲得更多規則,在規則通過穩定的格結構進行提取復用,對用戶的圖書利用習慣進行挖掘。[9]
序列模式挖掘是在目前已經有的數據當中,進行歸納整理,并找出規律進行排序的過程,通常情況下,是按照優先級進行排序。對于數字圖書館用戶知識序列模式挖掘而言,實質上是由用戶檢索系統當中的數據庫來確定,數據庫能夠對用戶的使用情況進行記錄,當用戶對于某一種圖書的瀏覽次數較多時,數據庫就會把其確定為最大值,同時將所有頻率大于或等于給定支持度閾值的序列即頻繁序列挖掘出。
項集為非空集合,是用戶信息數據庫DB中由若干個項組成,記作I=(i1,i2,…,im),其中一個項用ik(1≤k≤m)表示,表示用戶尋找的一種圖書,k-項集是長度為k的項集。
在圖書檢索開始時,用戶向智能系統中,輸入圖書信息,從而達到檢索的目的,在這期間,圖書檢索系統包括時間信息,圖書名信息等必要因素。并同時規定,當一個用戶在不同時段搜索同一本圖書或者不同的圖書時,其檢索系統需要判斷為每次檢索都為重新檢索。表3為用戶信息數據庫示例。

表3 用戶信息數據庫示例
項集組成的有序表即為序列(Sequence),項集有序排列不同,記為 I= 〈s1,s2,…,sn〉,其中 Sk(1≤k≤n)稱為序列的一個元素(Element),表示一個非空項集。在一個序列中,序列長度是所包含項目的個數。L-序列表示長度為L的序列,表4為用戶檢索行為序列。

表4 用戶檢索行為序列
給定兩個序列 A= 〈a1,a2,…,am〉、B= 〈b1,b2,…,bn〉,其中m≤n,假定有一組整數i1,i2,…,im,可使a1bi1,a2bi2,…,ambim,于是可以表示,在A中包含B的內容。如果在S序列中,只有S,并沒有其他的序列,則我們可以認為,S序列是整個序列中最大的。
如果在一個圖書檢索系統當中,包含了S序列,那么我們就可以認定,該用戶檢索的圖書可以用序列S來表示。在指數據庫DB中,支持序列S的用戶數和用戶總數之比為序列S支持度。頻繁序列是指支持度比最小支持度大的序列。例如給定最小支持度為36.48%,在表3的數據庫DB中,則可獲得序列模式的5位用戶中,有2位用戶檢索行為序列至少被支持,表5為支持度大于36.48%的序列模式。

表5 支持度大于36.48%的序列模式
由表5知,用戶1和用戶3支持序列模式<(e)(m)>。在項e和m間,用戶3對k進行了搜索,在進行m項進行搜索的同時,不僅僅是只搜索m,該用戶還對其他兩種項同時進行了搜索,但是這種情況下,仍然支持m項,原因是其模式屬于獨立的狀態。序列<(e)(k)>、<(e)>、<(e)(k)(s)>、<(k)(ps)> 等可滿足最小支持度,即頻繁。
在本文中,對于序列模式的挖掘主要的順序是一種自上而下的過程,通過數據庫投影技術從而可獲得投影數據庫,自上而下進行檢索的優點就是,當用戶進行搜索時,其能夠進行順序判斷,當上層信息無法滿足用戶需求時,自動進入下層繼續檢索,這種檢索模式也叫序列檢索模式。上層與下層之間相對獨立,但又保持著聯系。圖2為挖掘思想的拓撲結構。

圖2 挖掘思想的拓撲結構
基于用戶概念的圖書檢索系統檢索步驟可以分為8個步驟來完成。第一步是用戶輸入相關的個人信息,當成功登錄系統后,系統會自動生成用戶的數據庫,從而使投影數據庫生成。Session時間和用戶ID是原數字圖書館用戶知識行為數據庫的主鍵,在進行歸集后,可獲得以用戶ID為主鍵的投影數據庫。第二步是上層概念格通過形式概念分析(FCA)進行構建,將投影數據庫作為形式背景。第三步是在上層概念格中,通過設定的支持度閾值對上層頻繁項集進行提取。第四步是在用戶已經有的數據庫當中,進行新的數據加入,也就是增加新的圖書內容,通過形式概念分析(FCA)進行下層概念格的構建。第五步是在下層概念格中,對滿足最小支持度閾值要求的下層頻繁項集進行提取。第六步是在提取的下層概念格中,通過下層頻繁項集將下層概念格最大頻繁序列求出。第七步是重復第四、五、六步,直至第三步是對各上層頻繁項集數字圖書館用戶的檢索行為,逐一進行下層概念格的建立,并對每個下層概念格最大頻繁序列進行提取。最后一步就是對所有的數據進行重新的歸納和梳理,分析用戶最常閱讀的圖書,將其作為序列的最大值進行排放,下次檢索時,直接在最上層。
數字化的圖書檢索系統,其運用的是用戶的數據庫相關理論,DB為一個三元組K=(U,D,R),所有檢索對象集合用D表示,所有檢索行為集合用U表示,D和U之間也是具有相關性的,這種相關性利用R表示。通過這種方法,使數據的排序變得更加有序,有序這種方法屬于挖掘數據的模式,所以,只采用單純的1-排序方法并無實際意義。在BD數據庫里,它可以根據用戶的ID判斷用戶的需求,這樣可大幅壓縮得到的投影數據庫規模。表6為用戶信息數據庫投影庫的形式背景。

表6 用戶信息數據庫投影庫的形式背景
通過表6,可誘導出上層概念格Hasse圖,具體見圖3。

圖3 上層概念格Hasse圖
由圖3知,在設定支持度閾值為36.48%時,可獲得長度大于或等于 2的上層集,分別為 (eh)、(ekmps)、(em)、(kps),依照詞庫的相關規定進行排序工作。1-項集(e)可滿足最小支持度閾值,在進行排序工作時,可以發現,1-型序列在實際當中并沒有準確的進行應用,所以我們可以把這部分進行排除。當排除上述因素之后,下一步就可以對下層的概念進行建模。上層頻繁項集(ekmps)外延集合包含用戶3、5的檢索行為,表7為其形式背景。
通過表7,可誘導出下層概念格Hasse圖,具體見圖4。

表7 用戶3、5檢索行的形式背景

圖4 下層概念格Hasse圖
在支持度閾值為36.48%時,可獲得下層頻繁項集(m)、(ps)、(k)、(e)。由圖 4知,在下層概念格中,根據各下層頻繁項集用戶的檢索狀況進行排序,排序的依據就是以時間作為標準,從前往后的進行排序,排序拋除掉1的部分,對于長度大于2的部分,按順序進行列舉。因此處外延集所包含的用戶檢索行為只針對上層頻繁項集(ekmps),對于原始用戶信息數據庫無須遍歷。針對上層頻繁項集(kps)、(eh)、(em)的用戶檢索順序,進行下層概念的建模工作,建模結束后,就對相關的順序進行排序工作。利用上層對應下層的方法,可以得出用戶1和用戶3的序列<(e)(m)>。在對用戶系統進行全面檢索中,<(e)(k)(ps)> 的子序列包括序列 <(k)(s)>、<(k)(p)> 是序列,所以需要拋除掉,進而就可以得出正確的圖書檢索序列為 <(e)(m)>、<(e)(k)(ps)>。
對于挖掘效果而言,在提取頻繁項集方面,概念格具有其他的挖掘方式所不具有的優點,他屬于一種新型挖掘模式,與傳統的挖掘方法存在著顯著的不同,這種方法提取的頻繁項集數據源能更精準的滿足閾值要求,從而使挖掘工作感知有用性得到提高。[10]通過概念格迭代,對概念格提取頻繁項集進行多次反復使用,以概念格為工具,最大限度使用概念格復用性,這種挖掘方法充分的考慮到了用戶的因素,使用戶在進行圖書檢索工作時,大大節省了圖書檢索時間。其優秀的圖書檢索系統,能夠從系統方面去考慮優化用戶的檢索體驗,進而能夠為建設數字化、智能化的圖書館提供強大的技術動力。
本文基于概念格的數字圖書館,對用戶知識序列模式挖掘進行了研究,目的是基于數字圖書館用戶檢索行為中的挖掘序列模式,對數字圖書館用戶服務進行完善和改進,得出以下結論:
(1)通過挖掘基于概念格的數字圖書館用戶知識關聯規則,從用戶角度分析了數字圖書館知識組織,本文從概念格方面對基于挖掘數據的方法對圖書進行檢索系統,一定程度上,優化了用戶的檢索體驗。
(2)通過自頂向下概念格迭代在對用戶檢索模式進行挖掘工作時,只需要采用一次挖掘的方法,就能夠實現準確的用戶定位,無需進行多次挖掘,從而使挖掘時間大幅壓縮,獲得的挖掘效果良好。