張智剛,郭淑艷
(吉林大學農學部圖書館,吉林長春 130062)
隨著信息技術的不斷發展和普及,圖書館作為一個信息情報資源中心,積累了大量的數據。以一個中小型圖書館為例,其館藏圖書量大約是50萬冊,電子書刊可能接近5~10T,信息數量可以達到幾千萬條。由于數據庫技術的日臻成熟,在如此海量的數據庫中查找讀者所需的資料已經不是什么問題。可我們的數據庫是在不斷更新的,每天都會有大量的圖書和電子期刊到館入庫。怎么才能讓讀者及時地了解到圖書館的最新資料?如何判斷這些新資料會不會成為某些讀者的需要?我們研究的目的是:建立一條讀者與海量資源的橋梁,滿足不同讀者的不同需求,實現信息利用的通暢和最大化。
數據挖掘技術為我們指明了解決這一問題的方向。自從1989年第11屆國際聯合人工智能學術會議上首次提出K DD這一概念以來,信息挖掘技術日益受到人們的關注,并己經成為當前計算機領域的一大熱點,其研究的重點也逐漸從發現方法轉移到系統應用,并且注意多種發現策略和技術的集成以及多學科之間的相互滲透。現今,數據挖掘的應用領域越來越廣泛,從早期的商業應用,發展到科學研究、電子商務、產品控制、金融行業、教育教學等多個領域。我們可以利用數據挖掘相關方法和理論,對讀者信息進行分析和處理,對讀者需求作出一個量化的定義。根據這一定義去搜索圖書館的海量資源,將符合讀者需求的資源提取出來推送給讀者,實現上述我們的理想目標。
根據設想,我們從讀者信息著手分析。在傳統的圖書館中,讀者信息比較簡單直白,包括姓名、性別、年齡、單位、聯系方式等信息。這些信息只能反映出讀者的自然情況以及讀者和圖書之間的借還關系。為了更好地表達出讀者的需求和特點,在這里我們引入讀者信息域的概念。其定義為:能夠表述讀者特征的主題詞的多維集合。
首先,信息域是一個集合,只要是能體現讀者特點的主題詞均可加入該集合,包括讀者的自然情況屬性。世界上的信息紛繁復雜,數量極其龐大,我們不可能將所有的信息點均用于表達讀者的特點,而應將龐大的信息群按照某種規則進行分類,提取每個類或者其子類的主題詞。根據主題詞出現的頻度和類目的深度,有計劃地將主題詞填充到信息域中,用以表達讀者的特征狀態。
其次,集合中存在多維結構,每一維體現出讀者的一個特點。一個讀者的興趣特點可能是多方面的,我們不可能將表達讀者興趣的關鍵詞一律添加到信息域中去,而應將關鍵詞以某種形式組織起來添加到集合中去,以免引起集合中的關鍵詞的混亂。這里我們設計了一種放射性的樹形多維組織形式,如圖1所示:

圖1 信息域結構
每個特征興趣方向均可以看作是一“維”,它是由一棵關鍵詞樹組成的,表達讀者對該方向的詳細興趣點。
最后,“維”與“維”之間不存在交叉,“維”具有權重屬性。信息域中每個關鍵詞存在唯一性和代表性。為了不產生歧義和提高效率,我們不能將重復或意義相近的關鍵詞添加進來。可見“維”與“維”之間一定是不存在交叉的。一個人的興趣是多方面的,而每個興趣的濃厚程度顯然不是完全一樣的。我們為每一個維設定一個權重值,用來表示讀者對該特征興趣方向的重視程度。體現出讀者對哪些方面的內容更感興趣。
信息域可以看成是主題詞表的子集。既然是集合的一種,我們可以對信息域進行邏輯運算。“與”表示取兩個讀者的共同特點,“或”表示取兩個讀者的所有特點,“非”表示讀者不感興趣的信息。可以通過設定“維”的限制關系,來對讀者進行分類、篩選等更為復雜的邏輯運算。如:可以設定“心理學興趣方向”為限制條件,通過查詢會很容易將興趣相近的讀者統計出來。圖書館工作者可以組織讀者聯誼活動,為興趣愛好相同或相似的讀者提供交流促進的機會,也可以統計出讀者群興趣度列表,根據興趣度的高低,來指導圖書館資源的擺放順序、新資源采購的側重點。
讀者信息這里主要指讀者行為記錄。作為一個數字圖書館,其管理系統應對讀者行為進行詳實的記錄。如:讀者出入館時間、借閱記錄、期刊查閱記錄、論文下載閱讀記錄等。顯然,這些記錄是海量的,從某種角度說是雜亂無章的。我們的目的就是從這些海量的看似雜亂無章的數據中提取出讀者的興趣特點,把這些特點填充到讀者的信息域當中去。
從海量記錄中提取讀者特征的過程就是數據挖掘的過程,或者說是發現知識的過程。借鑒數據挖掘的相關理論方法,我們可以按照以下步驟進行:
首先,進行“數據清洗”。讀者行為記錄中難免有些錯誤或冗余的記錄,這些記錄進入挖掘流程勢必會影響結果的準確度。如:借還間隔只有幾分鐘,說明讀者可能拿錯了書;幾分鐘內下載了多次相同的文獻,顯然這會產生多條冗余的行為記錄。針對上述的錯誤數據、冗余數據,我們應當編寫一種“清洗”算法將他們過濾掉。
其次,進行數據格式上的統一調整,生成數據倉庫。由于各類讀者行為記錄格式不盡相同,借還記錄可能只有圖書編號、讀者編號、借還時間等,下載記錄可能會有下載編號、讀者編號、時間等。為了適應統一的挖掘算法,必須將原數據進行格式上的調整,生成標準的數據格式,存儲于數據倉庫中。
最后,設計挖掘算法,進行挖掘計算,得到讀者特征值并填寫到讀者信息域中。挖掘算法是系統的關鍵。國內外對文本信息的挖掘算法很多,我們可以選取其中比較成熟的算法作為核心算法,后面適當調整輸出知識的形式,填寫到信息域中。
通過以上信息處理和挖掘過程,讀者信息域建立完畢。下面我們來討論讀者信息域的開發利用及修正。
為了建立讀者和海量資源的快速通道,現在讀者的特征已經數字化,而某條信息資源也有自己的關鍵詞集合。我們拿讀者域和關鍵詞集合進行基于關聯規則的運算,就能得到一個反映相關度的數值I。根據I的大小判定該讀者對這條信息資源的興趣程度。我們可以把I的值域劃分成若干等級,不同等級采取不同的服務方式。若I值非常大,我們可以采用即時通信的辦法將該信息資源立即推送給讀者;若值比較大,我們可以發送郵件等方法將資源推送給讀者。這樣圖書館的服務模式就發生了質的轉變,從原來的被動等待讀者尋找資源,轉變為資源主動尋找讀者,實現了資源利用的最大化。
讀者信息域不是一成不變的,它應該根據讀者興趣的轉移而發生相應的變化。這就必須設定一套信息域的修正方案。最簡單的辦法是,以權值W作為衡量讀者對某個興趣方向的重視程度。影響數值大小的因素應該包括:讀者訪問次數、近期訪問頻度、讀者自定義等。讀者訪問某類資源的次數越多,證明對該資源的感興趣程度越濃。近期訪問量也是衡量讀者興趣變化方向的重要指標。雖然總的訪問量可以證明讀者的興趣濃厚,但也許是該位讀者幾年前的興趣所在。這就要求我們還應該統計近期讀者的訪問情況,適當修改W數值,體現出讀者興趣的最新變化情況。
為了系統的優化考慮,信息域必須具有“減肥”能力。任憑信息域集合的不斷壯大和發展,勢必產生過時的數據。當某個“維”在某個時間范圍內讀者都沒有訪問過,我們就可以認定讀者已經失去對該方向的興趣,可以作出刪除處理。通過修正方案的定期執行,我們就能基本上跟蹤掌握讀者的最新動態,從而為讀者服務提供更強大的支持。
讀者和數字圖書館資源是一對矛盾。圖書館人應當從讀者角度考慮問題,創造性地開展新業務、新服務,解決好這一矛盾。本文從規范化、標準化的角度考慮讀者服務模型,力求建立一套數字圖書館讀者信息挖掘平臺。目前針對讀者信息挖掘的方法、算法很多,但各類系統互不兼容。希望統一格式的讀者信息表達模塊——信息域能夠起到相互聯絡、共享信息的作用,以利于各系統的互補,提高讀者服務能力和圖書館建設水平。
[1]雷剛.個性化數字圖書館研究[D].成都:四川大學,2008.
[2]劉璇.數字圖書館的個性化知識服務研究[D].大連:遼寧師范大學,2008.
[3]王創新.關聯規則提取中對Apriori算法的一種改進[J].計算機工程與應用,2004(34).
[4]李康順,李元香,滕沖.遺傳算法在數據挖掘中的應用[J].計算機工程與應用,2005(9).