朱環宇
摘要:本文通過對知識發現進行深入的研究,闡述知識發現的功能及一般過程,探討將知識發現引入數字圖書館的積極意義,并據此探索數字圖書館中基于知識發現的知識檢索服務、個性化知識推送服務以及參考咨詢服務。
關鍵詞:知識發現 數字圖書館服務 應用
中圖分類號:G2507文獻標識碼:A文章編號:1009-5349(2016)23-0019-02
隨著網絡環境和數據庫技術的迅猛發展,人類進入到數字化信息時代,人們對于世界的認識越來越全面及深入。相應地,各種數據信息呈指數級的增長,并涵蓋到我們生活中的方方面面。在這些浩如煙海的數據中,隱藏著大量的、有重要價值的信息。目前的數據庫技術雖然能高效、便捷地實現對數據的查詢功能,但依據現有的數據檢索機制和統計分析方法仍無法滿足某些高層次的需求,也不能從用戶的需求出發,實現用戶獲取準確信息的意圖,個性化的主動知識服務就更無從談起。“數據雖然豐富,但信息仍舊匱乏”,用戶們仍然在信息超載的環境下面臨艱難抉擇。數字圖書館作為集數據、信息、知識為一體的知識寶庫,也面臨上面所述的一系列問題,如何將知識發現技術應用于數字圖書館的建設中去,全面提升數字圖書館的知識服務價值和創新能力是新時代、新形勢下帶給圖書館人的挑戰。
一、知識發現
(一)知識發現的概念
知識發現(Knowledge Discovery in Database)一詞是在1989年召開的國際聯合人工智能學術會議上首次提出的,其定義有多個版本,目前被業界廣泛認可的是法耶茲(Fayyad)提出的。知識發現是指從大量數據中獲取有效的、未知的、有潛在價值的并最終可理解的模式的高級處理過程。知識發現是一個交叉的學科,在計算機技術、數據庫技術、機器學習技術、人工智能、統計學技術等多學科不斷深度融合發酵中發展起來的。知識發現實質上是一個系統化過程,其核心是實施對大量的數據倉庫、知識庫、數據庫的分析處理及深入挖掘,找尋數據間潛在的關聯、規則、模式、趨勢。幫助用戶發現數據背后潛藏知識與信息,與傳統信息檢索相比,知識發現獲取到的信息是有先前未知性、有效性和實用性三個特征。
(二)知識發現的功能
知識發現不同于傳統的數據庫定向查詢、檢索、調用,它會對數據進行分析、統計、歸類及推理,以此為基礎指導實際問題的求解,并力圖發現事務間的相互聯系,依據這種數據間的關聯對未來的活動作出預測。知識發現技術可以從海量的、蕪雜的數據中根據特定的算法,篩選出有價值的、高質量的相關聯數據。
(三)知識發現的一般性過程
關于知識發現的過程,目前尚存在分歧,有的學者提出“五步說”,也有學者提出“六步說”,本文認為知識發現的過程應分為九個步驟。①用戶調查,用以了解用戶的需求。②數據收集,創建目標數據集,該數據集可以來自現有系統,也可以來自數據倉庫。③數據預處理及清理,對上一步數據庫進行糾錯及除去冗余數據,并將處理結果轉化為數據采集工具所需的標準表達形式。④數據的簡化和投影,找出數據挖掘目標的有效特征,降維處理或用其他變量等價表示,以減少變量的有效數目。⑤根據目標選擇恰當的數據挖掘方法。⑥根據模式類型選擇適當的數據挖掘算法。⑦利用選定的數據挖掘方法及算法進行數據挖掘,挖掘出用戶感興趣的模式。⑧評價和解釋發現的模式并將其可視化。⑨知識整理及應用,把挖掘出來的知識發現結果應用到用戶的系統中去。以上步驟可進一步歸納為三個部分:數據準備階段、數據挖掘階段及數據挖掘后處理階段。
二、數字圖書館引入知識發現系統的意義
(一)有利于提高數字圖書館資源的利用率
在傳統的數字圖書館資源建設中,只是單純地注重資源建設本身及檢索傳遞能力,而忽視了用戶對于資源使用的效率問題,導致了數字圖書館的資源利用率普遍偏低的現狀。知識發現系統的引入,使得數字圖書館在原有資源的基礎上,通過關聯分析、分類、聚類等方法,獲取與原有信息存在一定關聯并潛藏于文獻、資料、數據背后的有價值的知識。區別于傳統模式,知識發現系統在用戶獲取知識A的同時,也會將與其存在一定相關性的知識B推送給用戶,以供用戶選擇。這種推送不僅增加了知識B的利用率,也使得用戶發現了單純依靠本人能力無法獲取到的、所需要的知識B。由此我們可以看出,知識發現的核心是對知識的挖掘,它是應用戶的需求而存在的,在知識服務模式中,應該是知識尋找用戶,而不僅僅局限于用戶尋求知識。知識發現系統的應用,有效地提高了數字圖書館資源的利用率。
(二)為用戶提供個性化的知識服務
進入新世紀以來,數據、信息、知識產生的速度越來越快,數量越來越多。根據統計表明,全世界每天約產生2EB的數據量(2EB既10億GB或1000PB),加之以前積累起來的數據,簡直不可勝數。在如此海量的數據中充斥著相當一部分的垃圾數據(包括虛假數據及冗余數據),這些數據不但無法滿足用戶的需求,還會對其造成困擾。知識發現系統通過收集、關聯分析、聚類、分類等方法,對網站結構、資源內容及用戶情況進行深入挖掘,找出信息特點與信息關聯并加以合理利用,提高知識服務水平,進而促進用戶的信息素養能力。另外,數字圖書館知識發現系統通過跟蹤并分析用戶信息及其知識行為特征,運用關聯分析、分類、時間序列分析等方法,挖掘其存在的規律和特點,以此作為數字圖書館資源智能化關聯和聚類的依據。通過知識發現技術對可用知識進行關聯和升值,進而利用這些數據和規律對用戶未來的活動進行合理的預測,從而向用戶推送知識,以滿足用戶對于知識的實際和期望的需求,實現從信息獲取到知識服務的跨越。
(三)進一步推動數字圖書館資源的開發和數據庫的建設
數據資源的價值是非常寶貴的,通過知識發現系統找出資源中潛在的特征和規律,向用戶提供符合用戶需求的、高效的知識獲取手段,使用戶獲取藏匿于數據背后的潛在的、全新的、有價值的知識,實現對資源的利用達到最大化,杜絕出現知識資源不必要的浪費,并以此為目標指導數字圖書館資源優化配置。知識發現系統從技術上加強了對現有數字資源的開發力度,多維度挖掘資源間的潛在聯系,從而減少盲目的資源購置行為,減少現有資源不能充分利用的現象。通過對用戶信息、行為特征的分析,了解用戶的需求,進而指導數字圖書館資源的開發和數據庫的建設、更新及優化。
三、知識發現在數字圖書館服務中的應用
(一)基于知識發現的知識檢索服務
知識檢索不同于信息檢索,它在語義層面進行標引,建立知識庫。通過信息的語義概念,揭示信息的內在含義,而非字面上的模式匹配。從根本上解決了檢索結果冗余嚴重、檢索率低、用戶獲取知識成本高等問題。數字圖書館借助知識發現技術,分析用戶檢索行為,挖掘其感興趣的知識,構建用戶信息模型。對用戶進行聚類分析,通常可將其分為清晰查詢、半模糊查詢、模糊查詢。其中,知識發現的檢索服務可以提高后兩種查詢的查詢質量。在數字圖書館檢索體系中,知識發現揭示了知識在深層次的關聯情況,對于增強其交互性,突破知識傳播和共享的時空限制,使一站式知識檢索服務成為現實。
(二)基于知識發現的個性化知識推送服務
通過用戶使用記錄、用戶行為挖掘、用戶特征分類和用戶反饋分析等方式,經過模式識別和機器學習,分析并預測用戶感興趣的知識領域。根據構建的用戶興趣模型將相關的知識推送給用戶,也可以通過聚類、分析、關聯等規則,找到興趣相投的用戶加以歸類,并將上述知識推送給相似需求的用戶。知識發現運用智能分析,實現數字圖書館對用戶的個性化推送服務及個性化定制服務,并依據用戶對于推送或定制服務的反饋,進一步調整策略,進而滿足用戶的需求、提高用戶的體驗。
(三)基于知識發現的參考咨詢服務
參考咨詢服務最早要追溯自馬里蘭大學的“參考服務的電子化訪問”項目。傳統的淺層次的參考咨詢服務是無法滿足用戶的需求,個性化的知識增值服務在數字圖書館服務中處于主動地位。知識咨詢服務立足于數字圖書館豐富的智力資源和信息資源,依托知識發現系統為用戶提供的原始知識或是經過深度加工的知識。通過知識發現系統對用戶進行需求定位,挖掘用戶的潛在需求,以便為用戶提供更為精確的知識服務。基于知識發現的參考咨詢服務不受時間限制、地域限制,以多種形式展開,更主要的是能為用戶提供高效的、便捷的、深層次的知識服務。
四、結語
知識發現服務是數字圖書館知識服務未來的發展方向,推進知識信息的積累、組織和整理,促進新知識的創造及共享,不斷豐富資源和服務,必將成為數字圖書館體系結構中不可或缺的一部分。知識發現系統在數字圖書館的廣泛應用將進一步豐富和優化圖書館的信息資源,使圖書館的知識服務能力發生質的變化。
參考文獻:
[1]張為江.基于用戶需求分析的數字圖書館知識發現系統研究[J].圖書館理論與實踐,2014(9).
[2]王芙蓉.基于知識發現的高校圖書館機構知識庫模型的建立[J].圖書館學刊,2016(8).
[3]史海燕.基于知識發現的數字圖書館個性化信息服務研究[J]圖書館學研究,2010(10).
[4]靳曉恩.數字圖書館的知識發現研究[D].湘潭:湘潭大學,2008.
[5]周楊姊.基于知識發現的數字圖書館個性化信息服務[J].中國成人教育,2010(17).
[6]邵慧麗.基于知識發現數字圖書館知識服務研究[J].圖書館,2016(2).
[7]樊紅俠.知識發現及其在數字圖書館的應用[J].現代情報,2008(8).
責任編輯:楊國棟