靳曉恩
(南昌工程學院圖書館,江西 南昌 330099)
隨著信息化的發展,用戶信息需求以及獲取方式與習慣正在發生深刻變化。2005年OCLC的《大學生對圖書館與信息資源的理解》[1]報告顯示:89%的大學生在檢索信息時,首先選搜索引擎,只有2%的學生使用圖書館的信息資源。而2010年,中國互聯網信息中心發布的《第26次中國互聯網絡發展狀況統計報告》[2]顯示:搜索引擎在網民中的使用率達76.3%,以半年3912萬人的速度增長??梢?,搜索引擎的利用率遠遠高于數字圖書館的利用率。但這種現象的出現,對于數字圖書館的發展而言,是挑戰、也是機遇。“挑戰”不言而喻,“機遇”就是數字圖書館的建設者們應盡早盡快地吸取、利用先進的信息化技術開發、建立用戶信息知識庫,了解用戶信息需求特征,發現用戶需求規律,以指導數字圖書館豐富的資源建設,從而提高數字圖書館的資源利用率。
數字圖書館是現代高新科學技術和文獻知識信息以及傳統歷史文化完美結合的體現。其建設的目的就是為了最有效、最可靠、最可持續地滿足用戶的信息需求,其發展的源泉也正是廣大的信息需求用戶。同時,知識發現(Knowledge Discovery in Database,KDD)的興起,是人們長期對數據處理和分析進行研究和開發的結果,它使數據庫技術進入了一個更高級階段,它不僅能對過去的數據進行查詢和遍歷,并且能夠找出數據之間的潛在聯系,發現具有指導性作用的預測、差異性知識[3]。利用知識發現的這種功能,加強數字圖書館的用戶信息管理,對用戶信息進行整合、分析、挖掘處理,將會發現有用的規則和知識,指導數字圖書館資源建設,這對數字圖書館的發展來說,可謂重中之重。
數字圖書館的用戶信息,也就是用戶在利用數字圖書館檢索信息時所產生的檢索痕跡,包括數字圖書館用戶登陸信息和用戶活動信息、用戶profile、用戶調查信息、網站的用戶注冊信息和日志文件等[4],這些信息數據受用戶的偏好、興趣、認知類型、經驗、智力、使用方向、檢索時間等用戶信息需求情境的影響,產生不同的用戶需求特點,形成差異的用戶需求行為。而這一用戶檢索行為所產生的記錄而形成的數據庫與知識發現技術相結合,我們將設計出如下的用戶信息知識發現的過程分析模型圖(如圖1):

圖1 用戶信息知識發現過程模型
此知識發現過程建立在豐富的用戶個人信息及檢索過程記錄的基礎上,通過對用戶個人信息特征庫及用戶檢索過程記錄特征庫的預處理,形成目標數據庫,知識發現就是對目標數據庫的分類和聚類分析、關聯分析、序列模式發現、模式識別等操作,結果產生具有指導性價值的模式、規則和知識,建立對改進數字圖書館資源建設方向、增強用戶個性化服務能力的指導性知識庫。
用戶信息知識發現過程實現的步驟主要有:用戶個人信息特征庫及檢索過程記錄庫的建立和預處理;針對目標數據庫的分類和聚類分析、關聯分析、序列模式發現、模式識別的知識發現處理;建立知識庫。
數字圖書館的用戶注冊信息、用戶登錄信息、用戶profile,受用戶信息需求情境的影響,形成用戶個人信息特征庫。而用戶交互信息、檢索日志文件(訪問時間、訪問頻率、訪問結果等),用戶檢索表達式的影響,形成用戶檢索記錄數據庫。
針對用戶個人信息特征庫,主要是利用推理機分析處理用戶信息需求情境,識別用戶偏好、興趣、認知、經驗、智力等特征,并利用搜索引擎自動采集用戶需求情境特點。針對用戶檢索過程記錄庫,主要是利用搜索引擎動態跟蹤服務功能,記錄大量的用戶交互信息、檢索日志文件(訪問時間、訪問頻率、訪問結果等)。而后,利用智能過濾、興趣識別、訪問登記等搜索引擎功能對兩大數據庫進行數據凈化預處理。這樣,預處理后的目標數據庫,就成為可供進行知識挖掘操作的信息庫。
分類和聚類分析是一對互逆過程,分類是利用分類模型把數據庫中的數據項映射到給定的類別中;聚類是把數據分成不同的群組,目的是使同一群組的數據盡量相似,不同群組的數據差別盡可能地大。分類和聚類分析可以把凈化過的用戶個人信息庫及檢索記錄信息庫的信息進行群分,建立用戶需求模型,數字圖書館根據特征模型為不同用戶提供個性化的信息定制和推送服務。例如:美國加州大學伯克利分校信息管理與系統學院的庫伯教授曾對加州大學聯機目錄的使用記錄數據進行收集,共獲得257000條訪問記錄,然后進行處理和分析聚類,發現有6種不同的用戶類型:查找詳細信息的、一般使用的、查找中具有較好的互動技巧的、知道所查項目內容的、需要依賴幫助查找的、查找不成功的用戶,從而使數字圖書館可以細分用戶,并針對不同的用戶提供相應的個性化服務[5]。
關聯分析是表示數據庫中同一事物不同對象之間的相關性;序列模式是事件內部及時間上的相關性。例如:對學生的借閱記錄進行關聯分析得出以下關聯規則:“系統類=>組織類和管理類(0.25,0.33)”,即“在一個借閱過程中,如果系統類資料被借出,組織和管理類資料同時也被借出,其支持度為0.25,信任度為0.33?!保?]。通過對用戶的檢索交互信息、日志文件的關聯和序列模式分析,可以發現用戶的檢索聯系及檢索取向,從而指導數字圖書館的資源鏈建設,節約用戶的檢索時間及檢索步驟,并智能地推送符合用戶檢索需求的檢索條目,供檢索用戶參考和使用。這樣,數字圖書館的資源建設即可以有的放矢,用戶的檢索過程又可以更加簡捷和準確。
知識庫是對信息庫的判斷、抽取、分析與概括,存貯的是規律性的規則和模式。通過對用戶信息的分類和聚類分析、關聯分析、序列模式等知識發現處理后而形成的知識庫,存貯了大量的用戶檢索和信息使用記錄的規律,利用這些規律來指導數字圖書館的門戶平臺建設、資源建設方向及重點,掌握用戶需求動態,推出更具人性化、個性化的知識服務,從而最大限度地提高用戶信息需求滿意度。
信息時代,用戶獲取信息逐漸向無縫的“自助服務”方向發展,用戶期望利用信息就像“用水用電”一樣方便。而數字圖書館以圖書館及互聯網上的各類數字資源或非數字資源為中心,目的是為了有效組織信息資源,為用戶提供便捷的、無縫的、統一的、一站式的門戶檢索平臺,從而最大程度的滿足用戶的信息需求,最大限度地發揮數字圖書館信息資源的使用率。
那么,為了實現這種“雙贏”發展,數字圖書館界就應該做到“知已知彼”。首先就是要充分地了解用戶需求,對數字圖書館的用戶信息進行有效的知識發現處理,產生可供利用的知識和規則,建立有效的用戶信息知識庫,以指導針對性地數字圖書館資源整合,在資源提供與推薦、推送方面作出調整與變動,有的放矢地為用戶提供新的信息定制與推薦服務,從而更有效地提高數字圖書館利用率,使用戶獲得更為快速、準確主動的個性化信息服務,完美實現數字圖書館“知識寶庫”的社會價值。
[1] OCLC.College Students‵Perceptions of Libraries and Information Resources[R].Dublin,Ohio USA:OCLC Online Computer Library Center,Inc.,2005.
[2] CNNIC.第26次中國互聯網絡發展狀況統計報告[R/OL][2010-09-25].http://www.cnnic.net.cn/pdf/2010/7/15/100708.pdf
[3] 黃曉斌.網絡信息挖掘[M].北京:電子工業出版社,2005:7-8.
[4] Kyunghye Kin.A Model of Digital Library Information Seeking Process as a Frame for Classifying Usability Problems[J].A Dissertation for the Degree of Doctor of Philosophy[D].The State University of New Jersey.2002.
[5] Hui-Min Chen,Michael D.Cooper.Using clustering techniques to detect usage patterns in a Web based information system[J].JASIST.2001(11):888-904.
[6] Chien-Hsing Wu,Tzai-Zang Lee,Shu-Chen Kao.Knowledge discovery applied to material acquisitions for libraries[J].Information Processing and Management,2004:713-714.