摘 要:數據挖掘是一種新型信息分析技術,其在傳統圖書館及數字圖書館中的應用是多方面、多層次的。文章分析了數據挖掘在引文數據庫中的挖掘結構,說明了其實現過程流程,論述了從引文數據庫中能挖掘到的可能結果,最后論證了基于引文數據庫的數據挖掘在圖書館中的應用。
關鍵詞:數據挖掘;引文數據庫;研究
科學研究蓬勃發展,導致文獻數量激增,出現了“信息爆炸但知識貧乏”的現象。人們迫切需要一種能夠集便于檢索、利用和有效收集、評價為一體的現代化檢索工具,如同國外的SCI、SSCI、AHCI等那樣,成為評價科學文獻的重要依據。而同時人們的知識需求不斷向更加深層化和個性化發展,僅僅數據庫和數據倉庫中自動查詢到的表面信息遠遠不能滿足需求,如何發現數據中存在的關系和內在規則,根據現有的數據預測未來的發展趨勢成為人們利用數據庫的主要目的,數據挖掘技術正是在這樣的應用需求環境下應運而生并迅速發展起來的。
1 數據挖掘和知識發現技術
1.1 數據挖掘的定義
數據挖掘技術是為解決信息海量劇增而產生的先進技術,知識發現技術的定義為一個從數據中識別有效的、新穎的、具有潛在效用的并能最終被人理解的模式的非平凡過程。從數據庫中獲取知識,它代表一個從低層次數據中提取高層次知識的全過程,包括對數據信息的收集,數據原型的確定,相關函數的分析,知識的抽取和數據模式分析等一系列過程。
1.2 數據挖掘的研究領域及相關技術
數據挖掘涉及廣泛的研究領域,主要包括數據庫系統,基于知識的系統,人工智能,機器學習,知識獲取,統計學,空間數據庫和數據可視化等領域。
1.2.1 數據庫系統
數據挖掘技術是基于數據庫的技術,數據庫及其相關技術是數據挖掘技術開發的基礎和發揮作用的關鍵。數據庫中原始數據的處理、儲存和操作的質量,數據錄入和檢索的速度都是數據挖掘技術賴以發揮作用的基礎。
1.2.2 基于知識的系統
在數據挖掘中為了對數據進行特定的統計和計數,要對各個特征屬性的數據進行組合形成新的數據庫。這就要求一個基于知識的分類聚類系統。其中,對于數據挖掘所得知識支持率的研究是個新領域。為直接從數據庫中發現關聯規則,可以依靠以產品的形式出現的分析和分類表達式的方法,亦可利用新出現的數據庫定向技術尋求數據庫中隱含的模式。以達到挖掘的目的。
1.2.3 人工智能和機器學習
人工智能對于數據挖掘來說是在符號的層次上對數據庫的信息進行處理,隨著計算機技術的進一步發展,計算機智能化是專家攻克的關鍵技術。
1.2.4 統計學
統計學在數據樣本選擇、數據預處理及評價抽取知識的步驟中有非常重要的作用。數據挖掘中的統計分析方法是利用統計學、概率論的原理對關系中各屬性進行統計分析,從而找出它們之間的關系和規律。
1.2.5 知識獲取
數據挖掘的最終目的是獲取知識,因此知識獲取也是與之相關的重要研究領域。知識獲取涉及的技術非常之多,傳統和現代的信息檢索技術皆為知識獲取技術,在數據挖掘中,主要可用到的是可視化技。
1.3 數據挖掘的功能
1.3.1 自動預測趨勢和行為
數據挖掘自動在大型數據庫中尋找預測性信息,利用建立的模型進行分析,迅速得出趨勢預測結論。如進行市場預測,數據挖掘可以利用相關原則、慣性原則、類推原則和概率推斷原則從數據中得推斷出未來市場變化的動態。
1.3.2 關聯分析
數據關聯是指數據庫中多個事物之間存在的關聯。關聯分析就是利用關聯和順序序貫模型搜索數據庫中隱藏的關聯網。如對文獻引用時間的分析,可發現文獻老化的規律等。
1.3.3 聚類和分類分析
數據庫中的記錄可被化分為一系列有意義的子集,劃分子集的過程即為聚類或分類。
1.3.4 概念描述
概念描述就是對對象的內涵進行描述,并概括此類對象的有關特征。概念描述分為特征性描述和區別性描述,利用統計學方法可生成一個類的共性特征。而利用決策樹方法、遺傳算法等可生成對象的區別性描述
1.3.5 偏差檢測
即離群數據的挖掘,數據庫中的數據常有一些異常記錄,從數據庫中檢測這些偏差很有意義。偏差包括很多潛在的知識,如分類中的反常實例、不滿足規則的特例、觀測結果與模型預測值的偏差、量值隨時間的變化等。
1.3.6 時序模式分析
時序分析指建立一個時序分析模型,在數據庫中應用相似搜索技術,檢索出與給定查詢序列相似的所有數據序列的子序列匹配或找出彼此間相似的整體序列匹配的過程,時序模式分析可用于金融市場分析、醫療診斷分析和科學與工程數據庫分析等。
2 基于引文數據庫的數據挖掘在圖書館的應用
數據挖掘的應用領域非常廣泛,它不僅被應用于金融投資分析、市場調配與分析、保險分析、醫療衛生事業、產品制造業及通信網絡管理等行業,而且在信息量極為龐大的天文、氣象、生物技術等領域中,基于KDD的數據挖掘也是一種功能強大的智能化自動分析工具。
基于引文數據庫的數據挖掘技術在圖書館中的應用體現在以下幾個方面:
2.1 指導圖書館信息資源的建設
相對于浩翰的信息量而言,圖書館每年的文獻購置經費是非常有限的,各門學科之間如何分配、各種文獻載體形式如何均衡才能使這些經費最好地發揮效益,這是迫切需要解決的問題。利用數據挖掘技術對引文數據庫中的結構性的數據進行采集、分類,分析,使其產生指導圖書館的信息資源建設的決策性信息。
2.2 引文分析
基于引文數據庫的數據挖掘系統主要是針對引文的,因此對引文數據的分析是非常重要的。通過對引文數據進行相關性分析、類別鑒定和概念描述等挖掘分析,發現文獻分布的規律,以調整資源建設、信息服務等戰略,實施相應的舉措。引文分析主要引用和被引用率、最近信息的引用分、引文集中度分析、用戶分類、文獻引用相關性分析、文獻利用有效性分析等等,通過分析文獻利用活動的有效性,有助于提高文獻利用率。
2.3 異常數據分析
異常數據和無法解釋的關系的出現可能是一個新的研究領域的出現或一種舊體制上出現的新鮮血液。利用決策樹、神經網絡、聚類分析等方法。通過對引文庫中異常數據的捕捉,能及時地為研究者提供異常信息,為創新思維提供素材。
2.4 趨勢分析和預測
數據挖掘的工具為預測提供了有效的手段。目前,常用的預測方法主要有時間序列分析,系統動力學和神經網絡。趨勢分析和預測可以用于評價文獻質量,預測未來的專業發展趨勢,調整文獻建設和館藏布局策略等。
2.5 信息服務支持
知識挖掘過程中信息服務的支持是其最終目的,包括用戶信息和服務支持信息。數據挖掘是通過分析數據庫中的每個數據,從大量數據中尋找知識規律,根據需要可采用統計學中的抽樣檢驗方法、人工智能、模式識別、機器搜索、智能學習等技術來進行數據挖掘。挖掘得到的結果可通過解釋成為知識,經過整理加工后加入知識庫,這些知識庫組織成圖書館的知識管理系統,用于為圖書館管理提供決策信息,洞察用戶的信息需求,主動提供個性化服務。亦可通過總結各類用戶的特征,將那些以前從未發出過信息請求的潛在用戶歸類,先免費提供他們可能感興趣的信息資料,將他們轉化為現實用戶。
參考文獻
[1]呂安民,等.數據挖掘和知識發現的技術方法[J].測繪科學,2000.4:36-40.
[2]熊熊,張維.數據挖掘技術及其實現[J].預測,2001.3:64-68.
[3]苗杰,倪波.面向集成競爭情報系統的數據挖掘應用研究[J].情報學報,2001.8:443-450.
作者簡介:張敏勤,女,1971年生,現在安徽工業大學圖書館文獻資源建設部工作,副研究館員。已發文20余篇,其中在核心刊物上發文8篇,出版專著1部。