鄒昕

【摘 要】隨著數據挖掘技術的發展,其應用領域也得到了進一步的拓展,圖書館的現代化建設也因此迎來了新的機遇,在圖書館文獻管理過程中,每天都產生大量的讀者借閱數據,合理地利用這些有價值的信息對圖書館的采購、館藏、咨詢等業務工作有著很大的指導作用。通過應用數據挖掘技術,圖書館管理者能夠更加全面地了解讀者訪問圖書館的趨勢和目的,進一步的改善圖書館系統的人性化服務,為圖書館現代化管理提供技術支持和決策管理支持。
【關鍵詞】數據挖掘;圖書館管理;技術
1 技術背景
隨著信息技術和計算機技術的向前發展,近些年信息量呈現爆發式增長,這些超大型數據庫能夠涉及社會的科學研究、政府部門、天文學、超級市場、行政辦公、金融機構等領域,使得傳統信息分析方法在一定得程度上不能滿足現實的需求。在這種背景下,信息和知識的數據挖掘技術慢慢走入人們的視野。
2 課題研究意義和目的
圖書館作為學術性、科研性、服務性機構,在學校的教學及科研中承擔著重要角色,迫切需要聚類分析、序列模式分析、關聯分析、分類分析和概念描述等數據挖掘的技術對獲取的信息做進一步的加工,以此來更好的發展圖書館管理業務。
文獻管理集成系統能夠很好的對文獻信息資源進行資源共享、有效的開發、科學的管理,這些也恰恰是數字化圖書館建設的重要內容。
3 國內外研究現狀
隨著互聯網技術的快速發展以及市場交易量的逐步擴大,數據挖掘系統的應用也越來越普遍。目前,數據挖掘系統的研究與應用主要集中在醫藥、天體、電信、零售、體育、營銷分析、農業、生物、電力、化工和金融等行業。
在我國,國家自然科學基金對數據挖掘的研究提供支持是在1993年,自此之后,我國很多高等院校和科研單位相繼開展發現知識的基礎理論研究工作,參與的單位主要有:海軍裝備論證中心、空軍第三研究所、中科院計算技術研究所、清華大學等。其中,在知識發現應用領域中應用模糊方法的研究單位有北京系統工程研究所;對數據立方體代數的研究單位有北京大學;對關聯規則開采算法的改造和優化進行了深入研究的單位有華中科技大學、復旦大學、吉林大學、中科院數學研究所、中國科技大學、浙江大學等單位;對非結構化數據的Web數據挖掘以及知識發現研究的單位主要有上海交通大學、四川大學和南京大學等。
在圖書館領域方面,《中國學術文獻網絡出版總庫》(國家“十一五”重大出版工程項目)的建設取得了很好的突破,“網上個人與機構數字圖書館”系統在2008上半年正式投入使用。“網上個人與機構數字圖書館”已經整合《中國學術文獻網絡出版總庫》出版的國內期刊、本博碩士學位論文、會議論文、報紙文獻、工具書和年鑒數目分別為9000多種、60多萬篇、90多萬篇、800多萬篇、1600多種和2300多種,同時還整合了科技成果、標準、專利等各類資源。該體系是在知識管理系統(由清華大學開發)的基礎上開發出的信息資源服務系統,能夠自由定制多種個性化服務,為各類醫務人員、公務人員、技術人員、科研人員、管理人員和單位服務,具有實時性、自動化、專業化、個性化的特點。
4 數據挖掘概念
數據挖掘就是從隨機的、不完全的、模糊的、有噪聲的、大量的應用數據中,挖掘出潛在有用的、事先不知道的、隱含在其中的知識和信息的過程。
從概念上來講,與數據挖掘相近的有決策支持、數據分析和數據融合等。該概念可能包括的含義有:數據源必須是含噪聲的、大量的、真實的;發現的知識是用戶所感興趣的;并不要求知識在任何情況都被人們所接受;發現的知識要可運用、可理解、可接受。
從本質上說,與傳統的數據分析相比,數據挖掘可以理解為是在不帶任何針對性的條件下去發現知識、挖掘信息,其挖掘出來的信息主要特征有三個,分別為可實用,有效和先未知。
5 數據挖掘的技術
在數據挖掘的過程中,需要采用一定的技術,常用的主要有:關聯規則方法、統計技術、神經元網絡、決策樹和規則推理、連接分析、聚集檢測、基于歷史的分析MBR方法、遺傳算法等。
5.1 關聯規則方法
關聯規則是數據庫中某些特定事件一起發生的概率的簡單陳述。運用一定的方法來發現數據庫中隱藏的關聯規則這個經過是關聯規則挖掘。現在數據挖掘領域的研究中關鍵的一個方向是關聯規則挖掘的研究。
5.2 統計技術
挖掘數據集利用統計技術,操作原則是針對已給的數據集合先預設一個概率的模型或者正態分布,后運用特定的方法挖掘模型。
5.3 神經元網絡
因特網是由服務器互聯形成,而神經網絡是由諸多神經元互聯形成的,兩者形成原理較為相似。可以根據組織的特征或者“神經元”互聯形成神經網絡。
5.4 決策樹和規則推理
類似于一棵樹的預測模型是決策樹。在決策樹中,分布或者類的結果呈現在樹葉上,每個屬性上的測試結果顯現在內部節點上,而每一個分類的問題是呈現在樹的每一個分支上的。
5.5 連接分析
圖論是其基本理論。找到一個能得出好而不完美結果的算法是圖論的思想。這種思想模式可行雖然不完美,所以在更加廣泛的用戶群中可以使用這種模式。
5.6 聚集檢測
聚類是對抽象對象或者物理的集合進行分組,讓相似的對象形成若干個類。因此,對象的相似性存在于由聚類產生的數據對象集合中,而有別于其他集合的對象,存在相異性。可以依據對象的屬性值來計算出相異度,通常的度量方法是距離。
5.7 基于歷史的分析MBR方法
MBR先是從數據中找尋與其類似的數據,其次分類和估值類似的數據。通俗來講,就是先依據經驗找相似的,后根據找到的信息運用到新的數據中。
5.8 遺傳算法
基于遺傳機理的隨機搜索與生物自然選擇形成的一種仿生全局優化方法叫遺傳算法,其可以在數據挖掘中運用,因為具備易于和其它模型結合、隱含并行性等性質。
6 數據挖掘的體系結構和基本過程
6.1 數據挖掘的體系結構
從大型數據庫中挖掘出之前可實用的、未知的、有效的信息,并對信息做出豐富知識或者決策的整個過程是數據挖掘。一般來說,如圖1所示,常用的數據挖掘系統可分三層。即數據源、挖掘器、用戶層。在第一層中,數據倉庫、數據庫等屬于數據源;第二層使用多種數據挖掘方法分析和提取數據庫中的數據在數據挖掘系統中,滿足用戶需要;第三層是通過多種途徑將發現的知識和獲得的信息反饋給用戶。
6.2 數據挖掘的基本過程
數據挖掘是一個從已知數據集合中發現各種模型、概要和導出值的過程。
數據挖掘過程是一個歸納的過程。其過程如下:
6.2.1 確定業務對象
數據挖掘中關鍵的一步是業務問題的明晰,從而摸準數據挖掘的目的。挖掘的最后結果具有不確定性。
6.2.2 數據準備
從與業務對象相關的所有內外數據信息中尋找并選擇出合適的能應用于數據挖掘中的數據是數據的選擇。數據挖掘成功的關鍵是建立一個真正適合挖掘算法的分析模型。
6.2.3 數據挖掘
數據挖掘就是挖掘得到結果轉換的數據,其所有的工作是自動完成,除卻選擇適合的挖掘算法。
6.2.4 結果分析
對結果進行解釋和評估。一般使用可視化技術,具體分析方法是根據數據挖掘操作來設定。
6.2.5 知識的同化
在業務信息系統的組織結構中并入分析得到的知識。
當前,作為一門新的學科,數據挖掘技術廣泛應用于人工智能技術、數據庫技術、模式識別、統計學、計算機網絡與應用、信息檢索、硬件與操作系統、計算機軟件等諸多交叉學科中。目前數據挖掘的研究結果呈現多樣性,有諸多成果研究完成,研究者們都是從某一角度去深入挖掘,到目前為止數據挖掘研究沒有形成系統完善的體系。除此之外,算法的不高效是當前出現的一個重大的問題,因為數據庫的規模、問題的背景、操作系統、編程語言等問題使得橫向比較不能用在很多算法中。挖掘有用的知識是數據挖掘的目的,那么數據挖掘關鍵的研究點是如何創造高效挖掘。
[責任編輯:許麗]