摘要本文簡述了數據挖掘的概念,數據挖掘系統,數字挖掘步驟以及數據挖掘服務的實現。
關鍵詞數據挖掘因特網服務
中圖分類號:TP31文獻標識碼:A
1 數據挖掘的概念
數據挖掘(Data Mining)最早是在數據庫領域發展起來的。稱為數據庫中的知識發現(KDD ,Knowledge Discovery in Database) ,據挖掘是從大量的包括結構化和非結構化數據中提取隱含在其中的、事先不為人知的、潛在的、有用的信息和知識的過程,它要求數據源應該是大量的、真實的、多媒體的;所發現和提取的信息和知識是潛在的、有效的并隱藏在大量數據背后,是用戶感興趣的、可理解、可運用的知識,數據挖掘是一個利用各種分析工具在海量數據中發現模型和數據間關系的過程。
2 數據挖掘的系統簡介
(1)AuthorLink 系統。最近,美國開發出了基于文獻計量分析的知識查詢系統,并借助于可視化技術首次將復雜的統計結果,用通俗易懂的圖像形式顯示給用戶,從而實現了知識信息提供服務的一次變革。(2)專利統計分析系統。人們關于專利的統計分析,事實上也是一種知識挖掘。目前,包括英國的WPI 及美國、日本專利局等網絡站點,都在提供專利文獻檢索服務的同時提供專利統計分析的服務。(3)OLAP 系統。OLAP 系統(On - Line Analytical Process2ing,聯機分析處理系統) 也是一種典型的數據挖掘系統。這是一種含有數據導航、數據查詢、建模、預測和數據挖掘的數據分析系統。其中OLAP 引擎可以在前端接口接受用戶提交的多維提問,并轉換成SQL 語句,然后將提問查詢提交數據庫,最后以圖表的形式輸出。
3 數據挖掘的步驟
(1)確定應用領域:包括此領域的基本知識和目標。(2) 建立目標數據集:選擇一個數據集或在多數據集的子集上聚焦。(3)數據預處理:在大數據集中,根據需求,利用數據凈化和整合技術,選擇與任務相關數據,在不降低其準確度的狀況下減少處理數據量。(4)數據轉換:找到數據的特征進行編碼,減少有效變量的數目。(5)數據挖掘:根據數據和所要發現知識的種類來確定相應的挖掘算法。(6)數據評價:將挖掘出的知識和數據以各種可視化方式顯示,并將其以圖形、文本等方式存儲在庫中,以便對它們進一步挖掘,直至滿意為止。(7)實施和應用:實施和應用階段是指利用數據挖掘技術所建立模型在實際項目中的應用,包括數據庫的構建,個性化用戶服務、基于知識的企業信息管理(MIS) 、金融、證券、股票分析、電子商務、企業目標管理、決策支持等。
4 數據挖掘服務的實現
4.1 數據挖掘為個性化服務打下基礎
收集用戶有關的信息,建立用戶信息庫。通過對用戶訪問日志記錄信息的挖掘,把握用戶興趣,有助于開展網絡信息推送服務以及個人信息的定制服務。數據挖掘從全局出發,以豐富、動態的聯機查詢和分析來了解用戶的信息需求。通過在線提問、調查表等方式,系統可以獲取關于用戶的用戶名、用戶訪問IP 地址、用戶的職業、年齡、愛好等原始信息。然后,采取一定的挖掘規則(如關聯規則、聯機分析處理等),對這些數據進行融合分析,其結果是為每個用戶建立一個信息需求模型。為了提高準確度,還應對所收集的信息進行相關性分析,可以根據用戶提供的檢索詞,確定所檢索到的信息與該檢索詞的相關度。
4.2 數據挖掘使網絡資源的內容檢索成為可能
網絡內容挖掘是一個從文本、圖像、音頻、視頻、元數據等形式的網絡源信息中采用分類、聚類等形式的挖掘方法,發現有用信息,并將這些信息按滿足某種檢索方式的形式加以組織的過程。應用數據和文本挖掘技術在網絡上進行問題跟蹤,從而獲得了以前未知的有用知識。網絡內容挖掘是目前網絡信息檢索發展的一個關鍵,通過對網頁內容挖掘,可以實現對網頁的聚類、分類,實現網絡信息的分類瀏覽與檢索;通過對用戶所使用的提問式(query) 的歷史記錄分析,可以有效地進行提問擴展(query expansion),提高查全率和查準率;可以運用網絡內容挖掘技術進行關鍵詞加權算法,提高網絡信息的標引準確度,從而改善檢索效果。
4.3 數據挖掘是獲取全而廣的知識信息的保障
網絡知識的挖掘就是要在具有極度不確定性的海量數據中找出信息分布的規律,挖掘隱藏的信息并形成模型,從而發現具有規律性的知識。如以江蘇南通師范學院對重點學科“古代文學”中的楚辭研究專題知識庫開發為例,他們采用學科專家與學科館員、系統管理員相結合組成工作組的開發模式來收集、挖掘與獲取楚辭研究專題信息資源,提高了原始資料采集的深度和精度。同時由于楚辭研究的信息資源浩如煙海,因此采用自動抓取和人工過濾相結合的方式,利用非結構化的數據挖掘技術以采集和獲取全而廣的楚辭研究知識信息源。