999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

數據挖掘與數據挖掘服務實現研究

2010-12-31 00:00:00楊道衡
現代商貿工業 2010年17期

摘 要:簡述了數據挖掘的概念,數據挖掘系統,數字挖掘步驟以及數據挖掘服務的實現。

關鍵詞:數據挖掘;因特網;服務

中圖分類號:TP

文獻標識碼:A

文章編號:1672-3198(2010)17-0357-01

1 數據挖掘的概念

數據挖掘(Data Mining)最早是在數據庫領域發展起來的。稱為數據庫中的知識發現(KDD,Knowledge Discovery in Database),據挖掘是從大量的包括結構化和非結構化數據中提取隱含在其中的、事先不為人知的、潛在的、有用的信息和知識的過程,它要求數據源應該是大量的、真實的、多媒體的;所發現和提取的信息和知識是潛在的、有效的并隱藏在大量數據背后,是用戶感興趣的、可理解、可運用的知識,數據挖掘是一個利用各種分析工具在海量數據中發現模型和數據間關系的過程。

2 數據挖掘的系統簡介

2.1 AuthorLink系統

最近,美國開發出了基于文獻計量分析的知識查詢系統,并借助于可視化技術首次將復雜的統計結果,用通俗易懂的圖像形式顯示給用戶,從而實現了知識信息提供服務的一次變革。

2.2 專利統計分析系統

人們關于專利的統計分析,事實上也是一種知識挖掘。目前,包括英國的WPI及美國、日本專利局等網絡站點,都在提供專利文獻檢索服務的同時提供專利統計分析的服務。

2.3 OLAP系統

OLAP系統(On-Line Analytical Processing聯機分析處理系統)也是一種典型的數據挖掘系統。這是一種含有數據導航、數據查詢、建模、預測和數據挖掘的數據分析系統。其中OLAP引擎可以在前端接口接受用戶提交的多維提問,并轉換成SQL語句,然后將提問查詢提交數據庫,最后以圖表的形式輸出。

3 數據挖掘的步驟

(1)確定應用領域:包括此領域的基本知識和目標;(2)建立目標數據集:選擇一個數據集或在多數據集的子集上聚焦;(3)數據預處理:在大數據集中,根據需求,利用數據凈化和整合技術,選擇與任務相關數據,在不降低其準確度的狀況下減少處理數據量;(4)數據轉換:找到數據的特征進行編碼,減少有效變量的數目;(5)數據挖掘:根據數據和所要發現知識的種類來確定相應的挖掘算法;(6)數據評價:將挖掘出的知識和數據以各種可視化方式顯示,并將其以圖形、文本等方式存儲在庫中,以便對它們進一步挖掘,直至滿意為止;(7)實施和應用:實施和應用階段是指利用數據挖掘技術所建立模型在實際項目中的應用,包括數據庫的構建,個性化用戶服務、基于知識的企業信息管理(MIS)、金融、證券、股票分析、電子商務、企業目標管理、決策支持等等。

4 數據挖掘服務的實現

4.1 數據挖掘為個性化服務打下基礎

收集用戶有關的信息,建立用戶信息庫。用戶是數字圖書館的重要資源,一個信息完整的用戶信息庫,能保證在充分挖掘的基礎上,了解用戶的普遍性需求與特殊性需求,從而開展有針對性的個性化服務。通過對用戶訪問日志記錄信息的挖掘,把握用戶興趣,有助于開展網絡信息推送服務以及個人信息的定制服務。但從用戶群整體來看,用戶的信息需求又是隨機的,這為一般用戶需求信息分析帶來了很大困難。數據挖掘從全局出發,以豐富、動態的聯機查詢和分析來了解用戶的信息需求。通過在線提問、調查表等方式,系統可以獲取關于用戶的用戶名、用戶訪問IP地址、用戶的職業、年齡、愛好等原始信息。然后,采取一定的挖掘規則(如關聯規則、聯機分析處理等),對這些數據進行融合分析,其結果是為每個用戶建立一個信息需求模型。根據用戶需求,主動跟蹤本地信息庫和網絡相關信息,收集用戶所需信息。為了提高準確度,還應對所收集的信息進行相關性分析,可以根據用戶提供的檢索詞,確定所檢索到的信息與該檢索詞的相關度。同時還可以利用智能推送技術將用戶所需信息推到用戶的計算機、電子信箱,甚至手機、PDA上。

4.2 數據挖掘使網絡資源的內容檢索成為可能

網絡內容挖掘是一個從文本、圖像、音頻、視頻、元數據等形式的網絡源信息中采用分類、聚類等形式的挖掘方法,發現有用信息,并將這些信息按滿足某種檢索方式的形式加以組織的過程。通過對網站內容的挖掘,主要是對文本內容的挖掘,可以有效地組織網絡資源。有的學者應用數據和文本挖掘技術在網絡上進行問題跟蹤,從而獲得了以前未知的有用知識,為信息內容分析提供了極大的可能性。網絡內容挖掘是目前網絡信息檢索發展的一個關鍵,通過對網頁內容挖掘,可以實現對網頁的聚類、分類,實現網絡信息的分類瀏覽與檢索;通過對用戶所使用的提問式(query)的歷史記錄分析,可以有效地進行提問擴展(query expansion),提高查全率和查準率;可以運用網絡內容挖掘技術進行關鍵詞加權算法,提高網絡信息的標引準確度,從而改善檢索效果。

4.3 數據挖掘是獲取全而廣的知識信息的保障

網絡知識的挖掘就是要在具有極度不確定性的海量數據中找出信息分布的規律,挖掘隱藏的信息并形成模型,從而發現具有規律性的知識。如以江蘇南通師范學院對重點學科“古代文學”中的楚辭研究專題知識庫開發為例,他們采用學科專家與學科館員、系統管理員相結合組成工作組的開發模式來收集、挖掘與獲取楚辭研究專題信息資源,包括楚辭研究的結構化文本信息和非結構化的多媒體音像、圖片資料信息、網上超文本信息,提高了原始資料采集的深度和精度。同時由于楚辭研究的信息資源浩如煙海,采用人工的方式查詢根本無法達到收全率和知識庫源信息廣度要求,因此采用自動抓取和人工過濾相結合的方式,利用非結構化的數據挖掘技術以采集和獲取全而廣的楚辭研究知識信息源。

主站蜘蛛池模板: 久久中文字幕不卡一二区| 亚洲精品福利视频| 老司国产精品视频| 91精品综合| 在线a网站| 国产免费a级片| 久久综合伊人77777| 国产精品区视频中文字幕| 国产自无码视频在线观看| 青青草一区二区免费精品| 九色免费视频| 成人国内精品久久久久影院| 亚洲有无码中文网| www.亚洲一区| 日韩麻豆小视频| 婷婷99视频精品全部在线观看| 中文字幕无线码一区| 国产呦视频免费视频在线观看| 亚洲女人在线| 亚洲成人在线免费观看| 日韩精品资源| 国产美女精品一区二区| 国产免费久久精品99re不卡| 波多野结衣的av一区二区三区| 99草精品视频| 国产精品网址在线观看你懂的| 婷婷色在线视频| 亚洲综合香蕉| 精品在线免费播放| 国产精品无码久久久久久| 在线观看欧美国产| 久草热视频在线| 日韩欧美国产三级| 中国一级特黄视频| 一本综合久久| 国产区网址| 国产午夜精品鲁丝片| 亚洲va在线观看| 日本爱爱精品一区二区| 五月婷婷综合网| 亚洲视频a| 9久久伊人精品综合| 亚洲视频四区| 天天做天天爱天天爽综合区| 91探花在线观看国产最新| 狠狠做深爱婷婷综合一区| 免费人成在线观看成人片| 亚洲精品手机在线| yy6080理论大片一级久久| 激情综合五月网| 无码AV日韩一二三区| 成人毛片免费在线观看| 日韩精品欧美国产在线| 国产自产视频一区二区三区| 国产成人91精品免费网址在线| 九色免费视频| 99re热精品视频中文字幕不卡| 精品日韩亚洲欧美高清a| 亚洲日本韩在线观看| 天堂网亚洲系列亚洲系列| 久久国产热| 国产高清免费午夜在线视频| 伦伦影院精品一区| 97国内精品久久久久不卡| 免费人成网站在线高清| 日韩精品无码免费专网站| 国产好痛疼轻点好爽的视频| 97在线观看视频免费| 国产精品亚欧美一区二区三区| 日韩黄色大片免费看| 免费看a毛片| 999精品在线视频| 国产91丝袜在线播放动漫| 精品无码一区二区三区在线视频| 国内嫩模私拍精品视频| 成人在线综合| 欧美高清国产| 动漫精品啪啪一区二区三区| 国产色婷婷| 成人福利在线观看| 精品少妇人妻无码久久| V一区无码内射国产|