999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

使用貝葉斯方法的數據挖掘及應用研究

2018-04-02 12:35:28
福建質量管理 2018年16期
關鍵詞:數據挖掘規則方法

(河北經貿大學 河北 石家莊 050000)

本文主要是對數據挖掘以及對使用貝葉斯方法進行數據挖掘的研究。

一、數據挖掘

數據挖掘是一門交叉學科,它涉及到統計學、數據庫技術、模式識別和機器學習,它主要對大型數據庫進行相關分析,以發現先前未知的、用戶感興趣的有用知識。數據挖掘的目標是從數據集中發現隱含的、有意義的知識,它所處理的數據可以是結構化的,如關系數據庫中的數據,也可以是非結構化的,如文本、圖形、圖像數據,甚至是分布在網絡上的異構型數據。發現知識的方法可以是數學的,也可以是非數學的;可以是演繹的,也可以是歸納的。數據挖掘是一門廣義的交叉學科,它匯聚了不同領域的研究者,尤其是數據庫、人工智能、數理統計、可視化、并行計算等方面的學者和工程技術人員。這里所說的數據挖掘,不是要求發現放之四海而皆準的真理,也不是要去發現嶄新的自然科學定理和純數學公式,更不是什么機器定理證明。所有發現的知識都是相對的,是有特定前提和約束條件、面向特定領域的,同時還要能夠易于被用戶理解,最好能用自然語言表達發現結果。

數據挖掘技術的一個重要應用就是挖掘先前未知的知識,數據挖掘與傳統的數據分析(如查詢、報表、聯機應用分析)的本質區別之一是數據挖掘是在沒有明確假設的前提下去挖掘信息、發現知識。數據挖掘所得到的知識應具有先前未知,有效和實用三個特征。

數據挖掘一般分五個步驟,各個步驟解釋如下:

1.問題定義:了解相關領域的有關情況,熟悉背景知識,弄清用戶要求。定義要挖掘的目標。

2.數據提取:根據要求從數據庫中提取相關的數據。

3.數據預處理:主要對前一階段產生的數據進行再加工,檢查數據的完整性及數據的一致性,對其中的噪音數據進行處理,對丟失的數據進行填補。

4.知識獲取:運用選定的數據挖掘算法,從數據中提取用戶所需要的知識,這些知識可以用一種特定的方式表示或使用一些常用的表示方式。

5.評估:將發現的知識以用戶能理解的方式呈現,例如某種規則,再根據實際執行情況對知識發現過程中的具體處理階段進行優化,直到滿足用戶要求。

二、貝葉斯方法

貝葉斯方法就是可以通過看結果來了解假設的一種方法,也就是說,在對一些必要信息之甚少,或者毫不知情的情況下,貝葉斯方法可以通過先驗信息來推得后驗結果。貝葉斯方法的一個特點是使用概率去表示所有形式的不確定性,學習或其他形式的推理都用概率規則來實現。貝葉斯理論在數據挖掘中的應用主要包括貝葉斯方法用于分類及回歸分析、因果推理和不確定知識表達以及聚類模式發現等。貝葉斯統計是貝葉斯理論和方法的應用之一,其基本思想是:假定對所研究的對象在抽樣前己有一定的認識,常用先驗分布來描述這種認識,然后基于抽取的樣本再對先驗認識作修正,得到后驗分布,而各種統計推斷均是基于后驗分布進行。經典統計學的出發點是根據樣本,在一定的統計模型下做出統計推斷。而貝葉斯方法是在取得樣本觀測值X之前,往往對參數統計模型中的參數夕有某些先驗知識,關于夕的先驗知識的數學描述就是先驗分布。貝葉斯方法的主要特點是使用先驗分布,而在得到樣本觀測值X二x(xZ,…,x)r后,由X與先驗分布提供的信息,經過計算和處理,形成較完整的后驗信息。這一后驗分布是貝葉斯推斷的基礎。

三、使用貝葉斯方法的數據挖掘算法設計及實現

1.貝葉斯方法用于聚類。首先根據先驗信息假定數據集中可能要聚為一類的數據服從某種分布,再用某種距離測度檢驗先驗信息給出的這種分布是否符合聚為一類的要求。如果達不到聚類的要求,則根據計算概率找出不符合要求的原因,重新確定其分布,或修正此分布的參數,以獲得更準確的分布。分類規則是根據數據集的樣本數據及其它約束條件將其分到某個類別中,在數據挖掘中,主要研究如何從數據或經驗中學習這些分類規則。對于分類問題,有些情況下,輸入的某些樣本唯一的對應著一個類別,在這種情況下,可以直接對數據對象分而治之,無需用貝葉斯方法或者其它方法進行復雜的處理;而在有些情況下,則會出現樣本重疊的現象,也就是說,來自于不同類別的樣本數據從外觀特征上具有極大的相似性,由于必須為一個樣本選擇一個類別,因此可以從某一樣本屬于某一類別的概率大小來判斷。貝葉斯方法就是這樣一種處理方法處理此種情況,即選擇后驗概率最大的類別。

2.貝葉斯方法用于發現關聯規則。挖掘關聯規則的目的就是找出所有這樣的規則,它們的支持度和可信度大于用戶指定的最小支持度和可信度。

3.貝葉斯方法用于偏差分析。偏差分析探測數據現狀和歷史記錄或標準之間的差別,例如結果與期望的偏離,異常實例等。用于偏差檢測的方法很多,其中數據挖掘本身的其它方法也可用于偏差分析,如前所述的關聯規則挖掘方法、聚類方法等。偏差分析的目的之一就是去除異常點,從而不能使這些異常點干擾挖掘過程。

四、貝葉斯方法與其他方法的比較

在運用貝葉斯方法時,由于要對先驗概率進行計算而得出后驗概率,不可避免的多花費時間開銷,特別是對數據量不大的數據集進行分析時,這種差距比較明顯。即使這樣,其準確率卻是顯而易見的。使用貝葉斯方法后,準確率增加是山于貝葉斯方法是一個修正的過程,通過后驗結果來修正前面所得的結果,當然這有一個前提,就是先驗信自、的正確性。如果先驗信息不充分或者不正確,那所得的結果會與實際結果大相徑庭。

總結:本項研究中,仍存在的一些問題,有待今后進一步探討和解決,并闡明了數據挖掘的研究方向和應用前景。

猜你喜歡
數據挖掘規則方法
撐竿跳規則的制定
數獨的規則和演變
探討人工智能與數據挖掘發展趨勢
讓規則不規則
Coco薇(2017年11期)2018-01-03 20:59:57
基于并行計算的大數據挖掘在電網中的應用
電力與能源(2017年6期)2017-05-14 06:19:37
TPP反腐敗規則對我國的啟示
用對方法才能瘦
Coco薇(2016年2期)2016-03-22 02:42:52
一種基于Hadoop的大數據挖掘云服務及應用
四大方法 教你不再“坐以待病”!
Coco薇(2015年1期)2015-08-13 02:47:34
捕魚
主站蜘蛛池模板: 欧美日韩成人| 在线亚洲天堂| 国产精品污视频| 成人蜜桃网| 丰满人妻久久中文字幕| 99这里只有精品在线| 亚洲美女一级毛片| 啪啪永久免费av| 欧洲熟妇精品视频| 国产va在线观看免费| 国产精品女主播| 免费一级无码在线网站| 日韩精品一区二区三区大桥未久| 午夜福利无码一区二区| 国产麻豆另类AV| 欧美不卡视频在线观看| 久久精品嫩草研究院| 国产精品永久久久久| 中日无码在线观看| 最新日本中文字幕| 国产成人h在线观看网站站| 亚洲欧美成人综合| 最新亚洲人成无码网站欣赏网| 99精品国产自在现线观看| 五月丁香在线视频| 亚洲高清免费在线观看| 激情乱人伦| 国产精品一区在线麻豆| 国产精品深爱在线| 亚洲女同欧美在线| 亚洲午夜福利精品无码| 国内精品久久久久鸭| 精品视频福利| 久久久久青草大香线综合精品| 无码专区在线观看| a天堂视频| 性色一区| 国产成人你懂的在线观看| 热这里只有精品国产热门精品| 成人亚洲视频| 日韩精品无码免费专网站| 国产精品欧美亚洲韩国日本不卡| 在线观看无码a∨| 国产亚洲欧美在线专区| 日本在线国产| 午夜国产大片免费观看| 青草91视频免费观看| 亚洲国产精品成人久久综合影院| 最新精品久久精品| 97精品久久久大香线焦| 成年片色大黄全免费网站久久| 日本午夜视频在线观看| 波多野结衣AV无码久久一区| 国产精品自在在线午夜区app| 性喷潮久久久久久久久| 免费全部高H视频无码无遮掩| 久久综合色播五月男人的天堂| 亚洲激情99| 99热这里只有精品免费| 999精品在线视频| 无码精品一区二区久久久| 亚洲av中文无码乱人伦在线r| 亚洲第一中文字幕| 四虎综合网| 中文无码精品A∨在线观看不卡 | 一区二区三区国产精品视频| 日韩欧美网址| 搞黄网站免费观看| 在线观看国产精品日本不卡网| 日韩欧美高清视频| 国产成人亚洲精品无码电影| 99精品国产电影| 啪啪啪亚洲无码| 国产91导航| 一区二区自拍| 国产伦片中文免费观看| 亚洲一级毛片| 日韩美女福利视频| 黄色网站在线观看无码| 亚洲精品动漫| 欧美亚洲一区二区三区在线| 国产免费久久精品99re丫丫一|