999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于不同概率密度估計方法的樸素貝葉斯分類器

2018-11-20 01:09:52王樂慈高世臣林孟雄李宗賢
中國礦業 2018年11期
關鍵詞:分類方法

王樂慈,高世臣,林孟雄,李宗賢

(1.中國地質大學(北京)數理學院,北京 100083;2.中國石油長慶油田公司第五采氣廠,陜西 西安 710000)

0 引 言

分類技術是一種通過學習而獲得的基本技術,在模式識別、數據挖掘以及機器學習等領域作為主要研究內容。通過構建分類器進行分類識別,是一個歸納學習的過程。在實際應用中,我們需要根據訓練數據的特征及規律學習并歸納出屬性和類變量之間的函數關系或規則,然后對測試數據中的相關的屬性配置信息,通過歸納出的函數關系或規則推理并確定相應的類變量值。分類器的質量與分類器構造方法、待分類數據的特性以及訓練樣本數量等諸多因素有關[1]。而在分類器中一個重要分支是概率分類器,在概率分類器中,首先確定變量間的關系結構,便會得到分類器的參數布局,然后再用訓練集中的數據信息依據一定的方法來進行參數估計。貝葉斯分類器便是常見的概率分類器。

貝葉斯方法是模式識別中的一個相對基本的方法,一般在模式識別的應用中會以貝葉斯方法作為起點,當該方法不足以處理問題時,我們便會選擇更為復雜的方法,如神經網絡、支持向量機等。貝葉斯決策論將分類問題轉化為概率問題,故所有的概率都應是從數據中計算或是估計得到的[2]。樸素貝葉斯(Naive Bayes)分類器是貝葉斯方法中的一個代表方法。

經過相似的地質條件和相似的成巖改造得到的沉積物稱為儲集巖的單元,而巖性識別則是將其分類的過程。在諸多地質研究工作中,巖性識別具有重要的地位。在油氣勘探中,巖性識別是一項基礎而重要的環節。識別油藏巖石的各種巖性是石油儲層特征的主要任務,是儲層特征研究、儲量計算和地質建模的基礎。將貝葉斯方法應用于巖性識別,可以進行計算簡單、性能高效的巖性分類。

1 樸素貝葉斯

1.1 貝葉斯方法

貝葉斯決策論(Bayesian decision theory)是概率框架下實施決策的基本方法。我們通過貝葉斯法則的公式(式(1))來介紹這一方法。

(1)

式中:P(c)為類“先驗”概率;P(x|c)為樣本x相對于類變量c的類條件概率,也稱為“似然”;P(x)為用于歸一化的“證據”因子。對給定樣本x,證據因子P(x)與類變量無關,對所有類別來說都是相同的。因此估計P(c|x)的問題就轉化為如何基于訓練數據D提供的信息來估計先驗P(c)和似然P(x|c)。

類先驗概率P(c)表示在樣本空間中,每個類的樣本所占的比例,根據大數定律,當訓練集樣本充足時,P(c)的概率值可通過各類樣本出現的頻率來進行估計。

對類條件概率P(x|c)來說,涉及關于x的所有屬性的聯合概率,直接根據樣本出現的頻率來估計會是一個很大的難題。由于很多樣本取值在訓練集中根本沒有出現,但沒有在樣本中出現并不代表概率值為零,故直接使用頻率來估計P(x|c)顯然不可行。

1.2 樸素貝葉斯分類器

貝葉斯方法在實際應用中有時會存在樣本稀疏等問題,為了解決類似問題,也為了降低模型結構和計算的復雜度,研究者們引入了“屬性條件獨立性假設”:即對已知類別,假設所有屬性相互獨立。這就是樸素貝葉斯分類器,即假設每個屬性獨立地對分類結果發生影響,雖然這個假設在現實情況下過于理想化很難成立,但由于在分類中,首先我們只要將各類變量概率值的排序找出,而并不需要用完全精確的概率值計算;其次在屬性之間的依賴關系有時會對所有類別的影響相同,有時這種依賴關系所帶來的影響能相互抵銷,故樸素貝葉斯分類器的應用往往能夠得到較好較準確的結果[3]。

在條件獨立性假設下,樸素貝葉斯分類器具有簡單的星形結構,如圖1所示??梢钥闯?,每個屬性結點只有唯一的類父結點,這意味著,當類給定時,屬性之間條件獨立(式(2))。

圖1 樸素貝葉斯結構

(2)

式中:d為屬性數目;xi為x在第i個屬性上的取值。

對于所討論的所有類別來說,P(x)都是相同的,故得到如式(3)所示的判別準則。

(3)

即,所判類別為屬于賦予先驗概率為權重的概率乘積的最大值。

在分類器中,對每個屬性條件概率P(xi|c)的估計是首要的計算部分,只有求出條件概率才能進行貝葉斯分類的判別。在本文中,用參數和非參數兩種不同的方法來進行概率密度估計,分別為核密度估計和混合高斯模型,再進行對比。

2 核密度估計

在統計學中,核密度估計(KDE)是估計隨機變量的概率密度函數的非參數方法。核密度估計是基于有限數據樣本進行推理的基本數據平滑問題。在諸如信號處理和計量經濟學等領域,它也被稱為Parzen-Rosenblatt窗口方法,其表達式見式(4)。

(4)

式中:X1,X2,…Xn為隨機變量x的n個樣本;h為帶寬,也稱平滑參數,在核密度估計中具有重要作用;K(·)為核函數,在本文中使用的核函數為高斯核函數,其表達式見式(5)。

(5)

在核密度估計中一個較為重要的影響因素為帶寬h的選擇,帶寬h的選擇差異會帶來核密度估計結果上的較大差異。帶寬h過小會造成核密度估計曲線光滑性差,過于粗糙,會產生一些過擬合的問題;而帶寬過大會造成核密度估計曲線過為平滑,從而失去應有的特征細節[4]。

圖2為不同帶寬的核密度估計曲線。我們可以看出過小和過大的帶寬選擇都會給概率密度估計造成干擾,只有選擇合適的帶寬才能更好地擬合概率密度。

圖2 不同帶寬的核密度估計

常用的確定帶寬的方法一般有經驗法則,其表達式見式(6)。

(6)

在應用中還有一些確定帶寬的方法,例如自適應帶寬方法,也稱自動帶寬選擇方法[5]。在本文中我們分別用兩種不同的確定帶寬的方法,ksdensity簡稱ksd為用經驗法則確定固定帶寬的核密度估計,kde為自適應帶寬方法,通過局部數據分布確定調整帶寬。不同屬性的數據分布用兩種不同核密度估計方法進行概率密度估計,并作出圖像(圖3)。

可以看出kde方法作出的圖像會產生鋸齒形波動的現象,這是由于在自動調節帶寬的情況下,有時由于局部數據特性會使得帶寬會過小。使得圖像過于粗糙,對概率密度的模擬不夠準確,不具有普適性。所以我們在文中選擇依據經驗法則確定帶寬的方法進行應用。

3 混合高斯

正如前文所述,在核密度估計的方法中,如何選擇帶寬h決定了得到的不同的密度估計,如果我們能避免平滑參數的選擇,那便會在一定程度上對模型的一些主觀性決策有所幫助。在本文中提出的第二個概率密度方法便是混合高斯方法。然而,在通常情況下,當我們消除一個參數時,我們最終需要用另一個參數替換它。在混合高斯方法中,我們將對于帶寬的選擇轉為確定對高斯混合模型個數的選擇。

貝葉斯混合高斯模型是一種參數方法,假設概率密度fGMM(x)可以用K個加權的概率密度總和來建模,其中K?n。單變量混合高斯公式見式(7)。

(7)

式中:φi為第i個項的權重或混合系數;N(x;μi,Σi)為概率密度,即高斯函數,參數由向量μi,Σi表示,即以μi為均值和Σi為協方差矩陣的正態分布。為了確保這是真正的密度,我們必須強加條件φ1+…+φK=1和φi>0為了評估fGMM(x),我們考慮我們的樣本點x,找出該點處的組分密度N(x;μi,Σi)的值,并取這些值的加權和。

在參數估計過程中,一般使用EM算法估計參數φi*,μi*和Σi*。EM算法是一種常用的參數估計方法,是一種迭代式算法,相比于梯度下降等優化算法的求解,求和的項數不會隨著參數變量的數目以指數級上升,計算較為簡單,EM算法是一種非梯度優化方法[6]。

在混合高斯模型中,高斯模型的數量是需要考慮的一個因素,數量過少,會使得擬合不準確,在接下來的工作中造成一定程度的信息缺失;而數量過多,尤其在樣本數據有限的情況下,過多的高斯模型會對樣本數據造成一定的壓力,在EM算法進行參數估計的迭代時,會產生在一定迭代步數內不收斂等一系列問題,雖然該問題可以在編程時通過一些技巧性操作進行解決,但也會造成過擬合等現象使得結果失去準確性[7]。

圖3 兩種不同的核密度估計方法對比

4 實例分析

本文研究數據來自蘇東41-33區塊下古氣井的89口測井曲線,該區塊位于鄂爾多斯盆地蘇里格中區與東區的交界處,具有豐富的油氣資源。該地區巖性為復雜的碳酸鹽巖,主要分為7種巖性,分別是石灰巖、白云質石灰巖、泥質石灰巖、白云巖、灰質白云巖、泥質白云巖和泥巖。同時,針對該研究區塊的儲層特征,以測井資料中已知巖性地層的數據為基礎,根據行業標準最終優選6個對巖性較為敏感的測井曲線屬性,有自然伽馬(GR)、中子(CNL)、密度(DEN)、聲波時差(AC)、光電截面指數(PE)和電阻率(RLLD)。選取的這些測井變量從不同角度能夠較好地反映地層不同巖性特點,組合起來作為復雜碳酸鹽巖巖性識別綜合評價的特征體系,分析其變化特征,總結其在已知確定的關鍵井主要巖石類型的測井響應特征[1]。

由于選用單一測井數據分析不具有普遍性,因此本次研究數據從整個工區所有測井曲線樣本中等概率隨機抽取,每種巖性抽取200個樣本,共計抽取1 400個巖石數據用于前期數據分析。并且基于前人經驗,先對RLLD數據進行了對數處理(log10),然后對六個測井曲線分別進行去量綱化,即標準化,避免了不同量綱對分類器造成不良影響。將經過上述處理過的數據,用于我們的實例數據分析。

在本文的實例分析中,分別用不同的概率密度估計方法對訓練集中數據進行概率密度估計,其中包括前文所介紹的兩種方法,核密度估計方法與混合高斯方法,并用單高斯模型對概率密度進行擬合用于本文方法的對照。

由于樸素貝葉斯模型假設屬性之間相互獨立,這個假設在實際應用中往往是不成立的,在混合高斯方法中,不同屬性間會存在相關性,即協方差矩陣非單位矩陣,隨著屬性增多,相關性的干擾往往越強,這種相關性會對混合高斯的結果產生影響,使得分類效率降低,于是對6種屬性用主成分分析(PCA)進行正交化處理,增強屬性的獨立性,提高分類的準確率(圖4)。

在圖4中可以看出,不同屬性對于巖性的分類情況,用核密度估計方法中的固定帶寬方法作出每種屬性不同巖性的概率密度曲線圖。從中可以看出,不同的屬性對于七種巖性的區分度也不同,在光電截面指數(PE)屬性的圖中,七種巖性的分布較為獨立,重疊部分即相對較少,誤判區??;而在自然伽馬(GR)屬性的圖中,七種巖性區分度較低,重疊部分也較多,誤判區大。為了更好地對數據的巖性分類,我們將六種不同的測井屬性和巖性類別綜合起來,構造出樸素貝葉斯框架,用樸素貝葉斯分類器対巖性進行理論較為嚴密,結果較為準確的分類(圖5)。

圖4 用ksd方法作出的六種屬性的巖性分布

圖5為核密度估計方法和混合高斯方法對于不同巖性的不同屬性的分類數據的概率密度估計的曲線圖。其中,七行表示七種不同的巖性,六列表示六種屬性。在每個小圖中黑色線條表示核密度估計中ksd方法的概率密度估計,淺色實線表示三高斯混合方法(GMM3)的概率密度估記,淺色虛線表示高斯函數的三個成分(comp1-3)??梢钥闯龊嗣芏裙烙嫹椒ê腿咚够旌戏椒ǖ母怕拭芏葦M合較為一致,有的類別的屬性概率曲線有所不同,峰值、偏度和形狀等特征會有不同,但大體上是一致的,而這些概率密度擬合上的不同,造成了分類準確度上的差異,為分類器分類的效果提供了對比。

在測試集中我們選用該區塊下古氣井的89口完整測井曲線數據,對訓練結果進行測試。由于測試的樣本較多,可以避免結果的偶然性,使結果具有一定的代表性和普遍性。在實例分析中我們用樸素貝葉斯分類器對測試集中的數據進行巖性分類,并進行分類準確率對比。

將該89口井測試出的準確率結果用折線圖表示,橫坐標順序由小圖中黑色實線所代表模型的訓練準確率由低到高排列決定,不同顏色形態的折線代表不同的概率密度估計方法,如圖6所示。

可以看出,圖6(a)中兩種不同確定帶寬的核密度估計方法kde和ksd準確率幾乎持平,但由于前文中所述的自適應帶寬方法擬合出的概率曲線過于粗糙的問題,選擇使用ksd方法即由經驗法則確定帶寬;而對于單高斯和混合三高斯模型的對比,由圖6(b)中可以看出,三高斯混合模型(虛線條)的準確率明顯高于單高斯模型(實線條),只有極少數準確率較低;而在圖6(c)中可以看出用核密度估計方法(淺色線條)及三高斯混合模型(虛線條)的概率密度估計所得出的分類準確率大體上比單高斯模型(深色實線條)更高,僅在少數口井的測試中準確率低于單高斯模型。而在前兩種方法的比較中,三高斯混合模型較核密度估計方法來說具有相對較高的測試準確率,在圖中表示即為虛線條在淺色線條之上的部分較多。

圖5 不同方法概率密度估計曲線圖

圖6 不同方法準確率折線圖

5 結 論

1) 在巖性分類的方法應用中,樸素貝葉斯方法在分類技術中占據一席之地,其數學理論嚴謹,分類效率較為穩定,相比于其他方法對參數需求較小,而且易于理解,模型架構簡單易行,是一種較為常用,基礎的分類方法。這種方法對測井曲線所能獲得的多種屬性進行綜合分類,是多元統計學習在地質礦產儲層特征研究中較為廣泛使用并且有效的方法。

2) 對概率密度估計方法的選擇在樸素貝葉斯分類器中是一個影響較大的因素。本文的樸素貝葉斯分類器應用中,用參數方法的混合高斯概率密度估計方法用于估計條件概率的分類效果最好,而注意在一般數據量足夠的情況下,需要三個以上的混合模型才能達到相比核密度估計較高的準確率。在本文的訓練數據的條件下通過對比選擇了三高斯混合模型的結果較好,但是對于不同環境下的樣本數據,也需要依據樣本數據的特征進行分析并判斷選擇一個合適的模型數量或者建模方法。

3) 在實際應用中,混合高斯模型在系統的計算負載方面提供了一定的優勢。在概率密度估計方法中,有兩個需要考慮的因素:需要儲存的信息量對計算造成的負擔,以及在某一點上為獲得概率密度估計所需的計算工作量。在核密度估計方法中,我們須保留所有數據點,計算以每個樣本點為中心的多個核的加權和,需多次計算核值,在多變量的情況下計算負荷會更大[8]。隨著越來越多地使用大量、高維的數據集,計算工作量和使用核密度估計必須存儲的信息量也越來越大。用混合高斯方法估計概率密度函數,相較于其他的密度估計方法尤其是核密度估計法,需要相對較少的計算機存儲空間及計算量,所以混合高斯方法不論在準確性方面還是計算復雜度方面,均更適合于實際應用中與樸素貝葉斯分類器相結合。

4) 由于樸素貝葉斯的屬性條件獨立性假設較為理想化,對于實際應用的數據屬性一般具有或多或少的相關性[9],所以該方法存在一定的不準確性,故半樸素貝葉斯分類器和貝葉斯網等分類方法將成為進一步研究的目標。

猜你喜歡
分類方法
分類算一算
垃圾分類的困惑你有嗎
大眾健康(2021年6期)2021-06-08 19:30:06
學習方法
分類討論求坐標
數據分析中的分類討論
教你一招:數的分類
用對方法才能瘦
Coco薇(2016年2期)2016-03-22 02:42:52
四大方法 教你不再“坐以待病”!
Coco薇(2015年1期)2015-08-13 02:47:34
賺錢方法
給塑料分分類吧
主站蜘蛛池模板: 国产主播福利在线观看| 毛片网站观看| 91免费在线看| 国产91色在线| 亚洲一区色| 午夜免费视频网站| 欧美日韩国产精品va| 国产香蕉97碰碰视频VA碰碰看| 日本一本在线视频| 日日碰狠狠添天天爽| 亚洲色图欧美激情| 国产成人a在线观看视频| 国产午夜不卡| 国产AV无码专区亚洲A∨毛片| 国产h视频免费观看| 亚洲丝袜第一页| 91精品网站| 国产麻豆永久视频| 98精品全国免费观看视频| 亚洲中文字幕23页在线| 99久久精品视香蕉蕉| 欧美精品啪啪| 国产十八禁在线观看免费| 日本午夜在线视频| 亚洲区第一页| 欧美色视频网站| 久久亚洲天堂| 久久久久无码精品| 成人精品午夜福利在线播放| 无码一区二区三区视频在线播放| 色爽网免费视频| 91久久偷偷做嫩草影院电| 日韩a级片视频| 园内精品自拍视频在线播放| 成人看片欧美一区二区| 日韩区欧美区| 国产激情无码一区二区APP| 亚洲午夜福利精品无码不卡 | 成年片色大黄全免费网站久久| 免费人成又黄又爽的视频网站| 国产极品美女在线播放| 欧美性久久久久| 亚洲A∨无码精品午夜在线观看| 2021国产精品自拍| 亚洲日韩精品综合在线一区二区| 成人午夜免费视频| 无码人妻热线精品视频| 亚洲色无码专线精品观看| 夜夜高潮夜夜爽国产伦精品| 一级毛片在线播放免费| 日本不卡在线播放| 激情无码字幕综合| 日韩性网站| 亚洲欧美色中文字幕| 久久久久亚洲AV成人网站软件| 国产成人综合在线视频| 日韩二区三区| 精品无码一区二区三区电影| 国产99在线| 人妻丰满熟妇AV无码区| 91青青草视频在线观看的| 欧美人在线一区二区三区| 久久香蕉欧美精品| 欧美成人A视频| 99久久婷婷国产综合精| 日韩欧美国产区| 日韩免费无码人妻系列| 超清无码熟妇人妻AV在线绿巨人 | 午夜视频免费试看| 亚洲综合色婷婷中文字幕| 四虎影院国产| 国产97视频在线观看| 一级毛片在线免费视频| 久久久久久久久亚洲精品| 国产精品一区不卡| 99热国产在线精品99| 欧美三级视频网站| 成人免费午夜视频| 久久精品午夜视频| 午夜毛片免费观看视频 | 在线观看无码a∨| 久久这里只精品热免费99|