999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于EM和GMM的樸素貝葉斯巖性識別①

2019-07-23 02:07:26金大權高世臣仲婷婷
計算機系統應用 2019年6期
關鍵詞:分類模型

趙 銘,金大權,張 艷,高世臣,仲婷婷

1(中國地質大學(北京)數理學院,北京 100083)

2(中國石油長慶油田公司第四采氣廠,西安 710016)

3(中國地質大學(北京)地球物理與信息技術學院,北京 100083)

1 引言

貝葉斯網絡源于概率統計學,作為數據挖掘和機器學習的重要方法之一,被人們廣泛的應用.樸素貝葉斯(Naive Bayes)分類方法是貝葉斯網絡的簡化,具有堅實的理論基礎,和其他分類方法相比,展現出高速度和高效率,被廣泛應用于模式識別,數據挖掘以及機器學習中[1].樸素貝葉斯分類方法基于條件獨立性假設,即假設一個變量對分類的影響獨立于其他變量.當獨立性假設成立時,與其它分類方法相比,樸素貝葉斯方法理論上具有最小的誤分類率.在實際的應用中,對于連續變量的數據.我們通常假設變量服從高斯分布,通過EM 算法求得各個變量所服從高斯分布的均值和方差,從而可以得到變量不同取值的概率作為后驗概率.再根據貝葉斯定理,構造樸素貝葉斯分類器,從而實現對數據分類的結果.而混合高斯模型GMM 是指多個高斯分布函數的線性組合.理論上,GMM 模型可以擬合出任意變量的分布.使用混合高斯模型代替原有的高斯分布作為變量的概率密度函數,可以提升連續變量的概率密度擬合效果,從而改進了樸素貝葉斯分類器對連續型數據的分類能力.

2 樸素貝葉斯

2.1 貝葉斯方法

貝葉斯方法提供了一種通過概率進行推理的手段.它假定待考查的變量遵循某種概率分布,且可根據這些概率以及已經觀察到的數據進行推理,從而做出最優的決策[2-5].我們通過貝葉斯定理的公式來介紹這一方法:

當給定訓練集合D,假設空間H中的最有可能假設可以通過貝葉斯公式來計算.

其中,P(h)表示還沒有進行訓練前,假設h擁有的初始概率,即h的先驗概率,它通常根據關于h是一正確假設的概率的背景知識.在沒有先驗知識的情況下,通??梢哉J為候選假設服從均勻分布,即把每一個候選假設賦予相同的概率.P(D)表示將要觀察的訓練實例集D的先驗概率,即在沒有確定某一假設成立時D的概率,通??梢杂萌怕使角蟪?P(h|D)表示給定訓練實例集D時h成立的概率,即h的后驗概率,通常理解為在看到訓練實例集D后,h成立的置信度.

當變量屬性是離散型時,類的先驗概率P(h)可以通過訓練集的各類樣本出現的次數來估計.當變量屬性是連續型時,有兩種方法來估計屬性的后驗概率P(h|D).第一種方法是把每一個連續的變量屬性離散化,然后用相應的離散區間替換連續屬性值,但這種方法不好控制離散區間劃分的粒度.第二種方法是,可以假設連續變量服從某種概率分布,然后使用訓練數據估計分布的參數,高斯分布通常被用來表示連續屬性的類條件概率分布.

2.2 樸素貝葉斯

樸素貝葉斯,簡單來說就是對于給出的待分類項,假設各個屬性之間是相對獨立的,求解在此項出現的條件下各個類別的概率最大值.然后將其歸類于所求解出的最大值所屬的類別.在屬性相對獨立的假設下,樸素貝葉斯分類器具有簡單的星型結構.每個屬性結點只有唯一的父類結點,這意味著,當類給定時,屬性之間條件獨立[6].

其中,d為屬性數目,xi為x在 第i個屬性上的取值.

對于所討論的所有類別來說,P(x)都是相同的,故所得判別準則如下:

即,所判類別為屬于賦予先驗概率為權重的概率乘積的最大值.

在分類器中,我們對每個屬性條件概率P(xi|c)的估計是首要的計算部分,只有求出條件概率才能進行貝葉斯分類的判別[7].在本文中,我們分別用高斯模型和混合高斯模型來進行概率密度估計,再構造樸素貝葉斯分類器進行對比.

3 概率密度估計

3.1 高斯混合模型

當貝葉斯分類器選取連續變量的時候,需要知道各個變量的概率密度函數.一般情況下,我們通常假設各個變量服從高斯概率分布.然而,測井數據中的各個變量通常不能完全服從高斯概率分布,擬合效果誤差較大.針對這種情況,本文考慮使用混合高斯概率模型(GMM)來擬合各個測井數據的概率密度分布.

混合高斯模型的數學模型為:

其中,εi是 表示第i個高斯項的權重或者稱為混合系數,且Guass(μi,σi)表 示高斯密度函數,μi和 σi分別為高斯密度函數的均值和方差.GMM 模型使用的高斯模型的個數稱為GMM 高斯模型的階數[7,8].通常情況下,GMM 模型進行概率密度估計的階數不易過大或者過小.階數過大會導致參數估計過程難以收斂,階數過小會導致參數估計誤差較大.本文考慮選取五階GMM 模型進行概率密度估計.

3.2 EM 算法

采用GMM 模型進行概率密度估計,便要對GMM 模型中進行參數估計,通??梢圆捎脴O大似然估計法獲得參數,然而極大似然估計需要知道觀測數據由哪個高斯分模型產生.如果不清楚觀測數據由哪個分模型產生,即不確定每個數據所屬的分類.這就意味著需要使用隱變量來進行參數估計,針對這種情況選取EM 算法解決GMM 模型的參數估計問題.本文選取的測井數據并不知道每個數據所屬的分類,所以選取EM 算法來估計GMM 模型的參數.

EM 算法以極大似然估計為基本思想,采用迭代的方法進行參數估計.EM 算法的流程可以分為E 步驟和M 步驟.首先要初始化分布參數 θ;然后重復E、M 步驟直到收斂[9-11]:

E 步驟:根據參數θ 初始值或上一次迭代所得參數值來計算出隱性變量的后驗概率(即隱性變量的期望),作為隱性變量的估計值:

M 步驟:將似然函數最大化以獲得新的參數值:

4 實例分析

研究數據來自蘇里格氣田41-33 區塊下古氣井的測井曲線.該地區巖性為復雜的碳酸鹽,主要有7 種巖性,分別是石灰巖、白云質石灰巖、泥質石灰巖、白云巖、灰質白云巖、泥質白云巖和泥巖.根不同的測井參數及其不同的組合形式可以識別不同的巖性.選取的測井參數不同,巖性識別的效果具有很大的差異.因此,根據不同測井參數區分不同巖性的敏感性分析[12,13],結合人工判別巖性的經驗,最終確定自然伽馬(GR),補償中子(CNL)、密度(DEN)、聲波時差(AC)、光電吸收截面指數(PE)和深側向電阻率(RLLD)六個測井參數作為樸素貝葉斯分類器的分類屬性.

分別選取石灰巖、白云質石灰巖、泥質石灰巖、白云巖、灰質白云巖、泥質白云巖和泥巖各200 個樣本,共1400 條樣本作為測試集.其中深側向電阻參數取值范圍過大,結合先前的處理經驗,對其進行對數處理(log10).對六個測井曲線參數進行量綱化,避免不同量綱對實驗結果造成不良影響.經過上述處理過的數據,作為實驗的訓練集.

針對實驗選用的訓練集,首先分別用高斯模型和混合高斯模型對選取的6 個測井參數進行概率密度估計,然后對比概率密度估計效果.高斯模型主要是對每種巖性的不同測井參數的均值和方差進行EM 算法迭代估計,得到每種巖性的不同測井參數的均值和方差,從而得到高斯模型的參數,以此作為先驗信息構造樸素貝葉斯分類器.而混合高斯模型是用EM 算法迭代每種巖性的不同測井參數的均值,方差以及每個高斯模型的權重,從而得到混合高斯模型的參數,并以此作為先驗信息構造樸素貝葉斯分類器.當樸素貝葉斯分類器處理連續屬性時,通常假設連續屬性服從某種分布,這里分別用高斯分布和混合高斯分布作為連續屬性的概率密度分布函數.同時對不同概率密度模型作用下的樸素貝葉斯分類器分類效果作對比,選訓練集中的白云巖和泥巖中的AC 測井參數,來對兩種不同的概率密度函數估計效果進行分析,并根據兩種概率密度函數的曲線分析分類器的分類效果.概率密度估計效果如圖1所示.

在圖1中,根據所選取的數據,左邊藍色直方圖和右邊紅色直方圖分別代表了白云巖、泥巖數據真實的分布,圖中綠色和紅色的線分別代表白云巖和泥巖的擬合的概率密度曲線,圖1(a)和圖1(b)分別為高斯模型擬合效果圖和混合高斯模型擬合效果圖.

為了更好地比較高斯模型和混合高斯模型的概率密度擬合效果,引入“誤判區”這個概念.圖2給出兩個等概率類別的例子,同時給出了最簡單情況下x的函數p(x|ωi),i=1,2 的變化情況.x0處的虛線是將特征空間分為R1,R2兩 個區域.根據貝葉斯決策規則,對于R1區域的所有x值,分類器都判定屬于 ω1,而對于R2區域的所有x值,都判定屬于 ω2.但是,從圖中可以判定錯誤是避免的.錯誤率Pe的計算公式為:

圖1 白云巖、泥巖AC 估計效果對比

圖2 由兩個等概率類別的貝葉斯分類器形成的R1 和R2 兩區域的例子

式(7)和圖2中的陰影部分的面積相等.因此,我們把兩條概率密度曲線交匯的陰影部分的面積稱為誤判區[14].

根據圖1,從概率密度函數的擬合效果上來看,混合高斯模型擬合的概率密度曲線比高斯模型擬合的概率密度曲線更貼近代表真實分布的直方圖.所以混合高斯模型擬合出來的概率密度曲線更符合測試集數據的真實分布情況.其次,兩種巖性的測井參數概率密度曲線與坐標軸所圍的面積,分別代表根據AC 屬性來判斷屬于白云巖和泥巖的樣本.兩條概率密度曲線交匯部分與橫軸所圍面積代表誤判區.誤判區的面積越小,代表兩種巖性基于當前樣本的分離度越高.因此為了提高樸素貝葉斯分類器的分類的準確率,在選取不同的分布模型擬合樣本的真實分布時,應該選擇誤判區的面積小的分布模型.從圖1中可以看出,混合高斯模型中,綠色和紅色兩種巖性的概率密度曲線交匯處與坐標軸圍成的面積相比于高斯模型來說更小,因此選用混合高斯模型作為樸素貝葉斯分類器連續屬性的分布函數時,往往能取得更好的分類效果.

對于1400 條訓練樣本,我們分別采用高斯模型和混合高斯模型的概率密度估計方法對訓練集數據進行概率密度估計.根據EM 算法得到的高斯模型均值和方差,混合高斯模型的均值、方差和權重,做出不同測井參數的概率密度曲線.針對估計出的6 個測井曲線屬性概率密度函數,構造樸素貝葉斯分類器,記錄訓練樣本分類的準確率.

圖3(a)-圖3(f)從左向右分別依次為假設AC、CNL、DEN、PE、GR、RLLD 服從高斯概率分布,采用EM 算法迭代估計出來的概率密度函數的均值和方差,從而做出的概率密度函數的圖像.

圖4(a)-圖4(f)從左向右分別依次為假設AC、CNL、DEN、PE、GR、RLLD 服從混合高斯概率分布,采用EM 算法迭代估計出來的概率密度函數的均值、方差以及每個高斯模型的權重,從而做出的概率密度函數圖像.

對比兩個圖像可以看出,采用混合高斯概率密度模型估計出的函數模型更符合實際測井曲線資料的真實分布,具有更好的擬合效果,不同巖性的測井參數的概率密度曲線交匯部分與橫軸所圍成的面積更小,即分類的誤判區面積更小.因此基于GMM 模型的樸素貝葉斯分類器分類效果應該更好.

根據估計出來的6 個屬性的概率密度函數,構造樸素貝葉斯分類器.針對1400 條訓練樣本進行訓練,統計分類的正確率,即巖性識別的正確率,根據單高斯模型得到的分類正確的樣本數為1106,分類準確率為79%,根據混合高斯模型得到的分類正確的樣本數為1176,準確率為84%.可見,混合高斯擬合的變量概率密度對于樸素貝葉斯分類器的分類準確性有一定的提升.

圖3 高斯概率密度估計效果對比

選取41-33 區塊下井號為44-45 的古氣井測井曲線作為測試樣本.選取44-45 井的557 條測井曲線數據,同樣選取自然伽馬(GR),補償中子(CNL)、密度(DEN)、聲波時差(AC)、光電吸收截面指數(PE)和深側向電阻率(RLLD)六個屬性作為分類指標屬性,其中電阻率仍然進行對數處理(log10).測試集的巖性識別效果如圖5所示.

從圖5可以看出,本次測試使用三種方法進行巖性識別,鉆井巖性代表數據真實的巖性,7 種巖性分別用不同的顏色表示出來,通過和鉆井巖性一列的顏色進行對比,可以看出巖性識別效果的優劣.分別采用中心距離判別法,高斯模型的樸素貝葉斯和GMM 模型的樸素貝葉斯三種方法進行測試.根據鉆井巖性對比三種方法的識別結果,通過對比三種方法識別結果和鉆井巖性的顏色可以看出,采用中心距離判別法進行巖性識別的效果較差,因為只根據測井數據的均值來進行分類,選擇距離均值距離最近的類別作為分類的類別,誤判區較大.而傳統樸素貝葉斯巖性識別效果要遠優于中心距離判別法,主要是因為在概率密度曲線擬合的過程中,考慮了均值和方差共同的影響效果,因而巖性識別效率得到了提升.基于混合高斯模型的樸素貝葉斯分類器分類效果比傳統樸素貝葉斯效果分類更好,主要因為在概率密度擬合的過程中,相比于高斯模型,混合高斯模型能夠更好地擬合測井數據的實際分布,減小分類的誤判區,因而所得到的巖性識別效率最高.

5 總結

本文提出了一種基于EM 和GMM 的樸素貝葉斯分類器模型用于巖性識別.通過對測井曲線參數對不同巖性的敏感度分析,選取了AC,CNL,DEN,PE,GR,RLLD 六個參數作為樸素貝葉斯的分類變量.通過EM 算法進行參數迭代,使用混合高斯模型來擬合每個分類變量的真實概率分布,構建貝葉斯分類器,從而實現巖性識別.相比于傳統樸素貝葉斯分類器,混合高斯模型比高斯模型具有更好的擬合效果,不同巖性之間的誤判區也更小.在訓練集樣本中基于混合高斯模型的樸素貝葉斯分類器巖性識別準確率為84%,傳統樸素貝葉斯分類器的準確率為79%,因此基于混合高斯模型的樸素貝葉斯分類器可以提升分類器的分類效果.但是,用于構建樸素貝葉斯分類器的變量現實中并不是完全獨立的,這會影響分類器的分類效果.若想得到更好的分類效果,可以借助一些專家經驗,預估各個分類變量之間的條件依賴,或者通過貝葉斯網絡結構學習算法構建貝葉斯網絡,用貝葉斯網絡進行分類,這樣巖性識別的準確率會進一步提升.

圖5 測試集巖性識別結果

猜你喜歡
分類模型
一半模型
分類算一算
垃圾分類的困惑你有嗎
大眾健康(2021年6期)2021-06-08 19:30:06
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
分類討論求坐標
數據分析中的分類討論
教你一招:數的分類
3D打印中的模型分割與打包
FLUKA幾何模型到CAD幾何模型轉換方法初步研究
主站蜘蛛池模板: 韩国v欧美v亚洲v日本v| 国产黄色免费看| 亚洲午夜福利精品无码不卡| 无码在线激情片| 亚洲精选无码久久久| 国产精品成人啪精品视频| 青青草原偷拍视频| 国产成人综合日韩精品无码首页| 国产精品成人免费视频99| 精品国产91爱| 在线毛片免费| 伊人久久福利中文字幕| 国产精品伦视频观看免费| 九九视频免费看| 在线观看的黄网| 久久久久国产精品熟女影院| 一级看片免费视频| 伊人中文网| 成人午夜久久| 精品亚洲国产成人AV| 动漫精品啪啪一区二区三区| 91福利国产成人精品导航| 成人毛片在线播放| 久久99国产视频| 日韩人妻少妇一区二区| 亚洲高清免费在线观看| 婷婷开心中文字幕| 国产成人精品日本亚洲| 日韩经典精品无码一区二区| 欧美日韩成人| 亚洲最大福利视频网| 国产不卡在线看| 国产成人精品一区二区三在线观看| 在线免费a视频| 国产午夜精品一区二区三区软件| 亚卅精品无码久久毛片乌克兰| 精品一区国产精品| 国产专区综合另类日韩一区| 欧美一区二区自偷自拍视频| 秋霞一区二区三区| 亚洲无线国产观看| 一级毛片a女人刺激视频免费| 欧美亚洲综合免费精品高清在线观看| 日韩大乳视频中文字幕| 亚洲欧美一区在线| 成人免费午夜视频| 久久99热66这里只有精品一| 久久香蕉国产线看观看式| 精品欧美一区二区三区在线| 中文无码日韩精品| 欧美在线网| 国产91视频免费| 不卡色老大久久综合网| 亚洲福利视频网址| h网站在线播放| 最新亚洲av女人的天堂| 久久亚洲黄色视频| 一区二区三区在线不卡免费| 国产青青操| 91亚洲国产视频| 国产小视频免费| 99伊人精品| 激情国产精品一区| 欧美日韩精品在线播放| 99re热精品视频国产免费| 99精品一区二区免费视频| 亚洲国产成熟视频在线多多| 日韩免费毛片视频| 秋霞国产在线| 亚洲欧美一区二区三区图片 | 最近最新中文字幕在线第一页 | 国产激情在线视频| 91青草视频| 国产69精品久久久久孕妇大杂乱 | 99久久精品国产精品亚洲| 国产喷水视频| 爱爱影院18禁免费| 国产精品手机在线观看你懂的| 欧美区一区| 中文字幕第1页在线播| 另类欧美日韩| 人妻夜夜爽天天爽|