999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

Entropy-KNN算法在巖性識別中的應(yīng)用研究

2021-05-27 09:35:10王林王禹杰合肥市測繪設(shè)計研究院安徽合肥230061
安徽建筑 2021年5期
關(guān)鍵詞:分類實驗

王林,王禹杰 (合肥市測繪設(shè)計研究院,安徽 合肥 230061)

1 引言

巖石識別是地學研究中的一項重要工作,其結(jié)果有助于儲層評價、油藏描述以及實時鉆井監(jiān)控等方面。綜合考慮時效性、安全性以及成本,多采用測井資料解釋處理獲取巖性信息。近年來,隨著計算機技術(shù)的發(fā)展,許多學者深度拓展利用測井資料識別巖性的方法,由傳統(tǒng)的巖心巖屑和薄片識別法、交會圖法延展出對應(yīng)分析法、K—鄰近法、判別分析、神經(jīng)網(wǎng)絡(luò)、支持向量機等方法,但每種方法都存在一定的不足。利用巖心、巖屑和薄片資料,識別碳酸鹽巖受主觀因素影響較大,且識別效果存在片面性;交會圖法操作簡單,但僅限于線性可分的分類問題,對于復雜巖性的分類問題,識別精度較低;K-鄰近法按照歐氏距離單一標準搜索待判巖的K鄰近,分類標準過于單一。且上述分類標準均采用巖石測井參數(shù),并未與巖石力學參數(shù)結(jié)合。

遼西隧道三號斜井正洞至出口區(qū)間穿越斷層破碎帶,巖體破碎,屬極I級高風險隧道。測井參數(shù)收集危險性較高,且分布模糊,為此處的巖性識別帶來了困難。利用隧道開挖前收集的巖石力學參數(shù),提出基于巖石力學參數(shù)信息熵的Entropy-KNN識別巖性。該算法尋找訓練樣本與測試樣本的相同巖石力學參數(shù),計算其平均信息熵,以此作為度量兩個數(shù)據(jù)集接近程度的距離指標,選取K個與測試樣本距離最近的訓練實例,最終綜合考慮訓練實例中各類實例的個數(shù)及平均距離,依據(jù)待測樣本屬于各類的可信度,準確識別巖石類型,整體上提高了分類的準確性。

2 基于屬性值信息熵的KNN分類模型

K——鄰近算法,又叫KNN算法,是數(shù)據(jù)挖掘十大算法之一,核心思想是對于未知的測試集,按照定義的距離,選取樣本集中距離它最近的K個實例參照,判斷K個實例中樣本類別,按少數(shù)服從多數(shù)的投票法則,判斷未知實例所屬離別。

對于訓練集中類別交叉、類別重疊情況,傳統(tǒng)KNN算法存在以下不足。當訓練集中類別分布不均勻,某個類別樣本容量大,其余類別樣本容量小時,新輸入的實例容易受最近的“鄰近樣本”主導,被歸為大樣本類別,事實上,可能該實例并未接近目標樣本。為此引入距離加權(quán)—KNN算法,根據(jù)輸入實例與K鄰近樣本的距離加權(quán),考慮各距離權(quán)重,分析實例類別。但當各類鄰近樣本個數(shù)、平均距離相同時,該算法的分類輸出解釋性較弱,類別評分不規(guī)則,準確度無法保證。上述兩種算法弊端在于樣本間距離定義過于簡單,未考慮屬性值對類別判斷的影響。Entropy—KNN定義距離為樣本間相同屬性的平均信息熵,基于此距離判斷巖石類別。

2.1 方法原理說明

信息熵表示對信息不確定性的度量。Entropy—KNN基于信息熵理論產(chǎn)生,涉及到的概念包括屬性值信息熵、相似度函數(shù)和類可信度指標。利用屬性值信息熵判斷該屬性值對類別的決定作用大小,如果屬性值信息熵越大,該屬性值對類別判斷作用越小。相似度函數(shù)用來定義點與點間的相似度,當樣本間相同屬性值信息熵小的屬性值越多,相似度函數(shù)值相應(yīng)越小,兩個樣本的相似程度越高。根據(jù)屬性值信息熵和相似度函數(shù),計算類的可信度指標,以此作為最終類別的評價指標,具體詳細定義說明如下。

2.1.1 屬性值信息熵

屬性值信息熵表示屬性值對類別中的重要性,某個樣本的屬性值信息熵越大,說明該樣本類別確定越模糊;反之,如果某個樣本的屬性值信息熵為0,依據(jù)該屬性值能夠完全確定樣本類別。

假設(shè)數(shù)據(jù)集為D,該數(shù)據(jù)集系統(tǒng)共有d1,d2,......dn個類別,若屬性V具有i個不同值{v1,v2,......vi},屬性值 vi在 D中出現(xiàn)的次數(shù)記作|vi|,屬于第j類的實例個數(shù)記為|vij|,則屬性值vi的信息熵為:

2.1.2 相似度函數(shù)

相似度函數(shù)在聚類、領(lǐng)域搜索中應(yīng)用非常廣泛。在巖性識別中,定義樣本間相同屬性值的平均信息熵為相似度函數(shù),度量樣本點間差異性大小。兩個樣本的相同屬性值中信息熵大的屬性值越多,平均信息熵越大,這兩個樣本的相似程度越低。

設(shè)M,N為任意兩個樣本,在M,N中相同屬性值為 v1,v2,......vn,M,N 的相似度函數(shù)為:

2.1.3 類可信度指標

Entropy-KNN算法以各類別的鄰近樣本點個數(shù)及未知樣本與相似樣本間的類別平均距離作為類可信度指標,彌補了傳統(tǒng)KNN算法只考慮不同類別的近鄰點個數(shù),距離加權(quán)-KNN算法只考慮不同類別的近鄰樣本點個數(shù)的平均距離的不足。

設(shè)數(shù)據(jù)集S中di代表類別,M為待測樣本,Xi為近鄰中屬于di類的樣本,N為近鄰樣本總數(shù),Ni為近鄰樣本屬于di類的樣本個數(shù)。稱T(di,M)為M對Ci的類可信度,計算公式如下:

3 巖性及力學參數(shù)特征

3.1 研究區(qū)概況

本實驗所采用的數(shù)據(jù)集來自遼西隧道三號斜井正洞至出口區(qū)間的隧道超前地質(zhì)預報數(shù)據(jù),對測井資料的分析得到,研究區(qū)巖石的類型主要為安山巖、玄武巖、花崗巖、礫巖和閃長巖這5種巖性。由于巖石特征復雜多樣,這為巖石的解釋和識別工作帶來了巨大挑戰(zhàn),因此,該地區(qū)的巖性分類解釋工作至關(guān)重要。

3.2 巖石力學參數(shù)特征

本實驗基于遼西隧道超前地質(zhì)預報獲得的地震波數(shù)據(jù),經(jīng)過濾波處理,抽取1000組巖石力學參數(shù)數(shù)據(jù),通過數(shù)據(jù)分析得出以下五種特征,對于分類具有重要意義,分別是:縱波波速、橫波波速、彈性模量、泊松比、密度。

對不同巖性力學參數(shù)的均值進行統(tǒng)計(表1),對不同屬性的均值方差進行統(tǒng)計(表2)。結(jié)果顯示:密度、泊松比和橫波波速這三個特征變化范圍和幅度小,彈性模量變化范圍和幅度大。閃長巖的平均彈性模量為109.10GPa,遠低于總體平均值65.35GPa,縱波波速為6.08km/s,較總體平均值5.01km/s高很多。相反地,礫巖的縱波波速2.9km/s遠低于總體均值,其彈性模量也低于總體平均值。分析可知,縱波波速和彈性模量對礫巖和閃長巖的敏感性差異很大。同時,安山巖的縱波波速和橫波波速這兩個巖性變化范圍非常小,值比較穩(wěn)定,對玄武巖恰恰相反,縱波波速相對較大。以上分析說明,不同巖性力學參數(shù)的敏感度不同,故不同巖性力學參數(shù)敏感度權(quán)重對分類具有重要意義。

不同巖性力學參數(shù)的均值統(tǒng)計表 表1

不同屬性的均值方差統(tǒng)計表 表2

二維交會圖更直觀地反映了數(shù)據(jù)在二維空間的分布情況,以密度—橫波波速,彈性模量—橫波波速為例(圖1),部分巖性空間分布存在大量交叉重疊,說明各力學參數(shù)具有很大的模糊度,使該研究區(qū)樣本巖性的識別工作較為困難,樣本可信度的判定對巖性識別工作具有顯著意義。

圖1 原始力學參數(shù)交會圖

4 實驗

4.1 實驗數(shù)據(jù)及評價指標

所有的實驗在遼西隧道三號斜井正洞至出口區(qū)間的隧道超前地質(zhì)預報數(shù)據(jù)集上進行,選取6000組記錄作為實驗集。采用3—折交叉驗證法評價分類精度。數(shù)據(jù)集被隨機分成三個子集,每個子集大小相等,每次隨機抽選2000組數(shù)據(jù)作為測試集,剩余數(shù)據(jù)作為訓練集。Entropy-KNN算法在每個數(shù)據(jù)集上循環(huán)運行若干次,取實驗期望作為數(shù)據(jù)集的分類準確率結(jié)果。實驗中,該算法運行20次,采用分類正確率作為分類精度評價指標,與傳統(tǒng)KNN算法和距離加權(quán)KNN算法交叉比較。

4.2 實驗結(jié)果與分析

分三種情況實驗:①小樣本分類情況;②大樣本分類情況;③不同K值情況。選取不同K值,分析分類精度,發(fā)現(xiàn)當K值為10時,分類結(jié)果最優(yōu)。實驗①、②考察訓練集大小對實驗結(jié)果的影響。實驗③考察不同K值對分類結(jié)果的影響。

實驗①訓練集從500開始,一次取到1000,得到準確率,如圖2所示。由圖2可知,當訓練集樣本數(shù)小于600時,Entropy-KNN分類效果明顯優(yōu)于傳統(tǒng)KNN和距離加權(quán)-KNN,隨著樣本數(shù)量增多,Entropy-KNN仍能取得良好的分類效果。

圖2 準確率在不同訓練集的比較

實驗②將訓練集從1000開始一次取到5000,結(jié)果見表3所示。從表3可以看出,訓練集較大時,傳統(tǒng)KNN、距離加權(quán)KNN、Entropy-KNN的準確率均有所提升,而Entropy-KNN分類結(jié)果最優(yōu),隨著樣本數(shù)量增加,Entropy-KNN算法準確率表現(xiàn)更為顯著。

K=10時傳統(tǒng)KNN、距離加權(quán)-KNN、Entropy-KNN實驗結(jié)果 表3

實驗③選取不同K值測試實驗準確性,取訓練集為4000條,K依次從2到20,觀察實驗結(jié)果準確性,得到圖3所示實驗結(jié)果。分析可得:當K值小于8時,分類參照臨近點個數(shù)過少,已知信息量不夠充足,其結(jié)果不具有參考性。當K值之間增大時,分類精度趨于穩(wěn)定,Entropy-KNN對分類效果有明顯改進。

圖3 準確率在不同K值變化

上述三種實驗表明,KNN分類算法根據(jù)巖石力學參數(shù)能很好地識別巖性,而改進的KNN分類算法Entropy-KNN的分類精度優(yōu)于距離加權(quán)-KNN和傳統(tǒng)的KNN分類算法,綜合三種實驗結(jié)果,Entropy-KNN的分類精度較距離加權(quán)-KNN和傳統(tǒng)的KNN分類算法從70.3%提高至78.5%。

5 結(jié)論

①本文提出Entropy-KNN分類模型,將屬性信息熵理論應(yīng)用于KNN分類模型,契合巖性識別中巖石力學參數(shù)的模糊性、重合性等數(shù)據(jù)特征。

②Entropy-KNN在投票分類時,通過類可信度綜合考慮各類別的臨近樣本點個數(shù)及未知樣本與相似樣本的類別平均距離,彌補了距離加權(quán)-KNN和傳統(tǒng)KNN算法的不同,保證了即使待測樣本在各類的類可信度很接近,也可以得到正確的分類準確性。

③受樣本數(shù)量的有限性限制,本文訓練集和實例數(shù)據(jù)的相同屬性值的平均信息熵不是最優(yōu)解,可能導致分類的偏差,利用優(yōu)化算法優(yōu)化平均信息熵,是進一步完善算法的目標。

猜你喜歡
分類實驗
記一次有趣的實驗
微型實驗里看“燃燒”
分類算一算
垃圾分類的困惑你有嗎
大眾健康(2021年6期)2021-06-08 19:30:06
做個怪怪長實驗
分類討論求坐標
數(shù)據(jù)分析中的分類討論
教你一招:數(shù)的分類
NO與NO2相互轉(zhuǎn)化實驗的改進
實踐十號上的19項實驗
太空探索(2016年5期)2016-07-12 15:17:55
主站蜘蛛池模板: 日本免费福利视频| 成年午夜精品久久精品| 国产人人射| 日韩免费中文字幕| 91偷拍一区| 成人一级黄色毛片| 91免费观看视频| 美女黄网十八禁免费看| 蜜桃臀无码内射一区二区三区| 视频二区中文无码| 亚洲综合色区在线播放2019| 91无码人妻精品一区| 亚洲熟妇AV日韩熟妇在线| 亚洲一区二区约美女探花| 亚洲综合色婷婷| 亚洲福利网址| 免费观看三级毛片| 亚洲日韩久久综合中文字幕| 国产福利在线免费观看| 国产精品国产三级国产专业不| 99久久免费精品特色大片| 亚洲永久精品ww47国产| 国产成人凹凸视频在线| 国产九九精品视频| 欧美狠狠干| 亚洲国产欧美中日韩成人综合视频| 新SSS无码手机在线观看| 欧美v在线| 日韩在线成年视频人网站观看| 亚洲天堂免费观看| 永久免费精品视频| 伊人激情综合| 亚洲VA中文字幕| 日韩免费毛片| 亚欧成人无码AV在线播放| 亚洲成A人V欧美综合| 亚洲综合亚洲国产尤物| 99热这里只有免费国产精品| 亚洲av日韩av制服丝袜| 成人韩免费网站| 97青草最新免费精品视频| 国产高清不卡| 国产午夜不卡| 老司机精品久久| 亚洲无限乱码| 无码丝袜人妻| 久草热视频在线| 成人亚洲国产| 熟妇人妻无乱码中文字幕真矢织江 | 国产探花在线视频| 国产91色| 国内精品伊人久久久久7777人| 亚洲国产一区在线观看| 亚洲午夜福利在线| 四虎国产在线观看| 国产成人精品三级| 国产三级国产精品国产普男人| 2020极品精品国产| 国产自在线拍| 成人欧美日韩| 91久久国产综合精品女同我| a级毛片免费播放| 香蕉视频国产精品人| 国产美女精品一区二区| 亚洲制服丝袜第一页| 亚洲91在线精品| 尤物成AV人片在线观看| 久久这里只有精品23| 国产99视频在线| 免费无码AV片在线观看国产| 亚洲欧美成人综合| 国产成人精品18| 久久国产乱子伦视频无卡顿| 色一情一乱一伦一区二区三区小说| 亚洲天堂网在线视频| 国产一级视频在线观看网站| 亚洲天堂网2014| 99热这里只有精品国产99| 毛片免费视频| www.亚洲一区| 欧美亚洲一二三区| 日本AⅤ精品一区二区三区日|