999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于數(shù)據(jù)挖掘的地震經(jīng)濟(jì)損失與當(dāng)?shù)亟?jīng)濟(jì)情況相關(guān)性分析1

2013-09-09 03:21:12斌1安源源2彭亞飛2盧國(guó)明2
震災(zāi)防御技術(shù) 2013年3期
關(guān)鍵詞:數(shù)據(jù)挖掘關(guān)聯(lián)規(guī)則

胡 斌1) 安源源2) 彭亞飛2) 盧國(guó)明2)

?

基于數(shù)據(jù)挖掘的地震經(jīng)濟(jì)損失與當(dāng)?shù)亟?jīng)濟(jì)情況相關(guān)性分析

胡 斌安源源彭亞飛盧國(guó)明

1)四川省地震局,成都 610041 2)電子科技大學(xué),成都 611731

本文以收集的西南地區(qū)1950年以來301個(gè)典型破壞性地震震例數(shù)據(jù)為基礎(chǔ),選擇關(guān)聯(lián)規(guī)則和決策樹兩種數(shù)據(jù)挖掘方法,對(duì)地震經(jīng)濟(jì)損失與當(dāng)?shù)亟?jīng)濟(jì)情況進(jìn)行分析,給出了相關(guān)規(guī)則,并對(duì)關(guān)聯(lián)規(guī)則和決策樹兩種不同的挖掘方法得出的結(jié)果進(jìn)行了分析比較。

經(jīng)濟(jì)損失 數(shù)據(jù)挖掘 關(guān)聯(lián)規(guī)則 決策樹

引言

西南地區(qū)是我國(guó)破壞性地震多發(fā)區(qū),地震震級(jí)大,發(fā)震頻度高,地震影響范圍廣;而與此同時(shí),西南地區(qū)社會(huì)經(jīng)濟(jì)發(fā)展、人口分布極度不均衡,城鄉(xiāng)間、民族間、區(qū)域間經(jīng)濟(jì)發(fā)展差異巨大。西南地區(qū)豐富的地震震害資料及差異性社會(huì)經(jīng)濟(jì)數(shù)據(jù)為本文的研究奠定了數(shù)據(jù)基礎(chǔ)。

數(shù)據(jù)挖掘(Data Mining)是通過分析每個(gè)數(shù)據(jù),從大量數(shù)據(jù)中尋找其規(guī)律的技術(shù),主要有數(shù)據(jù)準(zhǔn)備、規(guī)律尋找和規(guī)律表示3個(gè)步驟(王麗珍等,2005)。數(shù)據(jù)挖掘的方法有關(guān)聯(lián)分析、聚類分析、分類分析、決策樹分析、邏輯回歸分析等。本文采用關(guān)聯(lián)分析與決策樹分析方法,對(duì)地震經(jīng)濟(jì)損失與當(dāng)?shù)貒?guó)內(nèi)生產(chǎn)總值的比值(以下簡(jiǎn)稱地震經(jīng)濟(jì)損失比)(林均岐等,2007)進(jìn)行研究,挖掘與其它因素之間的關(guān)聯(lián)關(guān)系,可為將來地震經(jīng)濟(jì)損失估計(jì)提供參考。

1 數(shù)據(jù)收集

通過對(duì)地震災(zāi)害經(jīng)濟(jì)損失和GDP相關(guān)因素的分析,對(duì)挑選的以下主要因素進(jìn)行了收集及相關(guān)性分析:震級(jí)、烈度、經(jīng)濟(jì)損失、GDP、國(guó)土面積、人口數(shù)。通過以上數(shù)據(jù)可以計(jì)算出:經(jīng)濟(jì)損失比、人均GDP、人口密度。表1是數(shù)據(jù)庫(kù)表結(jié)構(gòu)定義。

表1 數(shù)據(jù)庫(kù)表結(jié)構(gòu)

數(shù)據(jù)收集來源主要分為以下三部分:

(1)來源于西南地區(qū)地震應(yīng)急基礎(chǔ)數(shù)據(jù)庫(kù);

(2)來源于各省地震年鑒及地震科學(xué)考察報(bào)告;

(3)來源于各省、市、縣當(dāng)年的社會(huì)、經(jīng)濟(jì)統(tǒng)計(jì)年鑒等。

本文收集的地震經(jīng)濟(jì)損失數(shù)據(jù),都是在地震發(fā)生時(shí)的統(tǒng)計(jì)結(jié)果,研究地震經(jīng)濟(jì)損失與當(dāng)?shù)亟?jīng)濟(jì)情況的相關(guān)性,對(duì)應(yīng)的當(dāng)?shù)亟?jīng)濟(jì)情況、人口情況也必須是地震發(fā)生時(shí)的數(shù)據(jù)。地震發(fā)生所在地1980年以前的人口、經(jīng)濟(jì)數(shù)據(jù)無法直接收集,對(duì)這些數(shù)據(jù)依據(jù)國(guó)家、省統(tǒng)計(jì)局提供的經(jīng)濟(jì)增長(zhǎng)率、人口增長(zhǎng)率進(jìn)行推算(國(guó)家統(tǒng)計(jì)局國(guó)民經(jīng)濟(jì)核算司,1997;國(guó)家統(tǒng)計(jì)局人口統(tǒng)計(jì)司等,1988)。

由于數(shù)據(jù)來源的多樣化,這樣就避免不了有的數(shù)據(jù)是錯(cuò)誤數(shù)據(jù)、有的數(shù)據(jù)相互之間有沖突,這些錯(cuò)誤的或有沖突的數(shù)據(jù)顯然是我們不想要的,稱為“臟數(shù)據(jù)”。因此要按照一定的規(guī)則把“臟數(shù)據(jù)”“洗掉”,這就是數(shù)據(jù)清洗,而數(shù)據(jù)清洗的任務(wù)是過濾掉那些不符合要求的數(shù)據(jù)。

本次在西南地區(qū)共收集到有數(shù)據(jù)記錄的324條地震震例數(shù)據(jù),由于數(shù)據(jù)來源的多樣化,這樣就避免不了有的數(shù)據(jù)是錯(cuò)誤數(shù)據(jù)、有的數(shù)據(jù)相互之間有沖突,為此必須按照一定的規(guī)則把這些錯(cuò)誤的或有沖突的數(shù)據(jù)清洗掉(王曰芬等,2007)。本文采用手工方式實(shí)現(xiàn)數(shù)據(jù)清洗:

(1)對(duì)于部分經(jīng)濟(jì)損失收集數(shù)據(jù)單位為元,沒有轉(zhuǎn)換為萬元,進(jìn)行手工修改。

(2)對(duì)于嚴(yán)重缺失項(xiàng)的地震震例數(shù)據(jù),直接刪除。

清洗完成后,總共收集到的有效案例記錄條數(shù)為301條。

2 數(shù)據(jù)挖掘

2.1 關(guān)聯(lián)規(guī)則分析

關(guān)聯(lián)規(guī)則挖掘采用Apriori算法。Apriori算法是一種最有影響的挖掘布爾關(guān)聯(lián)規(guī)則頻繁項(xiàng)集的算法,其核心是基于兩階段頻集思想的遞推算法。

算法關(guān)聯(lián)規(guī)則中的Apriori挖掘算法在在執(zhí)行過程中要多次掃描數(shù)據(jù)庫(kù),并且產(chǎn)生大量的候選項(xiàng)集(韓家煒等,2007)。由于本次研究數(shù)據(jù)量比較小,對(duì)于上述問題在本研究中不會(huì)出現(xiàn)。具體分析步驟如下:

第一步:掃描地震震例數(shù)據(jù)庫(kù),對(duì)各個(gè)項(xiàng)集的次數(shù)進(jìn)行計(jì)算,得到候選項(xiàng)集1-(表2)。

第二步:從候選項(xiàng)中選出大于最小支持度的項(xiàng)集,即選出支持>2的項(xiàng)集,從而得到頻繁1-項(xiàng)集(表3)。

表2 部分候選項(xiàng)C1集合

表3 部分頻繁集L1集合

第三步:重復(fù)上述整個(gè)過程,直到產(chǎn)生的候選項(xiàng)級(jí)C的支持<2,即小于規(guī)定的最小支持項(xiàng),不能產(chǎn)生頻繁項(xiàng)集,算法停止。本研究結(jié)果最終產(chǎn)生的最大頻繁項(xiàng)集為(表4)。

表4 頻繁項(xiàng)集L3

根據(jù)以上產(chǎn)生的頻繁項(xiàng)集,可生成不同形式的關(guān)聯(lián)規(guī)則,對(duì)于一個(gè)-項(xiàng)的頻繁項(xiàng)集,其最多產(chǎn)生(2-2)種不同形式的規(guī)則,當(dāng)較大的時(shí)候,產(chǎn)生的規(guī)則成幾何數(shù)量級(jí)的增長(zhǎng)。在這里不可能一一列舉,所以需要定義一個(gè)置信度閥值MINMUM_SUPPORT。通過分類統(tǒng)計(jì),-項(xiàng)集能產(chǎn)生的關(guān)聯(lián)規(guī)則形式主要有-1類:

第一類:規(guī)則左部有-1項(xiàng),規(guī)則右部有1項(xiàng):

規(guī)則如:,,…→

第二類:規(guī)則左部有-2項(xiàng),規(guī)則右部有2項(xiàng):

規(guī)則如:,,…→,

…………

第-1類:規(guī)則左部有1項(xiàng),規(guī)則右部有-1項(xiàng)。

通過定義置信度閥值MINMUM_SUPPORT,可過濾掉一些無用的規(guī)則。

2.2 決策樹分析

決策樹是同時(shí)提供分類與預(yù)測(cè)的常用方法。通過一連串的問題和規(guī)則將數(shù)據(jù)分類,可以通過相似的形態(tài)來推測(cè)相同的結(jié)果。決策樹的數(shù)據(jù)分析方法是一種用樹來展現(xiàn)數(shù)據(jù)受變量的影響情形的預(yù)測(cè)模型。

在運(yùn)行決策樹算法之前,首先把輸入的各項(xiàng)連續(xù)數(shù)據(jù)進(jìn)行清洗,使其離散化。決策樹開始時(shí),是作為一個(gè)單個(gè)節(jié)點(diǎn)(根節(jié)點(diǎn))包含所有的訓(xùn)練樣本集,為“全部”節(jié)點(diǎn);決策樹模型的預(yù)測(cè)項(xiàng)為經(jīng)濟(jì)損失比,其屬性可以取個(gè)不同的值,本文對(duì)經(jīng)濟(jì)損失比進(jìn)行離散化,對(duì)應(yīng)于個(gè)不同類別為C;設(shè)一個(gè)屬性取個(gè)不同的值 {,,……,a},若取GDP,則取2個(gè)不同的值 {GDP<40004.998,GDP≥40004.998}。利用屬性可以將劃分為個(gè)子集 {,,……,s},其中s包含了集合中屬性取a值的數(shù)據(jù)樣本。若屬性被選為測(cè)試屬性,設(shè)s為子集s中屬于C類別的樣本數(shù)。那么,利用屬性劃分當(dāng)前樣本集合所需要的信息(熵)可以進(jìn)行如下計(jì)算:

這樣,利用屬性對(duì)當(dāng)前分支節(jié)點(diǎn)進(jìn)行相應(yīng)樣本集合劃分所獲得的信息增益就是:

Gain()=(,,……,s)-() (3)

也就是說,Gain()被認(rèn)為是根據(jù)屬性取值進(jìn)行樣本集合劃分所獲得的(信息)熵的減少。在本文中的Gain(Intensity)、Gain(Population Density)、Gain(Magnitude)、Gain(GDPPer Capita)、Gain(GDP)、Gain(Total Population)等信息增長(zhǎng)中,Gain(GDP)值最大,因此被作為測(cè)試屬性用于產(chǎn)生當(dāng)前分支節(jié)點(diǎn),test_attribute=GDP。同時(shí)根據(jù)“GDP”取不同的值,把全部的輸入分為兩部分:GDP<40004.998和GDP≥40004.998。若設(shè)符合此條件的集合:GDP<40004.998為,返回值為Generate_decision_tree(,GDP);GDP≥40004.998,設(shè)此集合為,返回值為Generate_decision_tree(,GDP)。以此類推,繼續(xù)遞歸調(diào)用決策樹算法。

按照上述步驟構(gòu)造決策樹,最終可產(chǎn)生一個(gè)如圖2所示的決策樹。

3 挖掘結(jié)果分析

3.1 關(guān)聯(lián)規(guī)則挖掘結(jié)果分析

通過關(guān)聯(lián)規(guī)則挖掘能夠發(fā)現(xiàn)很多有趣的和有價(jià)值的規(guī)則,但是其本身也存在著一些不可避免的缺陷,比如在挖掘中能滿足最小支持度和最小置信度閥值的規(guī)則很多,但并不是所有的規(guī)則用戶都有興趣。對(duì)于挖掘結(jié)果而言,哪些是用戶感興趣的關(guān)系是數(shù)據(jù)挖掘技術(shù)要解決的一個(gè)重要基本問題(蔡紅等,2011)。因此,挖掘結(jié)果的進(jìn)一步處理,需要相關(guān)領(lǐng)域的專家與計(jì)算機(jī)領(lǐng)域的專家共同配合,協(xié)同提取有用的挖掘結(jié)果。圖1給出了部分挖掘結(jié)果。表5列出了幾個(gè)典型的規(guī)則。

表5 部分挖掘結(jié)果

從表5給出的規(guī)則中可以看出:對(duì)于規(guī)則1,人口密度極小,人均GDP較低時(shí),其經(jīng)濟(jì)損失比也會(huì)比較低;對(duì)于規(guī)則2、3,地區(qū)經(jīng)濟(jì)較不發(fā)達(dá)或者人員分布較稀疏時(shí),地震造成的經(jīng)濟(jì)損失比也會(huì)比較低;對(duì)于規(guī)則4,在人口密度較大的中小城市發(fā)生5級(jí)以上地震,地震造成的經(jīng)濟(jì)損失比也會(huì)比較高;對(duì)于規(guī)則5,高烈度的不發(fā)達(dá)地區(qū),一般地震造成的經(jīng)濟(jì)損失比也會(huì)比較高。綜合挖掘規(guī)則的若干結(jié)果,在一般情況下人口密度大、GDP總量高、震級(jí)大、烈度高地區(qū),地震造成的經(jīng)濟(jì)損失比會(huì)比較高。

3.2 決策樹模型挖掘結(jié)果分析

如圖2所示,每個(gè)矩形方框中不同顏色的直方圖分別表示經(jīng)濟(jì)損失比的不同等級(jí)。當(dāng)GDP<40004.998時(shí),藍(lán)色直方圖面積大,一般其經(jīng)濟(jì)損失比低;當(dāng)GDP≥40004.998時(shí),依據(jù)人均GDP取值范圍分為下面兩類,人均GDP處于1651.608到2913.555之間時(shí),紅色直方圖較大,其經(jīng)濟(jì)損失比一般較低;人均GDP<1651.608或者人均GDP>2913.555時(shí),依據(jù)人口密度又分為兩類,人口密度在68到122之間的,紅色直方圖的比例較大,其經(jīng)濟(jì)損失比一般較低;人口密度小于68,大于122的,其中藍(lán)色直方圖的比例最大,一般其經(jīng)濟(jì)損失比低。

其中一個(gè)具體的葉子節(jié)點(diǎn)的挖掘圖例如表6所示。

表6 GDP<40004.998

依據(jù)決策樹結(jié)果,生成依賴關(guān)系網(wǎng)絡(luò),由依賴關(guān)系網(wǎng)絡(luò)圖中(圖3)箭頭線越粗表示其變量對(duì)經(jīng)濟(jì)損失比影響越大。從圖3可以看出,在地震發(fā)生時(shí)影響經(jīng)濟(jì)損失比的因素從強(qiáng)到弱依次為:Intensity、Magnitude、Population Density、Per Capita GDP、Earthquake GDP、Total Population。在西南地區(qū)的地震中,烈度對(duì)經(jīng)濟(jì)損失的影響最大,其次是震級(jí)、人口密度、人均GDP、GDP、人口數(shù)。

4 結(jié)論

在本文研究中,挖掘結(jié)果的評(píng)價(jià)采用了微軟的Microsoft SQL Server 2005模型評(píng)估模塊,將挖掘結(jié)果導(dǎo)入到模型評(píng)估系統(tǒng)中,以隨機(jī)抽取的樣本作為模型評(píng)估測(cè)試數(shù)據(jù),并對(duì)研究結(jié)果做了準(zhǔn)確性評(píng)估測(cè)試。

如圖4所示,藍(lán)色線代表理想模型的提升結(jié)果(評(píng)估結(jié)果),紅色線代表決策樹實(shí)際的提升結(jié)果(評(píng)估結(jié)果),綠色線代表關(guān)聯(lián)規(guī)則的提升結(jié)果(評(píng)估結(jié)果)。從圖5中可以看出,關(guān)聯(lián)規(guī)則的分?jǐn)?shù)為0.78,決策樹的分?jǐn)?shù)為0.86,二者整體趨勢(shì)跟理想模型的趨勢(shì)比較相同。在預(yù)測(cè)評(píng)估地震經(jīng)濟(jì)損失方面,決策樹模型的預(yù)測(cè)效果比關(guān)聯(lián)規(guī)則預(yù)測(cè)效果更好一些。

西南地區(qū)大跨度的社會(huì)經(jīng)濟(jì)發(fā)展水平、多樣性的人文地理環(huán)境和多種類型的地震活動(dòng)特點(diǎn),使得西南地區(qū)的地震經(jīng)濟(jì)損失在具備特殊性的同時(shí),更具備典型性。因此本文在這方面的深入研究,對(duì)全面提升我國(guó)地震經(jīng)濟(jì)損失研究具有較強(qiáng)的示范作用。盡管文中還存在一些不足,若地震歷史數(shù)據(jù)能收集的更加全面,就能得到更加豐富的挖掘結(jié)果。

致謝:感謝西南地區(qū)地震局相關(guān)工作人員以及地震專家的支持,不辭辛苦收集并整理數(shù)據(jù),對(duì)本文展開的研究提供了寶貴意見及建議,發(fā)揮了重要的導(dǎo)向作用。同時(shí)感謝電子科技大學(xué)盧國(guó)明教授的數(shù)據(jù)挖掘團(tuán)隊(duì),尤其感謝李誼瑞研究員的細(xì)心指導(dǎo),技術(shù)上提供了很大的支持,在此深表感謝。

蔡紅,陳榮耀,陳波,2011.關(guān)聯(lián)規(guī)則挖掘最小支持度閥值設(shè)定的優(yōu)化算法研究.微型電腦應(yīng)用,27(6):33—36.

國(guó)家統(tǒng)計(jì)局國(guó)民經(jīng)濟(jì)核算司,1997.中國(guó)國(guó)內(nèi)生產(chǎn)總值核算歷史資料(1952—2004).北京:中國(guó)統(tǒng)計(jì)出版社.

國(guó)家統(tǒng)計(jì)局人口統(tǒng)計(jì)司,公安部三局,1988.中華人民共和國(guó)人口統(tǒng)計(jì)資料匯編.北京:中國(guó)財(cái)政經(jīng)濟(jì)出版社.

韓家煒,(加)坎伯(Kamber, M.),2007.?dāng)?shù)據(jù)挖掘概念與技術(shù). 北京:北京工業(yè)出版社,1—3.

林均岐,鐘江榮,2007. 區(qū)域地震間接經(jīng)濟(jì)損失評(píng)估. 自然災(zāi)害學(xué)報(bào),16(4):139—142.

王麗珍,周麗華,陳紅梅等,2005.?dāng)?shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘原理及應(yīng)用.北京:科學(xué)出版社,10—13.

王曰芬,章成志,張蓓蓓,吳婷婷,2007.?dāng)?shù)據(jù)清洗研究綜述.現(xiàn)代圖書情報(bào)技術(shù),12:50—56.

Correlation Analysis of Seismic Economic Losses and Local Economic Conditions Based on Data Mining

Hu Bin, An Yuanyuan, Peng Yafeiand Lu Guoming

1) Earthquake administration of Sichuan Province, Chengdu 610041, China 2) University of Electronic Science and Technology of China, Chengdu 611731, China

This work is based on 301 destructive earthquake cases in the five southwestern provinces in China since 1950. By using association rules and decision tree, we analyze seismic economic losses and local economic conditions, works out the correlation rules, and compare the results of the above two different mining methods.

Economic losses; Data mining; Association rules; Decision tree

2011年度地震行業(yè)科研專項(xiàng)西南地震應(yīng)急對(duì)策新模式與關(guān)鍵技術(shù)研究(201108013)

2012-12-28

胡斌,男,生于1977年。碩士。現(xiàn)在四川省地震局從事地震災(zāi)害研究與應(yīng)急救援工作。 E-mail:kennyferly@yahoo.com.cn

胡斌,安源源,彭亞飛,盧國(guó)明,2013.基于數(shù)據(jù)挖掘的地震經(jīng)濟(jì)損失與當(dāng)?shù)亟?jīng)濟(jì)情況相關(guān)性分析.震災(zāi)防御技術(shù),8(3):275—282.

猜你喜歡
數(shù)據(jù)挖掘關(guān)聯(lián)規(guī)則
撐竿跳規(guī)則的制定
“苦”的關(guān)聯(lián)
數(shù)獨(dú)的規(guī)則和演變
探討人工智能與數(shù)據(jù)挖掘發(fā)展趨勢(shì)
奇趣搭配
讓規(guī)則不規(guī)則
Coco薇(2017年11期)2018-01-03 20:59:57
基于并行計(jì)算的大數(shù)據(jù)挖掘在電網(wǎng)中的應(yīng)用
電力與能源(2017年6期)2017-05-14 06:19:37
智趣
讀者(2017年5期)2017-02-15 18:04:18
TPP反腐敗規(guī)則對(duì)我國(guó)的啟示
一種基于Hadoop的大數(shù)據(jù)挖掘云服務(wù)及應(yīng)用
主站蜘蛛池模板: 欧美日韩国产精品综合| 亚洲综合色婷婷| 欧美日韩国产在线播放| 成人日韩视频| 亚洲高清中文字幕| 精品在线免费播放| 国产v精品成人免费视频71pao| 九九香蕉视频| 99热这里只有免费国产精品| 国产在线高清一级毛片| 精品国产美女福到在线直播| 无码精品一区二区久久久| 青草午夜精品视频在线观看| 国产精欧美一区二区三区| 亚洲最大看欧美片网站地址| 亚洲大学生视频在线播放| 2022国产91精品久久久久久| 99一级毛片| 国产精品综合色区在线观看| 亚洲无码A视频在线| 日韩欧美网址| 蝌蚪国产精品视频第一页| 乱码国产乱码精品精在线播放| 日韩国产精品无码一区二区三区| yjizz国产在线视频网| 国产精品自在自线免费观看| 欧美成人午夜影院| 在线无码av一区二区三区| 国产在线精彩视频论坛| 91麻豆国产在线| 无码中文字幕精品推荐| 国产福利2021最新在线观看| 在线国产欧美| 欧美国产在线看| 亚洲美女一区二区三区| 国产在线视频自拍| 久久一日本道色综合久久| 手机精品视频在线观看免费| 91国内在线视频| 亚洲天堂免费在线视频| 亚洲电影天堂在线国语对白| 欧美成人精品高清在线下载| 在线欧美日韩| 2021国产精品自拍| 亚洲第一中文字幕| 午夜限制老子影院888| 日韩精品中文字幕一区三区| 久久久久免费看成人影片| 欧洲高清无码在线| 91亚洲精选| 97视频在线精品国自产拍| 国内黄色精品| 国产精品综合久久久| 在线国产毛片手机小视频| 五月综合色婷婷| 久久久久无码精品| 美女一区二区在线观看| 国产91透明丝袜美腿在线| 青青操国产| 高清色本在线www| 激情乱人伦| 亚洲欧美自拍视频| 亚洲无码高清视频在线观看| 亚洲国产日韩在线观看| 欧美全免费aaaaaa特黄在线| 精品国产成人三级在线观看| 国产导航在线| 日韩成人在线一区二区| 日韩黄色在线| 欧美高清三区| 91日本在线观看亚洲精品| 国产一级无码不卡视频| 亚洲欧美不卡| 114级毛片免费观看| 亚洲欧美综合另类图片小说区| 欧美日韩国产高清一区二区三区| 国产精品55夜色66夜色| 女人18毛片水真多国产| 色丁丁毛片在线观看| 一级毛片免费观看不卡视频| 国产精品视频免费网站| 一级毛片在线播放免费|