999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于數據驅動與信息增益率多指標決策模型的生活飲用水水質評估

2016-03-10 02:06:55龍,武*,慧,
大連理工大學學報 2016年1期

李 佳 龍, 閻 威 武*, 白 曉 慧, 邵 惠 鶴

( 1.上海交通大學 電子信息與電氣工程學院, 上海 200240;

2.上海交通大學 生命科學技術學院, 上海 200240 )

?

基于數據驅動與信息增益率多指標決策模型的生活飲用水水質評估

李 佳 龍1,閻 威 武*1,白 曉 慧2,邵 惠 鶴1

( 1.上海交通大學 電子信息與電氣工程學院, 上海200240;

2.上海交通大學 生命科學技術學院, 上海200240 )

摘要:生活飲用水的水質情況對于居民的日常生活非常重要.建立一種基于數據驅動與信息增益率的多指標決策模型來評估生活飲用水的水質.該決策模型首先通過變異系數法對多指標系統的每個指標賦予初始權重,然后通過綜合加權指數評價方法得到初始的評價結果,最后應用信息增益法根據各指標貢獻度調整權重后再次評估系統.該模型不僅可以綜合評估生活飲用水的水質,也可以找到對評價結果起關鍵作用的重要指標.通過GIS直觀展示了水質分布情況,說明該決策模型的有效性.

關鍵詞:生活飲用水;數據驅動;變異系數;信息增益率;GIS

0引言

隨著生物檢測技術與微量分析技術的進步,人們對飲用水中某些危害元素的認識逐步深化,同時世界衛生組織以及各國的衛生機構都不斷修訂水質標準[1].近年來,研究者對于地表水和河流水的水質研究較多,對于生活飲用水的水質研究較少.生活飲用水系統是一個多指標的復雜系統,對水質的綜合評估屬于多指標決策問題.多指標決策問題存在于人類社會的各個領域,多指標決策方法也一直是系統分析者所研究的課題[2].這類問題通常需要用到綜合評估系統,而系統中包含多指標、多層次,對系統客觀合理的綜合評估通常比較困難.多指標系統的評估通常采用基于各指標權重的方法,包括主觀權重法和客觀權重法.比較常見的主觀權重法包括層次分析法[3-5]和專家評估法[6]等.主觀權重法雖然能夠根據領域專家的經驗得到一定的信息,但脫離實際數據,且由于一定的主觀性易造成綜合評估的偏差.客觀權重法包括熵權法[7]、變異系數法[8-9]和主元分析法[10]等,其依賴于歷史數據,評價多指標決策系統通常采用單一的客觀權重法,這樣求取權重過程過于簡單,魯棒性不夠,很可能會被噪聲數據所干擾,造成所得到的客觀權重信息丟失,與實際情況產生偏差.

信息增益是基于信息理論的[11].在信息理論中,熵是一個非常重要的概念,表示任何一種能量在空間中分布的均勻程度,能量分布越不均勻,越不確定,熵就越大.信息熵是信息的量化度量,用以衡量一個隨機變量取值的不確定性程度[12].信息增益已經應用在文本分類中[13].該方法能夠重新得到每個指標對于系統的重要程度,其一方面可以用來指導數據采集過程,為這些指標的分析與確定提供理論上的支持;另一方面也可以用來對檢測指標進行約簡[14].信息增益率是對信息增益的改進,其削弱了信息增益傾向取值較多的屬性的缺點.

變異系數法根據數據離散程度計算多指標系統中各個指標在系統中的權重,離散程度越大權重越大,這種算法過于簡單,對歷史數據的信息挖掘不夠充分.

本文對生活飲用水水質綜合評估問題進行深入研究,并驗證所提出的綜合變異參數法、綜合加權指數法和信息增益率的多指標決策模型的效果,為綜合評估多指標系統提供一種有效途徑.

1多指標決策模型

多指標決策模型通過變異系數法計算得到系統中各指標權重,通過綜合加權指數法打分得到評價等級,然后采用信息增益率方法對權重進行調整,最后再次通過綜合加權指數法進行綜合評分得到系統的綜合評價結果.

1.1變異系數法

變異系數法是用來檢測樣本數據離散程度的一種常用的統計方法.這種方法能夠根據數據離散程度計算多指標系統中各個指標在系統中的權重.基本的理論是:在多指標決策評估系統中,某指標的樣本數據表現得越不同,越能更好地反映綜合評估效果,因此應該被賦予更大權重.

變異系數法共有4個計算步驟[15]:

(1)對于一個評估矩陣X=(xij)m×n,m代表待評估系統中歷史數據樣本的數量,n代表指標的數量,由于不同指標對應的值有不同的數量級,數據應該歸一化以消除數量級差異的影響.被歸一化后的矩陣為Z=(zij)m×n,其中

(1)

(2)計算標準化矩陣Z的均值和標準差:

(2)

(3)

(3)得到變異系數:

(4)

(4)根據各指標變異系數得到指標的權重:

(5)

以上4步是變異系數法對歷史數據中各指標權重的求解過程.

1.2信息增益理論

通常來說,變異系數法完全依據歷史數據,具有一定的不穩定性,因此采用信息增益率對權重進行調整.

特征t的信息增益定義如下:

(6)

本文根據決策樹C4.5對信息增益做了進一步的改進,由于信息增益偏向于取值比較多的屬性,需要用信息增益除以一個分裂信息度量來得到各指標的信息增益率削弱這種作用.

1.3綜合加權指數評價法

綜合加權指數評價法是一個實用而且可靠的評價方法,它采用一系列權重與各指標評分加權和作為綜合標準來評價一個多指標的決策系統[16].由于本文應用于生活飲用水的綜合評估,按照評價生活飲用水定義進行指標評分,具體的計算方法如下:

(1)單指標的計算

單指標計算公式如下:

(7)

式中:Ii為第i個評價指標的分值;Ci為第i個評價指標的實測結果;Si,k為第i個評價指標的k級標準濃度;Si,k+1為第i個評價指標的k+1級標準濃度;Ii,k為第i個評價指標的k級分數,取值如表1所示.

表1 評價指標分級分數

(2)綜合指標的計算

當各指標的權重與分數得到后,綜合評分計算公式如下:

(8)

生活飲用水根據綜合評分的類別劃分如表2所示.

表2 生活飲用水各類別的分數區間

1.4多指標決策模型建模過程

對于一個多指標系統,用合理的方式做綜合評估來指引決策是很有意義的事.變異系數法是基于樣本數據的一種客觀求權重方法,然而完全依照數據的離散程度來確定指標權重是單一片面的,本文提出采用信息增益法來調整指標的權重.由于信息增益需要提前知道樣本的標簽即類別,在調整權重之前,需要用綜合加權指數評價法對系統的樣本數據進行評價并賦予類別,然后采用信息增益法對指標的權重進行重新調整計算.

多指標決策模型的過程建模如下.

首先歷史數據用矩陣X來表示:

(9)

矩陣中,m代表樣本的數量,n代表指標的數量.通過上述的變異系數法可以得到指標權重為wA=(w1w2…wn)T.

然后根據綜合加權指數評價法獲得每條歷史樣本數據的綜合評分.

根據信息增益法[17],已知X為樣本數據,初始標簽即類別,假設經過綜合評價后多指標決策系統共有k個等級ci(i=1,2,…,k),樣本的期望信息為

(10)

式中:si是屬于類別ci的樣本數目,p(ci)是根據樣本數據取第i等級的概率.

每個指標的信息熵為

(11)

式中:A代表某個指標;v是該指標屬于不同類別的數目,同時將樣本數據劃分為v個不同的子集;si,j代表在子集sj中屬于ci類別的數目,s為樣本總數;I′(s1,s2,…,sk)代表在子集sj中A指標的期望信息.

因此A指標的信息增益

G(A)=I(s1,s2,…,sk)-E(A)

(12)

通過G(A)可以得到各個指標的信息增益G(X)=(g1,g2,…,gn),其中X=(x1x2…xn),代表n個指標.然后根據下式計算各個指標的信息增益率:

(13)

其中G(X)是各指標的信息增益,H(X)是各指標的分裂信息度量.

(14)

其中k代表某個屬性的類別數,p(xi)為在所有樣本中某屬性取各個類別的概率.

然后將信息增益率歸一化可以得到各指標的權重u=(u1u2…un)T.

最后再次使用綜合加權指數評價法根據調整后的權重對多指標決策系統進行綜合評分.

該多指標決策模型不僅可以有效評價一個系統,而且可以找到系統中關鍵指標,對于維度很高的多指標系統,可以起到降維的作用.

2結果與分析

2.1應用背景

生活飲用水綜合評估系統構成了一個多指標決策評估系統.上海管網水的綜合水質需要每個月進行評估.根據世界衛生組織和我國生活飲用水衛生標準,對管網水的綜合評估主要針對6項非常重要的指標,分別為菌落總數、色度、渾濁度、耗氧量、錳和余氯.

文中選取2012年的歷史數據作為樣本數據,分別定義I1、I2、I3、I4、I5和I6為菌落總數、色度、渾濁度、耗氧量、錳和余氯,L代表管網水水質等級.

2.2多指標決策模型的應用過程

對于管網水的各項指標,根據《生活飲用水衛生標準》(GB 5749—2006)的等級劃分范圍如表3所示.首先,通過變異系數法計算6項管網水指標的初始權重,結果計入表4,然后用前文的綜合加權指數評價法得到綜合評分,進而根據表2確定每個樣本數據賦予初始等級.

表3 生活飲用水等級劃分

表4變異系數法得到的各指標權重以及經過信息增益調整后的各指標權重

Tab.4Weightsofindicesthroughvariationcoefficientmethodandadjustedbyinformationgain

指標信息增益信息增益率信息增益率歸一化的權重變異系數法權重菌落總數0.0520.2490.2510.309色度0.0220.0300.0300.036渾濁度0.0470.0330.0340.039耗氧量0.8870.5290.5330.520錳0.2060.1370.1380.047余氯0.0200.0140.0140.049

余氯指標根據綜合加權指數法打分方法較為特殊,優、良的標準范圍一樣,差、劣的標準范圍也一樣,因此該指標計算時只取優或差.

在得到了有初始等級的樣本數據后,信息增益率將被應用于對各指標權重的調整.

樣本的期望信息可以通過式(10)得到:

I(L)=1.242 8

對于單個指標菌落總數,其熵可以通過式(11)得到:

E(I1)=1.190 3

根據式(12)可以得到菌落總數的信息增益:

G(I1)=1.242 8-1.190 3≈0.052

其余5項指標的信息增益用相同的方法求得:

得到各指標的信息增益后計算各指標的信息增益率.以菌落總數為例,根據式(14)計算菌落總數的分裂信息度量為

H(I1)=0.209

然后通過式(13)可得菌落總數的信息增益率:

Rg(I1)=0.249

同理可得其余指標的信息增益率.將各指標的信息增益率歸一化得到調整后的權重,結果見表4.

2.3實驗結果與討論

經過2.2對于多指標決策模型在生活飲用水系統的應用,得到表4各指標由變異系數法得到的初始權重、信息增益調整后的權重.

從表4結果可以看到通過變異系數法得到的菌落總數與耗氧量的權重很高,說明這兩項指標數據波動較大,離散程度高.經過信息增益調整后,錳的權重有了顯著提高,耗氧量的權重進一步提高,這說明錳和耗氧量對于管網水水質的綜合評價具有突出的貢獻.信息增益調整后,菌落總數的權重大大降低,通過分析數據可知,菌落總數絕大多數的取值集中在優,數據較集中,菌落總數數據的特點導致其取值單一傾向于優,而信息增益傾向于取值較多的屬性,因此信息增益較小;分裂信息度量削弱了信息增益的這種作用,使菌落總數的信息增益率比較高.變異系數法得到權重后,經過信息增益率的調整,挖掘出錳這項關鍵指標,菌落總數和耗氧量依然為重要指標.最終重要指標被確定為菌落總數、錳和耗氧量.

為了進一步驗證菌落總數、錳和耗氧量是否為關鍵指標,同時更直觀地觀測水質情況,運用GIS展示 2012年某月上海市管網水的分布圖.兩幅地圖采用的是Kriging插值方法[18].使用全部指標以及調整后的權重并通過綜合加權指數法得到各個監測點的水質評分,得到了圖1所示的管網水水質分布圖.只用菌落總數、錳和耗氧量3項指標以及調整后的權重并通過綜合加權指數法得到了圖2所示的水質分布圖.通過底層數據比較,可以發現在215個監測點中,有211個監測點的最終綜合水質等級相同,綜合評價的相似度達到98.1%.可以看到水質分布趨勢非常相似,地圖右下角已說明,綠色越深代表水質越好,黃色為合格水,橙色代表較差水質,紅色代表劣質水.且水質分布層次均勻分明,符合客觀事實,說明了該多指標決策模型的有效性和可行性.

圖1 6項指標綜合評價的水質分布圖

圖2 關鍵指標綜合評價的水質分布圖

3結語

本文提出一種基于數據驅動與信息增益率的多指標決策模型,應用于上海生活飲用水的水質綜合評估,并通過GIS作圖在空間上予以展示,結果表明通過該多指標決策模型得到的綜合飲用水水質分布情況符合客觀事實,同時對關鍵指標的提取比較可靠.由于生活飲用水評價系統和其他多指標決策評估系統比較復雜,涉及的信息繁雜,綜合評價往往不是一種模型可以解決的,本文的多指標決策模型提供了一種可行方案.在將來的決策模型研究中,可以考慮其他的評估方法,同時在線更新歷史數據來實時調整指標的權重.

參考文獻:

[1]李崇善,郭 明,馬成雄. 我國生活飲用水衛生標準發展研究[J]. 甘肅科技, 2012, 28(21):55-59.

LI Chong-shan, GUO Ming, MA Cheng-xiong. The research of domestic drinking water hygiene standards development [J]. Gansu Science and Technology, 2012, 28(21):55-59. (in Chinese)

[2]黃德成. 對指標帶有偏好的多階段多指標決策[J]. 運籌與管理, 2001, 10(2):42-46.

HUANG De-cheng. The multi-stage and multiple attribute decision-making with the favouritism for the index [J]. Operations Research and Management Science, 2001, 10(2):42-46. (in Chinese)

[3]Kwong C K, Bai H. A fuzzy AHP approach to the determination of importance weights of customer requirements in quality function deployment [J]. Journal of Intelligent Manufacturing, 2002, 13(5):367-377.

[4]Lin Ming-chyuan, Wang Chen-cheng, Chen Ming-shi,etal. Using AHP and TOPSIS approaches in customer-driven product design process [J]. Computers in Industry, 2008, 59(1):17-31.

[5]Lu M H, Madu C N, Kuei C-H,etal. Integrating QFD, AHP and benchmarking in strategic marketing [J]. Journal of Business & Industrial Marketing, 1994, 9(1):41-50.

[6]曲麗麗,康 銳. 研制階段裝備保障方案的專家評分評價法[J]. 兵工自動化, 2009, 28(6):17-19.

QU Li-li, KANG Rui. Expert evaluation method for equipment support scheme during development [J]. Ordnance Industry Automation, 2009, 28(6):17-19. (in Chinese)

[7]ZOU Zhi-hong, YUN Yi, SUN Jing-nan. Entropy method for determination of weight of evaluating indicators in fuzzy synthetic evaluation for water quality assessment [J]. Journal of Environmental Sciences, 2006, 18(5):1020-1023.

[8]CHEN Wei, HAO Xiao-hong. An optimal combination weights method considering both subjective and objective weight information in power quality evaluation [J]. Lecture Notes in Electrical Engineering, 2011, 87(2):97-105.

[9]Breusch T S, Pagan A R. A simple test for heteroscedasticity and random coefficient variation [J]. Econometrica, 1979, 47(5):1287-1294.

[10]Dalal S G, Shirodkar P V, Jagtap T G,etal. Evaluation of significant sources influencing the variation of water quality of Kandla creek, Gulf of Katchchh, using PCA [J]. Environmental Monitoring and Assessment, 2010, 163(1):49-56.

[11]Fan R, Zhong M, Wang S,etal. Entropy-based information gain approaches to detect and to characterize gene-gene and gene-environment interactions/Correlations of complex diseases [J]. Genet Epidemiology, 2011, 35(7):706-721.

[12]Harte J, Newman E A. Maximum information entropy:a foundation for ecological theory [J]. Trends in Ecology & Evolution, 2014, 29(7):384-389.

[13]Rajeswari K, Sneha Nakil, Neha Patil,etal. Text categorization optimization by a hybrid approach using multiple feature selection and feature extraction methods [J]. Engineering Research and Applications, 2014, 4(5):86-90.

[14]史志才,夏永祥. 基于知識約簡的網絡入侵特征提取[J]. 計算機工程, 2011, 37(5):134-136.

SHI Zhi-cai, XIA Yong-xiang. Network intrusion feature extraction based on knowledge reduction [J]. Computer Engineering, 2011, 37(5):134-136. (in Chinese)

[15]Weber E U, Shafir S, Blais A-R. Predicting risk sensitivity in humans and lower animals:risk as variance or coefficient of variation [J]. Psychological Review, 2004, 111(2):430-445.

[16]Dawoud A, Alam M S. Target tracking in infrared imagery using weighted composite reference function-based decision fusion [J]. IEEE Transactions on Image Processing, 2006, 15(2):404-410.

[17]楊光明,楊 坤,黃 勇,等. 基于信息增益的水工金屬結構健康診斷賦權方法研究[J]. 水力發電學報, 2014, 33(3):253-257.

YANG Guang-ming, YANG Kun, HUANG Yong,etal. Research on weight method for hydraulic metal structure health diagnosis based on information gain [J]. Journal of Hydroelectric Engineering, 2014, 33(3):253-257. (in Chinese)

[18]Lee K H, Kang D H. Structural optimization of an automotive door using the Kriging interpolation method [J]. Journal of Automobile Engineering, 2007, 221(12):1525-1534.

Multiple criteria decision-making model based on data driven and information gain ratio for drinking water quality evaluation

LIJia-long1,YANWei-wu*1,BAIXiao-hui2,SHAOHui-he1

( 1.School of Electronic Information and Electrical Engineering, Shanghai Jiao Tong University, Shanghai 200240, China;2.School of Life Sciences and Biotechnology, Shanghai Jiao Tong University, Shanghai 200240, China )

Abstract:The drinking water quality is important for residents′ daily life, so a multiple criteria decision-making model based on data driven and information gain ratio is set up to evaluate drinking water quality. Firstly, the initial weights of every index in multiple indices system are determined by the variation coefficient method. Secondly, the initial evaluation results are obtained by the comprehensive weighted indices evaluation method. Finally, information gain method is applied to adjust the weights of indices according to the contribution degree and evaluate the system again. The model can not only comprehensively evaluate the drinking water quality, but also find the important indices playing a key role. Water quality distribution is shown intuitively by GIS to illustrate the validity of the decision-making model.

Key words:drinking water; data driven; variation coefficient; information gain ratio; GIS

作者簡介:李佳龍(1990-),男,碩士,E-mail:li_jia_long_1990@163.com;閻威武*(1971-),男,副教授,E-mail:yanwwsjtu@sjtu.edu.cn.

基金項目:國家自然科學基金資助項目(60974119).

收稿日期:2015-08-10;修回日期: 2015-11-20.

中圖分類號:N94

文獻標識碼:A

doi:10.7511/dllgxb201601014

文章編號:1000-8608(2016)01-0092-06

主站蜘蛛池模板: 最新国产你懂的在线网址| 亚洲精品天堂在线观看| 狠狠做深爱婷婷综合一区| 国产jizzjizz视频| 欧美A级V片在线观看| 日韩欧美国产成人| 久久综合五月婷婷| 国产呦视频免费视频在线观看| 精品国产91爱| aaa国产一级毛片| 朝桐光一区二区| 亚洲区欧美区| 大陆国产精品视频| 九九线精品视频在线观看| 亚洲成人一区在线| 国产无码精品在线播放| 免费A级毛片无码免费视频| 欧美日韩免费观看| 久久久久夜色精品波多野结衣| 亚洲自偷自拍另类小说| 日韩精品久久无码中文字幕色欲| 动漫精品啪啪一区二区三区| 日本免费福利视频| V一区无码内射国产| 亚洲永久精品ww47国产| 国产精品观看视频免费完整版| 国产成人久久综合777777麻豆| 免费一看一级毛片| 91精品国产麻豆国产自产在线| 国产门事件在线| 在线观看亚洲人成网站| 午夜a级毛片| 国产欧美精品一区二区| 91久久国产综合精品| 国产成人亚洲精品蜜芽影院| 亚洲男人的天堂久久香蕉| 粗大猛烈进出高潮视频无码| 亚洲天堂区| 综合网久久| 白丝美女办公室高潮喷水视频| 亚洲一欧洲中文字幕在线| 国产精品夜夜嗨视频免费视频| 亚洲精品麻豆| 亚洲区视频在线观看| 爆乳熟妇一区二区三区| 精品成人一区二区三区电影| 欧美有码在线观看| 国产精品欧美日本韩免费一区二区三区不卡| 99久久精品免费观看国产| 国产精品一区二区不卡的视频| 欧美精品伊人久久| 欧美一区福利| 中文字幕在线观| 久久精品国产91久久综合麻豆自制| 日韩视频精品在线| 狠狠色香婷婷久久亚洲精品| 爱色欧美亚洲综合图区| 色综合热无码热国产| 国产精品女同一区三区五区| 久久精品国产免费观看频道| 亚洲综合色区在线播放2019| 亚洲欧美综合在线观看| 伊人成人在线视频| 亚洲国产理论片在线播放| 婷婷六月色| 色网站在线视频| 亚洲视频三级| 日韩精品一区二区三区大桥未久 | 亚洲熟女偷拍| 亚洲av无码成人专区| 视频在线观看一区二区| 中文字幕资源站| aⅴ免费在线观看| 精品一区二区三区中文字幕| 欧美激情福利| 国产成人免费视频精品一区二区| 亚洲欧美不卡视频| 欧美a级在线| 中日韩一区二区三区中文免费视频| 亚洲AV无码久久天堂| 中文字幕日韩丝袜一区| 国产91视频免费观看|