王 豪,張 珣
(杭州電子科技大學電子信息學院,浙江杭州 310018)
人與自然環境相互依存,相互影響。在不斷追尋更加舒適的生存環境的道路上,人類付出了極大努力。從原始的觀察自然、記錄環境變化等方式,到如今利用科技手段進行環境指標監測,都是在采集與分析環境數據,以求掌握自然環境變化規律,由此建立預防、預警措施并提出環境治理相關對策,最終達到人與自然和諧共融的目的。
近年來,數據融合技術被廣泛應用于軍事和民事工程等領域[1-2]。隨著我國信息化建設的不斷推進,多數據融合技術也開始被運用于環境數據融合中。改善小區環境作為智慧社區建設的重要組成部分,是智慧社區發展的必然要求,也是智慧社區的重要基礎。基于多數據融合技術對小區環境狀況進行研究,不僅有助于對小區環境的精準掌控,而且能夠為小區環境的改善提供科學指導。
以往對智慧社區環境監測系統的研究往往忽略了復雜環境因子對決策控制的影響,僅使用單一傳感器采集的環境數據判斷某一環境狀況,可能導致對整個環境狀況的誤判,最終使決策結果差強人意。如陸珂琳[3]側重于運用物聯網技術采集和展示環境數據,并沒有將單個環境數據充分利用起來,也沒有通過這些數據指導小區建設,因此無法適應未來智慧社區的建設要求。對于多源數據的融合辦法,任倩等[4]側重于多源數據采集以及系統架構模型建立,沒有為數據融合提供具體的可行方法,也沒有結合多種測量數據;向朝興等[5]則使用模糊理論的方法處理多源數據,由于該方法的特點是將人的主觀判斷用數量形式進行表達與處理,所以具有一定的主觀局限性。
綜合上述研究,本文以經典的非概率融合算法為基礎,將傳統的D-S 證據理論引入到小區環境狀況決策中,通過對沖突因子的優化與改進,有效解決了證據間的高沖突問題,在提高決策準確性的同時,也使得系統具有更強的適應能力。另外,針對會造成監測數據偏差的一些非可控干擾因素,謝苗苗等[6]提出箱線圖的方法處理原始數據,但這種方法僅針對室內環境數據的處理效果顯著,而對于小區的大面積環境,則需要依靠更多組數據作為參照。因此,本文使用群體支持度的方式對數據進行預處理操作,通過對多組實驗數據支持度的計算,選取符合實際環境狀況的有效數據。該方法充分利用了小區的環境特點,增強了數據可靠性。
本系統軟件部分總體架構采用B/S(瀏覽器/服務器)模式,相較于傳統的C/S(客戶端、服務器)模式,既節省了客戶端資源,又方便了用戶,不需要下載專用的客戶端程序。系統軟件瀏覽器端使用HTML 和基于JavaScript 的easyUI 前端技術框架進行頁面設計與開發。后端服務器使用基于Java 的springboot 微服務框架進行開發,并使用MyBatis 技術操作數據庫,以及使用Ajax 技術局部響應前端請求,實現數據管理與后臺控制。
系統硬件部分共包含5 類傳感器,分別用來采集小區的溫度、濕度、PM2.5、風速和噪聲等環境數據,然后利用這些數據,結合改進的D-S 證據理論算法,構建出小區環境的智能決策模型,從而可利用模型判斷得出不同實時環境參數狀況下的決策結果,最后通過無線網絡將控制指令發送到相關設備,實現對設備的智能控制。其中,控制指令先由服務器通過因特網發送到路由器,再由路由器轉發到對應的智能網關,最后由網關下達指令到設備。小區居民可通過智能手機或電腦端瀏覽器登錄服務器,實時查詢環境參數和決策結果,小區管理者也可根據實時環境信息手動調控相應的環境控制設備[4]。系統總體架構如圖1所示。

Fig.1 System overall architecture圖1 系統總體架構
傳感器及控制設備與智能網關之間的通信可分為兩大類:一類是無線通信方式,例如藍牙、ZigBee、NB-IOT等;另一類是有線通信方式,例如485 總線等。本文選用電力線載波通信(PLC -Internet of Things),其是一種以電力輸電線為傳輸介質的通信方式[7]。與傳統的無線通信方式相比,PLC 更加穩定。一方面由于藍牙和ZigBee 的傳輸距離有限,并不適合小區環境數據的傳輸;另一方面NB-IOT 作為遠距離的無線通信方式,依賴于通信運營商的基站,且實時性較差,因此也難以適應智慧小區的實際要求。相比于485總線,PLC 僅由一組零火線便完成了485總線兩組線才能完成的功能,即設備供電和數據傳輸。另外,相比PLC 直接使用的通用電力輸電線,485 總線需要采用變壓器對家用電進行轉換后才能為設備供電,因此PLC布線更加簡單、便捷。
PLC 技術包含多種編解碼方式,其中常見的有擴頻、OFDM(Orthogonal Frequency Division Multiplexing)正交頻分復用和多維網格編碼等[8]。其基本工作原理是在電力輸電線中加入高頻載波信號,由輸電線作為載體運輸信息,并在接收端進行解析。PLC 的缺點是當連接設備較多時,設備之間的干擾很大,尤其是在近距離使用時。但對于小區環境監測數據傳輸和設備控制指令下發,PLC 仍是比較可靠的,原因是各設備間的距離不會太近。另外使用OFDM 技術可有效避免交流電力線上較多的低頻干擾,使得PLC 能夠適應較遠距離的信息傳輸。
D-S 證據理論(Dempster-Shafer Envidence Theory)是一種處理不確定性問題的完整理論,在強調事物客觀性的同時,也強調了人類對事物估計的主觀性[9]。與傳統的概率論方法相比,其優勢在于利用“區間估計”代替“點估計”來表示事物之間的關系。因此,D-S 證據理論在對不明確事物的處理決策上比傳統概率統計更有說服力。
D-S 證據理論通常包含4 個概念,分別為識別框架、基本概率分配函數、信任度函數和似然函數。其中,識別框架是D-S 證據理論的基礎,通常定義集合Θ={δ1,δ2,δ3,...δn}作為識別框架,其是一個包含事件所有可能性的集合,而識別框架中的每一個元素代表著一個事件的最終結果。基本概率分配函數m(δi)表示證據對命題δi的信任程度,信任度函數表示證據對命題δi為真命題的信任程度,似然函數表示證據對命題δi的可疑程度。

其中,每個事件結果都與任何一個子集對應,也即是說冪集中必定存在某一事件的答案。冪集中的元共有2n個,對應識別框架中的n元素。
(2)基本概率分配函數。定義基本概率分配函數為m(δi),其表示證據對命題δi的信任程度,滿足m(?)=0 和。即對于空集?,其信任度為0。則表示在識別框架中,n個證據的基本概率分配值之和為1。
(3)似然函數。定義似然函數為Pl(δi),代表命題δi為真命題的信任程度,其需要滿足的條件是:Pl(δi)=(1 -Bel(δi))。其中,對于Pl(δi)>Bel(δi),一般把Bel(δi)稱為對命題δi信任程度的上限,把Pl(δi)稱為對命題δi信任程度的下限。[Bel(δi),Pl(δi)]代表對命題δi的不確定區間。
(4)信任度函數。若識別框架Θ 中的元素是集合,則必定存在δj<δi<Θ 在冪集中,其中δj是δi的子集,對δj的信任度等于δj集合里全部命題的信任度總和。
定義信任度函數為Bel(δi),且δi上的所有子集δj存在,同時符合δj<δi<Θ,則信任度函數滿足:Bel(δi)=。對于識別框架內的元素,若m(δi)>0,則稱δi為信任度函數的焦元。
(5)合成規則。由于多種環境因子都可能對環境質量造成不同的影響,所以在實際情況中要使用多種類型的傳感器測量出多種環境數據,然后利用這些不同種類的信息合成不同的基本概率分配函數,最終得到新的決策輸出。假設在識別框架Θ 下有兩個不同的基本概率分配函數m1、m2,其對應的信任度函數分別為Bel1、Bel2,對應的焦元分別為A、B。如果A∩B=X,則利用合成規則可得式(2):

其中,k為沖突因子,并且滿足k-1=。沖突因子k反映兩個證據之間的沖突程度,k值越大,證據間的沖突越強烈。
傳統D-S 證據理論主要依靠信任度函數計算,相較于傳統的概率論方法,其對于應對復雜情況下的融合更具優勢。但是,一般的D-S證據理論算法仍然存在缺陷:
(1)證據的高度沖突問題。D-S 證據理論無法解決證據沖突嚴重和完全沖突的情況,沖突因子k越大,越容易造成證據高度沖突的問題,最終導致融合結果與實際情況不符。
(2)基本概率分配值偏差問題。基本概率分配值是融合處理的關鍵要素,直接影響到最終的融合結果,因此基本概率分配值的選取十分重要。基本概率分配值的選取方法也有多種,通常會根據不同應用背景選擇適合的基本概率分配值。以文獻[10]為例,基本概率分配值依靠主觀經驗獲取,這樣很容易導致結果產生偏差。
(3)魯棒性差。由于基本概率分配值對后續合成結果有很大影響,對基本概率分配函數的些許變動,都可能造成融合結果出現較大偏差,因此傳統的D-S 證據理論算法不具有普適性。
傳統的D-S 證據理論在進行證據合成時,沖突因子k僅代表存在沖突的焦元之間的沖突程度,而忽略了證據間距離與沖突的關系。所以當k值較大時,證據之間的沖突也較大。此時,若使用傳統D-S 證據理論算法對數據進行融合操作,很可能會產生有悖于實際情況的融合結果,進而導致決策出錯。
證據間距離作為衡量證據之間信息相似度的指標,能夠較準確地描述各證據間的支持程度[11]。因此,為解決證據之間由于高沖突所帶來的合成結果錯誤問題,考慮利用可改進證據間距離的計算方式對傳統D-S 證據理論進行改進[12-13]。
具體改進措施主要包括兩個方面:一是使用巴氏距離計算方式作為證據間距離的計算方法。在統計學中,巴氏距離通常被用于測量兩個樣本的相似性,其具備對稱性。證據ai與aj之間的巴氏距離可表示為式(3):

其中,BC(ai,aj)=為巴氏系數,當巴氏系數趨近于0 時,兩證據間距離dBPA(ai,aj)趨近于正無窮大,此時證據ai與其他證據之間的距離總和趨近于無窮大。
二是利用新的證據距離改進原始的沖突因子k,通過其之間的互補,形成新的沖突因子k’,如式(4)所示:

新的沖突系數k’充分結合了原始沖突因子k和證據距離。只有在兩者都為0 的情況下,才表示兩證據間沒有沖突;只有在兩者都較大的情況下,才能說明證據間的沖突較大。該方法有效解決了在傳統D-S 證據理論合成規則中因證據間沖突引起較大誤差的問題。
為使小區的環境監測結果更加準確,在收集到傳感器直接檢測到的數據后,首先需要對這些原始數據進行預處理操作。這里采用群體支持度方法對采集到的原始數據作有效性判斷,從而剔除無效的異常數據,僅保留有效數據作進一步融合操作;然后對同類型的傳感器數據使用自適應加權平均算法進行一級融合,得到一級融合值,再對一級融合結果作歸一化處理;最后利用改進的D-S 證據理論進行決策級融合,得到對小區環境狀況的整體判斷。小區環境控制決策模型構建流程如圖2所示。

Fig.2 Flow of building a community environment control decision model圖2 小區環境控制決策模型構建流程
3.2.1 數據預處理
在傳感器測量環境參數的過程中,不僅會受到傳感器自身靈敏度或準確性的影響,而且會受到特殊位置或特定環境的影響,這些客觀條件都可能使測量結果出現偏差[14],甚至在后面的融合計算中不斷放大誤差,最終導致完全相反的錯誤決策出現。因此,為避免無效的異常數據對實驗結果造成影響,對原始的采集數據進行預處理操作是十分必要的[15]。
本文利用群體支持度思想判斷采集的數據是否為有效數據,群體支持度的核心是通過數據間的聯系得出其對彼此的支持度。具體而言,利用多個同類分別對其中某一個傳感器節點計算支持度,當總支持度越大,則證明其與大多數傳感器節點測量值越接近,此時該節點的測量數據為有效數據的可能性越大;反之,說明該節點的測量數據為無效數據的可能性越大,應予以剔除。
為更加直觀地體現不同采集數據之間的支持度,使用支持度函數來量化這一概念。設支持度函數為sup(x,y),用來表示數據y對數據x的支持程度。通常選用指數衰減型函數作為支持度函數,如式(5)所示:

其中,β為衰減因子,該值越大,支持度函數衰減速度越快,所以可通過調節衰減因子的方式改變支持度函數的衰減幅度。兩個相同類型傳感器的測量數據越接近,其支持度函數值則越大。因此,該支持度函數可較好地反映傳感器測量數據的準確性。
假設在監測區域內采集溫度的傳感器節點有n個,在一定時間段內共采集到m個環境數據,得到支持度矩陣。則其他傳感器節點對傳感器節點ai的綜合支持度為si=。
其中,si表示節點ai與同類型傳感器節點測量值的接近程度,即si值越大,ai值為有效數據的可能性越大。因此,某時間段內該監測區域采集的溫度數據經過預處理后的值為xi(t)(i=1,2,...,n)。同理,可得到某個時間段內該監測區域采集的濕度、PM2.5、風速和噪聲數據經過預處理后的值分別為yi(t)(i=1,2,...,n)、zi(t)(i=1,2,...,n)、wi(t)(i=1,2,...,n)、vi(t)(i=1,2,...,n)。
3.2.2 數據一級融合
原始測量數據經過預處理操作后,按照不同的傳感器類型進行劃分,并采用自適應加權平均算法對有效數據進行一級融合[16-20]。自適應加權平均算法依靠自適應尋找方法找到不同類型傳感器所對應的最優加權值,并在滿足總均方誤差最小的情況下,獲得最優融合結果[21]。自適應加權平均算法模型如圖3所示。

Fig.3 Adaptive weighted average algorithm model圖3 自適應加權平均算法模型
由于不同位置的同類型傳感器測量的環境數據也會存在差異,為了縮小差距,得到更加均衡的環境數據,首先使用最小均方誤差理論找到不同位置傳感器對應的權值,再將預處理后的數據與相應權值的乘積相加,得到一級融合結果。

其中,由于同類型傳感器在小區的安裝位置不同,且距離較遠,可近似認為其之間相互獨立,因此有E[(x-xi)(x-xj)]=0(i≠j)。均方誤差可簡化為式(7):

3.2.3 全局融合決策
經過一級融合后,可得出對小區各種環境狀況的局部判斷。為了使小區環境監測結果更加準確,還需要利用改進后的D-S證據理論進行決策級融合。
假設有識別框架Θ={δ1,δ2,δ3,δ4},經過一級融合后,得到各證據在識別框架下的基本概率分別為m1、m2、m3、m4、m5。首先利用式(8)計算原始的沖突因子k:

然后計算出該證據與其他證據之間的巴氏距離dBPA,并求出平均距離u1,如式(9)所示:

最后,將原始沖突因子k與證據距離dBPA相結合,取二者均值作為新的沖突因子,再利用D-S 證據理論合成規則計算出最終融合結果,如式(10)所示:

同理,可求出m(δ2)、m(δ3)、m(δ4)、m(δ5)的值。
3.2.4 實驗結果分析
為了得到更加均衡的環境數據,實驗選擇在3 個不同區域安置5 類傳感器,分別在小區的建筑附近、道路附近和綠植附近。實驗每隔5min 采集一次傳感器數據,在當天下午的6~7 點共采集1h 數據。表1 為經過預處理剔除無效數據后的測試環境數據。

Table 1 Test environment data表1 測試環境數據
假設識別框架Θ={δ1,δ2,δ3,δ4},其中,δ1代表無動作,δ2代表開啟灌溉設備,δ3代表開啟凈化設備,δ4代表給居民發送環境情況提醒。經過融合計算后的結果對比如表2所示。
實驗結果表明,兩種融合結果的最終決策對應同一控制指令,結合實際環境數據和決策指令,可判斷該決策結果是正確的。但是從融合結果來看,傳統D-S 理論對δ1和δ4的融合結果十分相近,說明對該決策結論的支持度并不高,而改進D-S 理論的融合結果明顯指向了δ1。因此,在沖突相對較高的情況下,改進的D-S 理論能更好地適應需求。

Table 2 Test environment fusion results表2 測試環境融合結果
本文從智慧小區環境研究入手,提出適用于未來小區環境監測的方案和智能決策模型。系統整體利用物聯網技術,結合計算機軟件和云服務,實現了對環境狀況的可視化操作和對設備的精準控制。其中,針對小區環境監測目標,重點分析了傳統D-S 證據理論算法存在的缺陷,利用改進沖突因子的計算方法,實現了更精準的控制決策。經過分析比較,將群體支持度思想運用到初始測量數據預處理中,從而有效避免了無效值對決策結果的影響,進而利用加權自適應算法對同類型測量值進行一級融合,最后采用改進的D-S 證據理論算法得到決策級融合結果。經過實驗驗證,該模型可實現對小區環境的智慧決策和智能控制。然而,本文利用數據融合生成的控制決策,僅在傳感器種類較少的情況下效果顯著,而對更多類型測量證據的支持度有限。因此,未來智慧小區建設還有很長的路要走。