趙太飛, 谷偉豪, 馬欣媛, 段延峰
(1.西安理工大學 自動化與信息工程學院, 陜西 西安 710048; 2.戶縣農村供水管理中心, 陜西 西安 710300)
目前,在我國水資源需求量逐漸增加,供不應求的情況下,地下水資源被大量開發和利用,導致了水位下降、水質污染等問題[1]。我國超過一半的人口生活在農村地區,農村居民用水是水資源管理的主要構成。在水資源潰乏并且需求量不斷增大的背景下[2],通過研究農村居民用水的行為,揭示居民的用水類型和過程,科學地評估農村居民用水需求,對不合理用水行為采取相應的節水措施,是保障居民用水安全、緩解水資源矛盾的重要方法,對農村地區用水安全和管理有著重要的研究意義[3]。
目前,研究識別居民用水行為的文獻較少。文獻[4]通過在家中供水設施的關鍵位置部署少量低成本且易于安裝的傳感器,使用動態時間規整算法識別居民用水行為。但是,部分用水事件的識別精度比較低。文獻[5]在家庭用水基礎設施中部署壓力傳感器HydroSense,通過數據挖掘技術分析用水設施傳播到傳感器的壓力,識別用水行為。但是部署的傳感器影響了美觀,潛在地增加了成本。文獻[6]提出了一個基于web的知識管理系統的設想,該系統可以提供關于如何、何時、何地水的實時消耗信息。文獻[7]采用基于決策樹的分析工具Trace Wizard跟蹤用水流量確定家庭用水事件類別。但是該方法是復雜的模式匹配問題,識別準確度不高,并且耗費大量的時間和資源。文獻[8]應用隱馬爾可夫模型和動態時間規整算法的組合模型對居民用水行為進行識別。該方法能準確區分具有相似流量模式的用水事件,應用模式匹配算法自動識別居民用水行為。
目前在用水行為識別領域使用的主要技術中,HMM對時間序列的建模能力較強,穩健性好,但是分類決策能力比較弱,需要大量先驗知識,自適應能力較差,占用資源較多[11],主要在語音識別領域、故障診斷領域、行為識別領域[9-10]等應用;BP神經網絡的分類能力和對不確定信息的描述能力強,其網絡的容錯性以及魯棒性極佳[13],但是它對時間序列的建模能力很差,收斂速度慢,有時容易陷入局部最小值情況[14],主要應用在模式識別、圖像處理、智能控制、預測等領域[12]。
因此,全面考慮這兩種模型在其他領域的運用,將這兩種模型的優勢結合并提出一種HMM和BP神經網絡優點的組合模型[15]。該組合模型具有強大的建模能力、分類性以及適應性強等特點,能更準確地自動識別居民用水行為。本文首先對用水事件的流量數據進行預處理,建立各個用水事件的HMM,在BP神經網絡中輸入最佳概率,進一步區分類似流量事件的不同行為。BP神經網絡的輸入是根據Viterbi算法原理推導出最優輸出狀態的概率,可以使該模型達到最佳識別效果。
由具有一定狀態數的隱馬爾可夫鏈和一般隨機過程構成的隱馬爾可夫模型是一個雙重隨機過程。對于隱馬爾可夫模型,不能直接觀察到它的狀態轉移,但是可以通過觀察狀態分析隱含狀態,因此稱之為隱馬爾科夫模型。目前該模型已經成功應用于多個領域。可用如下N、M、A、B、π共5個參數來表示一個完整的隱馬爾科夫模型[16],其中N為隱含狀態數目,M為可觀測狀態數目。
A=(aij)N×N:隱含狀態轉移概率矩陣。矩陣A中任意元素aij代表其從初始狀態si轉移到狀態為sj的概率。
B=(bj(k)):觀察狀態轉移概率矩陣。bj(k)是指因隱藏狀態sj產生觀察狀態vk的概率。
π={πi},系統初始狀態概率矩陣。該矩陣表示t=1時,在隱含狀態下的概率矩陣。
一般可以用λ=(N,M,A,B,π)來表示一個HMM。由于N、M均為定值,所以1個HMM還可以簡寫為[17]:
λ=(A,B,π)
(1)
BP網絡是利用誤差反向傳播訓練算法的神經網絡,是前饋型全局逼近神經網絡。BP神經網絡包括輸入層、輸出層和中間隱含層,神經元的連接方式在層與層之間是全互連型,在同層之間沒有相互聯接。BP學習算法的實質是盡可能優化總體網絡誤差,BP神經網絡包括以下兩個過程。
(1)輸入信號的正向傳播。在輸入端輸入初始信號,該信號分別在不同隱含層被處理,被隱含層處理完畢后送到輸出層。輸出層檢測信號,若檢測到的輸出與期望不一致,則進入第2個過程。
(2)誤差信號的反向傳播。反向傳播過程中,計算誤差信號的值,然后傳回誤差信號,該信號方向與之前相反,按誤差不斷減小的原則調整權值,直到網絡誤差趨向最小。
這種輸入信號的正向傳播過程和誤差信號反向傳播過程,就是輸入信號在BP神經網絡隱含層被處理,并且不斷調整和優化每層的權值,也就相當于網絡的學習過程。BP學習算法的實質是計算神經網絡誤差信號的最小值,使用最速下降法,通過分析誤差函數的負梯度方向修改權系數。網絡每層權值的改變由傳播到此層的誤差決定,BP學習算法結束依據的標準是誤差達到精度要求。
參考前人方法的研究基礎,全面考慮了HMM模型和BP神經網絡模型的優勢和不足,使HMM和BP神經網絡結合起來[18],將HMM的最佳狀態輸出概率作為BP神經網絡的輸入,建立組合模型。首先為居民用水行為的6個事件分別建立一個HMM,使用Viterbi算法分析各個網絡模型,然后得出最優輸出概率;將HMM的最佳狀態輸出概率作為BP神經網絡的輸入,然后將HMM的輸出概率和期望的輸出做比較訓練BP神經網絡,在BP神經網絡的作用下,HMM模型的分類能力得到很大的提升,使得最終的識別結果更加準確[19]。
具體訓練過程如下:
(1)選定HMM的結構類型為左右HMM,對HMM參數進行初始化,并且初始化BP神經網絡模型;
(2)選取各個用水事件流量數據,并且對數據進行預處理,訓練模型的數據選取約占總數據的4/5,剩余的數據用于驗證該算法模型;
(3)為每個類別的用水事件分別建立一個HMM模型并對各個HMM進行訓練,對模型的參數進行重估,確定新的HMM參數;
(4)通過Viterbi算法計算各個HMM中最大狀態輸出概率,在識別過程中,經過Viterbi算法計算,輸出6個用水事件的HMM中的最佳狀態輸出概率,并將此最佳狀態輸出概率和期望輸出輸入到3層結構的BP神經網絡中進行學習,使網絡的實際輸出更加接近于網絡的期望輸出,BP神經網絡選擇S型函數作為傳輸函數,使用基于梯度下降的訓練算法,綜合考慮誤差的平方以及權值的梯度下降方法對權值進行修改,以達到BP神經網絡的期望效果;
(5)檢測BP網絡是否收斂,如不達到收斂要求,則繼續對BP網絡進行訓練;否則,執行下一步;
(6)訓練好組合模型后,在數據集中抽取測試數據,輸入訓練好的組合模型中,記錄識別結果,并計算識別準確度。
HMM和BP神經網絡的組合模型的識別流程如圖l所示。

圖l HMM和BP組合模型
本文以戶縣龐光鎮為研究區域,隨機選取一份2015年4月份的用水資料,這份用水資料包含25戶樣本家庭,通過統計分析這些用戶半個月以來的用水情況,得出每個用戶的用水行為,將這些用水行為數據統計分類建立一個樣本庫。訓練模型數據就從該樣本庫選取,大約占總樣本數的4/5,剩余的1/5則用于驗證該模型。
在數據集中抽取測試數據,輸入訓練好的HMM和BP神經網絡的組合模型中,記錄識別結果,并計算識別準確度。將基于HMM和BP神經網絡的組合模型的識別結果同單獨應用HMM模型和BP神經網絡的識別結果進行對比[20],如表1所示。

表1 基于HMM、BP、HMM和BP組合模型的識別率結果對比 %
由表1可知,HMM對于洗浴、洗鍋、洗衣服的識別準確度比較低,對這3種事件的識別準確度不高的主要原因是因為這3種事件有一個類似的流量模式,隱馬爾可夫模型對于相似模式的事件的識別無法達到最佳。
BP神經網絡對相似流量模式的洗浴、洗鍋、洗衣服事件的識別結果仍然不高,這是因為這3種事件的流量模式容易混淆,使單一的BP神經網絡無法更好地區分識別,因此造成了識別準確度不高的結果。
從表1中可以看出,和傳統的HMM、BP神經網絡模型相比,HMM和BP組合模型提高了其識別能力的準確度。對于具有不同流量模式的用水事件,如農田澆水、沖廁所、漏水等用水行為,這3個模型都能較好地識別,尤其是HMM和BP神經網絡的組合模型,在識別準確度上更高;而對于具有相似流量模式容易混淆的洗浴、洗鍋、洗衣服事件,在傳統HMM和BP神經網絡中無法得到比較高的識別準確度,即便使用HMM和BP神經網絡的組合模型,其識別準確度也并未達到比較高的水平。因為在這3種事件中,它們的流量模式非常相似,從而使得其識別準確度無法得到很大提高。從識別結果中可以發現,HMM和BP神經網絡的組合模型,其識別準確度比單獨應用HMM模型約高8.78%,比單獨應用BP神經網絡約高8.92%。
從本文的實驗結果中可以看出,辨別居民的不同用水行為的分析可以采用HMM和BP神經網絡的組合模型,該組合模型的識別準確度高于其他傳統模型。兩種模型的組合使用,對準確識別居民用水行為,具有重要意義和參考價值。
本文在分析了HMM和BP網絡的優缺點的基礎上,建立了HMM和BP神經網絡的組合模型對居民用水行為進行識別,實現了對6個居民用水事件的識別。該組合模型對于居民用水行為的識別具有較高的準確度。研究結果中可以看出:
(1)HMM模型對于洗浴、洗鍋、洗衣服等用水行為的識別準確度低于BP網絡模型。
(2)BP網絡模型對于農田澆水、沖廁所、漏水等用水行為的識別準確度低于HMM模型。
(3)HMM和BP神經網絡的組合模型在用水行為識別準確度上比單獨應用HMM模型高8.78%,比單獨應用BP神經網絡高8.92%。
本方法的實現,對于優化家庭用水需求管理策略,提高當前農村地區的節水行為并改善水資源管理薄弱現狀有重要的意義。