摘" 要:文章基于水務(wù)行業(yè)數(shù)據(jù)挖掘提取及分析利用,摸索其與流量的關(guān)系,進(jìn)而對流量進(jìn)行預(yù)測、分析,判斷漏損、故障等情況,提升水務(wù)行業(yè)智慧化程度,提升應(yīng)急處理能力,實現(xiàn)科學(xué)調(diào)度和優(yōu)質(zhì)供水。
關(guān)鍵詞:數(shù)據(jù)挖掘;特性畫像;科學(xué)調(diào)度;漏損控制
中圖分類號:TU991" " " "文獻(xiàn)標(biāo)志碼:A" " " " "文章編號:2095-2945(2021)13-0069-03
Abstract: Based on the data mining, extraction, analysis and application of the water industry, this paper explores the relationship between the data mining and the flow, then forecasts and analyzes the flow, and finally judges the leakage and fault, so as to improve the intelligence degree of the water industry, enhance the emergency handling ability, and realize scientific dispatching and high-quality water supply.
Keywords: data mining; feature mapping; scientific scheduling; leakage control
在以大數(shù)據(jù)智能化為引領(lǐng)的創(chuàng)新驅(qū)動發(fā)展方向下,大數(shù)據(jù)、互聯(lián)網(wǎng)+、人工智能等與水務(wù)行業(yè)深度融合,以實現(xiàn)信息化創(chuàng)新發(fā)展,公司治理精準(zhǔn)化、精細(xì)化,推動傳統(tǒng)水務(wù)向現(xiàn)代化水務(wù)轉(zhuǎn)型升級。
目前水務(wù)行業(yè)數(shù)據(jù)分散,種類繁多,涉及多設(shè)備,多接口通訊規(guī)約,需要統(tǒng)一的數(shù)據(jù)標(biāo)準(zhǔn),缺乏實時數(shù)據(jù)支撐(設(shè)備運行數(shù)據(jù)不全,故障預(yù)警診斷關(guān)鍵數(shù)據(jù)缺失,數(shù)據(jù)分析及挖掘關(guān)鍵數(shù)據(jù)缺失等)。通過應(yīng)用大數(shù)據(jù)挖掘技術(shù)實現(xiàn)從設(shè)備海量歷史數(shù)據(jù)中挖掘設(shè)備運行狀態(tài)和規(guī)律,構(gòu)建設(shè)備的多種數(shù)據(jù)應(yīng)用模型,讓數(shù)據(jù)覺醒、讓數(shù)據(jù)說話,將當(dāng)前設(shè)備運行數(shù)據(jù)帶入數(shù)據(jù)應(yīng)用模型,進(jìn)行智能分析和判斷。
1 目的
通過DMA分區(qū)(District Metering Area,簡稱DMA)流量和時間的關(guān)系,根據(jù)歷史區(qū)域用水流量來預(yù)測未來的區(qū)域用水,并與實時數(shù)據(jù)作比較,及時科學(xué)調(diào)整用水調(diào)度方案。如存在差異,則找出可能存在的漏損問題或提前預(yù)判用水量,進(jìn)行精確調(diào)度,力爭供水管網(wǎng)漏損率控制在10%以內(nèi)。
通過用水特性及區(qū)域用水行為分析,比如吃飯的地方用水行為,在時間上呈現(xiàn)周期性的特性,過節(jié)的時候,高峰期,低峰期等,對用水流量和時間上的關(guān)系呈現(xiàn)。根據(jù)已有的各個DMA分區(qū)流量數(shù)據(jù),采用大數(shù)據(jù)、機(jī)器人學(xué)習(xí)、人工智能等先進(jìn)技術(shù)與算法,提前預(yù)判存在漏損的管網(wǎng),保障城市用水安全。
2 主要研究內(nèi)容
數(shù)據(jù)挖掘分為:數(shù)據(jù)集成、DMA用水特性畫像、二次供水對DMA的影響、二次供水特性畫像、水廠供水與DMA關(guān)聯(lián)性、基礎(chǔ)信息維護(hù)和管理功能(見圖1)。
2.1 數(shù)據(jù)集成
采集滿足可研數(shù)據(jù)挖掘模型的數(shù)據(jù)點數(shù)據(jù),將現(xiàn)有的存儲在水務(wù)數(shù)據(jù)庫中的數(shù)據(jù)點數(shù)抽取,并存儲在大數(shù)據(jù)平臺中,用于模型的驗證和應(yīng)用。
對于結(jié)構(gòu)化數(shù)據(jù)的采集:現(xiàn)有的數(shù)據(jù)主要來自于DMA系統(tǒng)、水務(wù)設(shè)備基礎(chǔ)信息管理系統(tǒng)等都屬于結(jié)構(gòu)化數(shù)據(jù),采用ETL工具-kettle作為采集結(jié)構(gòu)化數(shù)據(jù)的手段。將所需的數(shù)據(jù)按數(shù)據(jù)倉庫建立的方法每天或定期從各個業(yè)務(wù)系統(tǒng)中采集詳盡的業(yè)務(wù)數(shù)據(jù),并根據(jù)各自的需求進(jìn)行數(shù)據(jù)調(diào)整,數(shù)據(jù)遷移過程中將原始數(shù)據(jù)進(jìn)行抽取、清洗、合并和裝載。在此過程中必須保證數(shù)據(jù)的完備性和數(shù)據(jù)的一致性,將結(jié)構(gòu)化數(shù)據(jù)統(tǒng)一抽取到數(shù)據(jù)庫中。
對于非結(jié)構(gòu)化數(shù)據(jù)的采集:現(xiàn)有的數(shù)據(jù)來自實時數(shù)據(jù)庫中的實時數(shù)據(jù),對于不支持對非結(jié)構(gòu)化數(shù)據(jù)存儲的,利用大數(shù)據(jù)應(yīng)用框架Hadoop平臺的數(shù)據(jù)倉庫作為傳統(tǒng)數(shù)據(jù)倉庫的補(bǔ)充,實現(xiàn)對非結(jié)構(gòu)化數(shù)據(jù)的存儲和管理,并對來自實時數(shù)據(jù)庫的數(shù)據(jù)查詢提供支撐。具體實現(xiàn)流程如圖2。
2.2 DMA用水特性畫像
通過流量和時間的關(guān)系,根據(jù)歷史區(qū)域用水流量來預(yù)測未來的區(qū)域用水,與實時數(shù)據(jù)作比較。如存在差異,則找出可能存在的漏損問題。通過用水特性及區(qū)域用水行為分析,比如吃飯的地方用水行為,在時間上呈現(xiàn)周期性的特性,過節(jié)的時候,高峰期,低峰期等,對用水流量和時間上的關(guān)系呈現(xiàn)。將DMA分區(qū)流量數(shù)據(jù)結(jié)合用戶用水特性,進(jìn)行水流量預(yù)測,通過昨日流量、今日流量和預(yù)測流量進(jìn)行對比,能夠有效預(yù)測出下一時刻用戶流量的數(shù)據(jù),預(yù)測的準(zhǔn)確率能達(dá)到80%以上。詳情見圖3,包含昨日流量、今日流量和預(yù)測流量的趨勢對比圖和預(yù)測數(shù)據(jù)對比。季度用水量趨勢見圖4。
2.3 二次供水對DMA的影響
通過二次供水的停水和恢復(fù)之間的影響,評價二次供水設(shè)備的啟停狀態(tài)、頻率等對DMA流量或壓力的影響,評價影響度,關(guān)聯(lián)程度,用于分析二次供水設(shè)備對DMA供水安全的影響。
2.4 二次供水特性畫像
通過二次供水設(shè)備啟停狀態(tài)、數(shù)量,頻率和時間之間的關(guān)系,預(yù)測未來設(shè)備的運行狀態(tài)(運行機(jī)泵數(shù)量、運行頻率、流量等),合理科學(xué)設(shè)置設(shè)備運行模式。
2.5 水廠供水與DMA關(guān)聯(lián)性
通過水廠出廠水流量、出廠水壓力、DMA的流量和時間(或者加入廠外泵站各參數(shù)、調(diào)節(jié)池液位等)分析水廠供水與DMA之間的關(guān)聯(lián)性,用于判斷水廠供水變化對DMA流量的主導(dǎo)影響等。可按管轄區(qū)、各小區(qū)、DMA分區(qū)、時間等不同分類進(jìn)行查詢,進(jìn)而分析判斷其關(guān)聯(lián)性。
2.6 數(shù)據(jù)源點管理
數(shù)據(jù)源點的管理主要是采集、傳輸和管理水務(wù)各系統(tǒng)下數(shù)據(jù)及DMA流量數(shù)據(jù)等。通過接口組件采集以上各數(shù)據(jù)來源系統(tǒng)的實時數(shù)據(jù)并傳輸給轉(zhuǎn)發(fā)服務(wù)器,轉(zhuǎn)發(fā)服務(wù)器接收匯總接口組件傳輸?shù)膶崟r數(shù)據(jù)并進(jìn)行本地緩存并提供實時數(shù)據(jù)和歷史數(shù)據(jù)查詢。該功能將源數(shù)據(jù)進(jìn)行管理和查詢。對輸入源點名稱,源點描述,數(shù)值類型(整型、浮點型、文本型),協(xié)議類型,工程單位等相關(guān)數(shù)據(jù)進(jìn)行收集,進(jìn)而為整個系統(tǒng)提供基礎(chǔ)信息來源。
3 分析實現(xiàn)與效果
在此項預(yù)測研究中,我們主要采用基于時間序列分析的ARIMA(Autoregressive Integrated Moving Average model)模型預(yù)測,它是時間序列預(yù)測分析方法之一。
根據(jù)DMA分區(qū)數(shù)據(jù),結(jié)合某小區(qū)的用水量特點,將小區(qū)給水系統(tǒng)時用水量分解成兩個部分:其一為趨勢分量,其二為隨機(jī)分量,然后合起來對下個時段的小區(qū)用水量進(jìn)行預(yù)測,趨勢分量可以用時間的多項式函數(shù)來擬合,表示成時間的線性函數(shù);隨機(jī)分量采用隨機(jī)型時間系列AR(Autoregressive model)模型或GM灰色系統(tǒng)理論模型(Grey System Theory model)等來模擬,AR模型是隨機(jī)型時間系列預(yù)測技術(shù)中,預(yù)測精度較高的。
在DMA分區(qū)用水量的預(yù)測過程中,由于隨機(jī)干擾因素眾多,信息來源有限,GM模型具有弱化序列隨機(jī)性、發(fā)掘系統(tǒng)演化規(guī)律的獨特功效。將GM模型融入小區(qū)用水量預(yù)測模型建模的全過程,實現(xiàn)功能互補(bǔ),能夠使預(yù)測精度得到提高。
對呈周期性變化的城市用水量時間系列,采用指數(shù)平滑法分離出周期變量和趨勢變量。作為隨機(jī)平穩(wěn)系列,可以采用GM(1,1)或AR模型對殘差系列進(jìn)行模擬,即指數(shù)平滑法與灰色系統(tǒng)或AR模型聯(lián)合預(yù)測。
以重慶某小區(qū)為例,底層采用大數(shù)據(jù)技術(shù),依托ARIMA基于時間序列的預(yù)測算法實現(xiàn)原理,將DMA分區(qū)流量數(shù)據(jù)結(jié)合用戶用水特性,進(jìn)行水流量預(yù)測,通過昨日流量、今日流量和預(yù)測流量進(jìn)行對比,能夠有效地預(yù)測出下一時刻用戶流量的數(shù)據(jù),目前預(yù)測的準(zhǔn)確率能達(dá)到80%以上。
4 結(jié)束語
通過以上數(shù)據(jù)挖掘采集分析方法和實現(xiàn),極大地提高了流量預(yù)測的準(zhǔn)確度,能夠及時發(fā)現(xiàn)并解決問題,為水務(wù)系統(tǒng)供水的科學(xué)調(diào)度,設(shè)備的合理使用,漏損控制等提供了依據(jù)。經(jīng)過實際運用,取得了良好的效果,提高了企業(yè)管理水平,提升了水務(wù)行業(yè)智慧化程度,保障了優(yōu)質(zhì)供水。
參考文獻(xiàn):
[1]黃子龍,樂丹丹.淺談水務(wù)行業(yè)工單數(shù)據(jù)挖掘及應(yīng)用[J].城鄉(xiāng)建設(shè),2020(2):60-63.
[2]唐錨,高凱麗,張小娟.面向大數(shù)據(jù)的北京水務(wù)數(shù)據(jù)融合技術(shù)研究[J].水利信息化,2019(6):9-17.
[3]熊建功,沈秀紅,梅征.淺析水務(wù)企業(yè)大數(shù)據(jù)布局[J].水資源開發(fā)與管理,2019(12):59-63.