毛 敬 玉
(蘭州職業技術學院,甘肅 蘭州 730070)
SCADA(Supervisory Control And Data Acquisition)系統即數據采集與監控系統,它主要應用于電力系統、網絡服務、化學工業等領域的數據的收集與監控和設備流程控制等相關行業。通過對運行設備在不同環境下的數據值進行收集和分析,根據分析值按照事先預定好的控制邏輯對運行的設備進行控制和操作,以實現操作設備、檢測程序、收集數據、調整參數以及系統報警等相關功能。顯然,SCADA系統的應用需要對大量的數據進行收集和整理,并從中提取可用的知識,這里就需要用到數據挖掘技術。數據挖掘技術是從數據庫中挖掘出有用知識的重要技術,從大量的不完整的并且相互之間沒有明顯關系的數據中提取出人們事先無法預測和想象的但又潛在隱藏著的有意義的信息和數據的過程。將數據挖掘技術應用于物聯網SCADA系統中,有利于改進現有SCADA系統存在的不足,提高SCADA系統的總體性能,對物聯網技術的發展起著很大的作用。
數據挖掘即根據某一原則從大量數據中提取有意義的信息。一般來說數據挖掘是從存放數據的數據源中挖掘出有價值知識的過程,即從特定的數據源中根據限定要求對數據進行選取、分析和處理,從中提取關鍵數據和分析出有意義的信息[1]。數據挖掘其實是數據分析方法的一種深入層次,過去數據分析的目的是用于科學研究,而隨著計算機應用和網絡技術的高速發展,數據挖掘技術已廣泛應用于各行各業。它能代替數據分析專家從包含大量數據的數據源中挖掘出隱藏于其中的相關知識,找出數據之間的內在聯系和數據本身固有的規律。數據挖掘是一門綜合性的技術,它集數量統計學、數據結構、概率論、算法分析與設計、人工智能、數據庫、機器學習、計算機支持的協同工作以及高性能并行計算等技術于一體。以前人們對數據的使用只是停留在最簡單的查詢功能上,通過對數據挖掘技術的使用,我們可以從數據中提取出有用的人們感興趣的信息,為軟件管理者和使用者提供快速而科學的決策支持依據。
數據挖掘過程分為三個階段: 數據準備、數據挖掘和解釋評估。其中第一階段數據準備階段包括從存儲數據的數據源中集成數據,從集成的數據中有目的地選擇數據,將選擇的數據組合成目標數據,對目標數據進行篩選整合等預處理,最后將預處理的數據進行數據轉換以供第二步使用。第二階段數據挖掘階段是對準備好的數據根據特定的邏輯進行分析和整理得出特定的模式。最后第三階段解釋評估階段通過對挖掘出的模式進行解釋給出最后所需要的知識。其中在解釋評估的過程中如對模式中的數據不滿可重新對數據源進行收集,再次挖掘,直到得出所需的知識[2]。圖1所示為數據挖掘過程。

SCADA系統主要應用于電力系統、預測系統以及其他一些需要對數據進行收集以及監控的系統。要對數據進行監視首先需要對數據進行分析和整理并最終給出決策依據所需的數據,數據挖掘技術在SCADA系統中的使用具有非常重要的意義。以下舉例說明數據挖掘技術在電力系統、電力營銷系統和高速鐵路SCADA系統中的使用。
電力系統是一個龐大而復雜的互聯網系統,隨著電力系統的廣泛應用,在運行過程中產生和堆積的數據也不斷增加,而這些數據對電力系統今后的運行有很重要的作用,這就需要數據挖掘系統來對這些歷史數據進行分析得出知識。在電力系統中,應用理論研究的方法已經解決了許多問題,但理論研究的方法只能解決電力系統中已存在的且被發現的問題,而系統中日積月累的歷史數據并沒有得到很好的應用,如果能應用數據挖掘技術,則可以充分地利用這些歷史數據,分析出電力系統日積月累的數據背后隱藏的規律與原理,找到解決潛在問題的更加高效的辦法[3]。例如利用數據挖掘系統通過對電力系統日積月累的大量數據的歸納總結,建立起一個預測系統,然后根據當前收集到的實時數據來預測未來可能發生的情況,對未來可能發生的情況作提前準備。其中數據挖掘技術可以對歷史數據進行整理分析, 提取出電量的使用情況、各地電存量、突然事故時的電量以及與其相關的一些條件關系,以此來保證電力系統的正常運行以及對可預知問題的預防。
電力營銷系統的核心業務是電量記錄、用電控制與管理、營業計費和線路鋪設與維護等,電力營銷系統的核心是通過對營銷數據進行收集整理使系統更高效。而目前電力營銷系統面臨的主要問題是如何利用這些大量的營銷數據提取出有參考價值的知識,進而快速地為管理者提供準確且有科學依據的決策數據和指標,提高電力經營管理水平, 指導電網順利且高效地運行工作。數據挖掘技術的出現,無疑給電力營銷系統帶來了一場革命性的發展。目前數據挖掘技術在電力營銷系統中已有廣泛的研究與應用,侯雪波等將數據挖掘技術引入電力市場的營銷分析中, 利用相關算法對收集到的數據應用關聯規則技術進行整理分析,描述各種外部因素和售電量之間的關聯關系,分析出外部因素對售電量的影響,從而對電量的使用作出科學的分析與預測,保證電量的供應。牛東曉等通過對電力負荷的數據挖掘得出其規律并通過對電力負荷預測上進行分析研究,使電力預測精度得到提高。
高速鐵路SCADA系統產生的數據一般應用于制作報表、事故統計等。但大量的數據僅僅用于記錄太過于浪費。若從大量的數據中提取可用數據并對SCADA系統設備的潛在故障進行預測,那無疑將大大提高SCADA系統的綜合分析性能。高速鐵路調度中心保存了大量的歷史信息,包括火車運行正常、運行中故障、火車到達終點晚點等相關數據,如將這些數據進行綜合深入分析,可得到更加有用的分析預測結果。
數據挖掘技術包括關聯規則、分類、時間序列挖掘和序列挖掘、聚類、Web挖掘以及空間挖掘。其中關聯規則是從大量表面上看上去毫無聯系的數據中挖掘出數據項之間具有關聯的有參考價值的知識,關聯規則主要用于在具有大量數據的數據庫中發現數據項目之間存在的有意義的關聯關系,從而對這些關聯關系進行有效解釋評估,分析出用戶真正感興趣且有價值的關聯規律,通過這些規律做出預測或對其他事物作進一步分析。分類是將存在于數據庫中的數據根據一定的規律分類歸納到給定類別中的一個特定的類別,分類一般用于預測,預測的目的是利用通過對歷史數據的分析得出的結果推論出對當前給定數據的預測分析,從而根據當前收集到的數據對未來可能發生的情況進行預測。時間序列挖掘和序列挖掘指的是從大量的時間序列數據中提取出與時間屬性相關聯的有用的信息和數據,其中這些信息是人們事先無法知道的但又潛在存在的有用的,并用于短中長期各個不同時期的預測,指導人們在教育、經濟、軍事和娛樂等各方面的行為活動。序列挖掘是指在已經相對于時間具有固定序列的隊列中再相對于其他因素作排序,即序列中又有序。聚類就是將數據庫中的數據項根據一定的原則分組成多個集合,劃分的依據是在同一個集合中的數據之間按照某一原則具有較高的相似度,這個相似度的確定是事先規定的,而存在于不同集合中的數據具有較低的相似度。Web挖掘可簡單地理解為針對包括頁面內容、頁與頁之間的結構以及頁與頁之間的關聯關系等在內的各種與Web相關的數據,應用數據挖掘技術以幫助人們從網頁內容中提取所需的信息,如信息檢索等??臻g挖掘就是從空間數據庫中提取隱藏的信息、數據關系等,用于對空間數據做分析解釋、發現空間數據之間的關聯關系。
關聯規則技術是數據挖掘技術中最常用的研究方法之一,最早是通過對購物籃模式的分析提出來的,從海量的數據中根據邏輯要求提取出數據項之間具有相互聯系的有意義的信息。隨著計算機的普遍使用,數據庫中存在的數據越來越龐大,通過對數據挖掘技術的理解和使用,人們對從這些數據中挖掘出相應的關聯知識越來越有興趣。其中關聯規則技術通過對數據分析產生規則,根據分析出的規則確定哪些事情應該分在一起。關聯規則最典型應用是零售商店根據以往商品銷售記錄和商品擺放位置之間的關聯關系,利用關聯規則技術分析出它們之間的規律,以便將其他經常被一起購買的物品和暢銷商品擺放在一起,同時提高其他商品的銷售量。關聯規則在電力系統的電力使用情況的分析、高速鐵路運行過程中路況與車速的統計、電力營銷系統中當前數據和歷史數據的對比分析等SCADA系統中都有廣泛的使用。SCADA是物聯網知識中的一部分,SCADA中通過對數據挖掘的使用不僅提高了本身系統的功能性,并且對物聯網技術的發展與改進也有很大的作用。
隨著物聯網技術的高速發展以及計算機的廣泛使用,不論是企業管理軟件、網上購物系統還是網絡游戲系統中隨著時間的積累以及使用,其數據庫中存在著大量的數據,有些人覺得這些數據毫無用途,但通過數據挖掘技術的使用這些數據將變得非常有意義,它能提取出我們無法想象的但是卻有潛在用途的數據。各行各業隨著信息高速化的發展都積累了大量的數據,面對如此龐大的數據是棄而舍之還是加以利用,隨著數據挖掘技術的出現變得越來越明朗,利用數據挖掘技術不僅可以利用這些數據對以往信息作分析,也能給我們將來的決策給出科學的依據。比如在網上購物系統中,我們可以根據分析購買者每次購買衣服的價位以及衣服的款式,在其下次再購買或者上新貨時將適合該客戶的衣服推薦給該客戶,這樣不僅讓購買者感覺到購物的愉悅,同時也提高網上商店的銷售量,但這需要數據挖掘系統通過對該客戶的信息進行分析整理最后給出有意義的信息。同時隨著物聯網的快速發展,作為物聯網知識之一的SCADA系統也在不斷地發展,但SCADA系統的發展離不開數據挖掘技術。
本文對數據挖掘技術和SCADA系統做了簡要介紹,通過對SCADA系統功能的分析,闡述數據挖掘技術在SCADA系統中的作用。目前隨著SCADA系統的廣泛使用,數據挖掘技術也受到越來越多的關注,這也更突顯出數據挖掘技術在SCADA系統中重要的地位。
參考文獻:
[1]于春香.數據挖掘技術簡介[J].福建信息技術教育,2005,(1).
[2]毛國君,段立娟,王實.數據挖掘原理與算法[M].北京:清華大學出版社,2005.
[3]SFORNA M. Data Mining in a Power Company Customer Database[J].Electric Power System Research,2000,(8).
[4]張新程.物聯網關鍵技術[M].北京:人民郵電出版社,2011.
[5]高飛,薛艷明,王愛華,等.物聯網核心技術:RFID原理與應用[M].北京:人民郵電出版社,2010.
[6]周洪波.物聯網:技術、應用、標準和商業模式[M].北京:電子工業出版社,2011.
[7]任宗偉.物聯網基礎技術[M].北京:中國物資出版社,2011.
[8]張春紅,等.物聯網技術與應用[M].北京:人民郵電出版社,2011.