黃宗碧
(武漢泰坦信息科技有限公司,湖北省武漢市 430077)
“從完全不同的線索出發,用不同的方法也可以得到同樣的數據——所有這些方法都支持同一個觀點,這個論據是很重要的,因為它說明了(自然規律)本質上的一致性。”[1]這是愛因斯坦早在1938年即向世人宣告的具有認識論高度的觀點。也是近一百年來大量科學研究中所一貫秉持的主流觀點。放眼當今的神州大地,千百條江河不舍晝夜的奔流,全球最大規模的發、變、輸、配電系統將其中所蘊含的巨大能量源源不斷地轉化為電能,供給億萬用戶,其間所產生的海量生產數據、監測數據、計量數據、檢修實驗數據、管理維護數據以及相關的水情、氣象、地質、航運、漁業、環保、經濟數據一起,正標識著當今的生產力水平和社會生產基本規律。而其中的“智慧化”進程,則正詮釋了現代科技對于自然規律的更深層次的認知水平,以及更高層面的運用水平。
“智能水電 ”已經不僅僅只是作為一個新概念被探討和構想,而是和 “智慧電網”“智慧用電”一起成為標定我們所處時代節點的“技術標簽”,成為新時期電力建設的實際模板,成為更高效、更經濟、更環保、更安全的生產組織形式的基礎架構,以及更新、更快、更好、更利于持續發展的技術創新源泉。
本文作為本刊《人工智能技術在水電狀態監測中的需求及應用》[8]一文的續篇,將進一步介紹具體的“智慧水電”AI大數據應用及其優點,并將展開闡述其中的關鍵性問題,包括:復雜監測系統互聯所導致的多源數據融合問題,利用智慧平臺實現開放式智慧監測系統,以及中國特色網絡環境中的AI大數據脫敏應用,并介紹相應已經獲得應用效果的實例。
《自然》雜志在150周年紀念文章中提到:“在過去的150年里,關于什么是數據、哪些數據是可靠的以及誰擁有這些數據的觀念發生了巨大的轉變。數據曾經被認為是具有穩定的固有價值,其重要性由少數專業解釋人員決定,但現在,數據的價值已經是可重復利用的。而且,通過數據創造更大價值的限制,似乎只取決于數據在多大程度上被跨環境調動起來,并與其他領域的人分享的勇氣!隨著數據在數量、種類和價值上的增長,數據已經開始驅動發現的過程。”[2]在智慧水電領域,人工智能技術使得數據在各類智能應用中獲得了高增值表現,正成長為可以具體支撐相關技術進步的“實體”資源。AI大數據應用也成長為智慧平臺上的具體服務形式。
表1為實際某水電廠嘗試AI大數據分析的主機數據構成,以及某檢修公司的電網設備數據構成。

表1 數據資源實例:主機數據及電網設備數據Table 1 Data resource : main-generator data and power grid equipment data

續表
由表1可以看出,同級別電廠、電力公司的數據基礎已經普遍具備,甚至某些初步數據分析也已經完成,但顯然還沒有達到“智慧化”的應用水平。這其中的核心問題是:智能數據分析和傳統數據工程的區別是什么?人工智能技術相對傳統統計分析技術的提升到底是什么?
人工智能學習算法可以用如下通用形式刻畫:

其中,X為原始數據空間,Y為分析目標空間,F=X→Y為輸入、輸出間的映射關系,S(F(X),Y)為監督函數(因其差別可以分為監督學習Supervised Learning、 無監督學習Unsupervised Learning、半監督學習Semi-Supervised Learning)[5],?i(X)為學習參數矩陣,為學習評價結果,為學習評價函數。
由此可以清晰看出,學習算法具備根據不同輸入集訓練出不同針對性分析成果的獨特能力,正是這一本質上的優點使得傳統的數據工程技術和統計分析技術迎來了顛覆性的發展乃至革命。數據工程的核心任務是數據層的提取、變換及載入;而AI數據技術的核心任務是價值層的發現、獲取及凝練。傳統統計分析的典型模式是建立確定性的模型、實現確定性的算法,獲得具有確定性效果的分析結果;而AI數據技術的典型模式是建立通用型的模型、架構進化型的算法,獲得具有持續改進性效果的分析結果。
從更深的分析層次而言,AI大數據分析比傳統數據分析多了一個至關重要的層次——認知層次。這個層次以學習的態度試圖回答“數據所反映的內在本質規律是什么?”——這將對我們正確理解、使用數據起到決定性的作用。可以說,認知層的探索性實現完全顛覆了數據的價值體系和使用方式,是目前正在進行中的一場關于數據分析技術的革命。

圖1 AI大數據分析與傳統數據分析的差異Figure 1 Differences between AI big data analysis and traditional data analysis
例如圖2所示,這是一臺水電機組的健康狀態分析結果。數據經過基于AI學習算法的“健康狀態模型”[8]進行計算。計算結果以紅色數據點表示,健康樣本以綠色曲線表示。橫軸表示樣本空間,縱軸表示健康狀態的優劣(下方為優)。從這個結果我們可以明確地認識到如下內在規律:
(1)這臺機組的健康狀態在整個樣本空間中體現為比較復雜的非線性形式,不適合以某個單一數值標準(如報警限)來簡單評價機組狀態。
(2)該機組的健康狀態存在一個明顯的過渡區(彎折區,對應“亞健康”狀態),此時可以明確改變機組運行方式以避免進入危險區,而無需盲目報警。
(3)最右側危險區的狀態變化最劇烈,有發生偶然性破壞或失效的可能。應當從調度方式中予以避免。
(4)左側健康區占據了樣本空間的絕大部分,說明該機組的健康工況范圍大,適合主力發電運行。
(5)健康區狀態變化平穩,接近線性,可以利用線性回歸模型進行狀態預測。

圖2 機組健康狀態分析實例Figure 2 An example of unit health status analysis
這些客觀的規律性認識已經深入到機組的內在運行機理,包括了報警/預警模式優化,運行方式優化,調度方式優化,運行成本預測,服役壽命預測,檢修成本預測等諸多成果。這種深刻性和實用性是傳統數據分析手段所難以達到的。
進一步,將AI學習算法基于宏觀數據視角和微觀數據視角分別應用后,可以產生如下豐富的AI大數據應用成果,歸納總結如表2所示。

表2 AI大數據應用效果Table 2 Application effects of AI big data
所以,AI大數據應用的實質就是:由AI自主完成數據分析,自動以展示界面形式形成分析結果,并主動將結果推送給人使用,從而幫助人達到更高的認知水平,實現“智慧型”工作。
在“智慧電廠”“智慧電網”和“智慧用電”等智慧平臺的建設過程中,存在一個共同性的難題,即多個復雜數據系統的互聯,以及由此帶來的多源數據融合問題。
隨著電網及電力技術的發展,自動化測控大系統的智能提升,網絡信息化不斷引入,電力企業也步入了一個新的歷史階段——不再局限于離散設備的智能化或者自動化,而是覆蓋了調度、發電、輸電、配電、變電、用電等所有相關環節的完整體系。新技術、新電壓等級的應用,在提升電力企業自動化、智能化水平的同時,電力設備的組件數量、子系統和其下分支數目也在迅猛增加,系統間的交聯方式更顯復雜,離線數據(如儀表觀測、監盤、表觀缺陷等)數目龐大、難以處理等新問題也已經出現。在不遠的將來,多個、多種或多級監測系統的數據以及人工數據、實驗數據、廠家數據的互聯使用將成為必然。然而,這些非同源數據是無法簡單統一使用的。
以前文[8]得出的故障率參數為例,故障率實際是與采樣方式及數據量有關的:

在互聯的不同系統中,由于采樣方式及數據量均不相同,所以非同源數據間的對比、運算、對應實際上都不再可行,不加區分地使用非同源數據將導致完全錯誤的結果。這種情況其實已經在現實中屢屢表現出來:在一個復雜系統中,總有一些儀器的誤報率遠高于系統的平均水平。
要解決這一根深蒂固的難題,我們需要從更深刻的角度來考察量測數據。量測,一方面意味著測量值的獲取,另一方面也意味著這種獲取可以在多大程度上被我們信賴。或者用數學語言來表述:每一個測量數據都對應著一個“置信度”,或者稱為測量不確定度。這種不確定度既是獨立的,又是密切與測量結果相聯系的,它既是表明測量結果分散性的一個參數,也是對導致出現這種分散性的“潛在自然規律”的客觀描摹。在對測量的嚴格完整的表示中,應該同時包括測量結果與測量不確定度。所以,解決多源數據融合問題的首要關鍵就是引入數據置信度,將單純的數據一元運算擴展為(數據,置信度)二元組的相關計算。
一個系統的數據置信度,或者叫測量不確定度可以由式(3)描述:

其中,(θ1,θ2)為置信區間。?(θ)為概率分布。當計算結果涉及多個來源測量數據時,可以按各量的方差和協方差算得合成置信度。它是測量結果標準偏差的估計值[9],實際上描述了多源變量的聯合概率分布特性,也表征了計算結果的分散性起因。置信度的合成方法,明示了低維數據和高維數據的不同處理方法,內含了依據多維數據所做評定的可靠程度。因此不僅不會產生大量沖突性誤報,反而可以清晰展示出不可信數據所暴露出的系統隱患或測量缺陷。
例如,圖3為某電廠3個子系統數據的綜合處理,清晰顯示了多源數據聯合分布概率的異常變化,即置信度異常變化。這種異常并不體現在具體數值的異常上(因而并未被監控系統發現),而是體現在異常的數據分布規律上(出現了7次大的異常)。特別嚴重的是,異常發生期間,數據平臺的監視、決策、管理、預判都是根據這些不可信數據做出的,這實際給系統安全穩定運行帶來了極大的隱患。
其次,在低維擴展到高維的情況下,還有一個特別需要注意的問題是:隨著多源數據融合技術的發展,越來越多的低維數據分析手段被“不自覺地”擴展到了高維,而這實際上是有巨大數學風險的。純以數學上的嚴格正確性而論,很簡單地從二維到三維的擴展都不一定必然成立,一個著名的反例是:二維面積的“有限可加性”并不能導出三維體積的“有限可加性”。
事實上,這就是著名的希爾伯特第三問題[10]所闡明的內容。因此,AI大數據應用必須要基于嚴格的數學方法,而不是近似的工程處理手段。這也是人工智能技術區別于數據工程技術的顯著特點。

圖3 多源數據置信度變化實例Figure 3 Example of multi-source data confidence change
正如DeepMind在論文中所明確指出的:“(人工學習網絡)能夠模擬各種各樣的問題的解決方案,包括有監督的和無監督的;但隨著它們的大小和表達能力的增加,模型的方差也會增加。……通常的解決方案是尋找大量的訓練數據,希望這些數據足夠接近所測試領域的數據分布——然而,這些數據不一定容易獲得。”[3]只有直面數據分布的差異化問題,才能充分、正確、合理地使用智慧平臺上的海量多源數據。
圖4是某水電機組的AI大數據能效分析實例,黃色表示輸入能量狀態,綠色表示輸出電能狀態。由此可以清楚判斷,在圖線的中部區域,對應著機組的最佳效率運行區,此時較少的輸入依然獲得了幾乎最大額度的輸出。這種能效規律的全面獲取是以往通過機組實驗途徑無法實現的。

圖4 AI大數據能效分析實例Figure 4 An example of energy efficiency analysis of AI big data
但特別有趣的是,上例所利用的原始數據中并沒有完整的效率測量數據。AI大數據分析技術可以使用和機組能效相關性最強的“間接數據”進行計算,從而擴展出原本系統并不具備的相關監測與分析能力。這就是“智慧水電”中的開放式監測的典型應用場景。
再舉一個數學上更為嚴格的例子,根據平均遍歷定理[11],有:

其條件為:

即,經歷足夠長的時間之后,狀態量關于狀態空間的平均收斂與關于時間的平均收斂相等。簡單表述,就是可以通過狀態量分析設備的服役壽命(時間)。因此,我們并不需要為全壽命監測再投入一整套軟硬件系統,而是通過AI大數據分析就可以嚴格、準確、高效地在智慧平臺上實現此種功能。
“新一代機器學習技術(如AlphaGo)不是通過一套預先編寫的指令進行訓練,而是通過練習和反饋。事實證明,這與人類兒童學習技能的方式有著驚人的相似之處。”[4]基于智慧平臺的開放式智慧監測系統,具備運行過程中的性能擴展、提升、學習進步的能力,從而使得針對“跑、冒、滴、漏”等無從規劃的監測對象有了切實合用的技術手段,也使得“電磁泄漏監測”等全新技術手段得以展示其廣譜、靈敏、高效的優點。
“如果科學僅僅是在關聯數據,并不告訴我們物理世界實際是什么樣的,那么就很難看到花費在這個事業上面的所有時間、精力和人力是值得的。它的成就就會顯得過于貧乏,不足以證明有必要做出如此大的投入。”[1]通過開放式智慧監測系統,就可以借助人工智能手段,真正從機理層面觀察、了解、認知、把握物理世界的客觀規律。
“在物理上準確地表征一個事件發生的地點與時間比歷史更為重要,因為這些數據是定量描述的根本。”[1]反而言之,如果我們隱藏掉這些關鍵的時空信息,只留下通用規律的數據表述。那么,這個數據其實就已經實現“脫敏”,可以安全、廣泛、充分地發揮其內在價值了。
例如圖5展示了采用AI大數據技術對合格的三相電量調節數據進行的規律“發掘”,由圖可見,在不同工作區域,系統采用了較大差別的控制策略,自然也就獲得了完全不同的控制效果。既然所有的生產指標都是合格的,就可以根據能耗、效益指標來選擇最優運行方式。重要的是,這種規律性成果即使是分享給其他單位,依然不會泄露用戶的敏感信息,卻還是可以起到幫助兄弟單位優化其效益的顯著效果。
本文所選取的所有實例,均以脫敏方式展示出來。這些分析成果并不需要標注時間、地點等用戶信息,也不需要提供測點名稱、具體量值、計量單位、坐標比例等原始數據。在AI大數據應用中,應用的核心價值是數據的內在規律,而不是數據的秘密屬性。同理,在AI大數據分享中,廣大用戶分享的也是這種共性的規律及知識價值,而不是分享機密。

圖5 數據規律實例Figure 5 Examples of data rules
在這種本質安全的脫敏技術支撐之上,多個AI服務可以同時并列運行于“容器云”中,互不沖突。各種AI服務也能以“試用”“租用”“自有”等多種形式快速推廣,大大提升了項目落地的速度和應用效果。另外,用戶也可以只在當前最優先發展的層級展開自建工作,而將其他層級的工作以服務方式購置。甚至,用戶可以打造完全屬于自己的“虛擬云應用”,卻沒有傳統的機房運維、平臺運維、應用運維負擔,從而創建出真正便捷高效的“綠色”智慧平臺。這一點,對于擁有全球最大規模專業“內網”資源的中國電力企業而言,是極其難得的時代機遇和得天獨厚的環境條件。

圖6 AI大數據應用推廣方式Figure 6 Application and promotion of AI big data
如此,借助國家電網、南方電網已經建成的“內網”和正在推進的“內網云平臺”,世界最大規模的電力系統完全有能力建立起具有世界一流價值的數據應用體系,以及人工智能應用體系。例如眼下,正在飛速打造的“雄安泛在電力物聯網綜合示范區”已經展現出智慧電力的曙光。
1984年普朗克獎章獲得者,物理學家 Res Jost曾最先描述過:每一科學分支都遵循一種“三階段發展模式”[12],我們可以用來借鑒思考“智慧水電”的建設工作:
第一階段為定性階段,主要是收集和描述事實,以及提出普遍的分類原理和解釋。這就是大數據平臺建設之前的水電及電力自動化系統運行狀態寫照。
第二階段為定量階段,主要是進行定量的測量,并用方程來表述定律。這就是大數據平臺建設之后,利用數據建模、回歸分析、統計計算來描述水電及電力自動化系統運行狀態的實際情況。
第三階段則又是定性的,這時將在更深刻的層面上理解定量理論的內涵,并且上升到用定理而不是方程來描述所得到的自然現象的規律。這就是將人工智能技術應用于水電及電力大數據平臺后將要取得的新的進展——“規律發現”及“知識發現”!這不僅僅只是技術手段的提升、發展和延伸,更多的是相關科學內容的認知水平將在一個前所未有的更高層面上被展現出來。
人工智能,將不僅僅作為工具,還將成為人類的科學及專業認知能力的一個有機組成部分,進而確立為社會及科技進步的強大基礎推動力。科技部高新司司長秦勇說,新一代人工智能重大科技項目選擇大數據智能、跨媒體智能、群體智能、混合增強智能和自主智能系統五個主力方向,從基礎理論、支撐體系、關鍵技術、創新應用四個層面進行系統性、前瞻性任務布局。以“智慧電廠”“智慧電網”和“智慧用電”全面布局來整體提升電力自動化水平的技術浪潮正在到來,以“內網云平臺”“定制云服務”“跨部門數據應用”為新增長點的業務模式正在迅速普及。
《自然》雜志寫到:“中國不僅擁有世界上最多的人口,而且有望成為世界最大的經濟體——它還希望在人工智能方面引領世界。”[6-7]作為中國電力事業建設者、奮斗者中的一員,我們“不忘初心、砥礪前行”!