孫猛,鄧志成,丁剛
(上海發電設備成套設計研究院有限責任公司,上海 200240)
智慧電站是現代數字化科技與電力行業不斷發展與不斷融合的產物。數據中臺是通過數據技術,采集、計算、存儲、加工海量數據的同時,統一標準和口徑。隨著人工智能技術、互聯網技術、信息化技術等現代技術的不斷發展與延伸,其已經融入多個行業領域中,實現“智慧”建設與發展[1]。在創新型“數字中國、智慧社會”建設道路中,利用數據中臺統一智慧電站數據,形成標準數據并存儲,進而為電力工業提供高效服務。電力工業作為國民經濟的重要領域,電力工業的發展水平可以反映出一個國家生產力的水平,同時也是判斷國民經濟發展水平的一個重要依據。因此,無論是從社會發展角度還是國家發展角度,智慧電站建設都是電力行業目前以及未來發展的主要方向。
近幾年圍繞“智慧電站”建設也開展了大量的研究工作,相關領域研究學者以及專家學者針對如何建設智慧電站以及如何開發智慧電站平臺,提出了大量的研究方案和建議。智慧電站具有多項功能,其中最為重要的一項就是檢索功能,能夠對電站生產信息、設備信息、人員信息等所有信息進行綜合性檢索。文獻[2]提出基于圖數據庫和知識圖譜的電力設備質量綜合管理系統,根據圖數據庫的數據存儲和遍歷機理,設計領域知識圖譜模型,利用知識圖譜算法,設計高效分析檢索方法,采用數據間的關聯關系,分類分層組織電力數據,實現電力綜合管理。雖然該方法有了明確的技術理論作為理論支撐,能夠有效提高數據檢索查詢效率,但是該方法的數據檢索結果匹配度值較小,導致檢索精度較低的問題,已經無法滿足智慧電站信息檢索需求,為此,提出基于哈希算法的數據中臺在智慧電站中的檢索應用。
哈希算法是一種具有代表性的最近鄰檢索技術,該算法可以滿足大規模數據檢索對數據存儲空間和檢索精度的特殊要求,通過迭代計算的方式,逐漸挖掘與用戶檢索意愿相符合的信息,由于哈希算法具有收斂性高、檢索精度高、計算過程簡單等優點,已經被應用到多個領域中,并且也受到了研究者的密切關注[4]。哈希算法是根據信息長度等特征為檢索目標進行數據檢索的,將數據信息表示成一組長度一定的二值編碼,也就是哈希碼,并利用固定數值表示數據信息的比特值[5]。哈希算法在計算過程中最基本的步驟就是哈希函數的構造,哈希函數可以是線性形式也可以是非線性形式,該函數的構造精度將直接關系到數據信息檢索準確度和檢索速度,因此在哈希算法應用中如何構建一個有效的哈希函數是信息檢索的關鍵性問題。
哈希算法最早是由英國Gionis等學者提出的,簡稱LSH(Locality Sensitive Hashing),最早哈希算法被稱之為經典數據不依賴哈希算法,最初的哈希算法存在一定的局限性,后來經過不斷對哈希算法研究,得到了編碼長度更短、檢索效果更好的哈希函數以及二值碼,從海量數據中提取到有價值的哈希碼,并將哈希算法與人工智能算法進行了融合,衍生了一系列哈希算法的變種算法,變種算法包括了非監督哈希算法和監督哈希算法兩種,其中非監督哈希算法在計算過程中沒有使用到監督信息,其主要利用數據信息的分布特征和數據流行結構等生成較短的哈希碼,而監督哈希算法是在計算中應用到了監督信息,將哈希算法求解過程簡化為一個平衡圖劃分問題,利用二維拉普拉伸特征函數對數據信息進行不斷計算,求出哈希碼[6]。無論是非監督哈希算法還是監督哈希算法后來都被統稱為哈希算法,并且哈希算法還有嚴格的實驗數據保證哈希算法對數據信息檢索的效果[7]。哈希算法由于具有良好的計算功能,并且具有良好的檢索效果,為了更好地發揮其功能,被引用到數據中臺搭建中,通過數據中臺對海量數據信息進行計算,提高了哈希算法對信息檢索的匹配度。
在對智慧電站信息檢索之前,必須要對智慧電站中的信息進行準確描述,并提取到智慧電站數據信息的基本特征。在智慧電站中,數據信息多以數學表達式的方式表示,而數據信息的特征屬性主要包含普遍性、客觀性、依附性、共享性等特征屬性,這些特征屬性是描述智慧電站信息的關鍵參數[8]。此次采用數字信息描述方法對智慧電站信息進行描述,將智慧電站信息視為二維空間的f(x,y)連續函數,其中x坐標表示智慧電站信息的橫向連續構圖,y坐標表示智慧電站信息的縱向連續結構圖,運用該連續函數對智慧電站信息的物理層、邏輯層、語義層三方面進行描述,其中物理層包括智慧電站信息的大小特征以及輪廓特征;邏輯層主要包含智慧電站信息的數字邏輯關系和邏輯屬性;語義層描述主要用于表達智慧電站信息的主要內容、信息主題等[9]。通過以上對信息三個屬性的描述表示出智慧電站信息,將所有描述信息構建成一個智慧電站信息描述集合N,將其作為智慧電站信息的標簽,以此完成對智慧電站信息的描述。
智慧電站中每一個數據信息的空間維度是不同的,為了更加精準地檢索到智慧電站信息,本文根據對智慧電站信息的描述,建立智慧電站信息的加權圖模型,加權圖模型的建立主要是反映出智慧電站數據信息的空間特征向量,為后續基于哈希算法的數據中臺的計算提供依據[10]。加權圖模型建立的好與壞將直接關系到智慧電站信息檢索精度,因此本文在對智慧電站數據信息加權圖模型構建過程中,考慮了數據節點與對應邊的連接方式,以及定義數據信息相關邊的權值度量,將智慧電站全部節點數據組成一個n×m向量空間,其中n表示為智慧電站中已經描述完成的數據節點的數量;m表示智慧電站中各個數據節點的屬性個數,即智慧電站信息描述集合N中的子集數量。智慧電站中數據信息映射到加權圖模型中表現的是相互分散的數據點,為了能夠保證各個數據點之間有足夠的連接,并且還能保留加權圖的稀疏性,此次采用臨近圖來構建智慧電站數據信息加權圖模型。
首先根據對智慧電站數據信息的描述,計算出各個數據節點最鄰近的數據點,在數據描述集合N中,查看最鄰近的幾個智慧電站數據信息的流行結構屬性,如果數據信息的流行結構屬性特征相一致,那么幾個數據點創建一個連接邊,表示該幾個智慧電站數據信息相似,這樣可以獲取到由多個連接邊組成的單獨集群[11]。在整個加權圖模型中,利用智慧電站數據節點之間所連接邊上權值表示出檢索數據之間的關聯度,連接邊權值越大,則表示數據關聯程度越高,因此,在對加權圖模型構建中,還需要計算出各個連接邊的權值大小,此次利用智慧電站各個數據節點之間的距離,計算連接邊權值大小,假設智慧電站數據信息節點之間的距離函數為d(x,y),利用歐式距離表示出智慧電站數據節點之間的距離,其計算公式如下:

公式(1)中,n表示智慧電站數據信息的空間維數;xi表示智慧電站中在節點i的數據;xj表示智慧電站中在節點j的數據[12]。計算完各個數據節點之間的歐式距離后,利用高斯核函數定義數據xi與數據xj連接邊權重,其計算公式如下:

公式(2)中,w表示智慧電站數據xi與數據xj連接邊權重;δ表示高斯系數,通常情況下該系數值為0.1[13]。利用上述公式計算出智慧電站數據與數據連接邊權重值,并將其復制到由多個連接邊組成的單獨集群圖上,以此完成對智慧電站數據加權圖模型的構建。
在上文構建的加權圖模型基礎上,引入基于哈希算法的數據中臺,對智慧電站中數據進行檢索計算。計算過程主要包括三部分,首先在數據中臺中設計一個哈希函數,然后使用哈希函數對加權圖模型上的數據集進行哈希編碼,最后利用哈希編碼對智慧電站中的數據信息進行檢索,其具體計算過程如下。
根據智慧電站數據信息檢索需求,并結合數據信息描述內容,在數據中臺中,選擇線性哈希函數作為智慧電站數據信息哈希碼的計算函數,并在數據中臺中選擇非線性映射形式,將線性哈希函數與非線性映射形式結合,就可以表示出哈希函數的非線性形式,其用公式表示如下:

公式(2)中,f表示智慧電站數據信息的非線性映射;q、b表示數據中臺中哈希函數所需要學習的參數,其中q表示智慧電站數據信息的映射參數,b表示加權圖模型中數據信息的截距項參數[14]。利用哈希函數對加權圖模型上的智慧電站數據信息進行不斷的訓練和學習,學習哈希函數中的參數q、b,就可以得到用0或者1表示的哈希碼。
在數據中臺中,利用哈希函數計算到智慧電站數據哈希碼后,就可以在數據中臺中根據哈希碼對智慧電站數據集進行編碼,對智慧電站數據集中每一個數據賦予一個哈希二值碼M。為了節省基于哈希算法的數據中臺的存儲空間,使用四位的哈希二值碼對智慧電站數據集進行編碼,這樣還可以提高哈希算法的計算速度[15]。得到哈希二值碼M后,在基于哈希算法的數據中臺將哈希二值碼M組織成一個倒排的哈希表,以哈希桶作為表格的單元名稱,代表一個二維的哈希碼,為后續智慧電站數據檢索提供方便。
在上述兩個步驟基礎上,利用智慧電站數據集的哈希表對智慧電站最鄰近數據進行檢索,將檢索關鍵詞或者檢索圖片在基于哈希算法的數據中臺中轉化為哈希碼,將該哈希碼與智慧電站數據集的哈希碼進行比較,得到智慧電站數據與檢索詞的漢明距離;按照哈希表上智慧電站數據的排序,返回與檢索關鍵詞最相近的數據信息,即哈希表上最上端的數據,將其作為檢索結果在數據中臺上顯示,以此完成基于哈希算法的數據中臺在智慧電站中的檢索設計。
實驗選取某智慧電站數據集作為實驗對象,該數據集名稱為HDKD502,數據樣本數量為10000000個,數據集維度數為3642,存儲空間為765M。實驗利用IIJS軟件,分別采用此次設計方法與文獻[2]方法對該智慧電站數據集進行檢索,測試出檢索結果與關鍵詞的匹配度值。實驗中對該數據集描述信息為236M,構建的加權圖模型中數據節點連接邊數量為1369652條,在基于哈希算法的數據中臺中計算得到的哈希碼為1。實驗設計了8個檢索關鍵詞,其哈希碼分別為0.95、0.36、0.58、0.46、0.95、0.21、0.52、0.55,記錄兩個檢索方法所得到的檢索結果,并對匹配度值以量化后的形式表示,其范圍在0-1之間,匹配度值越接近1,則表示檢索結果與檢索關鍵詞的相符程度越高,檢索精度越高;匹配度值越接近0,則表示檢索結果與檢索關鍵詞的相符程度越低,檢索精度越低。實驗將匹配度值作為檢索結果,其實驗結果如表1所示。

表1 兩種方法檢索結果匹配度值對比
從表1中的數據可以看出,文獻[2]方法檢索結果與檢索關鍵詞的匹配度值在0.168-0.593之間,匹配度值較小,接近0,而設計方法檢索結果與檢索關鍵詞的匹配度值在0.989~0.999之間,匹配度值較大,接近1,由此可知,設計檢索方法檢索精度較高,匹配度值較大。
本文對基于哈希算法的數據中臺在智慧電站中的檢索應用進行了研究,采用哈希算法,結合數據中臺技術,針對智慧電站數據檢索現狀,提出了一套新的智慧電站數據檢索方法,并利用實驗驗證了基于哈希算法的數據中臺在智慧電站中具有良好的應用價值,提高了智慧電站信息檢索精度,為電站運營管理提供高水平、高質量智慧電站平臺。但由于智慧電站建設研究涉及的范圍比較廣泛,此次僅針對智慧電站檢索功能的設計與開發進行了研究,對智慧電站建設方面的研究在內容上和深度上還不夠,今后有待對智慧電站建設進行進一步的探究,促進電力工業不斷發展。