許力方,楊 正,姚 陽
(國網冀北綜合能源服務有限公司,北京 100142)
半監督學習算法將監督學習與無監督學習思想融合在一起,在應用過程中,大量使用標記數據與未標記數據來完成系統主機所分配的模式識別工作。與其他類型的識別算法相比,半監督學習算法依據假設模型判斷數據信息參量所處的傳輸等級,一般來說,傳輸速度越快的數據信息,其自身所具備的傳輸等級也就越高,在半監督學習算法的作用下,系統主機在識別該數據時所消耗的時間也就越長[1-2]。當信息與信息之間的關聯程度較小時,半監督學習算法對于信息參量的定義標準也就相對較為寬泛,同一識別原則的信息參量都可以被存儲在同一個數據集合之中。
新能源具有資源豐富、碳元素含量低、分布廣泛等多項應用優勢[3]。隨著新能源資源使用量的增大,其在運行過程中可能會出現大量的錯誤數據,這些錯誤數據與常規信息參量混合在一起,會造成系統主機辨識能力的不斷下降,并最終導致數據信息錯誤分揀行為的出現。改進式k-prototypes聚類型系統雖然能夠對常規信息與新能源運行錯誤數據進行分類存儲,但由于處理器元件的執行運轉行為相對受限,故而在精準檢測運行錯誤數據參量方面的處理能力相對有限[4]。為解決上述問題,以半監督學習算法為基礎,設計一種新型的新能源運行錯誤數據辨識系統。
PT-LAB 處理平臺結構如圖1 所示,其是一種嵌入式硬件應用結構,在新能源運行錯誤數據辨識系統中,負責對待識別信息參量進行聚合處理[5]。由于相鄰端口節點之間的連接方式并不唯一,所以PTLAB 處理平臺也具有極強的運行靈活性。

圖1 PT-LAB處理平臺結構
在PT-LAB 處理平臺中,目標機與I/O 接口作為一個結構模塊,負責分析數據傳輸行為,并可以從已存儲數據文件中提取待處理信息參量[6];數據分辨結構、新能源運行機制、聚合節點作為另一個結構模塊,負責分析新能源運行錯誤指令的傳輸情況,并可以根據系統主機的應用能力更改待處理新能源運行錯誤數據的實時存儲位置。
數據分辨模塊可以在半監督學習算法的支持下,借助傳輸信道組織,提取PT-LAB 處理平臺內部已存儲的新能源運行錯誤數據參量,并可以將未完全消耗的信息文本反饋至下級運行指令分析模塊之中[7-8]。在實際應用過程中,數據分辨模塊的搭建必須完善如下幾個結構單元之間的實時連接關系。
1)ExcuteUpdate 設備:負責對新能源運行錯誤數據進行入庫處理,借助聚合節點與PT-LAB 處理平臺建立連接關系,可以在調度待處理信息參量的同時,提升系統主機對于新能源運行錯誤數據的辨別能力;
2)search 設備:負責更新待檢測的新能源運行錯誤數據參量,在PT-LAB 處理平臺的作用下,該設備結構可以更改數據信息文本的傳輸形式;
3)setCell 設備:負責連接ExcuteUpdate 設備與search 設備,可以在調取PT-LAB 處理平臺中已存儲新能源運行錯誤數據信息參量的同時,擴充與系統數據庫主機匹配的信息承載能力。
運行指令分析模塊由bak 設備階層、核心應用階層、數據庫應用階層三部分共同組成。其中,bak分析設備負責對新能源運行錯誤數據進行分流處理,并可以按照分析指令的形式,將完成初步甄別的信息參量反饋至核心應用階層之中[9-10]。核心應用階層可以在分辨運行指令文件的同時,將新能源運行錯誤數據分成多種存儲類型,并通過正向反饋的方式,將已接收執行指令反饋給下級應用主機。運行指令分析模塊的結構如圖2 所示。

圖2 運行指令分析模塊的結構
數據庫應用階層存在于運行指令分析模塊最下端,以數據庫主機作為核心應用結構,可以完整存儲上級bak 設備與核心應用設備輸出的新能源運行錯誤數據。
在各級硬件執行結構的支持下,按照半監督支持向量求解、UCI 學習參數計算、數據庫E-R 圖建立執行流程,實現系統的軟件執行環境搭建。兩相結合,完成基于半監督學習的新能源運行錯誤數據辨識系統設計。
對于新能源運行錯誤數據辨識系統而言,半監督支持向量的應用目的在于建立低維輸入數據與高維輸出數據之間的非線性映射關系,由于系統主機的執行能力必須保持絕對穩定的存在狀態,所以在提取半監督支持向量時,要求低維數據與高維數據之間的映射關系也必須保持穩定[11-12]。設i表示一個隨機選取的新能源運行錯誤數據參量,e表示信息規劃系數的最小取值結果,ui表示基于參量i的數據信息監督特征,χ表示信息參量監督系數,R表示半監督學習行為指令的慣常賦值。聯立上述物理量,可將新能源運行錯誤數據的半監督執行指令運行表達式定義為:
新能源運行錯誤數據辨識系統的半監督支持向量定義表達式為:
隨著系統主機內新能源運行錯誤數據累積量的增大,半監督支持向量的賦值結果也會不斷增大。
UCI 學習參數決定了系統主機對于新能源運行錯誤數據的辨識與處理能力,在已知半監督支持向量取值結果的情況下,UCI 學習參數的計算數值越大,系統主機對于新能源運行錯誤數據的辨識與處理能力也就越強[13]。由于新能源運行錯誤數據傳輸行為具有明顯的可變性,所以在搭建辨識系統應用環境時,要求UCI 學習參數必須反映出待處理信息參量的實時排列與分布狀態[14]。設s1、s2表示兩個隨機選取的新能源運行錯誤數據辨識參量,且s1≠s2恒成立,β表示半監督學習行為的表現系數,a表示數據信息參量的拆分系數。聯立上述物理量,可將UCI 學習參數求解式定義為:
式中,?表示新能源運行錯誤數據在辨識系統主機中的學習特征值。在求解UCI 學習參數表達式時,要求系數β、系數a的取值必須同時大于自然數“1”。
在辨識系統中,數據庫主機負責存儲新能源運行錯誤數據,并可以根據提取規則的不同,建立與已存儲信息參量相關的文件執行指令[15-16]。E-R 圖(如圖3 所示)決定了數據庫主機的運行能力,在半監督學習算法的作用下,新能源運行錯誤數據所屬位置必須得到清晰標注,系統主機才有可能具備準確辨識數據信息參量的能力[17-18]。若將半監督支持向量、UCI 學習參數看作已知條件,則可認為待存儲的新能源運行錯誤數據總量越大,數據庫主機所具備的信息轉存能力也就越強。

圖3 數據庫E-R圖
至此,完成系統軟、硬件執行環境的搭建,在半監督學習算法原則的支持下,實現新能源運行錯誤數據辨識系統的順利應用。
按照圖4 所示流程對新能源運行錯誤數據進行分流處理;然后,分別應用實驗組(基于半監督學習的新能源運行錯誤數據辨識系統)、對照組(改進式k-prototypes 聚類型系統)應用系統對所選實驗主機進行控制;最后,對比實驗組、對照組實驗變量的數值變化情況。

圖4 實驗數據處理流程
系統主機對于待傳輸新能源運行錯誤數據的提取準確度μ可表示為:
其中,μ1表示主動分辨系數,μ2表示被動分辨系數。
圖5、圖6 反映了實驗組、對照組μ1與μ2系數的具體數值變化情況。

圖5 主動分辨系數μ1

圖6 被動分辨系數μ2
分析圖5 可知,在整個實驗過程中,實驗組主動分辨系數的均值水平高于對照組。
分析圖6 可知,實驗組、對照組被動分辨系數均呈現出來回波動的數值變化狀態,但明顯實驗組系數的均值水平更高。
聯合圖5、圖6 對準確度指標μ進行計算,實驗詳情如表1 所示。

表1 準確度指標μ
分析表1 可知,當實驗時間等于35 min 時,實驗組準確度指標的最大值為91.5%;當實驗時間等于15 min 時,對照組準確度指標的最大值為71.2%,與實驗組最大值相比,下降了20.3%。
綜上可知,在半監督學習算法的作用下,系統主機對于新能源運行錯誤數據的提取準確度最大值超過了90.0%,在解決數據信息錯誤分揀問題方面具有較強的實用性價值。
該文依照半監督學習算法,規范PT-LAB 處理平臺、數據分辨模塊與運行指令分析模塊之間的實時連接關系,又聯合半監督支持向量與UCI 學習參數,完善數據庫E-R 圖的表現形式,優化設計了新能源運行錯誤數據辨識系統。在實用性方面,設計系統主機對于待傳輸新能源運行錯誤數據的提取準確度均值接近90%,能夠較好避免數據信息錯誤分揀行為的出現。