基于TensorFlow 框架的改進BP 戶變關系識別方法

2021-09-05 06:52:40孫志達吳棟萁李海波

浙江電力 2021年8期

楊濤，孫志達，唐明，吳棟萁，王劍，李海波，雷一

（1.國網浙江省電力公司電力科學研究院，杭州 310014；2.清華四川能源互聯網研究院，成都 610200）

0 引言

精確的戶變關系是電網公司實現營銷精細化、降損增效的基礎，也是保證線損準確計算的前提。電力系統配電網環節的用戶供電檔案和臺區供電關系錯亂，會導致臺區線損率分析、故障定位等一系列應用無法有效開展。目前電網公司梳理臺區戶變關系的主要方式依舊是人工巡查或借助臺區貫通儀等專用設備[1-4]來識別臺區信息，由于載波信號仍可耦合到其他變壓器產生跨臺區通信等難題，使得臺區識別準確度較低，此外需要在線路上加裝采集器等硬件，全面部署受成本條件限制。

部分學者利用智能電表量測數據開展戶變關系研究。文獻[5]基于用戶電壓數據與變壓器低壓測量數據的相似度，利用灰色關聯方法識別用戶所屬臺區及相別。文獻[6]利用電壓時空相關性，對用戶所屬臺區進行分類判別。文獻[7]提出基于臺區相線相位差異的統計特征判定用戶臺區歸屬。上述研究指出相同戶變關系的電壓數據在時空上的相關性，表明通過數據層面識別戶變關系的可行性，但在適用性方面還需繼續研究。此外，上述研究所使用的電壓數據在維度上和體量上各不相同，但總體數據樣本不大，如何利用積累的海量電壓數據，挖掘有用信息以準確識別戶變關系還未見相關報道。

隨著數據挖掘和機器學習技術的不斷發展，人工智能神經網絡算法被廣泛用于模式識別、聚類和分類等場景，其中BP（反向傳播）神經網絡具有極強的函數逼近與模式分類能力，廣泛用于負荷預測、負荷分類[8-10]等領域。文獻[11]采用并行集成BP 算法對海量負荷數據進行高效分類；文獻[12]采用BP 算法將臺區樣本分類，解決了臺區線損率數值分散的問題；文獻[13]提出一種基于模糊聚類與改進BP 算法的負荷特性曲線分類方法；文獻[14]選取隱藏層節點數為6 的前向BP神經網絡作為跨臺區用戶識別模型進行識別。然而傳統BP 算法使用梯度下降方法優化神經網絡參數最小化損失函數loss，雖然實現簡單，但是容易收斂到局部最小值點，并且在處理高維度數據集時速度慢、效率低。同時，由于多隱含層、多節點BP 算法的復雜性，構建BP 算法的計算過程需要耗費大量時間，BP 算法的運行效率較低，一般采用優化算法對傳統BP 神經網絡進行改進，例如MOBP，VLBP，CGBP，LMBP[15]，IGRA-BABP[16]，MPSO-BP[17]，IFOA-BP[18]，主要集中在學習參數的選取、網絡結構、收斂性方面的改進，總體上取得了一定的效果，但仍存在計算復雜、增加較多額外計算量的問題。

Adam（自適應矩估計）優化算法通過計算梯度的一階矩估計和二階矩估計為不同的參數設計獨立的自適應性學習率[19]，Adam 算法有很高的計算效率和較低的內存需求。同時，針對電壓數據全正的特性，可以進一步采用零均值化優化[20]，使網絡參數的更新方向不再僅決定于梯度的符號，可在一定程度上加速神經網絡迭代收斂速度，從而提高效率。

TensorFlow[21]是目前使用廣泛的深度學習框架之一，可簡化深層神經網絡的構造過程，在一個非均勻分布的計算環境下加速學習過程，有助于大規模求逆問題和局部差分求解。TensorFlow采用數據流圖來表示和組織計算，在TensorFlow 框架上部署BP 可顯著加速求解過程，提高運行效率。

本文提出一種基于TensorFlow 框架的改進BP 戶變關系識別方法，旨在從電壓數據層面挖掘潛在的戶變關系。通過基于形態相似指標的K-means 算法對歷史用戶電壓數據形態聚類，將各類簇與其所對應的變壓器相別匹配，添加類別標簽構建BP 的電壓數據訓練樣本；在TensorFlow框架上實現零均值優化和Adam 優化對BP 改進，通過對部分訓練樣本學習，進而對當前的用戶日電壓曲線進行分類，識別所屬變壓器和相別。

1 臺區電壓數據的相關性

典型的低壓配電系統變壓器和用戶連接關系如圖1 所示。10 kV 等級線路經過接入的10/0.4 kV 配電變壓器降壓到380 V，配電變壓器的低壓出口相分別連接到各個用戶，三相負荷總體平衡，一個供電臺區根據負荷的大小可能有多個配電變壓器供電。

由圖1 可知，戶變關系由用戶和變壓器的連接關系唯一確定。圖2 為相同戶變關系的變壓器-用戶連接等效電路圖，設變壓器出口相電壓為u0，則用戶n 的電壓un可表示為：

圖1 變壓器和用戶連接關系示意圖

圖2 同一變壓器出口相線上等效電路

式中：Z0為變壓器至用戶的線路阻抗（R0和X0分別為電阻和電抗）；Zn為用戶等效阻抗（Rn和Xn分別為等效電阻和等效電抗）。

相對于高壓和特高壓輸電線路，低壓配電線路的電抗參數遠小于電阻參數，即R0?X0，Rn?Xn，故式（1）可進一步表示成：

根據式（2），同一變壓器出口相線上各用戶之間的電壓近似線性關系，具有相同的變化趨勢。

圖3 展示了某小區2 個供電臺區A 相10 個用戶電壓數據，數據采集間隔為30 min，可以明顯看到同一供電臺區、同一相線上的電壓數據變化趨勢相同，而不同臺區間電壓數據變化趨勢沒有較強的相關性。因此，通過分析電壓數據的變化趨勢、形態相似性等特征，可以挖掘出對應的戶變從屬關系。

圖3 電壓數據的時間相關性

2 基于形態相似性的歷史用戶電壓數據聚類

BP 算法具有較強的模式識別能力，但需要大量訓練樣本的支持。為了能對各個變壓器所連接的所有用戶進行區分，首先對部分歷史數據聚類，由聚類結果匹配變壓器相序，從而構建出BP算法的訓練樣本。

聚類算法大多以ED（歐式距離）為相似性指標對數據向量進行聚類[22-25]。然而，隨著配電線路長度不同，變壓器與用戶間的阻抗大小不同，變壓器出口電壓值與用戶電壓數據存在偏差，而電壓數值的高低變化和增減趨勢卻十分一致。提出一種基于Spearman 形態相似性指標的K-means聚類算法，對用戶歷史日電壓數據進行形態相似性聚類，并對類簇匹配變壓器及相別，為分類算法提供訓練樣本。

2.1 形態相似性

Spearman 相關系數是統計學中利用單調方程評價兩個統計變量的相關性指標，表示兩個獨立變量的相關方向，Spearman 系數表明獨立變量X 和依賴變量Y 的相關方向。若當X 增加時，Y趨向于增加，則Spearman 系數為正；若當X 增加時，Y 趨向于減少，則Spearman 系數為負。Spearman 系數為零，表明當X 變化時Y 沒有任何趨向性。當X 和Y 越接近完全的單調相關時，Spearman 系數的絕對值會增大；X 和Y 完全單調相關時，Spearman 系數的絕對值為1。其計算公式為：

式中：ρ 表示任意兩向量間的Spearman 系數；D為向量維度；dt為兩向量中元素排序差分集合。

2.2 基于Spearman 互相關系數的K-means聚類

K-means 聚類具有對少量數據聚類收斂速度快、聚類復雜度低及可擴展性好的優點，通常以ED 作為樣本間相似性評價指標來進行簇中心初始化、簇劃分、簇中心點更新與收斂判斷。本文將處于同時刻具有相同上升或下降趨勢的用戶日電壓曲線分為同一類別，以Spearman 互相關系數作為相似性評價指標，代替ED 對用戶歷史電壓曲線進行聚類，具體步驟如下：

（1）步驟1：簇中心初始化。為防止初始類簇中心隨機選取存在偏差，將各變壓器出口電壓曲線作為初始類中心M={M1，M2，…，MK}。

（2）步驟2：簇劃分。按照式（3）計算每個用戶日電壓曲線與類中心的Spearman 互相關系數，并將各對象分配給相似性更高的類中心，形成K個類簇。

（3）步驟3：簇中心點更新。按照式（4）計算各類簇中每個電壓曲線與其所在類內所有數據向量的相似度之和，選取與類內其他所有數據向量相似度最高的電壓曲線作為類簇中心。

注：ρ∑為某一電壓曲線與其所在類所有數據向量相似度之和；N 為該類向量個數。

（4）重復步驟2、步驟3，直到類簇中心不在發生變化或達到最大迭代次數時結束。

3 基于TensorFlow 的改進BP 分類算法

3.1 TensorFlow 架構

TensorFlow 是谷歌公司于2015 年11 月開源的深度學習框架，同時也是目前廣泛應用的跨平臺框架，它既是一個實現機器學習算法的接口，也是執行機器學習算法的框架。該框架具有快速、靈活、易于開發等特點，適合大規模數據應用。

TensorFlow 計算圖示例如圖4 所示，Tensor-Flow 以計算圖作為框架的基本計算節點，計算圖描述了網絡數據的計算流程，并負責維護和更新節點狀態。

圖4 TensorFlow 計算圖模型

考慮到工程實用性與編寫程序的簡易性，本文在TensorFlow 框架上對BP 算法加以改進，通過對歷史形態相似性聚類樣本學習，進而實現對臺戶關系的辨識。

3.2 BP 神經網絡

BP 模型結構包含輸入層、隱藏層和輸出層，其典型結構如圖5 所示。

圖5 BP 典型結構

BP 訓練流程由前向傳播和反向傳播兩個過程組成，前向傳播將輸入數據X={x1，x2，…，xn}通過各層網絡計算得到一個輸出值（預測值）Y={y1，y2，…，yn}，其計算公式為：

式中：W={w11，w12，…，wij}為各個節點的連接權值矩陣；b={b1，b2，…，bj}為偏置矩陣；g 為激活函數，一般取Sigmod。

反向傳播過程利用損失函數loss 計算輸出值Y 與目標值Y_之間的損失值J，當J=loss（Y，Y_）時，根據神經網絡的具體目的選擇網絡優化函數作為模型優化器，優化器根據損失值來更新網絡參數W 和b，使模型參數向著損失值減小的方向更新?；赥ensorFlow 的神經網絡訓練流程如圖6 所示。

圖6 TensorFlow 神經網絡訓練流程

3.3 改進BP 方法

3.3.1 零均值化

鑒于輸入電壓數據具有全正的特性，可通過對輸入數據進行零均值化處理，得到以0 為中心的標準化輸入數據，進而加速網絡收斂速度。零均值化過程如下：

（2）采用boardcast 方法相減，也就是先將Vmean擴充到與V 相同規模，再進行數據相減，按照公式（7）計算。

式中：V，Vmean，Vcent分別表示輸入日電壓向量矩陣、平均值、零均值矩陣。

3.3.2 Adam 優化方法

傳統BP 使用各參數的梯度負值乘以固定學習率來優化網絡參數，這種方法實現簡單，但是容易收斂到局部最小值點，并且在處理大型數據集時速度較慢。本文使用Adam 優化方法作為改進BP 的優化器。Adam 方法利用梯度的一階矩估計和二階矩估計動態調整每個參數的更新步長，計算公式見式（8）—（10）。

式中：gt表示第t 時間步的梯度值；μ 為指數衰減率，控制梯度權重分配，一般取0.9；v 為指數衰減率，控制梯度平放權重分配，一般取0.999；分別是對梯度的一階矩估計和二階矩估計；是對mt，nt的校正。

最終網絡參數更新公式為：

3.4 算法步驟

基于TensorFlow 框架的改進BP 戶變關系識別算法流程如圖7 所示，主要步驟如下：

圖7 戶變關系識別流程

（1）用戶日電壓數據預處理：刪除包含空缺值的用戶日電壓數據，并按照式（12）對各條曲線進行歸一化處理。

式中：vt，，vmin，vmax分別表示日電壓曲線任意時刻t 的電壓值、t 時刻歸一化后電壓值、日最小電壓值和日最大電壓值。

（2）歷史用戶日電壓曲線聚類：對部分歷史日電壓數據進行K-means 聚類，以Spearman 系數為相似性指標代替ED，聚類數K 值選擇所有變壓器的總相別數，初始聚類中心選擇各變壓器相別出口日電壓曲線，防止初始聚類中心由于隨機選取導致的聚類效果變差。

（3）日電壓類別匹配：將聚類結果與各變壓器相別按照形態相似度進行匹配，將匹配結果的類簇作為BP 的日電壓曲線訓練樣本。

（4）零均值化處理：對日電壓數據按照式（6）和式（7）進行零均值化處理。

（5）Adam 方法優化的BP 對訓練樣本進行學習，通過正向傳播和反向傳播過程不斷調整網絡參數。

（6）通過BP 正向傳播過程對輸入的用戶日電壓曲線進行變壓器相別類型識別。

4 算例分析

本文算例在TensorFlow 1.12 上實現，實驗數據為模擬10 類用戶日電壓數據和某試驗區實際10 個變壓器各3 個相別的總共446 個用戶電壓數據，通過國網用戶信息采集系統每15 min 同步讀取智能電表的電壓數據，日電壓曲線采樣96個數據點。

由于用戶電壓隨所連接變壓器出口電壓的高低而波動，具有一定的隨機性，所以模擬數據不是簡單的單峰和雙峰曲線，而是[0，1]之間變化隨機的96 維數據，并在各類模擬日電壓數據中添加10%的噪聲曲線，防止神經網絡訓練過程的“過擬合”現象。算例模擬數據和實際數據的基本信息如表1 所示。

表1 算例數據基本信息

4.1 模擬數據類別辨識實驗

模擬數據集是隨機生成的10 類具有趨勢差異性的96 維日電壓曲線，每種類型的日電壓曲線為200 條，并在其中添加10%的噪聲曲線。假設訓練數據與測試數據的比例為1:1，分別設置聚類相似性指標為ED 或Spearman 相關系數、分類算法為傳統BP 神經網絡或改進BP 神經網絡，得到不同類型的組合。對比各種情況下模擬用戶日電壓曲線的識別正確率如表2 所示，采用“Kmeans（Spearman）+改進BP 算法”對模擬曲線的識別結果如圖8 所示（此處僅例舉4 種類型日電壓曲線），所列出實驗結果均為5 次實驗取平均值。

表2 模擬用戶日電壓曲線分類結果

可以看出，基于Spearman 相關系數和改進BP 的訓練迭代次數明顯少于傳統BP，同時提高了BP 分類精度。由4 臺變壓器A 相別識別結果可以看出，同一供電臺區和相別的電壓曲線具有較高的形態相似性，且由圖8（d）可知，同類型的電壓曲線之間距離相差較遠，但在微觀波動上具有同升同降的特點。

圖8 模擬用戶日電壓曲線辨識結果

為測試本文所提“K-means（Spearman）+改進BP 算法”的穩定性，通過10 次實驗記錄各類型電壓曲線數量，并與“K-means（ED）+傳統BP 算法”10 次實驗的識別結果進行對比。由圖9 可知，基于形態相似樣本提取的改進BP 算法對于電壓曲線的類型辨識更穩定。

圖9 算法穩定性對比

4.2 實際電壓數據戶變關系識別實驗

K-means 聚類提取訓練樣本的電壓曲線條數取總電壓條數的30%，并保證每個臺區的不同相別均能覆蓋至少100 條電壓曲線。在TensorFlow中訓練BP 后，對剩下的70%數據進行分類，由于實際數據已知所屬類別標簽，因此，采用識別精度可客觀評價算法分類性能。與模擬數據分類的4 種算法對比類似，實際用戶日電壓曲線的識別精度率如表3 所示，所列出實驗結果均為5 次實驗取的平均值。

表3 實際用戶日電壓曲線識別結果

可以看出，本算法針對實際日電壓數據的迭代次數、識別精度均優于模擬數據的識別效果，這是由于模擬數據的同臺區電壓數據之間加入了較大幅度的噪聲數據，而實際的同臺區用戶電壓數據之間趨勢差異性較弱。采用“K-means（Spearman）+改進BP 算法”對實際用戶電壓曲線的識別結果見圖10（僅例舉4 種類型臺區用戶日電壓曲線），可以看出，結合形態相似性聚類提取訓練樣本的改進BP 算法對同臺區同相別的用戶電壓數據具有顯著的識別效果，識別出的用戶電壓曲線形態趨勢保持高度一致，總體識別效果良好。

圖10 用戶日電壓曲線戶變關系識別結果

4.3 計算效率分析

為了分析改進BP 的計算效率，分別對比了無優化、僅采用零均值優化、僅采用Adam 優化、結合零均值和Adam 優化4 種方式在不同數據體量下的計算時間。采用實際的電壓數據，按數據總量20%為間隔分5 組，每種優化方法各測試5次，取計算時間平均值。圖11 為BP 優化方法的計算效率對比。

圖11 BP 計算效率對比

由圖11 可知：當數據量較小時（小于40%），Adam 優化的效果不佳，零均值優化的效果較好，總體上優化后計算時間與無優化的計算時間沒有明顯改變；隨著數據量增大（大于80%），無論是零均值優化還是Adam 改進后的BP，計算時間增長速度都較無優化的BP 慢，結合零均值和Adam 優化后的BP 計算耗時最短。這是由于BP網絡的迭代速度是限制計算效率提升的關鍵因素，在小數據量時，BP 迭代次數較少，而Adam動態調節參數迭代步長，增加了網絡參數大量計算步驟，由此帶來了額外的計算耗時；零均值優化則在數據預處理階段增加額外的計算耗時。當數據量增大時，BP 網絡的迭代次數顯著增加，Adam 優化和零均值優化帶來的額外計算耗時幾乎不變，優化后的BP 網絡收斂速度更快，迭代次數顯著減小，因此優化后的BP 計算效率顯著提升。

5 結語

本文提出一種基于TensorFlow 框架的改進BP 戶變關系識別方法，模擬數據和實際電壓數據測試表明：基于形態趨勢相似性對用戶日電壓曲線歸類，相比于以距離為相似性指標劃分類別更適用于戶變關系識別，可有效提高訓練樣本質量，保證戶變識別算法的穩定性；結合TensorFlow 框架，采用零均值化和Adam 優化方法對BP 網絡進行優化，有效提高了網絡的收斂速度。

隨著智能電表對電壓采樣頻次的提高，用戶日電壓曲線的數據維度會越來越高，本文算法的數據維度僅為96 維，針對144 維、288 維等高維電壓數據的識別效果還需進一步驗證。