辛洪波, 儲琳琳, 顧志銘
(1. 復旦大學 計算機科學技術學院, 上海 200433; 2. 國網上海市電力公司 市南供電公司, 上海 200233)
城市規劃發展是電力系統進行中長期負荷預測的重要依據[1-2],而相關規劃圖紙資料則是進行負荷預測的基礎性資料.然而,電力設計部門獲得的城市規劃資料多是PDF格式的電子文檔或紙質文檔.在實際的應用與分析過程中,圖紙內容的資料給數字化應用以及數據的分析和整理帶來了一定的困難.因此,利用計算機技術對圖紙內容進行智能識別具有重要意義.
圖紙資料一般由圖像和文字構成,圖像處理、字符識別等技術手段是實現圖紙信息化的重要方法.彩色圖像分割技術作為圖像信息提取的關鍵技術,在各行各業受到了廣泛關注[3-4].于藝銘等[5]針對圖像過分割問題,采用領域灰度值相匹配原則提出了一種基于Lab分通道直方圖的彩色圖像分割算法;任大勇等[6]針對分水嶺圖像分割算法中的缺陷,通過引入位圖切割的方法,實現了在邊緣模糊處的準確切割;呂雪等[7]研究了最小化能量函數和Canny算子邊緣檢測技術在圖像自動分割中的應用;朱占龍等[8]采用對模糊C均值聚類算法的目標函數引入總隸屬度的方法,實現了對無損檢測圖像的有效分割,并增強算法的魯棒性.
目前圖像分割算法的應用研究多是在經典圖像處理算法的基礎上,針對各個專業的應用需求進行改進和優化[9-11].為了解決城市規劃圖紙中圖像識別與提取問題,并以此為基礎建立基于空間信息的電力系統負荷預測模型[12],本文提出了一種基于改進的模糊C均值聚類算法的城市規劃圖紙智能識別技術,并通過建立用地性質與歷史負荷之間的映射關系,實現了基于用地規劃智能識別的電力系統中長期負荷預測.
圖紙內容的自動化識別包含了圖像預處理、特征提取、要素的形態分析、文字識別、語義理解等多個方面[13].由城市規劃圖紙的特征可知,彩色信息在城市規劃圖紙中占據著重要地位,直接表征了不同地塊的用地性質.如何得到一個清晰、完整的分割圖像和其用地性質是進行電力系統負荷預測的關鍵.
模糊C均值聚類算法(FCM)是一種經典的彩色圖像分割算法,其基本原理是通過對隸屬度矩陣和聚類中心向量的不斷迭代使得目標函數值最小,進而完成圖像區域內各個像素點的聚類[14-15].
假設X={x1,x2,…,xN}為待分類樣本集合,N為樣本總數,將所有樣本一共分為C類,則算法的目標函數采用類內加權誤差平方和的方式定義,其表達式為
(1)
式中:dik為第i個樣本和第k個聚類中心之間的差異,可用歐式距離來表示;uik為第i個樣本屬于第k個分類的隸屬度,取值范圍在0~1,其數值越大,樣本屬于第k個分類的概率就越大;m為加權指數,取值范圍通常取1.5~2.5,本文取2.對式(1)使用拉格朗日進行近似求解,可以得到隸屬度和聚類中心的迭代公式為
(2)
(3)
經典的FCM圖像分割算法,分割過程中依賴于聚類中心,且計算隸屬度時只利用了當前像素信息,對噪聲較為敏感,同時沒有考慮到不同類的尺寸大小以及像素點的疏密因素對聚類結果的影響,因此導致了圖像切割時的誤差較大.
針對FCM算法的缺陷,為了能將其應用于規劃圖紙的聚類分析中,本文提出了以下改進方法,以提高圖像分割效率和準確度.
1) 為了克服FCM算法在處理不同聚類尺寸以及數據疏密時的缺陷,本文重新定義樣本到聚類中心的距離為
(4)
式中,rk為第k個聚類中心的半徑.設Ak是第k個聚類協方差陣,計算表達式為
(5)
采用新的距離之后,當某一個點位于聚類中心附近時,可以將其與聚類中心歸為同一類.同時該模型考慮了樣本的密集因素,且對不同大小的類均能夠較好地聚類.
2) 為了避免類中心聚集,可以在目標函數中增加對類中心的約束,使得類中心互相遠離.具有類中心約束的FCM算法的目標函數定義為
(6)
式中:M為第i個像素的鄰域像素集;NR為鄰域像素點的個數,本文選擇像素點周圍3×3的區域作為鄰域像素區;α為控制鄰域項分割結果的常數.
基于FCM算法的圖像分割步驟如下:
1) 設置分類個數C,加權指數m,分割控制常數α以及迭代的終止閾值和迭代上限.
2) 初始化聚類中心向量,并計算更新隸屬度矩陣、類協方差陣、距離dik和聚類中心的半徑.
3) 若存在dik=0的情況,則令uik=1,其他項的隸屬度為0.
4) 當滿足迭代誤差要求或達到迭代上限時,停止迭代;否則,返回步驟2)重新進行計算.
本文以從政府官方網站下載得到的上海市某地區規劃圖紙為例進行區域分割和識別,樣本圖紙及地塊編號如圖1所示.表1為該圖紙中的地塊信息,由圖紙規劃用地信息可知,規劃區域內可將其分為8種不同類型的用地性質,分別用不同的顏色標注.

圖1 樣本圖紙及地塊編號Fig.1 Sample drawing and land numbering

表1 樣本圖紙各地塊信息Tab.1 Land information in sample drawings
在采用FCM進行圖像分割的過程中,由于彩色圖像處理的是一組三維數據,所以運算量較大.在實際處理過程中為了提高運算效率,在進行聚類選擇質心時,本文首先將原始圖像壓縮為略縮圖,通過圖紙信息和對略縮圖的聚類分析方式確定初始質心.因為在實際操作中,略縮圖是原始圖像數據的壓縮,既保留了原有圖像的部分特征,同時又可以提高聚類效率.
對于樣本空間的選擇,本文直接使用RGB值作為待聚類的數據.在實際計算過程中發現,彩色圖像的數據中有較多的像素值是一樣的.為了減少不必要的運算,文中在進行圖像分割之前,首先計算出圖像中實際像素特征值的個數及其數量;然后對每一個獨立的像素特征值進行計算,大幅度地提高了計算效率.
以處理圖1所示規劃設計圖為例,初始化最大迭代數為30,分類數為10.采用從略縮圖中獲取質心的方式,若使用原始RGB像素作為特征值,則共耗時約37.85 s;若使用不重復的RGB像素作為特征值進行聚類分析,則共耗時約15.18 s,圖像處理效率可提升約60%.
硬件平臺采用了第11代i7處理器,16 GB內存,CPU頻率為2.5 GHz,最高睿頻4.9 GHz,八核心十六線程.實驗過程中分類個數和用地類型數量有關,分割控制常數α取0.85,迭代終止閾值為1×10-5,最大迭代次數為100次.
對圖像進行聚類分割過程中,規劃邊界線的紅色區域與規劃區內地塊的紅色標識顏色特征值相重合,進行聚類分析時比較容易將兩種符號歸為一類,如圖2所示.由于邊界區域線具有明顯的輪廓特征,因此可采用邊緣檢測的方式,利用Roberts算子進行邊緣提取,然后將規劃區域外的圖像全部用白色像素替代,即可得到無紅色虛線標注的規劃圖紙.

圖2 邊界線聚類結果Fig.2 Clustering results of boundary lines
為了更直觀地比對兩種算法的分割效果,本文對不同性質的地塊分割結果進行二值化處理.典型地塊的聚類分割結果如圖3和圖4所示.

圖3 機場用地聚類結果Fig.3 Clustering results of airport land

圖4 公共綠地聚類結果Fig.4 Clustering results of public green space
由圖3機場用地的聚類分析結果可知,當圖紙中存在具有相似特征值的像素點時,常規的FCM聚類算法會將其歸為一類,使得聚類結果存在較多的噪聲,而優化后的FCM算法則有較好的去噪能力.若結合邊緣檢測技術,即可以完成對目標區域的提取.
由圖4所示的公共綠地聚類結果可知,由于公共綠地和生產防護綠地的顏色相近,即特征值之間的差異較小,因此常規的FCM聚類分析方法對其分辨能力較弱,且區分難度較大;而優化后的FCM可以對兩種地塊進行較好地區分.
為了定量分析兩種算法的聚類效果,本文通過建立像素點個數與土地面積之間的映射關系來比對聚類結果和實際規劃面積之間的差值,具體結果如表2所示.由表2中數據可知,傳統的FCM聚類算法得到聚類面積與實際規劃面積誤差在-24.23%~16.33%之間;而改進的FCM算法得到的聚類面積和實際規劃面積誤差在-6.95%~13.08%之間.對N1-09地塊聚類誤差較大的原因在于該地塊自身面積較小,受第一表面文字遮擋的部分占據了地塊較大面積,因此對其面積進行準確估計存在一定困難.此外,采用改進FCM聚類算法對規劃圖中不同地塊的聚類面積估計的誤差均不大于10%,可以滿足負荷預測的應用需求.

表2 樣本圖紙聚類結果Tab.2 Clustering results of sample drawings
電力系統負荷的快速精準預測對于了解電網規劃建設具有重要意義.利用規劃圖紙獲取地塊編號、用地性質、建筑面積、容積率、地塊面積等信息后,根據《國網上海市電力公司配電網網格化規劃遠景飽和負荷預測技術原則》,可以對各個地塊的負荷進行計算,進而得到規劃建設地區的負荷值,以指導電網規劃和建設.
圖紙中的用地性質對負荷預測的計算有直接影響,當各地塊中含有建筑面積信息時,可使用建筑面積進行負荷預測計算,計算表達式為
(7)
式中:S1為地塊建筑面積;λ為負荷指標;β為地塊內部同時率.
圖紙中無建筑面積信息時,可使用地塊的容積率和用地面積進行負荷預測計算,即
(8)
式中:S2為地塊用地面積;γ為負荷密度.
在無容積率也無建筑面積和用地總面積等信息時,可使用相鄰地塊的同類用地容積率對負荷進行測算.此外,當供電區域內同一用地性質負荷超過80%時,取地塊間的同時率為0.9;當負荷為60%~80%時,取同時率為0.85;當負荷低于60%時,取同時率為0.8.
表3為樣本區域的負荷預測值,由于負荷預測問題的超前性,為了實現具有較好適應性的電力系統規劃,負荷預測一般需要給出電力負荷發展的高、低水平,即表3中負荷預測的高方案、低方案.由預測結果可知,對于公共用地而言,例如公共綠地或交通用地等,由于其負荷較低,且基本保持不變,所以預測準確率較高.對于其他用地性質的負荷而言,其預測值的準確率大于90%.

表3 負荷預測結果Tab.3 Load forecasting results
為了說明文中方案的可行性,在負荷預測過程中本文只考慮了用地性質和用地面積的因素.實際應用過程中,應充分考慮各種有用信息,以提高負荷預測的準確率.
本文研究了基于用地規劃識別技術的電力系統中長期負荷預測方法,主要結論如下:
采用重新定義樣本到聚類中心的距離和調整目標函數的方式,可以提高FCM聚類算法在圖像分割中的抗干擾性.在本文所述的實驗條件下,所提出的改進FCM算法得到的聚類面積和實際規劃面積誤差為-6.95%~13.08%.利用地塊面積以及負荷指標方式得到的負荷預測數值的準確率平均值約為96.4%,可以滿足電力系統負荷預測以及配網建設的規劃需求.