張俊超,馬曉琴,嚴嘉正
(國網青海省電力公司信息通信公司,青海 西寧 810008)
為了適應國內外復雜的經濟環境,加快發展方式的轉變,國網公司積極探索建立電子憑證管理平臺,統一原始憑證管理標準。以往依據人工統計方式,結合經驗預測電子憑證售電收入資金,該方式受人為因素影響較大,無法有效地為資金預測提供精準數據。為此,有學者提出了基于視覺傳達的電子憑證圖像識別方法,通過閾值處理圖像,獲取憑證特征,以灰度變換為核心進行局部識別,能夠最大限度保留局部圖像信息[1];還有學者提出了基于神經網絡的電子憑證圖像識別方法,通過構建神經網絡圖像分類模型,對圖像進行詳細分類,結合誤差反向傳播算法實現圖像識別[2]。然而,上述這些方法對售電收入資金預測研究內容較少,難以支撐當下企業戰略制定的需要,導致使用這兩種方法獲取的數據與實際數據對比相差較大。
為解決上述方法中存在的問題,提出了基于特征提取的電力電子憑證圖像識別系統。
基于特征提取的電力電子憑證圖像識別系統,核心器件為FPGA 器件、采集板卡、多端口SDRAM控制器,硬件結構如圖1 所示。
圖1 中將CMOS 圖像傳感器和液晶顯示器與開發面板相連。當電源加載后,通過SDATA 串行總線,由SCLK 時鐘構成傳感器I2C 組態傳輸到圖像傳感器中。該系統攝像控制模塊也將25 MHz 的主時鐘信號發送給圖像傳感器。然后圖像傳感器將獲取的數據轉換為RAW 的RGB 格式,并將其轉移到RAM中。利用多端口SDRAM控制器建立完整的幀緩存[3]。將從SDRAM 裝置所得到的數據傳送到影像處理與辨識模組,以便處理。最終,LCD 控制器及數據請求模塊向多端口SDRAM 控制模塊傳送數據請求[4]。
FPGA 是一種可編程邏輯器件,應用范圍很廣。該產品具有可編程功能,可根據FPGA 器件進行具體的數字電路設計。在FPGA 器件中,線路資源與FPGA 中的每一個單元連接,而線路長度和技術水平將直接影響到FPGA 器件中的信號傳輸能力和傳輸速度[5-6]。
FPGA 器件根據電力網絡拓撲結構,自動選取與電子憑證相關的區域進行布線,導致網絡資源被浪費[7]。因此,在裝置中設置積分時鐘和積分重置/設定模式,其結構如圖2 所示。

圖2 FPGA器件結構
FPGA 器件采用串口收發技術,滿足通信總線與接口要求。
采集板卡采用IEEE1394 數字接口,利用數字變換技術,可獲得與原始圖像一樣的非破壞性數據。采集板卡通過攝像機將采集光信號輸入到計算機中,通過核心模塊將其轉換為數字信號的形式,并進行采集、存儲、回放[8-10]。
SDRAM 是一種具有同步隨機存儲的芯片,能夠隨意讀取和寫入指定數據,并更新存儲陣列,以保證數據的安全[11]。該芯片內部是多Bank 結構,當一個Bank 在充電過程時,另一個Bank 能立刻讀取數據。在數據讀取過程中,有效地提高了芯片存取速度[12]。
圖像傳感器設計中使用CMOS 器件結合CCD 技術,將器件芯片置于光刻表面,使每一像素塊成為一種微透鏡,再由入射光線共同構成感光元件,從而增加有效填充因子[13]。COMS 圖像傳感器是利用光電轉換技術實現光像轉換的裝置,該方法可把光學圖像分解成若干個微小的單元,并轉換成有用的電子信號。
以電子憑證售電收入資金為主要指標,利用隨機森林算法對指標進行預測,并將其用于特征提取,為電子憑證圖像識別提供依據。月售電收入資金計算公式為:
式中,P總表示年度售電收入資金;T總表示年度天數;T分表示當年需調整天數。
在隨機森林預測中,引入式(1)的計算結果,可防止由于預測過程的錯誤而影響預測的準確性[14]。通過對樣本進行隨機取樣,共獲取N個樣本,重復以上步驟,得出M個獨立的決策樹,以獲得新的分類效果。基于隨機森林預測過程如下所示:
步驟一:從抽樣空間中隨機抽取K個特征,并依據所選擇的樣本特征構造決策樹;
步驟二:獲取M個獨立決策樹,并形成隨機森林;
步驟三:對于待預測數據,經過M個獨立決策樹進行決策后,以確定用戶歷史用電行為、交費行為、資金到賬規律[15];
步驟四:給定分類集合R1(α)、R2(α)、R3(α)、…Rn(α),根據輸入的變量構建預測模型:
式中,α表示用戶的歷史用電行為、交費行為、資金到賬規律特征變量的集合;β表示輸入變量的正確電子憑證標簽集合;χ表示預測結果出現錯誤的電子憑證標簽集合;g(Rn(α)=β)表示輸入變量α正確分類的平均分類數量;g(Rn(α)=χ)表示輸入變量α錯誤分類的平均分類數量。
步驟五:為度量隨機森林算法對輸入變量預測結果出現的誤差,可用如下公式來表示:
利用隨機森林算法預測售電收入資金,提高預測數據的精準度,為電子憑證圖像識別流程設計提供有效的資金預算支撐依據。
將基于特征提取的電子憑證售電收入資金預測結果應用到電子憑證圖像識別過程中,不僅能夠優化憑證流程,實現憑證自動化管理,詳細過程如圖3所示。

圖3 基于特征提取的識別流程
由圖3 可知,在認證業務處理過程中輸入用戶歷史用電行為、交費行為、資金到賬規律特征變量后,由請求受理器根據輸入的變量查詢數據庫,獲取相應的憑證數據。如果數據庫中不存在相應數據,則向輸送端發起反饋申請并存儲到數據庫中[16]。系統根據提交的圖像數據和返回數據進行識別,設定閾值,根據閾值判斷兩種數據是否相似。如果相似則說明匹配成功,電子憑證結果有效,將該結果輸出到認證處理階段。否則匹配失敗,電子憑證結果無效,無須輸出識別結果[17-18]。
為了驗證提出的基于特征提取的電力電子憑證圖像識別系統設計的合理性,進行了實驗驗證分析。
以某省一年的用戶用電量為研究對象,分析不同時間段下用戶用電量情況,并獲取電子憑證。用戶在網上進行用電繳費的詳細過程如下所示:進入繳費界面時,再點擊【電費】,再點擊右上角的【繳費記錄】,點擊繳費記錄后看到【繳費賬單】,找到想要開發票的具體時間,點擊【電費】。點擊電費后看到賬單詳情,再點擊【查看繳費詳情】。在繳費詳情里面,點擊【繳費憑證】,該繳費憑證是電子繳費的發票,也是回單。
將服務系統部署在阿里云服務器中,通過該服務器統計近1 年的售電收入資金,如圖4 所示。

圖4 近1年月售電收入資金時序圖
由圖4 可知,在近1 年中,9-10 月份為用電低谷,8-9 月份為用電高峰。
抽取2020 年9-10 月份10 個用戶的月售電收入資金情況進行詳細分析,電子憑證如圖5 所示。

圖5 9-10月份月售電收入資金電子憑證
由圖5 可知,通過用戶電費電子憑證,能夠精準掌握每個用戶的用電量。
基于上述實際數據,分別使用基于視覺傳達的電子憑證圖像識別方法、基于神經網絡的電子憑證圖像識別方法和基于特征提取的電力電子憑證圖像識別系統,對比分析用戶電費電子憑證圖像識別結果,如圖6 所示。

圖6 三種方法電子憑證圖像識別結果對比
由圖6(a)可知,在序號3、4、5、6、7、8 處的圖像識別效果不佳,尤其在5、6 處的圖像識別效果較差,識別不出任何數據。在序號4、7 處出現了與實際用戶繳費資金不一致的識別結果,分別相差2.5元和1.5 元。
由圖6(b)可知,在序號5、6 處的圖像識別效果不佳,尤其在5 處的圖像識別效果較差,識別不出任何數據。在序號6 處出現了與實際用戶繳費資金不一致的識別結果,相差2.0 元。
由圖6(c)可看出,在序號4、5、6、7 處的圖像識別效果一般,尤其在序號5、6 處出現了與實際用戶繳費資金不一致的識別結果,均差1.0 元,其余識別結果與實際繳費資金一致。
通過上述分析結果可知,使用基于特征提取的電力電子憑證圖像識別系統,能夠精準識別電子憑證中的數據。
該文提出的基于特征提取的電力電子憑證圖像識別系統,利用隨機森林算法預測售電收入資金,改變以往人工預測模式,使預測結果不會受到人工因素影響,具有精準的識別結果,且科學性更強,能夠有效支撐售電收入資金預算的計劃安排。同時,對現有營銷系統模塊改造、對電力電子憑證圖像識別流程進行優化,實現憑證自動化管理。