999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于正則表達式和Jaccard系數的智能變電站錄波通道同源匹配

2024-01-25 06:11:02王冠南郭麗娟彭曙蓉陳慧霞黃浩宇
浙江電力 2024年1期
關鍵詞:變電站文本智能

王冠南,郭麗娟,彭曙蓉,陳慧霞,黃浩宇

(1. 國網江西省電力有限公司電力科學研究院,南昌 330096;2. 長沙理工大學 電氣與信息工程學院,長沙 410114)

0 引言

智能變電站是智能電網中的重要節點,具有高可靠性、自診斷和自治功能,為電網的安全穩定運行提供了數據支持[1-3]。故障錄波裝置可以自動記錄因系統大擾動引起的系統電壓、電流等電氣量的變化情況[4-6],是智能變電站內的重要設備。220 kV 及以上電壓等級的智能變電站中采用雙套錄波裝置進行錄波。電力系統保護專業人員通過對比、分析雙套錄波文件中記錄的波形情況,可以實現電力系統異常情況的預警,有利于電力系統的安全穩定運行,前提是雙套錄波文件中的各錄波通道已經按照各自所監測的電力系統一次設備完成了同源匹配工作。大型智能變電站內設備數量多,相應的錄波通道數量也很多。以220 kV智能變電站為例,站內雙套錄波通道數目平均為60對左右,一些220 kV智能變電站內甚至有多達120對雙套錄波通道,這還不包括站內的備用錄波通道以及開關量通道等。全國現有智能變電站的數量也很多,以江西省為例,現有220 kV 及以上電壓等級智能變電站約90 座,而這僅僅只是經濟發達省份一個市擁有的220 kV 智能變電站數量。錄波通道數量眾多,人工進行通道匹配時很容易發生同源通道匹配錯誤。因此,有必要提出一種基于智能算法的智能變電站錄波通道同源匹配方法。

目前,針對智能變電站錄波通道同源匹配問題尚缺乏深入研究,工程上主要采用人工匹配進行這項工作。因為錄波通道數量多、通道命名不規范且通道排列的順序不統一,人工匹配難度大、容易出錯。文獻[7]采用配置模板的方式識別通道,進而實現通道的歸一化;該方法需要對不同設備廠家的命名方式進行歸納匯總,同時需要歸納不同命名格式的信號,操作較為復雜。分析錄波通道名稱文本發現,通道名稱為短文本類型,固定包含了“電壓等級和間隔名稱”等關鍵信息,通過分析、對比各通道的關鍵信息就可以很好地區分出不同間隔。因此,可以將錄波通道同源匹配問題轉化為短文本匹配問題。

本文提出一種基于正則表達式和Jaccard 相似系數的智能變電站錄波通道同源匹配方法。正則表達式可以規范錄波通道的命名形式,Jaccard 相似系數可以準確計算出錄波通道名稱文本間的相似度。首先,對原始通道名稱文本數據進行預處理,使用正則表達式刪除錄波通道名稱文本中的冗余信息,同時統一同類間隔的表達形式;然后,對文本進行分詞和去停用詞操作,為后續的相似度計算工作做鋪墊;最后,使用Jaccard 相似系數計算錄波通道名稱間的相似度,根據相似度計算結果進行錄波通道同源匹配。使用實際電網中的錄波文件數據進行仿真驗證,該方法能夠簡單、有效地解決智能變電站錄波通道同源匹配問題,同時多個智能變電站中均能達到比較好的匹配效果,為智能變電站錄波通道同源匹配提供了新的思路。

1 文本匹配

文本匹配問題是自然語言理解的核心問題,涉及信息檢索、自動問答、機器翻譯、對話系統、復述問題等多個領域[8]。常見的文本匹配算法可以分為傳統文本匹配算法和基于深度學習的文本匹配算法。

1.1 傳統文本匹配算法

傳統文本匹配算法重點考察文本的字與字、詞與詞之間的一一對應關系,能夠較好地發現文本間的表層關聯關系。常見的傳統文本匹配方法包括Jaccard 相似系數[9-10]、Levenshtein 編輯距離[11]、Simhash相似度[12]、BM25(Okapi BM25)模型[13]、VSM(向量空間模型)算法[14]、BERT(基于Transformer的雙向編碼器表征)模型等。

Jaccard 相似系數由Paul Jaccard[15]提出,用于分析樣本集之間的相似性,定義為樣本的交集與樣本的并集之比。給定樣本集合A和樣本集合B,則它們的Jaccard相似系數可由式(1)計算得到。規定兩個空集樣本之間的Jaccard相似系數為1。Jaccard 系數值越大,則樣本集合間的相似度越高。使用Jaccard 相似系數進行文本匹配,只需要考慮文本間詞語的共現情況。兩個文本共有詞數量與所有詞語數量的比值即為兩個文本的Jaccard 相似度。文本a 與文本b 之間的Jaccard 相似度計算如式(2)所示。Jaccard相似系數算法復雜度低,不需要考慮相似度計算模型的訓練問題。

式中:Same(a,b)為文本a與文本b的共有詞數量;Total(a,b)為文本a與文本b的詞語總數。

Simhash 相似度是一種局部敏感的散列函數。對于兩個局部不同的相似文本,經SHA-1(安全散列算法1)處理后得到兩個完全不同的散列值,而Simhash 算法可以得到兩個相似的散列值[16],體現了Simhash 算法的局部敏感特征。Simhash 計算文本相似度應用的是降維技術,將一個高維向量映射為一個低維向量,然后通過計算兩個低維向量的漢明距離來判斷兩個文本是否相似。漢明距離越大,表示文本間的相似度越低。

Levenshtein 距離計算的是兩個字符串之間的編輯距離,即由一個字符串得到另一個字符串所需要的最少編輯次數。編輯操作包括替換、插入和刪除字符。編輯距離越小,表示兩個字符串間的相似度越大。

綜合上述三種傳統文本匹配算法的特征可以發現,傳統文本匹配算法在挖掘文本表層特征時表現良好,匹配速度快,無需對模型進行預訓練,但是在挖掘文本的深層語義特征方面表現不佳。

1.2 基于深度學習的文本匹配算法

基于深度學習的文本匹配算法可以自動從原始文本數據中抽取特征,當使用的訓練數據不同時,實現的任務也不一樣。與傳統文本匹配算法相比,基于深度學習的文本匹配算法更加靈活,泛化能力也更強,能夠較好地挖掘文本的深層語義。同時,基于深度學習的文本匹配模型結合詞向量化[17]技術,很好地解決了詞語匹配的多元性問題。文獻[18]利用Word2vec(詞向量化)模型實現字符詞向量的分布式表達,然后采用TextCNN(文本卷積神經網絡)模型進行文本語義挖掘和分類,最終實現錄波器的自配置。文獻[19]從深度語義、詞語共現和最大匹配度三個層面提取文本特征,結合孿生網絡,運用雙向長短期記憶網絡、卷積神經網絡和密集連接網絡構建文本匹配模型,改善了農業提問數據相似性判斷性能。

基于深度學習的文本匹配算法適用于涉及文本語義分析的匹配問題,在挖掘文本深層含義時表現良好。使用基于深度學習的文本匹配算法首先需要建立數據的訓練集,并根據訓練集學習出對應文本數據的匹配模型。基于深度學習的文本匹配算法能夠靈活地根據待匹配數據的特征訓練模型,可用于各種文本數據的匹配工作。

2 基于正則表達式和Jaccard系數的錄波通道匹配模型

考慮各種文本匹配算法的特征以及智能變電站錄波通道數據本身的特點,尋找適合智能變電站錄波通道數據特征的匹配算法。

2.1 錄波通道數據特征分析

錄波通道數據由配置文件(.CFG 擴展名)給出,各智能變電站均配有雙套錄波裝置,給出雙套錄波文件。一般來說,對于一座智能變電站內的某個一次設備,在雙套錄波文件中均存在對應該設備的錄波通道,雙套錄波文件中的各錄波通道原則上是一一對應的。

按照相關規范,錄波通道名稱中均包含有電壓等級、間隔名稱等關鍵信息,且這些關鍵信息不需要深度挖掘其語義特征,能夠僅從詞語的表層含義上將其區分開來。表1列舉了部分典型的同源錄波通道名稱。

表1 錄波通道名稱示例Table 1 Examples of recording channel names

由表1中的示例可知,可以從文本表層含義的差異上進行A、B雙套錄波文件中的錄波通道同源匹配工作,不需要考慮文本的深層語義特征。同時,對于不同的智能變電站,錄波通道名稱中都存在其獨有的關鍵詞,例如當地的地名。若使用深度學習的文本匹配算法,為了得到更為準確的匹配結果,則需要在每座智能變電站內選擇一些錄波通道數據組成訓練集,且需要先對這些數據進行人工同源匹配。這將增加錄波通道同源匹配工作的前期工作量和復雜度,而且訓練得到的模型很容易發生過擬合,無法正確匹配錄波通道。因此,考慮選擇匹配速度更快、復雜度更低、前期準備工作相對更少的Jaccard 相似系數算法進行錄波通道同源匹配。

智能變電站錄波通道的命名僅要求包含電壓等級和間隔名稱,而沒有具體的標準形式,因此工作人員往往會根據自己的習慣對錄波通道進行命名,導致錄波通道名稱在表達形式上不一致。例如:部分錄波通道名稱中加入了設備的編號信息,或是存在無實際含義的編號信息;由于輸入法不同,部分錄波通道在表示母線間隔時出現了羅馬數字和英文字母混用的情況;部分錄波通道對主變間隔的描述存在多種形式。具體的同源錄波通道特殊情況示例見表2。

表2 同源錄波通道名稱中的特殊情況示例Table 2 Examples of special cases in homologous recording channel names

Jaccard 相似系數在計算文本相似度時,考慮的是兩個文本間共現詞在總詞匯中的占比,而不盡相同的編號信息以及同類間隔的不同表達形式,都會影響共現詞在總詞匯中的占比。因此,需要統一錄波通道名稱的表達形式。針對錄波通道名稱中出現的特殊情況,引入正則表達式進行處理。

2.2 正則表達式

正則表達式又稱規則表達式,由一串具有特定意義的字符組成,表示某種特定的匹配規則。正則表達式的字符分為普通字符和特殊字符,特殊字符又稱元字符,常見的元字符如表3[20]所示。

表3 常見的正則表達式元字符Table 3 Common regular expression metacharacters

正則表達式能夠實現數據的匹配、替換和提取功能[21]。將設定的正則表達式與待匹配的文本進行比較,查找出文本中與設定的正則表達式內容一致的信息,即匹配功能。根據匹配的結果,可以提取出相應的文本信息或者是將其替換成另外的文本信息。在使用正則表達式時,只需要將希望匹配的內容正確寫入到正則表達式中即可。

歸納錄波通道名稱文本中的特殊情況,以正則表達式的形式體現出來。使用寫出的正則表達式對錄波通道名稱文本進行匹配、替換,即可統一錄波通道名稱的表達形式,降低編號信息和同類間隔的不同表達形式對錄波通道名稱文本相似度計算的不利影響。

2.3 錄波通道匹配模型

根據2.1 節分析的錄波通道名稱文本的特征,提出智能變電站雙套錄波通道同源匹配算法。首先,使用正則表達式處理雙套錄波通道名稱原始數據,降低錄波通道名稱中不規范的表達形式對后續文本相似度計算的不利影響。然后使用jieba分詞算法對錄波通道名稱進行分詞,分詞過程中使用自定義的分詞詞典,以更好地劃分錄波通道名稱中的電氣領域專有名詞以及一些特殊地名。在jieba 分詞結果的基礎上,使用自定義的停用詞表刪去其中的冗余信息,提高相似度計算的準確度。正則表達式處理過程、jieba 分詞過程和去停用詞過程統稱為錄波通道名稱數據的預處理過程。

將經過預處理的錄波通道名稱文本數據作為輸入,使用Jaccard 相似系數計算雙套錄波通道名稱文本間的相似度,輸出相似度最大的匹配結果。綜上,基于正則表達式和Jaccard 相似系數的智能變電站錄波通道同源匹配算法的流程如圖1所示。

圖1 智能變電站錄波通道同源匹配算法流程Fig.1 Flow chart of homologous matching algorithm for recording channels in the substation

3 算例分析

本文采用的實驗數據是來自中國某省70 座智能變電站的雙套錄波文件,共計4 416對同源錄波通道。每座智能變電站均包含A、B 兩套錄波文件,每套錄波文件中的錄波通道分為模擬量通道和開關量通道,原則上這些錄波通道都存在一一對應關系,但是不排除一些特殊情況,例如:某一套錄波文件中遺漏了部分錄波通道,或者是雙套錄波各自留存的備用通道數目不一致。本文暫不考慮這些特殊情況,僅討論具有實際意義的模擬量通道,采用智能算法挖掘通道名稱文本中包含的語義特征,完成錄波通道同源匹配工作。

3.1 數據預處理

采用正則表達式處理錄波通道名稱文本中命名不規范的情況。針對如表2所示的命名不規范的問題:歸納設備編號信息以及其他無實際含義編號信息的命名規律,按規定格式形成相應的正則表達式,經過匹配、刪除操作后,去除錄波通道名稱中的編號信息;歸納同類間隔的各種表達形式,借助正則表達式的匹配、替換功能,將各種表達形式統一為同一種表達。

經過正則表達式處理后的一些錄波通道名稱示例見表4。從表4可以看出,正則表達式能夠做到:

表4 正則表達式處理示例Table 4 Examples of regular expression processing

1)去除冗余的編號信息,如“4016#02_”“UDM-502”“UDM-502-MIB-A-G”。

2)通過將字母統一為羅馬數字表達形式,解決由于輸入法不同而出現的英文字母、羅馬數字混用的問題。

3)解決由于工作人員命名習慣不一致而出現的間隔表達形式不同的問題,例如主變編號采用“#1”“1#”或者“1 號”等多種形式,均將其統一為“#1”表達形式。

經過正則表達式處理的錄波通道名稱中還包含一些特殊符號,例如“_”及空格字符。這些特殊字符在文本匹配工作中并不能提供有利信息,相反可能還會降低同源通道之間的相似度。因此,需要對錄波通道數據進行進一步處理,考慮采用分詞和去停用詞算法。

現有中文分詞工具很多,例如jieba 分詞和Pkuseg 分詞。為了選擇合適的分詞工具,分別使用jieba分詞和Pkuseg分詞結合Jaccard相似系數算法進行仿真。仿真結果表明jieba 分詞算法對錄波通道數據的分詞效果更好,使用jieba 分詞進行同源匹配的匹配準確率比Pkuseg 分詞的匹配準確率高6.2%,而且仿真過程中jieba分詞耗時更少。因此,本文采用jieba 分詞算法對正則表達式處理后的錄波通道名稱文本進行分詞。由于仿真數據來自變電站,數據中含有大量電氣領域專有名詞,而且智能變電站在命名進出線時通常會使用當地的地名,這些專有名詞、地名等特殊詞匯,可能會導致分詞過程中出現每次分詞結果不一致或者是不符合預期分詞結果的情況。因此,分詞過程中導入自定義的分詞詞典,以適應錄波通道名稱文本中的這些特殊詞匯。然后,導入自定義的停用詞表,剔除錄波通道名稱中的特殊符號、停用詞等冗余信息。為了能更直觀地看到分詞結果,對其進行詞頻統計,如圖2所示。

圖2 智能變電站錄波通道名稱詞頻統計Fig.2 Word frequency statistics of recording channel names in the intelligent substation

由圖2可以發現,文本的關鍵信息包括電壓等級、間隔名稱等,這些信息在后續文本匹配過程中占據重要地位。經過預處理之后的智能變電站錄波通道名稱,不再包含設備編號以及其他無實際意義的編號信息,同類間隔表達形式一致,不包含空格等無用字符以及一些停用詞信息。

3.2 錄波通道同源匹配仿真

采用Jaccard相似系數計算經過預處理的70座智能變電站錄波通道名稱文本數據間的相似度,依據各自相似度值的大小判斷同源錄波通道。采用Python 進行算法仿真,電腦配置為i7-7500U、2.7 GHz、12 GB。

對于每座智能變電站的A、B雙套錄波通道文件,依次遍歷A 套錄波文件中的每條通道名稱數據,使用Jaccard 相似系數計算其與B 套錄波文件中每條通道名稱的相似度,比較相似度的大小,選擇相似度最大的組合作為結果輸出。例如,對于A 套錄波文件中的第一條錄波通道,分別計算其與B 套錄波文件中每條錄波通道的相似度值,比較大小,記錄與A 套第一條錄波通道名稱相似度最大的B 套錄波通道名稱及其相似度值,然后依次類推,直至求出與A 套錄波文件中最后一條錄波通道名稱相似度最大的B 套錄波通道。此過程推廣應用至所有70座智能變電站的雙套錄波文件。

為了驗證Jaccard 相似系數匹配的效果,引入VSM 相似度、BM25 相似度、Simhash 相似度、Levenshtein 距離和余弦相似度這幾種匹配算法,比較各自的匹配結果。同時,為了驗證引入正則表達式可以提高錄波通道同源匹配的準確度,對正則表達式處理前后的通道名稱文本均進行同源匹配,比較匹配結果。

為了量化模型的匹配效果,引入評價指標。設定同源錄波通道被正確匹配為同源通道的對數為TP,非同源錄波通道被錯誤匹配為同源通道的對數為FP,則模型的匹配精確率Rprec[22-24]定義為:

匹配算法的評價指標比較結果如表5所示。由表5可知,針對錄波通道同源匹配問題,這幾種算法中,Jaccard 相似系數的匹配效果最好。在通道名稱數據經過正則表達式處理的情況下,Jaccard相似系數匹配精確率達到96.9%,較VSM、BM25、Simhash、Levenshtein、余弦相似度算法的精確率分別提高了64.9 個百分點、32.8 個百分點、13.2 個百分點、6.3 個百分點、1.1 個百分點。在錄波通道名稱數據未經過正則表達式處理的情況下,Jaccard 相似系數匹配精確率為94.2%,較VSM、BM25、Simhash、Levenshtein 算法的匹配精確率分別提高了63 個百分點、30.4 個百分點、11.5個百分點、4.3個百分點;此時余弦相似度算法的匹配精確率較Jaccard 相似系數的匹配精確率高了0.8個百分點,但是引入正則表達式預處理之后,Jaccard 相似系數的精度優于余弦相似度。同時,表5中的數據也表明,正則表達式對原始數據的處理有利于提高錄波通道同源匹配的精確率。經過正則表達式處理后,每種算法的匹配精確率都有所提高。

表5 算法評價指標比較Table 5 Comparison of evaluation indices of algorithms

選擇匹配精確率最高的三種算法對比分析每座智能變電站的匹配情況,如圖3所示。圖3展示了70座智能變電站分別使用Jaccard相似系數、余弦相似度和Levenshtein 距離三種匹配算法進行錄波通道同源匹配后的結果。可以發現,Jaccard 相似系數算法是三種算法中表現最好的,曲線較余弦相似度和Levenshtein 距離的曲線更高,且有更多的點落在100%。這表明,Jaccard算法的泛化能力是最強的,能夠適應更多智能變電站內錄波通道的排布情況。

圖3 各智能變電站同源錄波通道匹配情況Fig.3 Homologous matching of recording channels in intelligent substations

綜合上述仿真結果可知,結合正則表達式的Jaccard 相似系數錄波通道同源匹配算法不僅精確率更高,而且泛化能力更強,能夠適應各種智能變電站的通道排布情況,易于推廣。

4 結語

針對智能變電站雙套錄波通道同源匹配問題,本文分析了錄波通道名稱數據的特點,即通道名稱中包含明顯關鍵詞,且可以從字面上作出區分,但是通道名稱中出現了無用編號信息以及同類間隔表達形式不統一的情況。依據錄波通道名稱數據的特點,提出了基于正則表達式和Jaccard 相似系數的智能變電站錄波通道同源匹配方法。該方法使用正則表達式、jieba 分詞算法和去停用詞操作,統一錄波通道名稱文本的表達形式;使用Jaccard相似系數算法對雙套錄波通道進行同源匹配。將Jaccard 相似系數匹配的結果與其他文本匹配算法的匹配結果進行對比發現,Jaccard 相似系數具有更高的匹配精確率,且在不同變電站中均能取得更好的匹配效果。

猜你喜歡
變電站文本智能
在808DA上文本顯示的改善
智能前沿
文苑(2018年23期)2018-12-14 01:06:06
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
智能前沿
文苑(2018年19期)2018-11-09 01:30:14
智能前沿
文苑(2018年17期)2018-11-09 01:29:26
智能前沿
文苑(2018年21期)2018-11-09 01:22:32
關于變電站五防閉鎖裝置的探討
電子制作(2018年8期)2018-06-26 06:43:34
超高壓變電站運行管理模式探討
電子制作(2017年8期)2017-06-05 09:36:15
220kV戶外變電站接地網的實用設計
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學隱喻
主站蜘蛛池模板: 国产毛片久久国产| 欧美a在线视频| 亚洲人成网站色7799在线播放| 91外围女在线观看| 日韩欧美91| 黄色网页在线播放| 欧美一区二区福利视频| 国产美女主播一级成人毛片| 激情视频综合网| 亚洲爱婷婷色69堂| 亚洲中文字幕在线一区播放| 1级黄色毛片| 国产综合另类小说色区色噜噜| 精品成人一区二区三区电影| 欧美伦理一区| 国产精品综合色区在线观看| 国产亚洲精品无码专| 国产毛片高清一级国语 | 精品自窥自偷在线看| 国产精品无码一二三视频| 69综合网| 国产亚洲欧美在线中文bt天堂| 99精品在线看| 国产色图在线观看| 免费人成网站在线观看欧美| 中文字幕乱码中文乱码51精品| 欧美三級片黃色三級片黃色1| 欧美三级不卡在线观看视频| 国产精品美乳| 午夜无码一区二区三区| 四虎成人精品| 亚洲无码一区在线观看| 国产精品流白浆在线观看| 国产亚洲视频中文字幕视频 | 欧美日韩精品在线播放| 男女精品视频| 九色综合视频网| 亚洲高清免费在线观看| 亚洲无码免费黄色网址| 国产精品jizz在线观看软件| 亚洲欧美日韩成人高清在线一区| 日本午夜在线视频| 人人爱天天做夜夜爽| 国产成人欧美| 国产超薄肉色丝袜网站| 国产女人综合久久精品视| 婷婷五月在线| 久久久久免费精品国产| 亚洲aaa视频| 国产成人精品免费视频大全五级| 久久精品视频一| 欧美亚洲另类在线观看| 国产一级视频久久| 国产在线观看成人91| 亚洲AⅤ综合在线欧美一区| 国产本道久久一区二区三区| 她的性爱视频| 亚洲精品高清视频| 91久久国产热精品免费| 亚洲第一成网站| 精品無碼一區在線觀看 | 国产香蕉97碰碰视频VA碰碰看| 91精品网站| 福利在线免费视频| 亚洲第一中文字幕| 国产系列在线| 精品色综合| AV网站中文| 午夜少妇精品视频小电影| 欧日韩在线不卡视频| 亚洲欧美日韩动漫| 欧美一区精品| 亚洲精品午夜天堂网页| 国产精品福利导航| 久久情精品国产品免费| 五月婷婷综合网| 丰满人妻久久中文字幕| 精品无码专区亚洲| 色综合热无码热国产| 免费一级成人毛片| 亚洲精选高清无码| 久久99精品久久久大学生|