999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于檢索重排序模型的文本差異化研究

2023-01-18 09:08:22門業堃錢夢迪于釗滕景竹陳少坤顏旭
電測與儀表 2023年1期
關鍵詞:排序變壓器文本

門業堃,錢夢迪,于釗,滕景竹,陳少坤,顏旭

(1. 國網北京市電力公司電力科學研究院,北京 100075; 2.北京恒華龍信數據科技有限公司,北京 100088)

0 引 言

電力行業在設備質量評估中會大量使用種類、版本眾多的行業標準規范文件,業務人員在實際使用中需要根據文件內容判斷采購設備時應遵循的具體標準,以人工方式瀏覽查詢大量標準規范文件,效率低,準確性有待提升。然而,目前國內外對標準差異化梳理技術的研究還處于專家總結經驗的形式。面對種類、版本眾多的行業標準規范文件,僅靠專家經驗的形式已不能滿足目前的標準差異化梳理的要求,建立自動化、信息化、智能化的標準差異化梳理技術是現階段電力企業迫切需要的技術。

標準差異化梳理技術的本質是通過自然語言處理技術,完成對行業標準規范文件的語義相似度計算。文本相似度計算主要可分為基于詞共現向量的文檔模型方法[1]、基于語料庫的方法[2-5]、混合方法和基于描述性特征的方法[6-8]。文本挖掘作為數據挖掘[9-11]的一個分支,能夠充分挖掘信息的潛在價值。國內學者在文本相似度方面取得了一定的進展,其中文獻[12]在知網語義相似度的基礎上,將基于語義理解的文本相似度計算推廣到段落、篇章范圍。文獻[13]通過將文本的特征詞相似度為基礎,來計算文本間的相似度。在國外方面,文獻[14]通過將基于相似性度量和字向量的文檔模型方法用于信息檢索系統。潛在語義分析(LSA)[15]通過高維的線性關聯模型,生成文本相似性。

然而,目前在國內外,對技術文檔差異性內容檢索的研究依然是空白。事實上,與普通內容檢索和相似度計算相比,差異性內容檢索難度更大,主要原因在于具有差異的內容往往句式不同,而句式不同的語句所表達內容有可能相同。建立文本差異化模型,解決方法有兩種:(1)字面相似度模型:編輯距離等從字面意義上判斷句子的相似度,方法簡單,容易出現無法識別文本描述內容相同但說法不同的情況;(2)判別式算法:通過判別式機器學習算法,直接對兩個句子是否描述同一實體的概率進行建模分析識別。因為判別式機器學習算法能夠利用上下文(包括標題、子標題、上下文句子)等特征,綜合考慮句子的相似度,因此文中使用判別式算法來建立差異性檢索召回模型。

文中主要圍繞標準差異化梳理技術,以判別式算法為基礎,通過基于檢索重排序模型的信息檢索模型,建立完善的自動化、信息化、智能化的標準差異化梳理技術系統,能夠快速識別同一領域不同標準文件的檢索比對,以及不同部門發布的同類標準文件中存在差異的內容,并針對不同部門發布的標準文件中對相同設備技術要求卻不同的、需要技術人員著重注意的差異內容進行檢索,便于標準使用人員選擇合適的標準規范,提升業務效率,起到降低工作量,提高準確性,有利于對技術要求的管控的作用。模型具有較強的實用性,還可以廣泛應用于電力設備質量評估,供應商評價標準檢索等領域。

1 理論基礎

1.1 TF-IDF

TF-IDF[16](Term Frequency-Inverse Document Frequency)是一種用于信息檢索與數據挖掘的常用加權技術。TF-IDF通過詞頻和逆文檔頻率來評估一字詞對一個文件集合或語料庫中的某文檔的權重。

詞頻(TF)表示詞條(關鍵字)在文本中出現的頻率。即:

(1)

逆文檔詞頻(IDF):某一特定詞語的IDF,可以由總文件數目除以包含該詞語的文件的數目,再將得到的商取對數得到:

(2)

TF-IDF=TF×IDF。詞匯的TF-IDF重要性隨著詞匯在單個文件中出現的次數的增多而增多,同時也會隨著它在總體語料庫中出現的次數增多而減小。一般來說,在某一篇文章中出現頻率大,但在其他文章中出現次數少的詞語,更有可能是這篇文章的關鍵詞。因此,TF-IDF利用這一規律通過詞頻和逆文檔頻率來對每一個詞打分。

TF-IDF是一種用于信息檢索與數據挖掘的常用加權技術。如果某個詞比較少見,但是它在這篇文章中出現多次,那么它很可能就反映了這篇文章的特征,正是我們需要的關鍵詞。

1.2 word2vec詞嵌入

word2vec(word to vector)是一種基于文本上下文,將詞語映射到低維實數空間的文本向量化算法。word2vec通過雙層神經網絡,擬合用來表示詞對詞之間的關系的向量。這種通過算法將非實數空間的實體映射到實數空間算法,又叫做嵌入技術。嵌入技術產生的向量被稱為嵌入,因此文中的word2vec產生的向量稱為word2vec詞嵌入。

1.3 LambdaMART排序學習模型[17]

傳統的搜索引擎排序問題,通常會涉及到很多的排序策略。這些策略根據不同的特征,在不同的適用范圍中起作用。因此,一個傳統的排序算法,至少涉及到兩方面的內容:策略的制定,以及不同策略的組合。策略的組合需要考慮策略分析適用的特征,以及相應策略的適用情況。根據這些內容,通過人工或者半機器半人工的方式組合起來,才能組成一個實用的排序算法。

LambdaMART算法主要基于MART算法。MART是梯度提升決策樹算法,是一種集成學習算法(將幾種機器學習技術組合成一個預測模型的算法,以達到減小方差、偏差,以及改進預測的效果),MART的原理通過擬合上一輪分類器產生的殘差,更新下一輪學習的樣本權重。

LambdaMART基于梯度提升決策樹,通過優化λ梯度來得到最優排序函數。對于一個列表中任意的一對文章i和j,有:

(3)

式中C為損失函數;σ為控制損失函數形狀的參數,一般設為1。|Δzij|表示交換i和j的位置產生的評價指標差值,si和sj分別代表文章i和j的模型打分,z可以是NDCG(正規化累計收益折扣)或者ERR(期望倒數排名)等。累加其他所有排序項,可得:

(4)

式中λi為累加排序項后的值,因此其損失函數梯度為:

(5)

其中:

(6)

然后可以得到:

(7)

所以我們可以用下面的公式計算第n棵樹的第k個葉子節點上的值:

(8)

如表1所示,LambdaMART算法流程如下:k表示算法當前執行到的樹的個數,i表示第i篇文章。算法第3行計算出了λ梯度,在第4行計算出了λ二階梯度。算法在第6行通過擬合λ梯度,得到一棵葉子數為L的樹,并在第7行中計算出牛頓法葉子權重,第8行將當前的樹與上一棵樹整合。算法不斷循環N次,最后將每次得到的樹相加,即得到最終的模型。

表1 LambdaMART算法流程

1.4 編輯距離

編輯距離[18]是一種常見的字符串距離衡量公式。編輯距離由俄羅斯科學家Vladimir Levenshtein在1955年提出,因此也得名叫Levenshtein距離。在自然語言處理中,編輯距離是用來度量兩個變量相似度的指標。通俗來講,編輯距離指的是在兩個單詞(ω1,ω2)之間,由其中的一個詞ω1轉化為另一個詞ω2所需要的最少的單字符編輯操作的次數。其中,編輯操作有三種:插入、 刪除、 替換。一般來說,兩個字符的編輯距離越小,則他們越相似。

2 研究方法

主要針對同一領域的電力標準文件做檢索比對,即針對不同部門發布的描述主體相同、技術要求卻不同的標準進行檢索并預警提示。差異性檢索與信息檢索技術之間存在方法上的通用性,但差異性檢索對檢索內容的要求更高:與檢索出最相關內容的目標不同,差異性檢索的目的是檢索出內容最相關但描述方式存在差異的文本信息。由于二者之間存在一定的相似性及通用技術,因此,文中在普通的信息檢索模型基礎上,引入排序學習算法對初步檢索出的內容進行重排序,并選擇top-k置信度內容(即檢索最理想的前k個內容)作為最終檢索結果,實現了精度的進一步提高,以滿足差異化查詢的要求。其中k為兩篇文章預期差異內容數,可根據實際需要進行調整。提出的模型主要分為三大部分:數據處理、差異性檢索召回和top-k檢索重排序。

數據處理,即通過基礎的自然語言處理技術,對待檢索文本進行處理,將其轉化為計算機能夠識別的數值形式,主要技術如TF-IDF、word2vec詞嵌入等。

在使用word2vec詞嵌入同時,為了避免一些與預測無關的詞對預測結果帶來影響,文中利用TF-IDF指標選取出電力行業技術標準數據的關鍵詞,利用TF-IDF對詞嵌入進行加權,得到句子的關鍵詞嵌入。

編輯距離可以度量兩個變量的相似度指標,將兩個字符串a和b的編輯距離表示為lev{a,b}(|a|,|b|),其中|a|和|b|分別對應a和b的長度,用i和j分別代表a的前i個字符和b的前j個字符,那么,兩個字符串a,b的編輯距離即lev{a,b}(|a|,|b|)可以用如下的數學語言描述:

(9)

應用判別式算法構建差異性檢索召回模型的主要步驟有兩點:(1)為了保證檢索結果是最具有差異性的內容,引入top-k檢索重排序;(2)在普通的信息檢索模型的基礎之上,通過使用排序學習算法對top-k置信度的檢索內容進行重排序,使其精度能夠進一步提高,以滿足差異化查詢的要求。文中使用LambdaMART算法來進行重排序處理,技術路線圖見圖1。

圖1 技術路線

差異性檢索召回模型一共包括三層:(1)第一層為數據處理層,計算出對檢索有巨大幫助的文本特征;(2)第二層為差異性檢索召回層,通過將數據處理層的特征,輸入到具體分類模型中計算,得到分類結果;(3)第三層為檢索重排序層,通過將差異性檢索召回層傳入的前k項(top-k)的候選句子對,根據它們所處的上下文信息等特征,統一進行排序操作。

文中引入的檢索重排序層提高了文章差異性檢索的效果與準確度,主要原因在于:(1)差異性檢索召回層僅僅考慮了句子之間的匹配程度,沒有考慮到從標準文件整體角度進行匹配;(2)檢索結果往往無法明確地區分語義“完全一致”和“存在部分差異”之間的區別。因此,通過引入檢索重排序層,能夠既保留差異性檢索召回層召回候選能力強的特點,也能夠引入檢索重排序層精確性高的優點。

3 模型分析

3.1 實驗設置

為了得到模型所需的效果,額外搜集了多篇電力行業不同領域的技術標準文檔,對模型進行訓練,用20余篇進行驗證,均得到較好的效果。文中以三篇變壓器相關的技術標準文檔進行說明,分別是2012年由國家能源局發布的DL/T 770-2012《變壓器保護裝置通用技術條件》[19]、2002年由中華人民共和國國家經濟貿易委員發布的DL/T 770-2002《微機變壓器保護裝置通用技術條件》[20]和2016年由中華人名共和國國家質量監督檢驗檢疫總局和中國國家標準化管理委員會共同發布的《1000 kV變壓器保護裝置技術要求》[21]。其中DLT 770-2012《變壓器保護裝置通用技術條件》為待查詢差異的文章。

3.2 實驗結果

3.2.1 數據處理層

(1)預處理。

對文本的預處理是自然語言處理的基礎,也是能否達到符合預期目標效果的基礎和核心。預處理包括去除無關內容、分詞、去除停用詞等。去除無關內容,就是將數據中與差異化檢索無關的內容(如HTML標簽、Word格式和因字符集編碼解析錯誤導致的亂碼)去除。分詞,就是將中文的句子、文章從句子切分為詞語。分詞是中文自然語言處理的必要一步。一般來說,分詞在機器學習中可以歸結到序列標注問題,屬于有監督學習。分詞的實現方法有很多,文中采用的是最大概率法與隱馬爾科夫模型的結合,對研究目標進行分詞處理。去除停用詞,就是將與文章內容無關的停用詞(例如“的”、“了”、數字等)去除,以避免該類詞對后續處理和訓練所造成的影響。文中通過使用電力停用詞詞典對研究文本數據進行了去停用詞預處理。

(2)特征生成。

使用的特征主要包括編輯距離、TF-IDF和word2vec。文中采用編輯距離和TF-IDF作為文本特征。表2為節選的DLT 770-2012《變壓器保護裝置通用技術條件》與DLT 770-2002《變壓器保護裝置通用技術條件》中的句子計算出兩文本數據的編輯距離。

表2 編輯距離計算示例

在得到了分詞后的結果后,一方面通過TF-IDF計算每一個句子的TF-IDF向量,另一方面可以通過使用Word2vec,生成每一個詞的詞嵌入。電力行業技術數據中存在一些在詞嵌入中不存在的生僻詞,需要對這一部分詞進行單獨處理。常見的處理方法有丟棄、占位符、均值填充等。丟棄即直接將生僻詞丟棄,這種方法容易損失信息;占位符則是將生僻詞轉化為特殊的詞嵌入,如全零或其他向量表示,這種方法在數據量大時有一定效果;均值填充即將生僻字利用上下文中的其他詞的均值替代,這種方法效果較好,文中主要通過均值填充法對生僻詞進行計算。

文中利用TF-IDF指標選出電力行業技術標準數據的關鍵詞,利用TF-IDF對詞嵌入進行加權,得到句子的關鍵詞詞嵌入。具體方法為先計算出每一個詞在所在所在句子中的詞頻,再統計每一個詞在文章中出現的次數,然后利用TF-IDF公式計算得到詞的逆文檔頻率。

3.2.2 差異性檢索召回

針對模型訓練中差異性檢索召回部分,將兩篇文章中的任意句子兩兩配對,形成句對,分析每個句子對是否為待檢索內容,并進行0-1標記,即二分類打分,然后將結果傳入到檢索重排序層。差異性檢索召回層所用到的模型為二分類機器學習模型。在此用正類表示兩個輸入句子為相似且存在差異的句子,即文中需要檢索的句對,負類表示兩個輸入句子為不相似句子。

為了使二分類模型能夠精確有效判斷出輸入句子是否為正類、負類,需要先為模型提供一批人工審核的相似、不相似樣本,分別作為模型的正樣本和負樣本。

差異性檢索召回正樣本為模型提供相似句對的樣例,提供模型遇到類似的句對時能夠自動判斷是否相似。文中將待查詢差異的文章與其他文章相似的句子兩兩配對,形成正樣本。例如 <待查詢差異文章句子1,其他文章句子1>為相似句子,則該句子構成一個正樣本。

與差異性檢索召回正樣本相反,差異性檢索召回負樣本為模型提供不相似句對的樣例,文中隨機挑選不相關句子,作為負樣本。例如 <待查詢差異文章句子1,其他文章句子1>為不相似句子,則該句子構成一個負樣本。負樣本中還包括兩種類型的樣本:(1)語義相同但表述方式不同的句對,即邏輯完全相同句對;(2)語義不同的句對,即邏輯完全不同句對。兩種類型的樣本需要區別對待,其原因是邏輯完全相同的樣本與正樣本之間往往更難分割,因此需要分類器著重分析。文中將邏輯完全相同的樣本進行過采樣,在采樣過程中對此類句對多次重復有放回抽取,對邏輯完全不同的樣本進行欠采樣,在采樣過程中對此類句對隨機丟棄。

上文得到的正樣本、負樣本均為人工審核的小數據量的準確樣本,為了能對現存的海量待查詢文章進行差異化檢索召回,必須通過一種具有泛化能力的模型進行處理。GBDT模型是一種目前業界常用、性能優異的分類模型。文中利用GBDT模型,自動分析差異化檢索召回的正負樣本,來擬合二分類概率,以達到泛化的能力,這一過程又稱為學習或訓練。

差異性檢索召回層通過查找數據處理層中句子的特征,對句對特征進行拼接,形成完整的差異性檢索召回層的特征,然后送入到GBDT模型中進行訓練。

經過了差異性檢索召回層處理后,輸出的候選句對已經能夠達到基本的查詢目標。在兩篇待查詢文章上進行實驗后發現,DL/T 770-2012《變壓器保護裝置通用技術條件》與《1000 kV變壓器保護裝置技術要求》之間的差異性檢索正確率(AUC指標)能達到0.874。DL/T 770-2012《變壓器保護裝置通用技術條件》與DL/T 770-2002《變壓器保護裝置通用技術條件》之間的差異性檢索正確率(AUC指標)達到0.937。差異性檢索對檢索出的結果不僅要求整體正確率高,還需要保證top-k的準確率(即最先展現給用戶的前k個差異檢索)。例如,僅僅通過差異性檢索召回,在k=300時,DL/T 770-2012《變壓器保護裝置通用技術條件》與《1000 kV變壓器保護裝置技術要求》之間的差異性檢索正確率(即AUC指標)僅有0.476,DL/T 770-2012《變壓器保護裝置通用技術條件》與DL/T 770-2002《變壓器保護裝置通用技術條件》之間的差異性檢索正確率(即AUC指標)也僅僅只有0.512。檢索重排序層的引入,正是為了提高top-k的檢索正確率,為用戶直接提供最優質的差異檢索。

3.2.3 檢索重排序層

檢索重排序層的輸入是差異性檢索召回層輸出的二分類概率top-k的句對,輸出為排序后的結果。檢索重排序層通過使用LambdaMART算法,得到全局最優的排名和打分結果。

文中主要針對于提高top-k的精度,因此檢索重排序層通過對top-k的樣本進行訓練,將top-k中的正樣本和負樣本的特征輸入到LambdaMART模型中進行訓練。雖然差異性檢索召回層的預測概率結果并不一定正確,但其仍然能夠為檢索重排序層提供較為正確、豐富的預測幫助,因此檢索重排序模型的特征與差異性檢索召回層的特征相比,增加了一項由差異性檢索召回層提供的二分類概率。另外,從集成學習的角度可以認為這實際上是一種更強大的層疊(stacking)學習。因此文中將其預測結果同樣作為檢索重排序層的特征,進一步提高模型的整體效果。驗證結果如圖2所示。

圖2 五輪交叉驗證的實驗效果

在經過檢索重排序的學習后,top-k(k=300)檢索正確率(AUC)在DL/T 770-2012《變壓器保護裝置通用技術條件》與《1000 kV變壓器保護裝置技術要求》之間的差異性檢索正確率(AUC指標)能達到0.928,DL/T 770-2012《變壓器保護裝置通用技術條件》與DL/T 770-2002《變壓器保護裝置通用技術條件》之間的差異性檢索正確率(AUC指標)能達到0.954。可以看出,檢索重排序層的引入,對提高top-k的檢索正確率、提高用戶使用便捷程度有非常巨大的幫助。

為了更魯邦的驗證模型的效果,文中在數據集上進行了交叉驗證,圖2為在五輪交叉驗證的實驗效果。可以看出,使用了檢索重排序后,檢索正確率已經能夠均勻達到0.95以上。

對檢索重排序模型與其他目前主流方法:TF-IDF、編輯距離、word2vec與檢索重排序模型的AUC指標進行了對比,實驗發現檢索重排序模型效果較其他方法具有巨大的提升(如圖3):TF-IDF、編輯距離這類不考慮語義相似度的方法效果最差,AUC指標最高僅為0.47。word2vec方法考慮了詞匯的語義特征,但其并不能準確判斷文章是否具有差異性,AUC指標也僅有0.61。文中提出的檢索重排序模型,既能夠利用word2vec提供的語義特征,又能夠通過檢索重排序有效判斷是否具有差異性,效果最好,AUC指標達到0.95。

圖3 檢索重排序模型與主流方法效果對比

4 結束語

標準差異化研究是自然語言處理的重要組成部分,廣泛應用于各個領域,相比常見的文本差異查詢,文中主要針對電力行業中同一領域的不同標準文件做檢索比對,檢索出不同部門發布的文件中對同一技術不同要求的差異性內容并預警提示。模型在研究上主要針對差異性檢索,提出了在普通的信息檢索模型的基礎之上,使用排序學習算法對top-k置信度的檢索內容進行重排序,使其精度能夠進一步提高的模型,以滿足差異化查詢的要求。

文中提出的電力行業技術標準差異化研究模型主要分為三大部分:數據處理、差異性檢索召回和top-k檢索重排序,并在真實的電力行業技術標準文檔上進行了系統魯邦的交叉驗證,驗證了模型效果的優異,結果表明模型具有非常高的差異性檢索正確率(AUC指標),說明檢索模型是有效的,檢索輸出結果是準確的,經過綜合分析得出所采用的模型是可行的。

基于文本特征的檢索重排序模型可應用于電網設備供應商績效評價體系中的供應商名稱匹配領域,能夠提高供應商名稱匹配效果,提高數據治理質量。此外還可以廣泛應用于電力設備質量評估,電力行業標準檢索、評價標準檢索等領域。

猜你喜歡
排序變壓器文本
排序不等式
理想變壓器的“三個不變”與“三個變”
恐怖排序
在808DA上文本顯示的改善
節日排序
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
開關電源中高頻變壓器的設計
刻舟求劍
兒童繪本(2018年5期)2018-04-12 16:45:32
一種不停電更換變壓器的帶電作業法
變壓器免維護吸濕器的開發與應用
主站蜘蛛池模板: 成年人久久黄色网站| 日韩精品一区二区三区免费在线观看| 99re视频在线| 91亚洲精品第一| 中文字幕一区二区人妻电影| 亚洲欧美成人网| 香蕉伊思人视频| 欧美一级高清片久久99| 国产99视频在线| 欧美一区二区福利视频| 亚洲成肉网| 91小视频在线观看| 欧美成人亚洲综合精品欧美激情| 国产熟睡乱子伦视频网站| 国产精品香蕉在线| 国产亚洲精品91| 中国一级特黄视频| 亚洲天堂网在线视频| 亚洲成人动漫在线观看| 精品一区二区三区波多野结衣 | 青青操国产视频| 免费A级毛片无码无遮挡| 五月天久久综合国产一区二区| 2020国产精品视频| 另类专区亚洲| 国产区成人精品视频| 亚洲h视频在线| 看你懂的巨臀中文字幕一区二区| 91极品美女高潮叫床在线观看| 四虎永久免费在线| 中文字幕精品一区二区三区视频| 特级毛片8级毛片免费观看| 亚洲国产精品不卡在线| 免费aa毛片| 日本成人一区| 国产亚洲欧美在线专区| 亚洲码一区二区三区| 视频一本大道香蕉久在线播放 | 久久综合色播五月男人的天堂| 日韩在线第三页| 中日无码在线观看| 婷婷综合亚洲| 国产成人乱无码视频| 一本大道香蕉久中文在线播放| 在线观看精品国产入口| 另类综合视频| 国产aaaaa一级毛片| 中国毛片网| 国产高清精品在线91| 制服无码网站| 熟女日韩精品2区| 欧美劲爆第一页| 自拍偷拍欧美日韩| 亚洲精品va| 亚洲中文久久精品无玛 | 国产精品福利一区二区久久| 国产黄在线观看| 成人国内精品久久久久影院| 丁香六月综合网| 在线观看av永久| 久久伊人色| 亚洲视频影院| 拍国产真实乱人偷精品| 亚洲综合色区在线播放2019| 日韩欧美在线观看| 久久综合亚洲色一区二区三区| 美女无遮挡免费视频网站| a级毛片在线免费观看| 精品福利国产| 精品无码一区二区在线观看| 亚洲精品不卡午夜精品| 六月婷婷精品视频在线观看| 色综合久久88色综合天天提莫| 国产97视频在线| 免费国产高清视频| 91区国产福利在线观看午夜 | 久久精品免费国产大片| 国产区福利小视频在线观看尤物| 无遮挡国产高潮视频免费观看| 天堂成人av| 蜜芽国产尤物av尤物在线看| 2021国产在线视频|