王瓊 楊波 陳佐虎
(1.國網甘肅省電力公司信息通信公司 甘肅省蘭州市 730050 2.甘肅同興智能科技發展有限責任公司 甘肅省蘭州市 730030)
電力公司各部門長期積累大量垂直型文檔數據[1],但是少有人關注隨著數據量的增加隨之而帶來的管理問題[2]。文本數據缺乏分類標準與依據、分類不合理、自動分類智能化程度不高,這些都為電力企業的文檔資料管理工作帶來了巨大挑戰[3]。網絡大數據信息挖掘、自然語言處理、信息檢索等各類技術的多融合應用能很好地解決信息過載時代的亟待解決的開放域與垂直域中的文本數據管理問題。文本分類技術作為這些領域的技術基石和先期任務,為了適應文本管理過程中需要處理的內容、類型各異的數據對象,相關技術在近年來得到了快速發展和廣泛關注[4-6]。傳統的文本分類是由專家或專業人士等大規模人工干預的條件下進行的標簽注釋和手工分類的工作。人工分類方法費時費力,且易受個體理解的影響,無法保證分類的統一標準。相對于人工方法,自動分類方法可以有效地減少分類工作的繁雜性,且大幅度提高了信息處理的效率。然而,隨著數字化企業技術的發展,公司文本數據以指數級增長,這給文本智能分類技術帶來了巨大挑戰[7-8]。
近年來,隨著現代電力系統的日益發展,貫通全電網數據通信機制、智能化管理、數據應用超市的上線和運行的過程中,電力數據出現了井噴式增長的現象。而長期積累的電力運維歷史數據與日益新增的運維數據、業務數據已成為電網企業業務運行的關鍵保障之一,同時也是電網企業實現數據二次利用、基于數據的知識挖掘并以此為依據,實施業務和管理機制做深化改進的寶貴數據資產。當前理論成熟且滿足工業生產需求的自然語言處理手段、人工智能學習模型等技術及方法已在各個行業和領域得到了快速發展,這為實現垂直領域下的專業性文本管理提供了良好的先決條件和可實現性。結合電力行業的業務發展和生產需求,本文將從數據和方法兩個維度入手,就電力文本分類任務目前主要存在的困難展開分析和討論,獲得了以下結論:
目前,已被應用于日常生產中的紛繁多樣的文本分類方法的訓練過程大多還是依賴于大規模的經過人工或半人工標簽化處理的訓練數據集,并且分類文本的訓練數據體量與模型分類器的優劣程度呈正相關性。然而,電力工業安全作為國家安全的重要組成部分之一,電力企業對于文本數據的管理制度以及保密要求非常嚴格,所以造成公開披露的有效數據樣本少之又少,而訓練樣本的匱乏恰恰是亟需解決的“瓶頸問題”,這為電力文本分類技術研究帶來了巨大的挑戰以及更高的要求。
在經過了對相關的公開電力資料的收集、查閱、了解、分析和歸納后,我們發現相對于開放性領域的文本,屬于垂直領域內的專業性電力文本具有其獨有的行業文本專業性特征。
(1)電力專業性,電力文本涉及大量電力相關以及工程相關的專業性詞匯,如果不進行模型訓練或是詞典擴充,那么大量的專業性詞匯是無法被準確且無遺漏地識別并被表示為文本特征的。
(2)語言學弱顯性,電力行業高效快速的行業特點,使得在電力文本書寫階段中,更多考慮內容傳達準確性和有效性時,而相對忽略了語言學規則。因此在某些情況下,無法采用一些基于語法或是上下文的常規分類方法進行文本類型識別處理。
(3)電力文本形式多樣性。電力企業內部信息傳達過程中,為了實現快速且精準的信息交互,結構化數據與非結構化數據混合使用是電力文本的常見現象。這種無確定形式表達且缺乏機器可理解語言的現象為自動化文本特征抽取與分類提出了更高的要求。
(4)電力文本分類偏重性。電力設備的日志在電力文本中的占比較大。然而這類文本由于本身是由設備或者系統自動生成的原因造成缺陷性文本的數目龐大。比如文本中常常會出現設備編號確實、位置信息和時間空白等各類問題。在文本分類過程中,基于歷史數據,模擬有效且仿真的關鍵特征數據,用于實現缺陷數據的補全和填白,也是文本分類任務中必須克服的困難。
(5)設備運行負載安全及成本。文本分類技術在電力行業的應用過程中必須按照電網工業生產和安全標準提出的要求,并且以綠色環保、可持續發展為行業要求,需要盡量減少能源消耗,二氧化碳排放量、生產成本。
如何使用少量的計算資源、設備資源和存儲資源實現快速準確的自動化文本分類。經過排序、過濾、篩選后的文本關鍵詞常被考慮作為對文本進行分類的重要依據,即文本的類別特征。常規手段是將抽取得到的文本實體與在文本中實體出現的對應頻率進行結合并存儲,做降序排序后,篩選得到文本對應的關鍵詞集合,并以此作為類別劃分和識別的重要依據,從而實現文本分類目標。
在分析了大量的電力行業文本后,就電力企業中常涉及的業務多分類問題,計劃以bag of words 詞袋模型為基礎,并且假設文本中任意詞與詞之間存在獨立性。經過對比實驗驗證之后,將引入機器學習方法中的樸素貝葉斯和非線性核支持向量機(SVM)。樸素貝葉斯法根據條件概率分布進行了獨立性假設,極大程度減少參數數量,即

其中,x(j)為樣本x 的第j 個特征。
樸素貝葉斯法是基于樣本類條件概率形成的學習模型。樸素貝葉斯分類器計算并排序所得的后驗概率,并最大化求得的概率結果及其對應的所屬類別。因此,分類學習模型可表示為:

由于上式分母的取值不依賴于樣本的類屬yj,上式經簡化后為:

圖1:分類詞特征聯合構建及文本分類流程

圖2:模擬測試

非線性核的支持向量機則是通過核函數,將特征向量映射到更高維的空間中,使得原本線性不可分的數據經過映射后,在空間中實現線性可分。使用該方法,,旨在擴大特征顯著性,將類別之間本不明顯的特征清晰化,從而便于模型分類器判斷文本的所屬業務類型。假設原始向量為x,映射之后的向量為z,得到的映射為:

用核函數對兩個特征向量的內積進行變換得到向量進行映射并做內積計算后:

基于共有文本特征詞跨類聯合的電力文本分類算法主要分為電力文本分類數據庫構建和文本分類兩個階段。電力文本分類數據庫構建包含使用Jieba 分詞器對數據集進行分詞、統計各個類別的詞頻表、分類詞匯去重、類別詞交叉組合、獲取前K 個特征關鍵詞;文本分類包含原始文本數據分詞、計算分類詞頻、文檔分類。具體流程如圖1 所示。
過程描述如下:第一步:使用jieba 分詞工具對已標注類別的電力文本數據進行分詞處理,實現詞塊劃分。
第二步:對各個類別下的文本數據分別進行詞頻統計,并進行降序排序,每個類別得到對應的詞頻表,作為分類語料庫。
第三步:去重。對第二步中各個類別下的分類語料庫進行去重處理,減少重復詞匯及其詞頻對后續工作的影響。
第四步:對各個類別的分類語料庫進行跨類別橫向遍歷統計,并對所屬多類別的詞組進行重組和搭配,生成二元組或三元組搭配的關鍵詞組。
第五步:篩選出分類語料庫中前k%的關鍵詞作為各個類別對應的類別特征,并以此作為電力文本分類的標準。
第六步:將所得重組后的類別語料庫和經過訓練的分類器應用于測試文本中,計第七步:根據在測試文本上的表現,計算測試文本詞頻表與類別語料庫的命中率。并對類別語料庫做校驗和調整。
第八步:根據機器學習模型評估標準,計算并比較分類器在測試文本上的表現性。
上述流程整體可從兩方面描述:
第一方面:電力文本分類數據庫構建
遍歷所有分類,使用jieba 分詞工具對該類數據集進行分詞,得到該類詞頻數據,剔除詞語所屬分類數為3 以上的詞語。遍歷分類詞頻數據,如果該詞所屬分類數量為1,則將其加入該分類所屬語料庫;如果該詞所屬分類數量為2,則往后搜尋同樣分類數量的詞語且分類交集為該分類的詞語,將保存至對應分類語料庫,并在其余分類語料庫檢索并刪除該詞。
第二方面:文檔分詞和分類
應用jieba 分詞對測試文檔做分詞,獲取測試詞頻數據。遍歷詞頻數據,如果該詞屬于Sub 分類特征語料庫,則增加Sub 分類命中率,統計各個分類命中率,選取命中率最大的分類為該文本分類。
分別選取已獲得的詞頻表中的前5%、前10%、前15%、前20%的關鍵詞進行篩選作為類別語料庫,做橫向對比測試驗證,即對參數K 進行實驗測試。實驗結果表明,當K 選取5%的篩選值時,會導致類別特征數較低,在分類時大部分詞語沒有命中分類語料庫導致正確數較低;當K 選取20%的篩選值時,詞頻表中絕大多數的詞都會被收錄到特征語料庫。因此,在篩選分類時,可能會出現某一個類別的分類詞特征較多的情況,而其余分類詞頻數較低的情況,由此會導致該特征明顯詞被誤篩,從而影響特征語料庫的整體質量,最后直接影響分類器的正確率。實驗結果表明,K 選取10%平均值較好的權衡了各個步驟的影響,從而提高了預測準確性。模擬測試如圖2 所示。
針對電力文本的特點,雖然通過提出基于共有文本特征詞跨類聯合實現電力文本分類有效緩解了跨類共享分類特征詞導致分類沖突的難題,但是必須進一步提高文本分類自動化、智能化和準確性程度。下一步,必須進一步提升電力文本分類的樣本數量,尤其是增加文本特征詞稀缺類別樣本數量,減少各個文本類別分類特征詞分布不均,完善和提升電力文本分類語料庫。