蔡榕,周長江,祝和明,王存超,郭晏
(國網江蘇省電力有限公司,江蘇南京 210000)
目前,我國的專利分類主要分為3 種,分別為發明、實用新型、外觀設計3 種。我國電力領域的電力專利數據也可分為以上3 種類別,其中發明類別是指電力產品制造、電力方法運用的電力專利數據[1-3];實用新型類別是指電力產品的形狀、構造以及電力方法運用具有突破性改進的電力專利數據;外觀設計類別則是指電力產品通過外觀、圖案、色彩相結合變得富有美感并可加以運用的電力專利數據,國外針對電力專利數據的整體分類與我國大致相同,但都存在著人工分類緩慢、自動分類易錯的現象,尤其是面對復雜數據群時,傳統方法的弊端凸顯得更加明顯。
基于態勢感知理念設計了一種電力專利數據自動分類方法,該方法可以通過對我國電力專利大數據網的數據分別進行提取與分析,達到未來態勢分析、自動分類計劃制定、合理自動分類的目的。受目前電力專利數據復雜程度的影響,可將態勢感知分為基礎感知與綜合感知兩個層次,從不同層次分類數據群,從而提高分類結果的準確率。
電力專利數據是電力領域知識與技術信息的載體,也是該領域創新活動的直接體現[4]。將我國的電力專利數據進行歸納,如圖1 所示。

圖1 電力專利數據歸納圖
以上3 種電力專利數據構成了我國的電力專利大數據網,而首先要做的就是通過態勢感知理念對電力專利大數據網中的電力專利數據進行自動提取,這屬于態勢感知中的基礎感知層次[5]。
在進行態勢感知的過程中,通過式(1)對電力專利數據進行提取計算:

其中,V表示通過相關合法渠道獲得的電力專利數據組,N表示V的通用代入項,P表示我國授予的電力專利數據官方證明承認數據組,T表示各專利數據所提交的對應時間,經過計算得到的L則為該文通過態勢感知理念相關公式計算得到的相關電力數據組,這些數據組經過加工后具有的獨特性與專有性不會發生改變,但是卻可以變為能夠應用態勢感知理念分析分類的感知識別組,方便接下來的應用[6]。
在對提取的能夠應用態勢感知理念分析分類的感知識別組進行分析之前,將L劃分為A、B、C3 組數據。需要對態勢感知進行多維設計,主要可分為“處理元”、“分析元”、“計劃制定元”,三者彼此之間應用pige 數據傳輸管道進行單元數據傳輸聯系[7]。
“處理元”主要負責處理感知識別組A、B、C的數據,在這一過程中,“檢測元”首先會對這些電力專利數據進行來源標記,即這些電力專利數據組的所屬來源分別為a1、a2…an,b1、b2…bn,c1、c2…cn,然后對這些電力專利數據組進行統一打亂與合并,形成大數據組L,并交由“分析元”處理[8]。
“分析元”并不會對這些電力專利數據的來源即專利數據擁有者予以關注,它只負責通過態勢感知理念對這些電力專利數據的類別進行計算,以分析這些電力數據究竟屬于發明、實用新型、外觀設計哪一種類別[9],類別計算公式如下:

其中,S為“分析元”分析數據所應用的專屬單元,X、Y、Z則為經過“分析元”具體分析后得到的電力專利數據3 類小組,它們分別對應發明、實用新型、外觀設計3 種類別歸納數據組[10]。類別歸納數據組X、Y、Z與感知識別組A、B、C的關系歸納圖如圖2 所示。

圖2 關系歸納圖
在得到具體的3 種類別歸納數據組即X、Y、Z后,“分析元”會將這些數據組遞交給“計劃制定元”處理[11]。
“計劃制定元”在接收到電力專利數據的發明、實用新型、外觀設計3 種類別歸納數據組后,會查看各數據組中電力專利數據的來源標記,來確定它們的來源,再通過態勢感知理念從未來態勢角度進行分析,最終得到具體的自動分類制定計劃[12]。基于態勢感知的電力專利數據自動分析的具體流程如圖3所示。
經過分析后得到的自動分類制定計劃也是該文研究的基于態勢感知的電力專利數據自動分類方法接下來進行自動分類的主要依據[13]。

圖3 電力專利數據自動分析具體流程圖
自動分類制定計劃中主要包括了各電力專利數據的具體來源、自動分類建議、未來態勢分析3 項數據,在得到自動分類制定計劃后,首先需要基于態勢感知理念對自動分類制定計劃中各電力專利數據的3項數據即具體來源、自動分類建議、未來態勢分析進行整合[14]。在態勢感知理念下,將上述電力專利數據分別歸納成數據組M、N、K,并通過式(3)進行計算:

其中,G為人為介入的客觀因素,主要為在電力專利數據自動分類過程中需要滿足的具體要求,該因素會對電力專利數據自動分類增加一定的限制,但不會干擾該文對態勢感知理念的運用,在經過計算后得到的數據組m、n、k即為最終的自動分類制定計劃,在該過程中,自動分類制定計劃中的原數據M、N、K與經過計算后得到的數據組m、n、k的數據形態對比圖如圖4 所示。

圖4 原數據與最終數據組的數據形態對比
在電力專利數據自動分類過程中,根據通過態勢感知理念獲得的自動分類制定計劃對電力專利數據類別歸納數據組即X、Y、Z進行最后的分析與解讀,并依據態勢感知理念通過sqoop 抽取技術對X、Y、Z中的電力專利數據進行數據抽取,然后通過pige數據傳輸管道傳輸到各自的類別歸納空間x、y、z中,完成電力專利數據的自動分類[15]。文中所應用的sqoop 抽取技術可以在不破壞類別歸納數據組X、Y、Z中的其他電力專利數據組的前提下完成對針對性的電力專利數據的單一抽取,具有極高的穩定性與針對性,而最終的類別歸納空間x、y、z則由HDFS 海量數據集成技術作為支撐,可以滿足大量電力專利數據的類別歸納存儲條件[16-17]。
為了檢測文中研究的基于態勢感知的電力專利數據自動分類方法的實際應用效果,選用傳統的電力專利數據分類方法和文中研究的方法進行對比實驗,利用Linux 算法對兩種方法進行測試,對比兩種方法對電力專利數據分類的準確性以及工作效率。
為滿足實驗目的,文中設計實驗環境包括數據提取、數據分析、數據分類3 個單元,3 個單元間通過pige 數據傳輸管道進行數據傳輸,其中數據為已知數據,當系統開始運行時,首先對電力專利數據進行提取,然后進行分析,最后進行分類,得出分類結果,采用Linux算法可以計算出兩種方法在3個單元的工作時間以及工作結果,可以直觀地對比出兩種電力專利數據分類方法的準確性以及工作效率。
針對基于態勢感知的電力專利數據自動分類方法的復雜性,需對其進行實驗參數的設置,實驗參數如表1 所示。

表1 實驗參數
根據上述實驗參數,在設置的實驗環境中進行對比實驗,利用Linux 算法計算出文中研究的基于態勢感知的電力專利數據自動分類方法和傳統的電力專利數據分類方法的分類準確性,首先在電力專利數據環境中投入10 組電力專利數據,得到的分類準確性對比如圖5 所示。

圖5 分類準確率對比圖
由圖5 可以看出,在對10 組電力專利數據的自動分類過程中,文中研究的基于態勢感知的電力專利數據自動分類方法對電力專利數據的分類準確率較高,自動分類準確率在90%以上,而傳統的分類方法由于誤差較多,整體的自動分類準確率在80%左右。
上述實驗證明了電力專利數據環境中投入10組電力專利數據的情況下,文中研究的基于態勢感知的電力專利數據自動分類方法對電力專利數據的分類準確率較高。
我國電力專利數據的數量十分龐大,因此該文接下來在電力專利數據環境中投入500 組的電力專利數據后,應用文中研究的自動分類方法與傳統方法的分類準確率對比如圖6 所示。

圖6 自動分類效率對比圖
從圖6 可以看出,無論是在電力專利數據環境中投入10 組電力專利數據還是500 組電力專利數據,文中研究的自動分類方法對電力專利數據的自動分類準確性都始終在90%以上,而傳統方法在對500 組電力專利數據進行分類的準確率卻已低于50%。造成這種對比結果可能有以下幾種原因,文中研究的分類方法能夠對電力專利數據進行詳細深入的分析,應用態勢感知進行“檢測元”、“分析元”、“計劃制定元”等多維設計,經過深入分析的數據使系統能夠準確將數據進行分類,使得對電力專利數據的分類準確率變得十分準確,而傳統的電力專利數據方法對數據的分析不夠全面,使得分類時界限相對模糊,從而影響數據分類準確率。
對基于態勢感知的電力專利數據自動分類方法進行了深入研究,對基于態勢感知的電力專利數據自動提取、自動分析和自動分類過程進行了詳細介紹,并針對其準確性,選用傳統的電力數據分類方法進行對比實驗,根據實驗結果可知,文中研究的方法具有較高的準確性,能夠有效彌補傳統方法的缺點,更適用于電力專利數據的分類。