基于樸素貝葉斯算法的電網建設資源自動化分類模型研究

2021-01-07 13:36:16夏常明

粘接 2021年12期

夏常明

摘要：提出基于樸素貝葉斯算法的電網建設人力資源自動化分類模型研究。通過網絡爬蟲技術，采集電網建設資源，在采集的資源信息中提取資源特征，并應用隨機森林算法在特征項中選取合適的特征項，生成特征子集。采用樸素貝葉斯算法，構建基于屬性相關性度量的分類模型，實現電網建設人力資源自動化分類。結果表明，在兩分類和多分類條件下，文中提出的分類模型的平均適應度值分別為89.78和97.47，該分類模型能夠獲取準確的自動化分類結果，提高模型的適應度值，滿足電網建設需求。

關鍵詞：樸素貝葉斯算法;電網建設;自動化分類模型;特征屬性

中圖分類號：TP301 文獻標識碼：A ? ? 文章編號：1001-5922（2021）12-0093-05

Research on Automatic Classification Model of Power Grid Construction Resources based on Naive Bayes Algorithm

Xia Changming

（State Grid Gansu Electric Power Company， Lanzhou 730030， China）

Abstract：The automatic classification model of power grid construction resources based on naive Bayesian algorithm is proposed. The network crawler technology is used to collect the power grid construction resources， and the resource features are extracted from the collected resource information. In addition， the random forest algorithm is applied to select the appropriate feature items， which are used to generate the feature subset. The naive Bayes algorithm is adopted to construct a classification model based on attribute correlation measurement. Thus the automatic classification of human resources in power grid construction is realize. The results show that under two classification and multiple classification conditions， the average fitness of the proposed classification model is 89.78 and 97.47， respectively. The classification model can obtain accurate automatic classification results， improve the fitness of the model， and meet the requirements of power grid construction.

Key words：Naive Bayes algorithm; Power grid construction; Automatic classification model; Feature attributes

0 引言

考慮到電網建設的復雜性，施工過程中需要大量工作人員進行配合，電網建設資源中人力資源分類管理成為研究重點問題。其中，不同類型的工作人員需要在不同的施工階段進行有效配合，根據人力資源分類結果，明確人員經驗和熟練程度，將其分配至合理崗位，保證電網建設項目的高效開展，并且有利于成本控制[1-2]。

目前相關領域學者針對電網建設資源管理中的分類模型進行了研究，并取得了一定的研究成果。文獻[3]利用強化學習技術中的Q學習算法，建立增量分類模型。通過對樣本增量序列的有效選取，將分類數據中包含的噪聲影響降低，完成高精度的樣本自主標記。結合批量增量計算方法，保證分類模型計算復雜度的降低，但該模型的分類精度較低。文獻[4]以CNN網絡為核心，構建分類模型。在卷積網絡的作用下，將資源信息的局部特征提取出來，融合雙向門控循環單元獲取篩選后的特征屬性。利用多頭注意力機制計算特征權重，基于權重加高的特征進行分類處理。但是，該模型的適應度值較低。針對上述問題，提出基于樸素貝葉斯算法的電網建設資源自動化分類模型。文中針對電網建設資源中人力資源管理的特點和需求，利用網絡爬蟲技術采集電網建設資源，采用隨機森林算法獲取資源特征。結合樸素貝葉斯算法，構建新的自動化分類模型，能夠獲取準確的自動化分類結果。

1 模型研究背景

1.1 采集電網建設資源

由于文中設計的分類模型，主要針對電網建設資源中的人力資源展開設計[5-6]。所以，在電網建設資源采集過程中，選擇網絡爬蟲技術，在內部網站中獲取人力資源信息[7]。并按照網頁鏈接不斷查找，將查找的資源信息進行自動下載。網絡爬蟲的工作原理如圖1所示。

由圖1可知，網絡爬蟲技術采集電網建設資源，包括選擇界面、核查URL、提取鏈接以及文本下載等多個步驟。所以，該技術的主體模塊由網頁解析器和網頁下載器構成。

在實際應用中，需要按照實際采集需要，獲取主題爬行范圍保證采集信息符合電網建設資源中人力資源信息采集要求[8]。本文應用Shark-Search算法作為判斷引擎，在向量空間模型的作用下計算采集電網建設資源與人力資源信息之間的相關度。將相關度的取值范圍限定在0-1之間，越靠近1則表明采集信息越符合要求;反之則需要重新采集資源信息。信息采集過程中，子節點的主題相關性完全取決于父節點的相關度，則URL列表的相關度得分計算公式為：

式中，x表示子節點;P表示得分;Y 表示系數;λ表示遺傳算子;xa表示相鄰節點。考慮到父節點遺傳作用，得出：

式中，F表示相關性得分;Sim表示相似度;t表示預定義主題;c表示父節點;δ表示衰減因子; 表示相似度判定閾值;if表示計算函數。由于鄰近鏈接的相關性得分很大程度上取決于錨文本、鏈接附近文本，則鄰近鏈接的主題相關性計算公式為

式中，β表示預定義常量;v表示鏈接上下文文本;b表示錨文本。通過上述計算，確保網絡爬蟲采集的電網建設資源信息，屬于人力資源信息，將其作為后續分類操作的數據支撐。

1.2 提取和選擇電網建設資源特征

資源自動化分類需要以資源特征為依據，考慮到電網建設人力資源信息文本中所包含的詞匯較多[9]，為了降低模型計算復雜度，文中利用機器學習方法提取特征項。根據資源信息中不同詞匯與主題的關系進行分析，在特征提取時需要將貢獻較小和無貢獻的詞匯剔除，將貢獻較大的詞匯作為特征提取出來[10]。文中采用詞頻統計的方法明確停用詞，將其從資源內去除后，按照TF.IDF方法計算詞匯的權重，將權重計算結果較高的詞匯充當特征項。

式中，s表示隨機選取文本;r表示特征項;w表示特征權重;A表示文本中特征項出現頻率;N表示為文本集個數;n表示含有特征項的文本數。由于上述計算提取出來的特征項較多，為了保證模型分類結果的準確性和實時性，應用隨機森林方法選擇合適的特征項構成特征子集，隨機森林的基本思想如圖2所示。

利用隨機森林模型對原始樣本集進行迭代訓練，并在訓練開始前在樣本集中隨機抽取多個樣本，構成全新的訓練樣本集[11]。通過上述方法生成多個訓練樣本集，將每個訓練樣本集生成的決策樹組合而成隨機森林。最后，利用投票結果對特征項進行分類。針對每一類型的特征數據，計算最小袋外數據誤差率，根據誤差率計算結果選擇合適的特征，保證分類精度。在隨機森林構建過程中，定義樣本集S：

式中，a、m表示子樣本，通過抽樣計算獲取袋外樣本集，并利用自助樣本集生成相應的分類器，獲取以下分類結果：

式中，i表示任意樣本;C 表示組合分類器;σ表示示性函數;K 表示樣本抽取次數;表示樣本分類結果。應用隨機森林算法選擇電網建設資源特征，實際上是分析某個特征中影響RF準確率的關鍵因素，計算單個特征重要性[12]。目標特征子集構建過程中應用RF選擇特征，本質上是基于Wrapper法選取特征如圖3所示。

根據隨機森林算法得出特征重要性度量值，將不符合計算要求的特征從特征空間中去除，生成新的特征子集。并重復計算OOB誤差率，直到僅剩兩個特征子集，獲取最終特征。

1.3 樸素貝葉斯算法的電網建設資源自動化分類模型

基于上述電網建設人力資源特征選取結果，設計基于樸素貝葉斯算法的分類模型[13]，樸素貝葉斯分類模型結構示意圖如圖4所示。

在圖4中，A1，A2，…Aε表示特征屬性變量，對變量集按照屬性進行類變量劃分。將類變量作為唯一父節點，根據屬性變量的差異，生成樸素貝葉斯分類模型[14]。以屬性為基礎進行樸素貝葉斯分類時，需要計算不同人力資源信息變量的相關性，針對兩個基本屬性R、E，應用o2統計量計算方式，獲取行列變量的相關性：

式中，o表示統計量;l、p表示屬性值;f 表示樣本容量;flp表示兩個基本屬性同時出現的頻度。根據統計量計算結果，將數據列表中行列變量屬性相關性計算公式表示為：

式中，Ψ 表示屬性相關性度量值;u表示屬性頻度列表行數;z 表示屬性頻度列表列數。屬性相關性度量值越大表明電網資源信息之間的屬性相關性更強[15]。為了加強資源分類的可伸縮性和正確性，文中采用屬性約簡的方法進行預處理。通過屬性約簡過程，將最優屬性從電網建設資源屬性集合中提取出來。電網建設人力資源集合在屬性約簡后需要達到兩個目的：其一，確保決策屬性與條件屬性具有較大相關性;其二，保證各個條件屬性之間相關性極小。

兩項屬性約簡目的之間存在一定的矛盾性，倘若某一個屬性與相鄰屬性之間存在較強關聯，表明該屬性與其他屬性之間關聯度不會太弱[16]。所以，參考該屬性與決策屬性之間的關聯程度衡量與其他屬性的相關性。之后，利用第一個屬性約簡目的，進行相關屬性的取舍。

電網建設人力資源類型較多，對某一個未知的數據樣本，利用樸素貝葉斯分類算法對數據樣本進行分配，將樸素貝葉斯分類定義為V，獲取如下所示計算公式：

式中，μ表示未知數據樣本;ω表示樣本類型;表示泛化函數;V 表示樸素貝葉斯分類;η表示常數。由于所有類常數保持一致，計算過程中僅需要獲取最大值，η（ω）計算公式為：

式中，ζ 表示訓練樣本總數;ζj 表示某一類中的訓練樣本數量。通過上述計算，獲取電網建設資源自動化分類結果，實現基于樸素貝葉斯算法的電網建設資源自動化分類。

2 實驗分析

為了驗證基于樸素貝葉斯算法的電網建設資源自動化分類模型的有效性，以及在電網建設資源管理中的應用效果，在文中提出的自動化分類模型設計完成后，在實際環境中展開實驗，驗證模型的應用性能。

2.1 實驗環境分析

為了符合模型應用環境，文中針對某市電網項目應用設計模型，對電網建設資源進行自動化分類。當前某市電網存在較為嚴重的設備重過載問題，該電網中各電壓等級設備運行狀況如表1所示。

由表1可知，某市電網運行狀態已經對居民生活用電產生負面影響。為了提升電網運行穩定性，需要對電網進行重新建設。通過分析可知，該電網建設擴建項目內有43項改造工程，包括220 kV線路擴建，110 kV配網出線改造以及220、110 kV配電站保護及綜自改造等多項擴建工程。文中在上述電網建設工程中選取一段建設區域，應用文中設計的基于樸素貝葉斯算法的電網建設資源自動化分類模型，對項目相關人力資源進行分類管理。

2.2 選取分類特征

文中設計的電網建設資源分類模型在實際應用中，需要以資源特征采集為核心。針對采集匯總的項目人力資源信息提取特征信息，并在資源特征中選取經驗、學歷、技能職稱等合適的特征屬性項，作為資源分類的依據，獲取特征屬性重要性度量值如圖5所示。

由圖5可知，Mean Decrease Gini表示特征屬性重要性度量值，按照重要程度從大到小的順序，對10個特征屬性進行排列。之后，設定特征子集為排序靠前的多個特征項，并將其作為后續分類處理的基礎。為了保證特征選取數量符合計算要求，實驗過程中采用10折交叉驗證法，計算OOB誤差率，得到RF特征選擇如圖6所示。

按照最小誤差率準則，選取符合要求的特征子集，該集合中包括經驗、學歷、技能職稱、管理能力和溝通能力五項特征。以此為依據，應用文中設計的自動化分類模型，獲取電網建設資源中人力資源分類結果。

2.3 模型性能分析

為了有效評價文中設計模型的實際分類效果，選用文獻[3]、文獻[4]提出的分類模型，針對該項目的電網建設人力資源進行分類，將文獻[3]、文獻[4]提出的模型應用效果與文中設計模型的應用效果進行對比，進一步驗證基于樸素貝葉斯算法的自動化分類模型的性能。首先，按照技術人員和管理人員兩個類別，劃分電網建設人力資源，兩分類條件下不同模型適應度值對比曲線如圖7所示。

由圖7可知，在兩分類條件下，隨著樣本數量的增長，不同模型適應度值隨之增大。其中，文中提出的分類模型的適應度值在初始狀態下始終高于文獻[3]、文獻[4]模型的。文中提出的設計模型的平均適應度值為89.78，相比文獻[3]、文獻[4]模型提升了10.52、12.63。應用3種模型對電網建設資源進行細化多分類操作，獲取多分類條件下不同模型適應度值對比如圖8所示。

由圖8可知，在多分類條件下，文中設計模型、文獻[3]和文獻[4]提出的模型的平均適應度值分別為97.47、84.18和83.64。文中設計模型使得分類結果的平均適應度值提升了13.29、13.83。

綜上所述，文中提出的基于樸素貝葉斯算法的自動化分類模型，應用于電網建設人力資源內，展現了較大的適應度值。因此，在實際應用中，該模型的應用可以更好地平衡樣本特征子集與分類正確率，面對多種分類問題時，均可以得到更加準確的分類結果。

3 結語

電網建設過程中，工程質量與建設速度在很大程度上取決于人力資源配置管理情況。因此，文中對電網建設資源進行研究，以其中的人力資源管理為重點，結合樸素貝葉斯算法設計一種新的分類模型。通過實驗結果可知，文中設計的模型在實際應用中展現出了極好的性能，使得模型適應度值有所提升，即使面對不同的分類要求，也能夠獲取準確的自動化分類結果。

參考文獻

[1]胡玉琦，李婧，常艷鵬，等. 引入注意力機制的BiGRU-CNN情感分類模型[J]. 小型微型計算機系統，2020，41（08）：1 602-1 607.

[2]張小莉，程光，張慰慈. 基于改進深度卷積神經網絡的網絡流量分類方法[J]. 中國科學：信息科學，2021，51（01）：56-74.

[3]劉凌云，錢輝，邢紅杰，等. 一種基于Q-學習算法的增量分類模型[J]. 計算機科學，2020，47（08）：171-177.

[4]馬建紅，劉亞培，劉言東，等. CGGA：一種CNN與并行門控機制混合的文本分類模型[J]. 小型微型計算機系統，2021，42（03）：516-521.

[5]佘維，楊曉宇，田釗，等. 基于用戶偏好的電力資源去中心化配置方法[J]. 電力系統自動化，2019，43（13）：98-104+138.

[6]翁夢娟，姚長青，韓紅旗，等. 不均衡數據集下基于CNN的中圖分類標引方法[J]. 數據分析與知識發現，2020，4（07）：87-95.

[7]邱寧佳，賀金彪，薛麗嬌，等. 融合語義特征的加權樸素貝葉斯分類算法[J]. 計算機工程與設計，2020，41（09）：2523-2529.

[8]方炯焜，陳平華，廖文雄. 結合GloVe和GRU的文本分類模型[J]. 計算機工程與應用，2020，56（20）：98-103.

[9]潘東行，袁景凌，李琳，等. 一種融合上下文特征的中文隱式情感分類模型[J]. 計算機工程與科學，2020，42（02）：341-350.

[10]張柳，王晰巍，黃博，等. 基于字詞向量的多尺度卷積神經網絡微博評論的情感分類模型及實驗研究[J]. 圖書情報工作，2019，63（18）：99-108.

[11]葛繼科，陳棟，王文和，等. 基于改進樸素貝葉斯分類算法的火災分類[J]. 安全與環境學報，2019，19（04）：1122-1127.

[12]崔良中，郭福亮，宋建新. 基于Map/Reduce的樸素貝葉斯數據分類算法研究[J]. 海軍工程大學學報，2019，31（04）：7-10.

[13]趙博文，王靈矯，郭華. 基于泊松分布的加權樸素貝葉斯文本分類算法[J]. 計算機工程，2020，46（04）：91-96.

粘接2021年12期

粘接的其它文章: 環氧樹脂螺紋鎖固劑在飛機鋁合金螺紋連接中的應用; FRP材料型橋梁隧道結構抗老化控制及抗腐蝕性研究; 探討城市綜合管廊項目防滲技術; 電動汽車充電設施一體化平臺應用體系建設; Dermabond皮膚粘合劑對外科手術切口的愈合效果觀察; 基于航線自主規劃的變電站無人機巡檢