基于AI大數據抓取下的電力企業員工培訓系統設計

2024-12-06 00:00:00崔艷芳

中國新技術新產品 2024年21期

摘要：供電企業職工技術素質直接關系到電網的正常運轉，因此對職工進行專業訓練是十分必要的。本文針對電力企業員工培訓系統培訓問題、技術發展等現狀進行探討，結合AI和大數據設計電力企業員工培訓系統。本文采用FCM聚類算法、特征選擇算法、隨機森林算法以及協同過濾算法對數據進行處理。結果表明，AI大數據抓取下的電力企業員工培訓系統數據可視化，能夠了解培訓系統方向，員工掌握狀況，并提供最優推薦方案。

關鍵詞：電力企業員工培訓系統；大數據；可視化

中圖分類號：F 27" 文獻標志碼：A

大數據人工智能（Big Data AI）是運用大數據對數據進行智能加工與自動管理，從而提升企業與社會的工作效能與智慧水平。在當前的數字化時代，隨著數據規模快速增加以及人工智能的飛速發展，大數據的人工智能已經是企業和社會不可或缺的一項技術。大數據的研究重點在于對海量的海量數據進行深度挖掘與分析，進而為企業與社會實現智能化的決策支撐與自動管理。這就要求綜合運用大數據、人工智能、計算機科學技術以及計算機技術等多學科的理論與技術，實現更加高效、智能化的數據分析與應用。

大數據AI正逐漸滲透到人們的日常工作中。互聯網已經不再只是一項科技，更是一股巨大的變革力，正在逐步地影響企業的經營和社會運行。對大數據進行深度挖掘，發現其中蘊含的深層規律，從而幫助企業與社會作出更加準確的決策，互聯網、物聯網等新興科技的快速發展使海量的數據呈現爆炸式增長，而現有的分析手段已難以適應新時代的需要。大數據具有巨大的數據規模和復雜的組織形式，為人工智能的發展創造了條件。利用機器學習、深度學習等人工智能方法，將海量的大數據轉換成有價值的知識，并從中挖掘出規律與關聯。

大數據AI最大的優點就是對海量數據有深刻理解。該算法不但可以對一般的統計資料進行處理，還可以對圖像、聲音、文字等進行有效處理。隨著信息時代的到來，智能化正在逐步向社會的各個領域深入發展，包括電力企業在內。在此基礎上，結合人工智能技術和大數據技術，提出了一種基于人工智能技術的人才培養模式。本文提出了一種面向大規模并行計算的方法，為了提高職工的工作能力，提高企業的效率和績效，是非常重要的。

1 基于AI大數據抓取下的電力企業員工培訓系統算法研究

1.1 功能分析

在電力企業員工培訓系統建設中，重點是應用人工智能大數據分析技術。在訓練過程中，數據量非常大，因此要求對其功能與架構進行設計。在電力企業員工培訓系統中，有基本的功能模塊，也有以信息顯示、課程管理、培訓管理等為主要作用的，其中，培訓管理和員工管理是以員工的學習信息和課程信息為中心的。針對企業員工的多元化培訓需要，在培訓內容和方法上進行個性化定制，提升培訓效果。在此基礎上，本文提出了一種基于網絡的新型人力資源管理方法，可以對培訓課程進行選擇，參與培訓等方面的操作。

1.2 相關算法

1.2.1 特征指標的提取

NCA算法的原理是以度量方式為馬氏距離的KNN分類算法為基礎，不斷對算法進行處理，最終獲得數據降維后的轉換矩陣[4]。其中，KNN分類算法隨機選取兩個樣本為列向量，將原始數據集中的任意兩個樣本表示為xi （1≤i≤n）和xj（1≤j≤n）。Axi和Axj表示兩個樣本的轉換矩陣，行數均為，列數均為D，其中d為降維后的維度，D為原始數據維度。

設pij為映射空間中歐式距離的歸一化指數函數的概率值，其計算過程如公式（1）所示。

（1）

設pi為樣本i能被正確分類的概率，其計算過程如公式（2）所示。

（2）

式中：Ci 為與樣本i屬于同一類樣本的集合。

則優化目標函數f（A）的計算過程如公式（3）所示。

（3）

根據公式（3），連續可微的矩陣函數結合算法，使f（A）最大化。對f（A）進行求偏導來優化學習，用梯度法計算矩陣A，其梯度的計算過程如公式（4）、公式（5）所示。

（4）

xij=xi-xj " " " " " " " " " " " "（5）

簡化后的表達式如公式（6）所示。

（6）

根據公式（6）得出，傳達室可設定迭代次數和矩陣A的初始值A0。

假設學習率為β，A0的表達式如公式（7）所示。

A0=A0+βf '（A0） " " " " " " " " " "（7）

當求得矩陣A為非方陣時，即D≠d時，其維度為d。當D=d時，不用降維，但可實現距離測度學習，NCA分析方法降維時，分類模型可不設參數，矩陣計算不復雜。

1.2.2 隨機森林算法

隨機森林包括多棵決策樹，可以用來執行回歸和分類任務的機器學習算法。其輸出類別是由多棵決策樹的輸出類別的眾數所決定。

用N表示樣本個數，M表示特征個數。從容量為N的原樣本集中進行重復抽樣，每次抽取的樣本容量也都為N ，抽樣N次，形成N個訓練集。這樣每次抽樣時原樣本集中數據未被抽中的概率為。

當N很大時，1/e為概率值，趨于0.368，如公式（8）所示。

（8）

這表示每次抽樣時，原樣本集中的數據有大概37%的樣本不會被抽中，這些數據是袋外數據。未被抽中的數據集可直接作為測試集，用于測試模型的預測精度。

按一定比例確定特征數（通常取總特征數的平方根），輸入k（k＜K）個特征，作為決策樹上的決策點。以基尼系數下降最快來確定最優的特征，將其作為決策點。用公式（9）求得基尼系數。

（9）

訓練完成形成N棵決策樹，用這N棵決策樹對分類結果進行簡單投票決定隨機森林模型最后輸出的分類結果。

例如現有由h1（x），h2（x），…，hk（x）構成的隨機森林，邊際函數定義如公式（10）所示。

（10）

式中：mg（X，Y）為邊際函數；avk（I（hk（X）=j））為正確分類下得到的票數；為不正確分類的情況下得到得票數多。

邊際函數的意思是在正確分類的情況下得到的票數比在不正確分類的情況下得到的票數多的程度，函數越大，說明原分類器分類效果越可靠。

泛化誤差PE*定義如公式（11）所示。

PE*=PX，Y（mg（X，Y）lt;0）" " " " " " " " " " （11）

式中：X、Y為概率定義空間。

隨機森林邊緣函數如公式（12）所示。

（12）

式中：P（hk（X）=Y）是正確判斷的概率；為錯誤判斷的概率最大值。

當每棵決策樹生成隨機森林時，總是有一個初始數據集和沒有被抽取的數據集Ok（x）。 Q（x，yi）的計算過程如公式（13）所示。

（13）

式中： Q（x，yi）為x在Ok（x）中yj的比例，為正確分類的概率估計，由此可對隨機森林強度和相關性進行分析。

隨機森林強度定義如公式（14）所示。

（14）

將公式（13）代入公式（14），得到公式（15）。

（15）

隨機森林相關度定義如公式（16）所示。

（16）

式中：pu為I（ku（xi）=y）的OBB估計。

pu和的計算過程如公式（17）、公式（18）所示。

（17）

（18）

式中：I為指示函數；ku（xi）=y為觀測的真實結果；ku（xi）為觀測的預測結果。

按照上述運算，得到公式（19）。

（19）

隨機森林的性能體現在其收斂程度、強度和相關程度。收斂性體現在決策樹的泛化誤差都收斂，出差會有上限，說明隨機森林對未知事物具有良好的適應性，不會造成很大的誤差，也不易造成過擬合。

1.2.3 FCM聚類算法

高職院校創新創業課程電力企業員工培訓系統的主要算法為FCM聚類算法，利用算法可將同一類型的數據進行整合。FCM聚類算法[5]的基本原理是模糊理論，這種模糊理論是從客觀事實出發的，以處理模糊不確定的實物，又稱為模糊C均值算法。在確定了電力企業員工培訓系統模型的輸入輸出后，需要對輸入的數據進行形式化定義。FCM是將n個用戶數據作為n個向量xi，其中涉及隸屬關系，FCM算法的模糊隸屬度的取值為[0，1]，FCM聚類算法的實質是構建模糊矩陣U，矩陣中每個要素都是各矢量的糊隸屬度，值為[0，1]，歸類后的每一個元素的模糊隸屬度之和均為1。

FCM聚類算法[1]的表達式如公式（20）所示。

（20）

FCM聚類算法的目標函數的表達式如公式（21）所示。

（21）

式中：dij=||cj-xj||；uij為[0，1]；dij為第i個聚類中心到第j之間的歐式距離；m為加權指數，其取值為[1，∞]。

為使目標函數取得最小值，須作出改進，如公式（22）所示。

（22）

式中：λj為n個約束式的拉格朗日因子。

目標函數取得最小值需要前提，其必要條件如公式（23）、公式（24）所示。

（23）

（24）

1.2.4 協同過濾推薦算法

UCF的主要做法是找到一群愛好相似的用戶，即基于電力企業員工培訓系統用戶的（User-based）的CF或基于相鄰者的CF（Neighbor-based Collaborativen Filtering）[2]。用戶與用戶之間相似度通常用Jaccard公式或余弦相似度來計算。這樣兩個用戶的相似度可以更直觀的觀察到。設M（u）是用戶u的中意的項目的集合，M（v）為用戶v中意的項目的集合，則u和v相似度的計算公式如下。

余弦相似度的計算過程如公式（25）所示。

（25）

Jaccard的計算過程如公式（26）所示。

（26）

其中，UCF是對相關數據進行搜集，掌握使用者對員工培訓數據；再根據用戶間的相似性，找出與此用戶相近的一群人，并根據員工培訓數據信息，推送相關員工培訓內容。

基于項目的CF（Item-Based CF，ICF）：隨著用戶數量增加，UCF所消耗的計算時間越來越長，這時出現另一種CF，即基于項目的協同過濾算法（Item-based Collaborative Filtering Algorithms）。ICF的基本假設：若用戶中意一個項目，則與該項目相似的其他項目也有可能引起用戶的興趣。用數學的方法計算項目之間的相似性[3]。項目的相似度的計算過程如公式（27）所示。

（27）

式中：|M（i）|是喜歡項目i的用戶數，|M（j）|是喜歡項目j的用戶數[4]。

ICF的方法步驟如下。收集相應信息，計算已評價的項目和預測項目的相似度，并以此為基礎，得到預測項目的預測分數，最終產生推薦結果。

分類準確度：指判斷一個項目是否迎合了用戶的偏好，并且結果正確的比例，包括召回率和準確率。

設U為用戶集，Ru為用戶u的推薦列表，Bu為測試集中用戶給予正反饋的項目[5]。

準確率是指在推薦的結果中，用戶在現實中給過正反饋的項目所占的比例。單個用戶u準確率的計算過程如公式（28）所示。

（28）

整個推薦系統的準確率的計算過程如公式（29）所示。

（29）

召回率是指在測試集中，用戶給過正反饋的項目占測試集的比例。單個用戶u的召回率的計算過程如公式（30）所示。

（30）

整個系統的召回率的計算過程如公式（31）所示。

（31）

預測準確度：預測用戶對項目的評分的行為，包括均方根誤差（Root Mean Square Error，RMSE）和平均絕對誤差（Mean Absolute Error，MAE）。

均方根誤差RMSE的計算過程如公式（32）所示。

（32）

式中：Ωtest為測試集；ruv為用戶u對項目v的實際評分；yuv為預測評分。

平均絕對誤差MAE的計算過程如公式（33）所示。

（33）

2 基于AI大數據抓取下的電力企業員工培訓系統設計

2.1 系統聚類分析

電力企業員工培訓系統在進行聚類分析的過程中，需要確定分類效果，聚類有效度函數是評價聚類效果的一種方法，它能較好地評價聚類的分類效果，增強了對電力企業員工培訓的表示能力。計算時，其特性值并不是固定的，因此可以通過類間分離性和類內緊性來間接判定聚類的效果，對聚類有效性函數進行分析，可以判定它們之間的相關性。

用戶與類內用戶之間的相似度表達式[6]如公式（34）所示。

（34）

類內平均值的表達式如公式（35）所示。

（35）

某一類數據的類內緊密度表達式如公式（36）所示。

（36）

2.1.1 聚類評價指標

MIA指標：MIA函數的表達式[7]如公式（37）所示。

（37）

式中：N為用戶的個數；MIA為類內距離和的平均值，MIA的值越小，聚類效果越好。

CDI指標：函數的表達式如公式（38）所示。

（38）

式中：Xc為第c類用戶；CDI為類內緊密度的平均值，CDI的值越小，聚類效果越好。

SI指標：函數的表達式如公式（39）所示。

（39）

式中：為每個向量與平均值之間距離和；為每一個聚類中心與平均值之間的距離和；SI的值越小，聚類效果越好。

DBI指標：函數的表達式如公式（40）所示。

（40）

式中：DBI為類內距離與類間距離的比值，DBI的值越小，聚類效果越好。

2.1.2 聚類效果

該模型對電力企業員工培訓系統1000個員工樣本進行驗證，結合四項指標和聚類數目2～9，模型的指標或者模型樣本特征提取可作為模型輸入變量，下列指標分析見表1，利用FCM算法，對用戶數據（X3）、輸入數據（X1）和輸出數據（X2）進行論述。

由表1可知，當聚類數目為4時，各類指標值都達到了最小值，聚類效果最好。聚類時，電力企業員工培訓系統可結合需求，達到最好的聚類效果。

2.2 系統數據處理

數據采集：本次試驗使用的數據集是某電力企業數據集。通過AI和大數據，收集培訓數據，包括培訓進度、成績、反饋等信息。

數據處理：利用大數據AI技術對收集的數據進行清洗、分類、分析和挖掘，提取有價值的信息，為教學提供決策支持。

當數據爬取時，需要導入Requests庫和BeautifulSoup庫函數。

使用Requests抓取某電力企業數據庫，把要爬取的整個頁面抓取下來。

使用BeautifulSoup中的find（）和find_all（）抓取需要的標簽內容。

2.3 試驗結果分析

使用上述設計的模型對處理好的數據進行訓練。其中，訓練數據用于訓練LDA模型，用測試數據對訓練好的模型測試推薦結果。在測試集上計算正確率，給定一組三元組＜q，p，ngt;，若D（q，p）＜D（p，n）則算正確，否則錯誤，具體結果見表2。

由試驗結果可以看到模型更能根據細粒度的內容進行推薦，與傳統的推薦算法相比更具有優勢，同時也不需要細粒度的標簽就能獲得這樣的效果。

2.4 系統實現

電力企業員工培訓系統可以提供豐富的培訓資源，包括課程資料、案例分析、實踐項目等，方便員工自主學習和團隊協作。為電力企業員工提供一個在線學習交流的平臺，方便電力企業員工之間的互動和討論，提高電力企業員工的參與度和學習效果。利用人工智能技術，根據電力企業員工的學習情況和興趣愛好，為電力企業員工推薦相關的培訓資源和項目，提高電力企業員工的學習效率，幫助他們改進學習和教學。平臺如圖1所示。

3 結論

結合上述分析，需要進一步完善電力企業員工培訓系統，并利用AI云計算技術對其進行設計。提高電力企業員工參與度，對其進行總體規劃，本文運用AI大數據技術對其進行了詳細分析，追根溯源，分析基于AI大數據抓取下的電力企業員工培訓系統的基本算法，包括特征指標選取、隨機森林算法、聚類分析算法以及協同過濾算法，對電力企業員工培訓數據進行整合，分析電力企業員工培訓信息，能夠根據電力企業員工情況進行數理分析，對冗雜的數據進行聚類分析，根據聚類分析結果進行協同過濾，能夠分析電力企業員工培訓信息，并提供相關培訓課程，有利于提升電力企業員工能力。

參考文獻

[1]張宏展，趙輝，于鵬.AI在大數據技術中的創新與應用[J].科技創新與應用，2024，14（21）：16-19.

[2]曾劍文.基于AI技術的煤礦井下視頻智能分析系統設計[J].煤炭科技，2024，45（3）：202-206.

[3]徐俊婷.基于大數據與AI的高校圖書館數字閱讀推廣優化策略與實施路徑[J].造紙裝備及材料，2024，53（6）：184-186.

[4]汪生福.科技向善：大數據技術與AI如何扶貧[J].中國外資，2024（11）：79-83.

[5]王強，劉海德，牛清娜，等.基于場景化的大數據+AI算法倉平臺研究[J].電腦知識與技術，2024，20（14）：73-75.

[6]羅鵬舉，王彪，閆林，等.基于AI大數據的無線基站節能系統的設計與應用[J].數字通信世界，2024（3）：114-117.

[7]黃陳，胡漢橋，羅如意，等.基于大數據與AI計算的收費稽核系統[J].中國交通信息化，2024（增刊1）：303-305.