文 /呂 堅 梁 樑 林 童
利用當下最為流行的機器學習中的支持向量機算法(support vector machine, SVM),建立心理狀態、心理風險和積極心理品質三個方面的預測模型,從不同的角度反映個體思想狀況的積極、風險以及風險耐受性(自我調節性),能夠有效分辨出高中低三個水平的心理狀態和積極心理品質的人群,同時能夠區分出高心理風險與低心理風險的人群。
當前,人的思想活動的獨立性、選擇性、多變性和差異性進一步增強,導致思想政治工作面臨許多新情況、新矛盾和新挑戰。為更全面掌握基層員工的心理特點、工作感受及組織態度等動態,切實了解員工所思所想,國網浙江公司深入剖析當前員工思想動態分析工作中存在的不足,及時發現問題并提出具有價值的意見和建議,以進一步加強員工思想政治教育,增強員工關愛政策的針對性,進而為公司管理決策提供依據和參考。通過多范圍、多層級地采集員工思想動態方面的數據,并借助大數據技術,架構全新的、符合新形勢要求的思想動態分析模型,通過指數化分析及預警,創新了思想工作。
研究目標
實現科學有效地監測員工的心理狀態、心理風險和積極心理品質(心理耐受、調整能力);依據測量結果更有針對性地開展工作,改善員工的心理健康,提高其生活質量和工作效率;讓員工的思想狀況保持良好水平,切實增強組織的績效表現,提升組織的工作成效。
研究方法
行為數據測量。行為數據包含受測者所有活動足跡的數據資料,能夠全面、實時、真實地記錄全部數據,信息量豐富,有利于后期的數據挖掘和分析。這一技術不僅實現了對研究變量的在線測量,而且避免了傳統方法中數據收集工作耗時費力的缺陷,可在大規模施測的同時無干擾地記錄被試者的真實行為。
機器學習算法。心理測評領域亟需一種有效的數據分析方法來處理這些問題,以實現對個體能力和特質更為準確的評估。研究發現機器學習的不同算法均能夠較為準確地識別情緒(快樂、中性、憤怒)。同時基于行為數據測量的優勢,機器學習技術可以在這類研究中體現出獨特的優勢,能夠通過充分利用行為數據信息,建立較為復雜的模型,實現更準確的預測。
采用機器學習的模式對員工思想狀況監測的預測模型進行科學和系統研究,通過收集的變量去建立心理狀態、積極心理品質以及心理風險的預測模型,利用機器學習最常用的監督學習算法中的隨機森林(Random Forest, RF)、支持向量機(Support Vector Machine, SVM)和樸素貝葉斯(Naive Bayesian Model,NBM)算法,利用R stido進行數據清理、統計分析與模型搭建。這三種算法經過前人驗證,已經證明是最好的三種機器學習的分類算法,其中隨機森林和支持向量機算法尤為出色(Cernadas, E., & Amorim, D,2014)。最后經過模型比對,選擇了更為優秀的支持向量機作為我們最終使用的算法。研究具體過程包括數據采集、數據集清理、模型建設與驗證三個核心步驟。
數據采集。本次研究主要使用了問卷收集的方式,對國網浙江省電力公司1 429名員工進行數據收集,排除疑似無效作答的作答者340人,最后有效作答數據為1 089份(男性729人,女性360人),年齡范圍在21歲~57歲之間。問卷包含傳統專業心理學問卷(如:大五人格、心理資本量表、心理健康連續量表、抑郁量表)以及員工生活行為的問題(人口學變量、生活、情感、家庭、工作、行為等)。問卷一共包含155個題,題目類型都為選擇題,分為單選題和多選題兩種。
數據集清理。在做機器學習之前最重要的工作是清理我們的數據集,對整個數據集的被試和預測變量進行嚴密的篩查,為的是能夠提高最后的預測效果,并在此基礎上進行數據分析。數據集清理主要包括無效數據清洗和變量處理兩項內容,其整體概覽圖如圖1所示。

圖1 數據集清理過程概覽
模型訓練與驗證。清理好數據之后,我們就開始進行機器學習的模型建立,即模型的訓練和驗證,其機器學習流程圖及部分機器學習計算機語言如圖2所示。

圖2 機器學習流程圖
對比隨機森林(Random Forest, RF)、支持向量機(Support Vector Machine, SVM)和樸素貝葉斯(Naive Bayesian Model,NBM)算法,發現支持向量機的預測效果最好,最后使用支持向量機作為預測建模算法。
首先把樣本分為80%的訓練集(用做模型訓練,得到最終模型)以及20%的測試集(用做模型效果的驗證)。
支持向量機中有三個非常重要的超參數會對模型產生影響
核函數(kernel):有4個可選核函數,分別為線性核函數(linear)、多項式核函數(polynomial)、徑向基核函數(radial basis)以及神經網絡核函數(sigmoid)。識別率最高、性能最好的是徑向基核函數,其次是多項式核函數,而最差的是神經網絡核函數。
Cost超參數:允許支持向量存在軟決策邊界的懲罰項的系數,C越大表明越允許交叉項存在,但是容易發生過擬合。
Gama超參數:核函數一種的一個調和參數,目的也是為了避免發生過擬合。
在選擇核函數和兩個超參數的時候,需要不斷地嘗試最終達到最好的模型效果。
超參數選擇
通過窮舉法搜索Cost和gama參數的值,使他們兩個出現一個最優的搭配,當gama=0.01,C=10的時候模型能夠得到最優的預測效果。
基礎推薦模型變量選擇
心理狀態模型中基礎推薦出46個變量,心理風險模型基礎推薦出18個變量,積極心理品質模型基礎推薦出25個變量。
模型預測結果
最終選擇使用機器學的SVM算法進行建模。模型預測準確率良好,能夠分辨出高中低三個水平的積極心理品質和心理狀態的人群,同時也能夠區分出高心理風險與低心理風險的人群。
模型應用
針對性地開發國網浙江省電力公司員工思想狀況預測模型的分類器,包括心理狀態、心理風險和積極心理品質三個分類器。通過該分類器,收集員工在本研究中所涉及到的預測自變量信息,利用計算機系統對模型分類器進行調用,即可自動化預測得到員工在心理狀態、心理風險以及積極心理品質三個方面的思想狀況水平,如圖3所示。

圖3模型分類器使用流程圖
此次研究結果顯示,員工心理狀態、心理風險及積極心理品質模型預測準確率均超過7成,表明其已經達到了比較好的效果,也說明了通過員工行為數據對員工的思想狀況進行預測是可行的,體現了我們此項研究工作的初步成果。我們同時也需要注意,在今后的工作中,在此模型的優化方面仍有改進空間,結合理論與經驗,優化數據收集方式、優化變量的選取,逐漸對模型進行迭代升級,以使這項工作的整體效果不斷優化。