基于多信源互聯網信息的大學生人格特質計算

2023-04-29 00:00:00鄭傳欽李東征洪希多

互聯網周刊 2023年14期

摘要：本文提出了一種依據多個來源的網絡信息計算用戶的人格特質的方法。對高校等能獲取用戶網絡訪問日志的機構，先收集用戶一段時間內所訪問的URL地址；然后使用爬蟲技術提取用戶訪問網頁的文本內容；使用情感詞典計算各網站文本所體現的情感傾向；根據不同網站的特性給出網站在情感傾向上的不同權重，從而由各網站的情感傾向加權計算獲得最終的人格特質評分。實驗中以志愿者填寫自我報告量表作為結果驗證的基準數據。實驗結果表明：志愿者在不同網站上表現出的人格特質不同，基于單一社交媒體的人格特質結果與真實情況有偏差?；诙嘣淳W絡信息進行整體的、綜合的人格特質計算方法，可以得到更準確的結果。

關鍵詞：人格特質；人格計算；多信源互聯網信息

引言

高校大學生心理問題日益受到關注，如何獲取大學生的人格特質成為大學生心理問題研究的難點之一[1]。當前人格特質計算研究主要是通過社交文本分析、新聞評論或博客的用戶行為數據等分析人格特質。然而，高校等機構能獲取的數據是大學生的網絡訪問日志，而不能從互聯網網站后端直接獲取用戶行為數據。網絡訪問日志的相關數據來源廣泛、規模龐大、信息雜亂，各類網站所能獲取的信息在情感分析的支持維度、力度等都不盡相同。這些問題給基于網絡訪問日志進行人格特質計算的研究帶來很大困難。本文研究了基于多信源互聯網信息計算大學生人格特質的方法，能根據大學生訪問互聯網的日志信息，獲取相應的網絡訪問文本數據，從中過濾提取與情感傾向相關的詞句，結合網站特性等因素，綜合計算得到用戶的人格特質。本研究為當前高校管理提供了一種有效的、較為可靠的大學生人格特質獲取方法。

1. 基于多信源互聯網信息的人格特質

當前大部分高校已完成校園網建設，為在校大學生提供免費的互聯網接入服務。而大學生絕大部分時間都在校園內學習和生活。因此，大學生的互聯網訪問活動基本都是通過校園網接入的。通過校園網的北向接口，可以獲得學生的互聯網訪問日志，如網絡上下線日志、網絡URL日志、網絡APP使用日志等[2]。大學生對互聯網的日常使用和訪問，一方面，不存在刻意回避、作假等行為，具有較高的可信性；另一方面，無論是瀏覽信息癖好或發表的相關言論等，都是大學生人格特質的重要體現，對分析大學生的心理問題有重要意義。

1.1 計算流程

圖1顯示了基于多信源的人格特質的計算過程。首先，對某用戶的網絡訪問日志進行清洗，刪除無效的訪問記錄，例如非網頁的URL、失效的URL等；把有效的URL收集整合到有效頁面集合中。其次，使用爬蟲工具處理有效頁面日志中包含的所有URL。爬蟲工具將捕獲網頁的文本內容，并把來自同一網站的所有文本集成到一個大文本文件中。再次，使用Jieba分詞工具和sc-liwc心理詞典，從網站大文本中統計語言情感特征詞的頻率和比例，并以此作為該用戶在此網站上內容瀏覽的人格特質計算依據；進而計算用戶在該網站上表現出的人格特質。在綜合所有網站結果之前，需要把所有網站進行分類并分配權重，以平衡網站在人格特質計算上的傾向。最后，通過計算用戶在所有網站上的人格傾向的加權平均值，得到該用戶人格特質最終結果。

1.2 網站分類及權重分配

在前述基于多信源網絡信息的人格特質計算過程中，需要標記不同網站的人格特質計算權重。主要原因在于：不同的網站可以反映出不同的個性特征[3]。網站的功能是不同的。有些網站屬于社交媒體，用戶經常就某些話題進行討論、發表意見甚至爭論，因此可以清楚地顯示用戶的情感傾向。有些網站是功能性的，比如在銀行頁面上開設自己的賬戶，在電子商務網站上購物。這些操作通常與情感無關，因此不能明顯地表達用戶的情感傾向。而有些網站，用戶主要瀏覽操作，閱讀他們感興趣的內容，但不會表達他們的意見，例如新聞網站或其他感興趣的網站。這些頁面可以反映用戶的一些潛在情緒，但并不十分明顯。因此，我們可以對網站進行分類，并對每種網站進行加權，以確定這些網站反映用戶情緒的能力。

我們在網絡訪問日志中對一些最常見的網站，根據網頁內容對用戶情感顯現能力進行了簡單分類，主要分為表達、閱讀、混合、功能等四大類[4]。其中，表達類是用戶經常發表文本的網站，如各種BBS、微博等平臺；閱讀類是用戶主要通過閱讀獲取信息，但較少發表文本的網站，如小說類網站；混合類是用戶所瀏覽閱讀的信息帶有情感傾向且有少量表達信息的網站；功能類是用戶完成購物、支付、業務等與情感無關工作的網站。

表1顯示了網站分類及其權重。一般來說，能夠清晰表達情感傾向的網站權重較高。網站的權重設定，是通過比較該網站計算的人格特質與基準人格特質（基于自我報告量表）的差距，使用均方根誤差（RMSE）作為評估指標[5]。RMSE值越小，則網站的權重越高，具體值的設定由研究人員設定。根據抽樣數據的分析結果，表達類網站體現的個性特征和基準的RMSE最小。因此，我們將表達類的權重指定為最高。閱讀類和混合類的RMSE也很小，且某些網站的特定人格因素的RMES接近或小于表達類網站[6]。因此，我們也給閱讀類和混合類網站分配了一定的權重。而功能類的網頁表達的個人特質與基準的RMSE要高很多。因此分配給功能類的權重比其他類小得多。很難得到各類網站分配精確的權重值，因此表中權重是一個估計值。

1.3 人格特質計算與驗證方法

在前述多信源互聯網信息的人格特質計算過程中，計算得到了某人在各網站上的人格特質數據后，我們可以使用公式（1）得到該用戶在每類網站的人格因素的平均得分。

（1）

其中，i是指五因素人格模型的第i個人格因素，j是指網站所屬類別，k是指該類別中網站編號。p_sub_scorei，j，k是第j類網站中第k個網站針對該用戶計算出來的i人格因素得分。n_accessk是該用戶訪問k網站的次數，是該用戶訪問j類別網站的總次數。

該用戶的人格特質可用公式（2）計算得出最終結果。

（2）

其中，i是指五因素人格模型的第i個人格因素，j是指網站所屬類別[7]。p_weighti，j是如1.3節所述第j類網站在第i維度上的權重，p_sub_scorei， j是通過公式（1）得到的該用戶在j分類網站的i人格因素的得分。p_scorei是該用戶在五因素人格模型第i維度的得分。

實驗中，我們使用與基準人格特質數據（由自我報告量表獲得）的均方根誤差（RMSE）作為評估指標。RMSE的計算參考公式（3）。n是計算人格特質的人數，p_scorei是人格特質第i個因子的得分，p_scoreib是第i個因素的基準值。RMSE越小，則計算結果越準確。

（3）

2. 實驗與結果分析

本研究中，我們收集了122名志愿者的網絡訪問日志，網絡訪問日志的時間跨度為120天。表2顯示了一名志愿者在不同網站上的人格特質與自我報告量表之間的偏差（僅列出一些典型網站）。從表中可以看出，該志愿者在天涯論壇、知網、新浪微博等表達類網站，顯示出的人格特質與自我報告量表較為接近；而在京東、淘寶等功能性網站差別較大。并且，同一用戶在不同網站表現出來的人格特質是不同的，可以認為是網站氛圍造成的。此外，人格因素中神經質是與自我報告量表相對偏差最大的。

表3顯示了該志愿者的人格特質與自我報告量表之間偏差的最終結果，該結果由公式（2）和公式（3）計算得出。從表3可以看出，通過綜合各網站訪問者的數據，可以有效糾正網站氛圍給人格特質計算造成的偏差，使綜合人格特質更接近實際情況。

結語

本文研究了基于網絡訪問日志計算用戶的人格特質方法。研究結果表明：志愿者在不同網站上表現出的人格特質由于受到網站氛圍的影響，與其實際人格特質不同，因此，基于單一社交媒體的人格特質計算結果與真實情況有明顯偏差。在高校能獲得較完整的網絡訪問日志的背景下，對大學生基于多源網絡信息進行整體的、綜合的人格特質計算可以得到更準確的結果，從而能更有效、更及時地對大學生進行心理評估、心理干預等工作[8]。本研究主要針對用戶的URL日志，文本數據主要來自網頁，而URL訪問只是網絡訪問的一小部分，更多內容（如手機訪問日志等）沒有被收集利用。此外，本研究未考慮圖像、視頻等類型的多媒體內容，因而無法提取和分析更詳細的網絡行為及其相應的人格特質[9]。這也是我們未來心理大數據的研究方向。

參考文獻：

[1]柳靜，王銘，孫啟武，等.我國大學生心理咨詢與危機干預的管理現狀調查[J].中國臨床心理學雜志，2022，30（2）：477-482.

[2]陳雨濛，張亞利，俞國良.2010～2020中國內地大學生心理健康問題檢出率的元分析[J].心理科學進展，2022，30（5）：991-1004.

[3]Stanek S，Sabat A.The application of it tools in assessing employees' personality and motivation[J].European Research Studies Journal. 2021，24（1）：689-707.

[4]Fiske S T，Cuddy A，Glick P，et al..A model of （often mixed） stereotype content： competence and warmth respectively follow from perceived status and competition[J].Journal of Personality and Social Psychology，2002，82（6）：878-902.

[5]Bargh J A，Gollwitzer P M，Lee-Chai A.The automated will：nonconscious activation and pursuit of behavioral goals[J].Journal of personality and social psychology，2019，81（6）：1014-1027.

[6]Heeringen C V，Audenaert K，Laere K V，et al.Prefrontal 5-ht2a receptor binding index， hopelessness and personality characteristics in attempted suicide[J]. Journal of affective disorders，2019，74（2）：149-158.

[7]Deeva I.Computational personality prediction based on digital footprint of a social media user[J].Procedia Computer Science，2019，156（3）：185-193.

[8]Marouf A A，Hasan M K，Mahmud H.Comparative analysis of feature selection algorithms for computational personality prediction from social media[J]. IEEE Transactions on Computational Social Systems，2020，18（99），1-13.

[9]Nguyen T，Phung D，Hoai M，et al.Structural and Functional Decomposition for Personality Image Captioning in a Communication Game[J].2020，56（2）：394-402.

作者簡介：鄭傳欽，碩士研究生，講師，研究方向：大數據、人工智能；洪希多，碩士研究生，副教授，研究方向：網絡工程、大數據；李東升，本科，副主任醫師，研究方向：臨床醫學、醫學數據整合。

互聯網周刊2023年14期

互聯網周刊的其它文章: 慕課SPOC線上線下混合式教學實施及效果研究; 2023機器人產業鏈創新企業TOP100; 傳承與突破：新媒體視角下名人故居視覺場的重構; 互聯網環境下大學生網絡素養教育創新模式研究; 由用戶直接出錢的新商業模式; 網絡環境下大學英語線上線下相結合教學模式問題探究