秦新國 薛雅



摘? ?要:文章以疫情期間“學生意見快遞站”的數據為研究對象,利用LDA主題模型對學生意見進行主題建模,共識別出學生普遍關注的12個熱點問題,并就相關問題進行剖析和解讀,為職能部門的精準施策提供依據,最后從校園文化建設、校園環境建設、提高服務水平方面給出相關建議,希望給其他兄弟院校在疫情期間做好學生管理提供參照。
關鍵詞:新冠肺炎;學生意見;主題識別;LDA Model
中圖分類號:G434? ? ? 文獻標志碼:A? ? ? ? ?文章編號:1673-8454(2022)09-0076-07
一、引言
新型冠狀病毒肺炎(COVID-19)疫情對國內高校的正常運行造成巨大的沖擊和影響,疫情期間,高校普遍采取一系列限制性措施以防止疫情的進一步擴散,課堂教學一律采用在線教學的方式,各項行政事務的辦理,如選退課、學籍變更、業務咨詢等,以線上咨詢與辦理方式進行,盡量避免學生之間、師生之間的直接接觸,降低傳染的風險。各項措施的出臺有助于疫情防控,但是,也存在一定的負面影響,學生之間無法開展正常的社交活動,線上咨詢增加學生問題解決的時間成本和復雜性,導致學生怨聲載道,再加上疫情給學生的身心健康帶來的巨大壓力,使學生在解決問題時情緒易波動,極易造成沖突,導致矛盾激化,給輿情防控和教學管理工作帶來巨大的挑戰。
本文基于學校“學生意見快遞站”平臺,為學生問題咨詢與辦結提供權威的線上渠道,對問題的有效解決加強監督,實現問題解答的高時效、高質量、高滿意度,進而達到安撫學生焦慮情緒的目的。同時,對學生反饋問題的數據進行分析、聚類,進一步聚焦問題本身,以便管理部門更加全面地掌握學生問題的共性,為精準施策提供依據。
二、相關研究回顧
(一)疫情對大學生心理健康發展產生的影響
疫情對大學生心理健康發展的影響是比較明顯的,學生對疫情相關知識的了解不全面以及長期封閉無法社交,從而導致焦慮情緒的產生。有學者對廣東3881名大學生進行網絡問卷調查,結果顯示,焦慮情緒發生率是26.60%,其中輕度、中度、重度焦慮發生率分別是23.19%、2.71%、0.70%;抑郁情緒發生率是21.16%,其中輕度、中度、重度分別為16.98%、3.17%、1.01%。[1]有學者對南京醫科大學、中國藥科大學、南京中醫藥大學3所醫藥類高校共4750名學生的心理焦慮情況進行測量,結果顯示,醫藥類高校返校大學生中20.0%的學生有輕度焦慮情緒,6.5%的學生為中度或重度焦慮。[2]其中,因封閉管理和無法社交而產生焦慮情緒學生的比例較高,分別為52.9%和40.7%。有學者對安徽省兩所本科院校的493名大學生進行問卷調查,分析學生的心理健康狀況,采用“90項癥狀清單”(Symptom Check List 90,簡稱SCL-90)進行測試,結果顯示總分達到陽性的人數為90例,陽性率為19.07%。[3]陽性率最高的單因子為焦慮(34.75%),接著依次為人際關系敏感(24.36%)、強迫癥狀(23.73%),陽性率最低的為精神病(13.77%)。
有學者認為,當個體產生焦慮情緒時,往往會自行尋找宣泄口以尋求安全感,一旦用戶將他們的社會情緒映射到自媒體環境下,個體的社會情感在網絡中可能引起共鳴或碰撞,進而導致主觀焦慮被強化和放大,在一定條件下甚至演化為群體焦慮,進而刺激突發事件的產生。[4]因此,學校應當著重關注學生遇到的困難,及時幫助學生排憂解難,為學生營造輕松和諧的學習和生活環境,既有助于安撫學生的焦慮情緒,也可以避免突發事件或輿情的產生。
(二)面向用戶生成內容的文本挖掘研究現狀
用戶生成內容(User Generated Content,簡稱UGC),即用戶原創內容,是Web2.0下由網絡用戶創作的互聯網信息。當前,基于UGC的研究及應用比較廣泛,其作用已漸漸滲入到商業、新聞輿論、日常社交等層面。[5]有學者利用LDA(Latent Dirichlet Allocation)主題模型對多個網絡學術社區的用戶生成內容文本進行主題獲取和分析,實現跨平臺知識聚合,為社區內的科研工作者帶來知識獲取的便利。[6]有學者運用知識圖譜分析方法對國內外視頻網站用戶生成內容的起源與發展、研究熱點,以及發展趨勢進行分析和可視化,以便更好地了解視頻網站領域用戶生成內容的研究進展和趨勢。[7]有學者運用文本分析和可視化技術,從冗雜的用戶在線文本中挖掘有用的信息,將其轉化為可視化圖表并建立創意思維映射,以幫助設計人員獲取創意靈感。[8]還有學者使用語義技術對用戶生成內容進行再組織,繼而為用戶提供更好的知識服務。[9][10]
(三)LDA主題模型應用研究
學生意見屬于用戶生成內容范疇,是用戶情感、觀點等的直接表達,對學生意見數據進行分析有助于快速洞悉學生動態和關注點,為學校提高管理實效提供依據。當前,在挖掘用戶提問或評論主題方面常用的方法是LDA主題模型。有學者于2003年提出的一種文檔生成模型,常用來推測文檔的主題分布,進而根據文檔主題分布進行主題聚類或文檔分類。[11]有學者將LDA主題模型用于旅游微博文本分析,幫助研究者在特定維度框架約束下準確、客觀地提取旅游地意象特征。[12]有些學者以天涯論壇用戶發布的帖子為研究對象,對用戶發布的帖子標題或帖子正文進行文本挖掘,通過LDA主題分類,進而捕捉網友的熱點關注方向。[13][14]有學者以高校學生論壇數據為研究對象,將TF-IDF(Term Frequency-Inverse Document Frequency)和LDA主題模型相結合來計算文本相似度,進而進行文本聚類,取得良好的聚類效果和穩定性。[15]
綜上所述,疫情期間,大學生的心理健康狀況整體不佳,無論是醫學專業的學生還是非醫學專業學生,都或多或少存在焦慮情緒,在學生復學后,學校應加強監測和信息管理,引導大學生采取積極健康的行為方式,并通過互幫互助來防止其因受刺激而產生消極影響。[1]建立“學生意見快遞站”,為學生提供權威的線上咨詢交流平臺,校方及時回應與落實,對舒緩學生情緒、防范輿情產生具有重要意義。由于學生反饋的問題量大,依靠人工進行分析,工作效率較低,鑒于LDA模型在用戶生成內容上良好的表現效果,本研究擬將該模型應用于“學生意見快遞站”,快速識別學生意見主題,為學校精準施策提供著力點。
三、研究設計
(一)模型構建
本文基于LDA模型分析學生意見的主題分布,數據分析流程如圖1所示。數據處理過程由數據抓取、文檔預處理、LDA主題建模與識別,以及結果分析與建議四部分組成。數據處理技術依托Python相關數據分析技術,包括Requests 數據抓取包、Jieba分詞包、Gensim自然語言處理包等。
首先,通過數據抓取工具從“學生意見快遞站”抓取學生意見及回復數據。其次,對文檔數據進行清洗、分詞、停用詞、無效字符過濾等預處理;同時,加強未登錄詞識別,并加入到文檔向量中;然后,通過LDA主題模型對文檔進行建模,通過困惑度指標,確定最優主題數,并將該主題數運用于最終的LDA主題模型,識別文檔主題集。最后,對LDA主題結果進行分析和解讀,在此基礎上,提出相關建議。
(二)數據來源與分布
“學生意見快遞站”是學校權威的在線交流平臺,旨在為學生提供問題咨詢與反饋的快速通道。平臺采用實名制在線投遞問題,相對其它社交平臺而言,數據質量及有效性較高。本文共抓取學生意見數據1395條,經過數據清洗,刪除重復提交的數據、無效數據等,獲得有效數據集1347條,有效數據占96.6%。有學者研究表明,年齡、性別、地區等因素會對學生的心理產生影響。[1]相比較而言,受疫情影響,年齡越小越容易產生焦慮,女生相對男生易產生焦慮,農村地區較城市地區易產生焦慮。對樣本分布進行分析,共涉及在校生936人,覆蓋學校各年級、全國各個省份(包括臺灣地區),其中女生居多,占77.03%,農村戶籍學生占34.72%。樣本覆蓋面比較全面,反饋的問題具有一定的普適性。學生分布數據分析如表1所示。
(三)數據預處理
對文檔集做初步清洗后,文檔長度在3至300之間(系統對文檔長度有限制),平均長度為63。其中,長度低于平均數的文檔有891篇,占66.15%。文檔長度總體偏短,由于LDA對短文本效果不好,模型生成會遇到數據稀疏問題。[14]對此,有學者通過將短的Twitter文本拼接成長文本的方式來加以改進,以取得更高質量的主題。[16]因此,本實驗將每條意見及其回復拼接成一個單獨的文檔來進行實驗,合并后獲得文檔集長度在17至563之間,平均長度為137。
利用Jieba分詞工具包對學生意見信息進行中文分詞,刪除標點符號、數字、單字,將文檔轉化為詞向量表示。分詞過程中,停用詞采用“百度停用詞表”和“哈工大停用詞表”的合集。同時,將分詞結果中的無實際意義的高頻詞也納入到停用詞表,如“學生”“學校”“你好”等。為保留學生意見的語義完整性,本文采用Bigram語言模型加強對學生意見中的高頻短語的識別,以更準確地體現學生的關切。其基本原理是,關鍵詞相鄰同時出現且頻率超過一定閾值,則將其合并為文檔的特征詞,加入到文檔的分詞結果中。本文設定詞頻閾值為10,表2展示的是詞頻超過50的部分未登錄高頻短語。
(四)學生意見特征詞分布
對文檔進行分詞處理,共產生詞條7922個,選取TF-IDF值最高的前60個關鍵詞作為學生意見的特征詞,如表3所示。圖2展示的是學生意見分詞結果的詞云,更加直觀地展現了學生關注的熱點問題,詞云用字的大小來反映詞的熱度,字越大說明關注度越高。
特征詞的分布,一定程度上反映學生的關切,如快遞類問題、圖書館相關問題、餐飲類問題等。學生反饋的問題大都與民生相關,“帶來不便”一詞出現171次,說明學校的供給還不能滿足學生的需求,“希望”一詞出現的頻率最高,充分表現學生對學習和生活環境能夠得到改善的殷切期待。“敬請諒解”一詞出現144次,說明學校在問題的處理上態度比較誠懇。一方面,說明問題存在的客觀性,另一方面,對相關問題的改進和落實也未來可期。 由此可見,“學生意見快遞站”的開通對促進管理部門與學生的交流、推進問題的落實具有積極作用。
(五)學生意見主題選取
在LDA主題模型構建過程中,最優主題數T的值會直接影響到聚類的質量,而且主題的個數一般需要進行人為的事先設定。[15]LDA主題數量的確定通常可以采用主題困惑度(Perplexity Score)得分進行評估,主題困惑度用來描述模型的好壞程度,困惑度得分越低,模型越好。困惑度計算公式為:
本文將主題數設定在[5,30]區間內,通過比較不同主題數情況下困惑度得分來確定最優的主題數。實驗結果如圖 3所示,當主題數為12的時候,主題困惑度得分最小,根據困惑度越低模型效果越好的原則,選取主題數量為12。
四、實驗結果分析
對學生意見進行主題聚類,選取每個主題中出現概率最高的10個詞進行抽象概括,圖 4展示的是LDA主題聚類結果,圖5則是聚類結果的可視化展示,每個圓代表一個主題,主題之間的距離越遠說明區分度越好。結果解讀如下:
根據主題分析結果可知,餐飲、快遞、校內交通、校園環境等是學生最關注的問題。主題1:餐飲問題,如“飲食”“餐廳”“菜品”等,餐飲是學生重點吐槽的對象,如餐廳的衛生環境偶爾存在不達標現象、菜品的價格偏高、菜品種類偏少、飯菜可口程度有待提高等,希望學校加以改善。主題2:校園快遞問題,如“快遞”“場地”“園區”“主流”等,主要體現在快遞站在各宿舍區的設置不合理、主流快遞運營商分布不均衡、快遞服務質量不高等問題。主題3:校內交通問題,如“公交”“時間”“價格”等,重點反映公交車的部分站點偏離宿舍區,運營頻率不能根據繁忙程度動態調整、公交線路安排不合理,存在部分宿舍區車少、乘坐難的問題。主題4:圖書館管理問題,如“圖書館”“自習”“儲物柜”“空調”等,著重反映圖書館座位管理和儲物柜管理不善,存在少量學生長期占用的現象,不利于資源的充分利用。關于空調,學生希望可以根據溫度變化早點開空調,給學生營造一個良好的學習環境。主題5:故障維修問題,如“維修”“宿舍”“圖書館”等,一些插座、臺燈、座椅等損壞長期得不到修復,希望學校提高維修效率。主題6:考試時間安排問題,主要涉及期末考試安排間隔不合理、在線考試系統缺陷,以及學生對考試的相關建議等。主題7:宿舍管理問題,如“宿舍”“空調”“寢室”等,宿舍條件不統一,四人間、五人間、六人間都有,宿舍條件的差異是學生吐槽的重點,希望學校能夠改善住宿條件。另外,希望為宿舍安裝門禁系統:可以防止校外人員隨意出入,也可以提高查寢的效率。學生還希望每層宿舍配備飲水機,以便隨時可以喝到熱水。主題8:后勤管理與服務,如“總務委員會”“關注”“感謝”等,由于學生反映的問題主要體現在民生方面,大多數與后勤有關,后勤負責的教師對學生的問題都一一耐心答復,幫助學生排憂,體現后勤對學生的人文關懷。主題9:教室資源利用,如“教室”“自習”“考研”等,考研學生對通宵自習教室、通宵書庫的需求比較迫切,對延長晚上學習時間的期望比較強烈,目前學校的供給跟需求不匹配。主題10、主題11、主題12還是側重宿舍的環境問題,只是問題的角度不同,如宿舍洗澡相關,包括浴資不合理、水溫不正常,以及部門宿舍區沒有獨立的浴室、洗澡不方便等。
總體來說,學生反映的問題相對來說比較集中,主要包括學習、生活環境,以及服務質量的改善等方面。希望學校能夠從學生的利益出發,努力營造一個良好的校園軟硬件環境,讓學生學習得順心、生活得舒心。
五、建議與對策
面對返校復學后學生可能產生的心理問題,以及這些問題帶來的挑戰,學校要高度重視學生關切,認真研判,積極應對和改進,出臺相應的政策和措施,確保各項教學工作平穩運行。
(一)營造良好的校園文化氛圍
首先,組織專業力量開展疫情心理健康專題教育。一方面,針對學生疫情期間可能存在的煩躁和焦慮情緒開展相應的心理講座和輔導,讓學生更加科學地認識到焦慮可能會產生的一些不適癥狀,掌握一定的應對策略,及時做好自我調節;另一方面,實施差異化的輔導策略,針對不同年齡、不同地區、不同性別的學生,實行多層次、多類別、多形式的輔導,提高輔導的針對性和有效性。其次,重視校園文化建設,豐富學生的業余生活。開展一些豐富多彩的文體項目,如閱讀、運動、藝術活動等,既調節學生的緊張情緒,又愉悅身心,起到釋放心理壓力、緩解心理焦慮的效果。最后,加強師生互動,建立師生之間緊密的情感聯結。著重發揮輔導員和班導師的作用,主動關心、關愛每一位學生,重點關注學生的情緒波動和異常行為,讓學生感受到教師無微不至的關懷,當學生遇到困難的時候,可以快速找到心靈的依靠,繼而起到良好的心理保護作用。
(二)加強校園硬實力建設
加強校園軟硬件建設,改善校園環境,為學生提供更優質的服務,如食堂環境衛生、宿舍居住環境、自習教室環境等的改善,提高餐飲服務質量。及時排除設備故障,給學生創造良好的學習生活氛圍。改善住宿條件,讓學生在住宿環境上不產生心理落差。合理規劃校園設施,提高服務效率,如校園快遞站的設置,要盡量兼顧各宿舍區,不能讓學生跑太遠,尤其主流快遞服務的設置要均衡等。優化校園公交的線路,根據人流量的變化,動態調整發車頻次,提高公交乘坐的便利性和時效性。增加通宵教室的供給,滿足考研學生的學習需要。通過學校軟硬環境的綜合改善和治理,讓學生整體感受到家的溫暖,減輕因封閉管理帶來的壓抑和不適應。
(三)提高管理服務水平
在管理過程中,學校應當秉持“以生為本、服務于人”的理念,從學生的根本利益出發,關愛學生、服務學生,全面提高服務水平和質量。在服務態度上:一方面,對學生反映的問題要高度重視,及時回應,不管能否解決、能解決到什么程度都要明確告知學生,確保事事有落實、事事有結果,杜絕拖沓懈怠;另一方面,實行首問負責制,大力提倡敢于負責、高效務實的工作作風,杜絕推諉扯皮。服務方式上:第一,拓展線上服務渠道,利用即時通訊工具,如企業微信員工服務平臺等,為學生提供即時服務窗口,提高問題解答的效率;第二,推廣主動服務,借助信息化手段,搜集學生反饋,分析學生行為數據,通過數據驅動實現精準決策、主動施策;第三,加強信息公開,如學生普遍對餐費、水費、電費等的定價和收繳環節存在質疑,學校應向學生公開相應的定價機制和依據,對不合理的地方應及時改進,避免因信息不對稱性造成的誤解。服務質量上:加強服務供給側改革,以用戶需求為導向,改善生活設施,優化學習環境,提高供給質量,解決學生學習、生活上的后顧之憂。
參考文獻:
[1]昌敬惠,袁愈新,王冬.新型冠狀病毒肺炎疫情下大學生心理健康狀況及影響因素分析[J]. 南方醫科大學學報,2020, 40(2):171-176.
[2]陳功,徐濟達,盧佳.新冠肺炎疫情期間醫學生返校后焦慮情緒及影響因素[J].中國學校衛生,2020,41(12):1851-1855.
[3]江瑞辰,李安民.新冠肺炎疫情期間安徽大學生心理健康狀況及其影響因素[J].環境與職業醫學,2020,37(9):867-871.
[4]尉永清,楊玉珍,朱振方,等.自媒體環境下突發事件網絡輿情應急策略研究[J].西藏大學學報(社會科學版),2015,30(1):191-197.
[5]徐勇,武雅利,李東勤,等.用戶生成內容研究進展綜述[J].現代情報,2018,38(11):130-135.
[6]陶興,張向先,張莉曼,等.網絡學術社區跨平臺用戶生成內容知識聚合研究[J].情報理論與實踐,2020,43(7):151-156.
[7]劉婷艷,王晰巍,賈若男,等.視頻網站用戶生成內容國內外發展動態及發展趨勢[J].情報科學,2020,38(10):133-140.
[8]李曉英,唐冬琳.面向用戶生成內容的創意思維知識服務研究[J].計算機工程與應用,2021,57(4):236-244.
[9]鄭姝雅,黃奇,張戈,等.面向用戶生成內容的本體構建方法[J].情報科學,2019,37(11):43-47.
[10]丁文姚,韓毅.基于FOAF的UGC用戶信息組織研究情報理論與實踐[J].情報理論與實踐,2019(8):124-130.
[11]DAVID M BLEI, ANDREW Y NG, MICHAEL I JORDAN. Latent dirichlet allocation[J]. Journal of Machine Learning Research, 2003(3):993-1022.
[12]梁晨晨,李仁杰.綜合LDA與特征維度的麗江古城意象感知分析[J].地理科學進展,2020,39(4):614-626.
[13]李振鵬,黃帥.基于LDA主題模型的網絡輿情研究[J].系統科學與數學,2020,40(3):434-447.
[14]田賢忠,姚明超,顧思義.基于BBS-LDA的論壇主題挖掘[J].浙江工業大學學報,2020,48(1):55-62.
[15]王少鵬,彭巖,王潔.基于LDA的文本聚類在網絡輿情分析中的應用研究[J].山東大學學報(理學版),2014,49(9):129-134.
[16]HONG L, DAVISION B D. Empirical study of topic modeling in twitter[C]//Proceedings of the First Workshop on Social Media Analytics. New York:ACM. 2010:80-88.
作者簡介:
秦新國,辦公室副主任,工程師,碩士,主要研究方向為智慧化教育、自然語言處理,郵箱:270010@nau.edu.cn;
薛雅,機要科科長,助理研究員,碩士,主要研究方向為教育管理,郵箱:310068@nau.edu.cn。
Research on Recognition of University Students Opinions Based on LDA Model
under the Background of COVID-19
Xinguo QIN Ya XUE
(1.Nanjing Audit University,Information Office,Nanjing Jiangsu 211815;
2.Nanjing Audit University,General Administration Office,Nanjing Jiangsu 211815)
Abstract: This paper uses LDA model to recognize the university students opinions during the COVID-19 pandemic, and identifies 12 hot concerned topic. Then, some analyses and interpretations of them are given, so as to provide basis for the accurate decision of relevent departments. Finally, the paper offers some suggestions from the perspective of campus culture, campus environment and service quality, hoping to provide for other universities reference as to students management during the pandemic.
Keywords: COVID-19; Student opinions; Topic recognition; LDA Model
編輯:王天鵬? ?校對:王曉明