999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于LDA 模型對大學生就業信息的主題挖掘

2024-06-26 11:25:06唐勇桑麗麗
電腦知識與技術 2024年13期

唐勇 桑麗麗

摘要:文章使用Python語言基于LDA模型對大學生就業信息進行主題分析。首先,使用Requests庫和BeautifulSoup庫對國家大學生就業服務平臺中的就業信息進行采集,并使用pandas庫對信息進行清洗和整理。然后,使用gensim庫對大學生就業信息進行LDA建模,得出4個主題,即:就業幫扶及培訓、企業招聘、考公考編和“三支一扶”政策。文章對這些主題進行了可視化處理,并分析了各個主題的內容。最后,按照信息發布的年份對就業信息文檔分組,分析了各年份大學生就業信息主題強度的變化趨勢。

關鍵詞:主題分析;LDA模型;大學生就業

中圖分類號:TP311.52 文獻標識碼:A

文章編號:1009-3044(2024)13-0084-04 開放科學(資源服務)標識碼(OSID) :

0 引言

近年來,隨著高校畢業生人數的增加和國內就業形勢的變化,大學生就業問題日益凸顯,引發社會各界的廣泛關注。為了有效解決大學生就業問題,國家各部委和各級地方政府均出臺了一系列的大學生就業幫扶政策信息,高校不斷提升畢業生就業的服務水平,推出了大量的就業指導信息,企業和事業單位也積極投入到促進大學生就業工作中,發布了大量崗位招聘信息。

上述大學生就業信息通常是由各級政府和企業事業單位通過各種媒體平臺零散發布的。那么,這些就業信息主要聚焦在哪些主題呢?各個主題的特征、針對性及變化趨勢又是什么?這還需要進行具體的分析處理。本文通過Python爬蟲程序對大學生就業信息進行收集整理,然后基于LDA模型分析大學生就業信息涉及的主題數及主題特征,并將主題模型可視化,最后按照時間順序分析主題的演化過程,從而為完善和改進大學生就業幫扶政策提供建議。

1 LDA 模型介紹

LDA(Latent Dirichlet Allocation) 模型是一種無監督的機器學習模型,用于在大量文檔中發現潛在的文檔主題,被廣泛應用于文檔的自動化分析中。在LDA 模型中,一篇文檔被認為是由文檔主題矩陣和主題詞語矩陣共同決定的。這兩個矩陣的元素均服從二項分布,即:在文檔主題矩陣中第m行代表語料庫中的第m篇文檔由k個主題構成,這些主題服從參數為θm的二項分布;而在主題詞語矩陣中第k行代表主題集合中的第k 個主題由n 個單詞構成,這些單詞服從參數為φk 的二項分布。而二項分布θm 和φk 分別服從參數為α和β的迪利克雷分布。

因此,在LDA模型中生成文檔的過程是:1) 根據參數為α的迪利克雷分布產生作為文檔主題分布的參數θm,根據參數為β的迪利克雷分布產生作為主題單詞分布的參數φk。2) 按照參數θm 的二項分布隨機生成一個話題zmn。3) 最后按照參數為φzmn 的二項分布隨機生成單詞wmn。從上述LDA模型生成文檔的過程中可以得出主題的單詞分布,它能夠刻畫語料庫中文檔的潛在主題特征,如果結合文檔產生的時間順序,則可以進一步得出各個主題在不同時間段的特征詞演變過程,從而能夠分析出文檔的主題動態演變過程。

LDA模型在文檔主題分析時一方面忽略了文檔產生的時間因素,它將不同時期的詞語重要性同等對待;另一方面,LDA模型忽略了詞語之間的關聯性。因此,許多研究者針對LDA模型的不足進行了改進和優化,例如:蘇婧瓊等人對比了LDA模型和TF-IDF模型在文檔關鍵詞提取方面的各自特點,認為TF-IDF 模型更能夠反映文檔關鍵詞的重要性[1]。潘越和高雪芬將TF-IDF模型和LDA模型相結合應用于微博的主題聚類分析:先用TF-IDF模型提取出每個文檔的關鍵詞,然后再用LDA模型結合起來進行主題分析[2]。彭俊利等人則進一步將TF-IDF 模型、LDA 模型和Word2Vec模型三者相結合,這種算法先采用TF-IDF模型提取出文檔的關鍵詞,然后采用LDA模型進行主題分析,最后將每個主題下的詞匯采用Word2Vec模型進行向量化表示[3]。此種方法由于采用Word2Vec 模型,可以在一定程度上彌補LDA主題中詞匯缺少上下文關聯的不足。朱茂然等人則使用LDA模型計算了語料庫中不同時間片段上的主題詞匯分布,然后對不同時間段上的主題計算相似度,從而獲得主題內容的演化過程[4]。海駿林峰等人將深度學習中有關自然語言預訓練模型BERT與LDA模型結合,有效彌補了LDA模型在主題提取時忽略文本語義關聯的問題[5]。但是,深度學習框架下的BERT模型需要基于大規模標注語料庫和大規模計算,這并不適合于本文所要研究的大學生就業信息文本分析。

2 數據的來源、采集和清洗

就業信息數據源的選擇關系到后期數據分析的正確性。目前,國內有眾多平臺發布大學生就業信息,既有前程無憂、中華英才網、智聯招聘等求職網站,也有各級地方政府的人力資源網站。其中,國家大學生就業服務平臺是由教育部學生服務與素質發展中心運營的專門服務于高校畢業生及用人單位的公共就業服務平臺,是有關大學生就業信息的權威發布平臺,采集該平臺上的就業數據信息更加真實可靠,有利于后期的數據分析。因此,本文以國家大學生就業服務平臺中的就業資訊作為數據源。

本文使用Python語言采集國家大學生就業服務平臺2019 年到2024 年之間發布的就業資訊信息。Python語言的Requests庫和BeautifulSoup庫可以對網頁內容進行獲取和解析。首先分析出就業信息的網頁地址模板為https://www.ncss.cn/ncss/jydt/jy/?start={},設置start的值在一個初始值為0,終止值為2220,步長為30的列表中循環,拼接成就業信息列表頁的地址集合。然后,使用Requests庫的get方法獲取75個就業列表頁面,每個頁面30條就業信息;接著使用BeautifulSoup庫解析每個列表頁面的就業標題、發布時間、就業內容,總計2 250條記錄。為了便于后期的數據清洗和處理分析,本文使用csv庫的writer對象將上述標題、時間和內容信息分成三列存儲到csv格式的文件中。

在完成就業信息的采集之后,需要對信息開展進一步的清洗。本文使用pandas庫的DataFrame對象讀取csv文件,然后通過DataFrame對象的dropna()方法去除掉就業信息內容為空的記錄,最終保留了2 188 條大學生就業信息。接著采用jieba分詞工具對就業信息內容進行分詞,在分詞的過程中使用了百度的中文停用詞庫,去除了就業內容中無實際含義的虛詞、助詞、形容詞和標點符號,還要去除所有字符長度小于2的單字詞,最后對jieba分詞器的每個分詞結果,判斷其Unicode編碼是否在u4e00到u9fff范圍內可以提取出所有的中文分詞。通過以上數據清洗過程產生最終的文檔詞匯列表作為LDA模型訓練的語料庫。

3 LDA 模型的實現

使用Python語言實現LDA模型可以借助gensim 庫,gensim全稱Generate Similarity,是一款開源的自然語言處理庫,可以從多個文檔中抽取潛在的主題。gensim庫在生成LDA模型之前需要從多個文檔中提取出詞語構成詞典,然后針對每個文檔統計每個詞語的權重。具體實現過程如下:

首先,導入gensim庫中的corpora包,并調用cor?pora包的Dictionary類可以提取出所有文檔中的詞匯,形成語料庫的詞典,即:dictionary = corpora.Dictionary(words)。

然后,對于語料庫中每個文檔均調用Dictionary 類的doc2bow方法,返回的列表元素是每個詞語在文檔中出現的次數,即:corpus_bow = [dictionary.doc2bow(text) for text in words]。然而此種處理方式忽略了詞語在整個語料庫中的重要性,因此需要進一步應用TF-IDF模型。

接著,導入gensim庫的models包,通過調用mod?els包的TfidfModel類可以將每個詞匯的TF-IDF權重考慮進來,即:corpus_data = models.TfidfModel(cor?pus_bow)。這樣處理后語料庫中每個文檔均轉換為列表數據類型,每個列表元素是由該文檔的單詞編號和單詞權重構成的元組。

最后,調用models包的LdaModel方法就可以生成LDA 模型,即:LDAModel(corpus_data, num_topics=6,id2word=dictionary, passes=20)。該方法的傳入參數中,corpus_data是之前產生的語料庫,dictionary是詞典,passes表示對語料庫迭代訓練的次數,num_topics 表示需要的主題數。其中主題數num_topics需要預先確定。一般可以通過主題困惑度或主題一致性指標值來選擇合適的主題數。本文使用主題一致性指標來判斷合適的主題數,一致性指標值越高則選擇的主題數量越合理。通過數據對比發現:主題一致性不僅受到主題個數的影響,還會受到語料庫中詞語數的影響。本文分別計算了不同主題數和詞語數情況下的主題一致性曲線,如圖1所示。可以發現選擇詞語數為1 200且主題數為4時的主題一致水平最高。

4 主題可視化及分析

在LDA模型計算完成之后,可以借助pyLDAvis 庫對主題模型的實現結果進行可視化分析。pyLDA?vis利用D3.js可視化模板將主題模型的結果制作成可交互的頁面。圖2是當詞語數為1 200,主題數為4時的大學生就業信息可視化頁面,此時四個主題沒有任何重疊部分,說明主題建模效果良好。

通過LDA模型的get_topic_terms方法可以獲得特定主題下相關度最高的詞語。本文獲取到大學生就業信息的4個主題下最相關的詞匯,如表1所示。

通過各主題的特征詞匯可以看出:主題1是與大學生就業幫扶和就業培訓有關的內容,主題2是與大學生求職和企業用人招聘相關的內容,主題3是與大學生參加公務員考試和事業編制考試相關的內容,主題4是與大學生“三支一扶”(即:支農、支教、支醫和扶貧)政策相關的內容。因此2019年到2024 年的大學生就業信息可以分為四個主題,即:就業幫扶及培訓、企業招聘、公務員及事業單位考試、三支一扶。從各個主題的整體數量來看,主題1就業幫扶及培訓相關的信息發布最多,而主題4三支一扶相關的信息發布最少,主題2企業招聘的相關信息略高于主題3考公考編。

為了進一步考查上述4個主題的動態發展變化,本文將每個文檔按照發布的時間進行分類,得到按年劃分的文檔編號集合docs_id,然后使用LDA 模型的get_docu?ment_topics 方法可以獲得每個文檔在各個主題下的得分,最后按照年份分組并計算每個年份中各主題的得分平均值。圖2 展示了2019年到2024年大學生就業信息的主題強度變化趨勢,從圖中可以發現主題4三支一扶的信息發布強度最低,也最平穩。主題1就業幫扶及培訓的信息發布強度也呈現穩定趨勢,而主題2企業招聘和主題3考公考編的信息發布強度均呈現波浪式發展態勢。并且主題2的發布強度與主題3的發布強度還呈現互補的狀態:在2019 年到2020 年期間由于受到疫情影響,企業招聘信息發布強度下降,此時考公考編信息發布強度上升;在2021 年到2022年期間國內經濟逐漸從疫情影響中恢復,企業招聘信息發布趨勢上升,而考公考編信息發布強度下降;在2022年到2024年期間國內經濟發展放緩,同時大學生畢業人數激增,企業招聘信息的發布強度下降,而考公考編信息的發布強度開始上升。

5 總結

本文通過Python語言對國家大學生就業服務平臺上2019年到2024年4月份的就業信息進行采集、清洗和整理,獲得有效的大學生就業信息2188條。對這些就業信息文檔使用gensim庫的LDA模型進行主題識別和主題一致性的計算后,發現當設置詞語數為1 200、主題數為4時的主題一致性最高,主題可視化效果也最好。因此,本文得到了有關大學生就業信息的四個主題,即:就業幫扶及培訓、企業招聘、公務員及事業單位考試和三支一扶。最后,本文對大學生就業信息按照發布年份分組,獲得每個年份下主題信息的發布強度曲線,分析出了各個主題信息的動態變化。本文在分析主題信息的動態變化時,受到文檔語料庫規模較小的限制,因此假定了每個年份的主題數目不變。在文檔語料庫規模較大的情況下,可以考慮將文檔按年代分組后,使用LDA模型計算每個年份下文檔的主題數和主題,然后分析各年份下的主題動態演變趨勢。

參考文獻:

[1] 蘇婧瓊,蘇艷瓊. 基于LDA和TF-IDF的關鍵詞提取算法研究[J]. 長江信息通信,2024,37(1):78-80.

[2] 潘越,高雪芬. 大學數學精品慕課課程質量影響因素研究:基于評論文本挖掘的視角[J]. 浙江理工大學學報(社會科學版),2024(2):1-9.

[3] 彭俊利,王少泫,陸正球,等. 基于LDATF-IDF和Word2Vec文檔表示[J]. 浙江紡織服裝職業技術學院學報,2023,22(2):91-96.

[4] 朱茂然,王奕磊,高松,等. 基于LDA模型的主題演化分析:以情報學文獻為例[J]. 北京工業大學學報,2018,44(7):1047-1053.

[5] 海駿林峰,嚴素梅,陳榮,等. 基于LDA-BERT相似性測度模型的文本主題演化研究[J]. 圖書館工作與研究,2024(1):72-79.

【通聯編輯:謝媛媛】

基金項目:常州紡織服裝職業技術學院應用技術類課題(項目編號:CFK201807) ;常州紡織服裝職業技術學院教師企業實踐鍛煉項目(項目編號:2024)

主站蜘蛛池模板: 亚洲欧美一级一级a| 天天综合色网| 亚洲欧美一区二区三区麻豆| 久久久久久久久久国产精品| 国产性精品| 99热亚洲精品6码| 综1合AV在线播放| 日韩不卡高清视频| 毛片久久久| 亚洲美女视频一区| AV在线麻免费观看网站| 亚洲欧美h| 国产精品毛片一区视频播| 日韩欧美国产区| 丝袜国产一区| 亚洲午夜国产精品无卡| 在线人成精品免费视频| 午夜啪啪网| 美女裸体18禁网站| 免费人成网站在线观看欧美| 超级碰免费视频91| 国产丝袜无码精品| 国产成人无码Av在线播放无广告| 日韩av高清无码一区二区三区| 黄色网址手机国内免费在线观看| 欧美精品xx| 国产成人在线小视频| 夜夜高潮夜夜爽国产伦精品| 欧美午夜在线观看| 国产在线自在拍91精品黑人| 日本免费高清一区| 国产丝袜一区二区三区视频免下载| 成人福利一区二区视频在线| 国产在线日本| 国产亚洲精| 亚洲乱码精品久久久久..| 精品一区二区三区波多野结衣 | 欧美精品在线看| 四虎成人免费毛片| 日韩成人在线视频| 久青草免费在线视频| 国产成人精品一区二区不卡| 就去吻亚洲精品国产欧美| 国产亚洲精品97在线观看| www.狠狠| 无码 在线 在线| 久久国产精品77777| 国产一区二区视频在线| 日本成人一区| 最新无码专区超级碰碰碰| 日韩色图区| 欧美日韩资源| 精品乱码久久久久久久| 亚洲色图狠狠干| 欧美a√在线| 久久国产精品麻豆系列| 免费看久久精品99| 福利一区在线| 午夜性爽视频男人的天堂| 免费大黄网站在线观看| 999国内精品久久免费视频| 一区二区影院| 91原创视频在线| 久久久久九九精品影院| 亚洲日韩精品欧美中文字幕| 亚洲男人的天堂在线| 一级毛片在线播放| 免费在线视频a| 四虎永久免费在线| 美女无遮挡拍拍拍免费视频| 中文字幕不卡免费高清视频| 97精品久久久大香线焦| 欧美成人精品高清在线下载| 午夜毛片免费观看视频 | 亚洲无码熟妇人妻AV在线| 免费中文字幕在在线不卡| 大学生久久香蕉国产线观看| 国产免费久久精品44| 国产精品va| 东京热av无码电影一区二区| 国产丝袜精品| 天天综合网色中文字幕|