賈璇
基于文本挖掘的求職軟件顧客評論情感分析
賈璇
(同濟大學 經濟與管理學院,上海 200092)
網絡求職已經成為了當代人最喜歡的一種求職方式。通過利用各類求職軟件可以搜索到大量的職位信息和工作機會,這為找工作提供了便利。針對當下最流行的幾款求職軟件,收集了相關軟件的在線顧客評論信息,通過對評論進行特征詞提取、制作詞云圖、語義網絡分析和情感極性特征分析,得出了用戶對各求職軟件使用的情感極性分布,根據分析的結果為各求職軟件提出了改進建議。
求職軟件;文本挖掘;網絡語義分析;情感分析
在快速發展的信息時代,每一個求職者想要找到理想的工作,不再需要參加各類大型招聘求職現場活動,而是僅需將自己的簡歷上傳至網絡,通過在各類求職網站上搜索求職信息并進行簡歷投遞,進而等待面試邀請,真正做到了“足不出戶找工作”。但是近期發生多起學生通過網絡投遞簡歷后求職被騙以及個人信息泄露的事件,這不得不讓人們反思網絡求職給帶來便利的同時,它所存在的一些問題和漏洞。本文選擇當下最流行的3款求職軟件——BOSS直聘、前程無憂、智聯招聘,通過網絡爬蟲手段獲取以上軟件的顧客評論,從顧客評論中挖掘出可用信息,發現以上軟件的不足之處并進行對比,為相關軟件開發公司提出改進建議。
文本挖掘是一個新型的研究領域,主要從大量的、無規則的文本數據中發現潛在的、可能的數據模式、內在聯系、規律、發展趨勢等,抽取有效、新穎、有用、可理解的、散布在文本文件中的有價值知識,并且利用這些知識更好地組織信息的過程[1]。
文本挖掘技術較成熟地應用于旅游和醫療行業。JOAO G和PAULO R通過對旅游行業的顧客評論進行分析,探索了在顧客評論中,能夠為閱讀評論的人提供明確建議的驅動因素。熊偉等學者對酒店顧客的在線評論進行詞頻和情感分析,并結合時間序列分析法預測未來的酒店的發展情況[2]。OKUHARA T等學者應用文本挖掘的方法,對日本HPV疫苗接種危機爆發前后的報紙文章內容進行了檢查和比較,為新聞工作者就相關事實的公正報道提出了看法。錢宇星等學者通過對老年在線社區用戶的評論進行文本分析,成功劃分了老年在線社區用戶的信息需求,為利用互聯網開展精準的醫學教育和科普服務提供依據,優化在線社區服務,吸引和鼓勵更多老年人使用網絡分享和獲取健康信息[3]。
也有學者應用文本挖掘技術,為企業管理提出寶貴建議。張振華等認為社會化媒體發達的環境下,在線評論已成為商業競爭情報的重要來源[4],馬文超等利用文本挖掘技術從個體和上市公司群體角度分析了CSR報告,認為文本挖掘技術便利了CSR報告的信息獲取,為研究建構CSR報告的本體提供了參考[5]。
綜上所述,當前的研究主要集中在實際服務質量改進的研究中,而對更迭速度快的、質量特性模糊的互聯網產品質量改進的研究相對較少。
在國內被廣泛使用的求職軟件主要有BOSS直聘、前程無憂、智聯招聘等。筆者對3款軟件的顧客評論進行網絡爬蟲,獲取各軟件的顧客評論1 000條,并對無效評論(評論中大部分為符號或混亂的詞語、語義不清晰)或重復評論(評論中出現多次語句重復)進行了手動剔除。最后剩余的有效評論條數為:BOSS直聘951條、前程無憂985條、智聯招聘1 000條。
本文所選擇的文本挖掘軟件是ROSTCM 6.0軟件。該軟可以實現微博分析、聊天分析、全網分析、網站分析、瀏覽分析、分詞、詞頻統計、英文詞頻統計、流量分析、聚類分析等一系列文本分析。
在進行分析前,需要對獲取的評論樣本進行文本預處理。文本預處理的方法主要有分詞、去除停用詞、詞性標注、詞頻統計等。
本文主要是應用ROSTCM 6.0軟件對樣本集進行分詞和去除停用詞預處理,將樣本集中的評論變成更加方便研究的、比較干凈的評論,為文本挖掘做準備。
本文應用ROSTCM6.0軟件對經過預處理的評論集進行特征分析和網絡語義分析,歸納出顧客所聚焦的一些產品特性。然后分別圍繞不同的產品特性做情感極性特征分析,得出顧客對每個軟件的各個產品特性正面、中性、負面評論的占比。
本文采集到的文本數據量較大,可以利用詞云圖對數據進行可視化分析。詞云圖是在分詞的基礎上設計并實現的,是一種將文本中的高頻詞匯提取并以有趣、高效、新穎的方式呈現給閱讀者的一種數據可視化工具。通過觀察詞云圖,可以直觀地分析和歸納出顧客所關注產品的焦點和主題。
本文針對3個招聘網站的全部在線顧客評論制作了詞云圖并進行了分析。在線顧客評論詞云如圖1所示。圖1中文字的大小反映了該詞組的詞頻,間接地說明了顧客所關注的熱點話題和產品相關的主題,通過分析可知,顧客對3款軟件的關注點主要聚焦在軟件、平臺、工作、職位、求職、簡歷、信息、公司、功能等方面。這說明用戶比較在意求職軟件是否是一個可靠的求職平臺,對簡歷的管理工作是否合理,他們也在意軟件提供的職位相關的信息,軟件是否好用、功能是否全面。另外,詞云圖中還體現了一些具有情感偏向的高頻詞匯如方便、推薦、喜歡、感謝、簡單、合適等,這可以說明這些軟件能給求職者帶來便利,使顧客滿意。

圖1 在線顧客評論詞云
為了對顧客關注的焦點進一步分析,本文使用ROSTCM 6.0軟件對3個網站的顧客評論分別作網絡語義分析。采用網絡語義分析可以得出主要特征詞之間、特征與評價詞之間的關聯關系,為進一步分析評論特征提供重要依據。BOSS直聘評論語義關系網絡如圖2所示。
從圖2中可以看出軟件、找工作、招聘、簡歷等詞是網絡圖的關鍵節點。進一步分析網絡語義圖可知,很多正向的評價詞比如很好、規范、好的、方便、神器、效率、機會、滿意以及減少麻煩等,表現了用戶對使用BOSS直聘這款軟件求職的滿意心理。但圖2中也有垃圾、擔心受騙、錯過、石沉大海等負向評價詞,這說明該軟件仍然存在一些讓顧客不滿意的地方。

圖2 BOSS直聘評論語義關系網絡
前程無憂評論語義關系網絡如圖3所示。從圖3中可以看出軟件、找工作、招聘、簡歷等詞是網絡圖的關鍵節點,進一步分析網絡語義圖可知,圖中顯示了方便、簡單、快捷、很好等正向的評價詞,表現了用戶在使用前程無憂軟件進行求職時的滿意心理。但圖中也有騷擾、垃圾、浪費時間等負向評價詞,這說明該軟件還存在一些讓顧客不滿意的地方。
智聯招聘評論語義關系網絡如圖4所示。從圖4中可以看出軟件、找工作、招聘、簡歷、平臺、職位、方便等詞是網絡圖的關鍵節點,進一步分析網絡語義圖可知,圖中顯示了方便、實用、很好、適合、可靠、稱心、值得、快速、感謝、輕松等正向的評價詞,表現了用戶在使用智聯招聘軟件進行求職時的滿意心理。從圖中并不能發現負面的評論詞。
通過對3款軟件的顧客在線評論進行網絡語義分析,可以初步得知顧客對各軟件的積極和消極的態度。為進一步分析顧客對軟件細節要素的評價,結合詞云圖和網絡分析的結果,將同一主題的詞匯合并,可歸納出顧客評論所聚焦的6個主題方向,即軟件/平臺、企業、招聘、職位/崗位、簡歷、求職/找工作。

圖3 前程無憂評論語義關系網絡

圖4 智聯招聘評論語義關系網絡
“軟件/平臺”方向主要指顧客對軟件使用的整體感知情況的相關評論,“企業”方向主要指顧客對軟件中招聘企業事項的相關評論,“招聘”方向主要指顧客對軟件招聘流程的相關評論,“職位/崗位”方向主要指顧客對軟件職位設置事項的相關評論,“簡歷”方向主要是指顧客對填寫和投遞簡歷事項的相關評論,“求職/找工作”方向主要是指顧客對求職流程的相關評論。
本文使用Excel軟件將3個網站的評論分別按照6個方向進行提取歸類,歸類條數如表1所示。
以上各軟件不同主題方向評論條數總計均超過了該軟件樣本容量的80%,這說明所選主題方向可涵蓋樣本的絕大多數信息。
BOSS直聘評論特征情感極性分布如圖5所示。從圖5可知,BOSS直聘的“簡歷”方向的正面評論占比最少,說明用戶對于該軟件在填寫和投遞簡歷等相關事項存在不滿意的地方。從具體的評論中可以看出,有的求職者抱怨因招聘人員在軟件中一直沒有回復消息而導致求職者無法投遞簡歷的設置不合理,也有求職者抱怨投遞簡歷時候不能進行批量投遞,還有招聘人員抱怨篩選到的求職簡歷都長時間未更新。
表1 招聘軟件各主題方向的提取評論條數
BOSS直聘前程無憂智聯招聘 軟件/平臺290281415 企業334930 招聘118103148 職位/崗位417173 簡歷3514235 求職/找工作256176192 總計773822889

圖5 BOSS直聘評論特征情感極性分布
BOSS直聘“招聘”方向的負面評論占比最多,說明該軟件的招聘流程相關事項存在較多讓用戶不滿意的地方。從具體的評論中可以看出,有的求職者抱怨軟件的招聘類目劃分不清晰,有的求職者抱怨招聘單位少而亂,有的招聘崗位不真實,有的招聘公司抱怨發布招聘信息時需要注冊資金,且經常被無故查封賬戶。
前程無憂評論特征情感極性分布如圖6所示。從圖6可知,前程無憂的“招聘”方向的正面評論最少且負面評論最多,說明用戶對于該軟件在招聘流程相關事項中存在不滿意的地方。從具體的評論中可以看出,有部分求職者反映網站上發布的招聘信息都是虛假招聘信息,還有部分求職者表示許多招聘和崗位都已經過期但是一直掛在網上沒能得到及時的處理,也有一些求職者反映招聘公司的瀏覽簡歷的效率太低甚至不查看簡歷。

圖6 前程無憂評論特征情感極性分布
智聯招聘評論特征情感極性分布如圖7所示。從圖7中可知,智聯招聘的“簡歷”方向的正面評論最少且負面評論最多,說明用戶對于該軟件在填寫和投遞簡歷等相關事項存在不滿意的地方。從具體的評論中可以看出,有部求職者反映該軟件泄露簡歷信息,有的求職者反映該軟件不能添加多份簡歷等。

圖7 智聯招聘評論特征情感極性分布
從上述分析中可以得出以下結論:①智聯招聘是好評率相對最高的軟件,各個方面的好評率都相對較高。但是在簡歷方向的負面評論相對其他方向較多,該軟件公司需要聽取顧客的聲音,并進行相應的改進。②BOSS直聘軟件的中評相比于其他兩款軟件占了很大的比例。對于BOSS直聘軟件公司,應該積極關注中性評論用戶使用軟件的情況,努力爭取讓多數中性評論客戶轉變成正面評論客戶,相比于讓負面評論的用戶轉變成正面評論的用戶更容易。③前程無憂是差評率相對最高的軟件,對于前程無憂軟件公司,應該主要關注負面評論的用戶需求,尤其是“簡歷”和“招聘”兩個方
向,應作為軟件改進的首要突破口。
[1]鄭雙怡.文本挖掘及其在知識管理中的應用[J].中南民族大學學報(人文社會科學版),2005(4):127-130.
[2]熊偉,郭揚杰.酒店顧客在線評論的文本挖掘[J].北京第二外國語學院學報,2013,35(11):38-47.
[3]錢宇星,周華陽,周利琴,等.老年在線社區用戶健康信息需求挖掘研究[J].現代情報,2019,39(6):59-69.
[4]張振華,許柏鳴.基于在線評論文本挖掘的商業競爭情報分析模型構建及應用[J].情報科學,2019,37(2):149-153,160.
[5]馬文超,吳商碩,黃麒,等.基于文本挖掘技術的企業社會責任報告研究[J].中國市場,2018(4):16-18.
TP311.10
A
10.15913/j.cnki.kjycx.2019.17.001
2095-6835(2019)17-0001-04
賈璇(1993—),男,同濟大學經濟與管理學院碩士研究生。
〔編輯:張思楠〕