999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于泛在網(wǎng)絡(luò)的大學(xué)生情緒語料庫的構(gòu)建

2020-02-06 03:50:18王佳張子杰羅海吉劉英豪陳煒
大學(xué)教育 2020年1期
關(guān)鍵詞:大學(xué)生

王佳 張子杰 羅海吉 劉英豪 陳煒

[摘 要]隨著信息分享、交流、傳播等各種網(wǎng)絡(luò)社交行為的經(jīng)?;瑢Ψ涸诰W(wǎng)絡(luò)中的大學(xué)生情緒信息進行分析及研究,有利于開展大學(xué)生群體的實時情緒監(jiān)測、輿情發(fā)現(xiàn)、輿論引導(dǎo)等工作。使用集搜客網(wǎng)絡(luò)爬蟲軟件挖掘2017年7月至2018年7月百度貼吧中的高校貼吧的文本信息,獲得289萬份語料文本,經(jīng)去噪、去重后獲得114萬份文本,基于基本情緒及大學(xué)生特有情緒分為“悲傷、痛苦、憤怒、害怕、驚奇、高興”6類大學(xué)生情緒類別,基于詞頻統(tǒng)計數(shù)據(jù)確定各情緒類別核心詞,并使用基于Word2vec工具進行訓(xùn)練,構(gòu)建基于泛在網(wǎng)絡(luò)的大學(xué)生情緒語料庫,為大學(xué)生領(lǐng)域的情緒聚類研究提供支撐。

[關(guān)鍵詞]泛在網(wǎng)絡(luò);大學(xué)生;情緒語料庫

[中圖分類號] G645 [文獻標識碼] A [文章編號] 2095-3437(2020)01-0189-03

隨著學(xué)業(yè)壓力、就業(yè)壓力的增大,大學(xué)生心理問題凸顯,各大高校紛紛尋求對策,圍繞心理健康教育、第二課堂活動、心理狀況篩查等方面開展了大量的工作,并取得了不少成績??墒悄壳按髮W(xué)生的心理健康測試普遍存在主觀性強、隱藏性強、準確性不夠的特點,這給心理危機事件的預(yù)防和處理帶來了困難。

新媒體環(huán)境下,泛在網(wǎng)絡(luò)已日益成為反映大學(xué)生學(xué)習(xí)、生活真實情緒的平臺。大學(xué)生不只能夠在各種網(wǎng)絡(luò)社交平臺中自由分享實時心情、動態(tài)等個人信息,還可以及時對他人提供的信息進行反饋和評論。泛在網(wǎng)絡(luò)中海量文本數(shù)據(jù)真實、全面、實時、互動的特點,為分析大學(xué)生群體的情緒提供了便利條件。

一、研究現(xiàn)狀

為了加強對文本的情感挖掘,國內(nèi)學(xué)者先后研發(fā)了知網(wǎng)Hownet情感詞典、清華大學(xué)李軍中文褒貶義詞詞典、大連理工大學(xué)情感詞匯本體詞典等,并基于微博,通過計算情感詞的情緒權(quán)值[1]、反饋“異常情感”[2]、無監(jiān)督情感分類、判斷情感傾向類別[3]進行了文本情緒挖掘的優(yōu)化,將深度學(xué)習(xí)的方法引入文本情感識別工作中,用句法依賴規(guī)則和詞性特征[4]、Word2vec[5]、HMM[6-8]、卷積神經(jīng)網(wǎng)絡(luò)[9]構(gòu)建模型,預(yù)測情感強度。

相較于情感的內(nèi)隱性、持續(xù)性等特點,情緒在第一時間產(chǎn)生,往往是伴隨著生理喚醒和外部表現(xiàn)的主觀體驗[10]。大學(xué)生情緒具有體驗豐富、波動強烈、反應(yīng)敏感等特點,并隨著學(xué)業(yè)、就業(yè)等壓力的增大而日益凸顯。對大學(xué)生的實時情緒進行動態(tài)挖掘和分析,對于大學(xué)生心理健康教育有著非常重要的意義。

本文擬通過自然語言處理方法,對泛在網(wǎng)絡(luò)環(huán)境中的大學(xué)生文本進行情緒詞語采集和挖掘,并通過深度學(xué)習(xí)的工具方法,按照情緒類別和權(quán)值等性質(zhì)排序,初步建立大學(xué)生情緒語料庫。

二、WEB文本數(shù)據(jù)采集

隨著互聯(lián)網(wǎng)的普及,大學(xué)生在泛在網(wǎng)絡(luò)環(huán)境中不斷發(fā)生大量的檢索、瀏覽、下載等行為,并在互聯(lián)網(wǎng)社交平臺中留下大量的數(shù)據(jù)痕跡[11]。相較于QQ、微信的隱私性以及微博用戶的不確定性,全球最大的中文社區(qū)、注冊用戶量已達到10億的百度貼吧具有明確的高校主題、準確的社區(qū)分類以及深度互動等特點,為大學(xué)生情緒文本的采集提供了便利條件。

2017年7月至2018年7月,課題組通過網(wǎng)絡(luò)爬蟲工具即集搜客,以“百度貼吧 高校”為關(guān)鍵詞進行搜索,連續(xù)采集600個高校貼吧中的主題帖以及跟帖數(shù)據(jù),獲取共計289萬份貼吧文本數(shù)據(jù),經(jīng)去噪、去重處理后獲得114萬份文本數(shù)據(jù)。

三、文本預(yù)處理

大學(xué)生的網(wǎng)絡(luò)文本具有文本量大、文本長度短、表達不規(guī)范[12]等特點,這給情緒的準確識別帶來很大的困難。課題組基于以上特征,結(jié)合現(xiàn)有的分詞軟件功能,設(shè)立分詞預(yù)處理比較原則如下:①文本提取的完整性,文本保留得越完整越好。②按照最少切分原則,比較詞元個數(shù),數(shù)量越少越好。③比較詞長平均長度,長度越平均越好。

課題組在百度貼吧中隨機抽取一份大學(xué)生文本,其原文如下:“畢設(shè)讓我要瘋了:有沒有哪位大神會m序列的特性分析用C語言編出來,我要瘋了,這都是什么鬼,完全是毫無頭緒?!闭n題組基于天據(jù)英眼、ROSTCM、IKAnalyzer、Paoding、jieba這5種常用的開源分詞工具對此進行分詞處理,結(jié)果如表1。

按照以上原則來分析會發(fā)現(xiàn),IKAnalyzer、Paoding、jieba5都存在自定義擴展詞,天據(jù)英眼、IKAnalyzer的分詞結(jié)果中詞數(shù)量相對較多,ROSTCM6在文本完整性、詞元數(shù)量、詞平均長度方面均具有較好的效果,故將該工具作為文中大學(xué)生文本的預(yù)處理工具。

課題組將114萬份貼吧文本數(shù)據(jù)進行分詞、去噪,剔除12770項重復(fù)詞語,刪除出現(xiàn)頻率低于2的詞匯,確定42833個詞語作為大學(xué)生基本詞匯。

四、情緒分類及核心詞的確定

20世紀中葉,學(xué)者們基于面部表情等身體體征對情緒進行了界定和分類,取得了不少成果。隨著互聯(lián)網(wǎng)的發(fā)展,海量互聯(lián)網(wǎng)文本信息的有效獲取以及數(shù)據(jù)挖掘技術(shù)和分析技術(shù)的不斷提升,學(xué)者們逐步轉(zhuǎn)向?qū)φZ言的情緒分類研究。

通過比較現(xiàn)有文本情緒分類的基本情緒分類,尤其是針對網(wǎng)絡(luò)微博的情緒分類,確定“高興、憤怒、悲傷、害怕、驚奇”5種文本基本情緒類別。結(jié)合大學(xué)生學(xué)習(xí)、經(jīng)濟、就業(yè)、人際交往等應(yīng)激源元素以及引發(fā)自殺的直接原因即心理痛苦[13],添加“痛苦”類情緒,建立“悲傷、痛苦、憤怒、害怕、驚奇、高興”6類大學(xué)生情緒類別。借助武漢大學(xué)開源的ROSTCM6軟件對42833個詞語進行大學(xué)生基本詞匯詞頻統(tǒng)計和人工分類后,將各類情緒類別高頻詞按照數(shù)量高低統(tǒng)計如表3所示。

按照以上統(tǒng)計數(shù)據(jù),確定詞頻數(shù)最大的高頻詞為該類情緒的核心詞。

五、語料訓(xùn)練

(一)Word2vec模型選擇

Word2vec是google公司2013年推出的一款用于自然語言處理中詞向量訓(xùn)練的開源軟件工具,通過計算機訓(xùn)練給定文本的輸入和輸出,并不斷修正這個神經(jīng)網(wǎng)絡(luò)中的參數(shù),得到詞向量。

Word2vec有2種訓(xùn)練框架: ①在給定上下文的情況下,詞 w的概率CBOW(continuous bag-of-words),其特點是訓(xùn)練速度快,但窗口范圍外的詞匯關(guān)系難以正確被模型所捕獲。②在給定詞w的情況下,其上下文概率的 Skip-gram (continuous skip-gram) ,其特點是低頻詞的訓(xùn)練效果較好[14]。考慮到泛在網(wǎng)絡(luò)論壇文本中新詞及低頻詞大量存在,因此選擇Skip-gram模型進行訓(xùn)練。

(二)Word2vec的工程目錄

Word2vec項目中與訓(xùn)練詞向量相關(guān)的語言文件主要是Learn.java、Word2vec.Java 2個文件,其中,Learn.java文件中包含了特征的訓(xùn)練、訓(xùn)練的模型、詞頻統(tǒng)計的實現(xiàn),Word2vec.java包含了模型的加載以及相似度的計算。

(三)訓(xùn)練參數(shù)比較

1.相同詞匯在不同數(shù)據(jù)量的相關(guān)性數(shù)據(jù)比較

相同詞匯在不同的數(shù)據(jù)量下,數(shù)據(jù)量的增大以及首次出現(xiàn)的新詞,導(dǎo)致相同詞匯與種子詞之間相關(guān)性的非線性變化,其結(jié)果如表4所示。

2.相同詞匯在不同窗口條件下的相關(guān)性數(shù)據(jù)比較

經(jīng)過對去噪、去重等處理后的114萬份語料文本進行實驗后,在相同詞匯下的不同窗口中可以看出,在窗口大小為10的時候其相似度更大,而且在人工挑選時通過去噪、去重處理的無意義詞匯最少,其結(jié)果如表5所示。

獲取適用于大學(xué)生情緒詞特征提取的方法:在窗口大小為10的情況下選擇大樣本分析。

(四)實驗結(jié)果

114萬份語料文本經(jīng)Word2vec訓(xùn)練后,以“悲傷”為悲傷情緒的核心詞得到情緒詞362個,以“哭”為痛苦情緒的核心詞得到情緒詞272個,以“罵”為憤怒情緒的核心詞得到情緒詞304個,以“打”為恐懼情緒的核心詞得到情緒詞338個,以“酷”為驚奇情緒的核心詞得到情緒詞322個,以“好”為高興情緒的核心詞得到情緒詞302個。

通過各詞語與各類情緒核心詞的相似度計算,建立大學(xué)生情緒詞典語料庫如表6所示。

六、展望

本文通過挖掘百度貼吧中的高校大學(xué)生文本,并基于Word2vec方法初步建立具有針對性的大學(xué)生情緒語料庫。接下來,課題組將拓展泛在網(wǎng)絡(luò)中的大學(xué)生文本數(shù)據(jù)來源,繼續(xù)挖掘文本數(shù)據(jù),并通過驗證和實驗進一步提升分詞效率,增強情緒值的準確性,不斷完善和更新語料庫,為更有效地開展大學(xué)生情緒聚類分析提供支撐和便利,從而為大學(xué)生心理健康教育和管理提供有效借鑒。

[ 參 考 文 獻 ]

[1] 陽愛民,林江豪,周詠梅.中文文本情感詞典構(gòu)建方法[J].計算機科學(xué)與探索,2013(11):1033-1039.

[2] 孫波,陳玖冰,劉永娜.大數(shù)據(jù)背景下的學(xué)生情感詞典構(gòu)建方法[J].北京師范大學(xué)學(xué)報(自然科學(xué)版),2015(4):358-361.

[3] 柳位平,朱艷輝,栗春亮,等.中文基礎(chǔ)情感詞詞典構(gòu)建方法研究[J].計算機應(yīng)用,2009(10):2875-2877.

[4] 鄧淑卿,李玩?zhèn)?,徐?基于句法依賴規(guī)則和詞性特征的情感詞識別研究[J].情報理論與實踐,2018(5):137-142.

[5] 楊小平,張中夏,王良,等.基于Word2Vec的情感詞典自動構(gòu)建與優(yōu)化[J].計算機科學(xué),2017(1):42-47+74.

[6] 谷學(xué)靜.基于人工心理的HMM情感建模方法及虛擬人技術(shù)研究[D].北京:北京科技大學(xué),2003.

[7] 張謙,高章敏,劉嘉勇.基于word2vec的微博短文本分類研究[J].信息網(wǎng)絡(luò)安全,2017(1):57-62.

[8] 李銳,張謙,劉嘉勇.基于加權(quán) word2vec的微博情感分析[J].通信技術(shù),2017(3):502-506.

[9] 張志華.基于深度學(xué)習(xí)的情感詞向量及文本情感分析的研究[D].上海:華東師范大學(xué),2016.

[10] 傅小蘭.情緒心理學(xué)[M].上海:華東師范大學(xué)出版社,2016:5.

[11] 劉林.面向論壇文本的大學(xué)生情緒識別研究[D].武漢:華中師范大學(xué),2016.

[12] 楊佳能,陽愛民,周詠梅.基于語義分析的中文微博情感分類方法[J].山東大學(xué)學(xué)報(理學(xué)版),2014(11):14-21+30.

[13] SHNEIDMAN E S. Commentary: Suicide as Psychache[J].Journal of Nervous & Mental Disease, 1993(3): 145-147.

[14] 王仁武,陳川寶,孟現(xiàn)茹.基于詞向量擴展的學(xué)術(shù)資源語義檢索技術(shù)[J].圖書情報工作,2018(19):111-119.

[責(zé)任編輯:龐丹丹]

猜你喜歡
大學(xué)生
大學(xué)生付費實習(xí)“天坑”必須提防
國際大學(xué)生節(jié)
帶父求學(xué)的大學(xué)生
大學(xué)生之歌
黃河之聲(2017年14期)2017-10-11 09:03:59
新大學(xué)生之歌
北方音樂(2017年7期)2017-05-16 00:32:46
大學(xué)生實習(xí)“注水”誰之過
大學(xué)生實習(xí)如何落到“實處”
讓大學(xué)生夢想成真
中國火炬(2013年7期)2013-07-24 14:19:23
他把孤兒院辦成大學(xué)生搖籃
中國火炬(2010年9期)2010-07-25 11:45:09
媽媽背出來的大學(xué)生
中國火炬(2009年2期)2009-07-24 14:31:30
主站蜘蛛池模板: 五月激情婷婷综合| 四虎国产永久在线观看| 亚洲中文无码h在线观看| 久久性视频| 欧美无遮挡国产欧美另类| 久久免费视频播放| 国模视频一区二区| 亚洲一区二区成人| 奇米精品一区二区三区在线观看| 国产系列在线| 免费无码又爽又刺激高| 亚洲无码日韩一区| 任我操在线视频| 99热最新网址| 国产日韩久久久久无码精品| 亚洲bt欧美bt精品| 福利在线一区| 国产女人综合久久精品视| 国产人免费人成免费视频| 亚洲欧美激情另类| 久久综合色视频| 亚洲天堂免费观看| 综合色在线| 国产高清无码第一十页在线观看| 国产精品短篇二区| 无码一区18禁| 久996视频精品免费观看| 亚洲三级电影在线播放 | 久久国产精品77777| 99久久精品久久久久久婷婷| 亚洲愉拍一区二区精品| 国产一级毛片在线| 欧美va亚洲va香蕉在线| 88av在线播放| 成人午夜久久| 尤物成AV人片在线观看| 国产99欧美精品久久精品久久| 91福利免费视频| 亚洲精品手机在线| 日韩小视频网站hq| 日本五区在线不卡精品| 天堂va亚洲va欧美va国产| 伊人AV天堂| 人妻21p大胆| 一级成人a做片免费| 国产精品综合久久久| 久久成人18免费| 亚洲看片网| 国产日韩丝袜一二三区| 超碰色了色| 国产在线日本| 国产精品福利一区二区久久| 日韩A级毛片一区二区三区| 亚洲AⅤ无码国产精品| 亚洲精品免费网站| 国产精品99久久久| 亚洲永久色| 国产高潮视频在线观看| 日韩不卡免费视频| 狠狠色婷婷丁香综合久久韩国| 毛片基地美国正在播放亚洲| 婷婷丁香在线观看| 3p叠罗汉国产精品久久| 国产成人精品一区二区三区| 国产色婷婷视频在线观看| 国产精品男人的天堂| 国产本道久久一区二区三区| 亚瑟天堂久久一区二区影院| 熟妇丰满人妻av无码区| 一区二区三区四区在线| 一级毛片免费观看不卡视频| 天堂成人在线| 国产综合欧美| 欧美日韩国产精品va| 免费国产不卡午夜福在线观看| 国产无码精品在线播放| 日本午夜网站| 在线一级毛片| 免费观看无遮挡www的小视频| 5388国产亚洲欧美在线观看| 九色91在线视频| 久久久久人妻精品一区三寸蜜桃|