999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于泛在網(wǎng)絡(luò)的大學(xué)生情緒語料庫的構(gòu)建

2020-02-06 03:50:18王佳張子杰羅海吉劉英豪陳煒
大學(xué)教育 2020年1期
關(guān)鍵詞:大學(xué)生

王佳 張子杰 羅海吉 劉英豪 陳煒

[摘 要]隨著信息分享、交流、傳播等各種網(wǎng)絡(luò)社交行為的經(jīng)常化,對(duì)泛在網(wǎng)絡(luò)中的大學(xué)生情緒信息進(jìn)行分析及研究,有利于開展大學(xué)生群體的實(shí)時(shí)情緒監(jiān)測(cè)、輿情發(fā)現(xiàn)、輿論引導(dǎo)等工作。使用集搜客網(wǎng)絡(luò)爬蟲軟件挖掘2017年7月至2018年7月百度貼吧中的高校貼吧的文本信息,獲得289萬份語料文本,經(jīng)去噪、去重后獲得114萬份文本,基于基本情緒及大學(xué)生特有情緒分為“悲傷、痛苦、憤怒、害怕、驚奇、高興”6類大學(xué)生情緒類別,基于詞頻統(tǒng)計(jì)數(shù)據(jù)確定各情緒類別核心詞,并使用基于Word2vec工具進(jìn)行訓(xùn)練,構(gòu)建基于泛在網(wǎng)絡(luò)的大學(xué)生情緒語料庫,為大學(xué)生領(lǐng)域的情緒聚類研究提供支撐。

[關(guān)鍵詞]泛在網(wǎng)絡(luò);大學(xué)生;情緒語料庫

[中圖分類號(hào)] G645 [文獻(xiàn)標(biāo)識(shí)碼] A [文章編號(hào)] 2095-3437(2020)01-0189-03

隨著學(xué)業(yè)壓力、就業(yè)壓力的增大,大學(xué)生心理問題凸顯,各大高校紛紛尋求對(duì)策,圍繞心理健康教育、第二課堂活動(dòng)、心理狀況篩查等方面開展了大量的工作,并取得了不少成績(jī)。可是目前大學(xué)生的心理健康測(cè)試普遍存在主觀性強(qiáng)、隱藏性強(qiáng)、準(zhǔn)確性不夠的特點(diǎn),這給心理危機(jī)事件的預(yù)防和處理帶來了困難。

新媒體環(huán)境下,泛在網(wǎng)絡(luò)已日益成為反映大學(xué)生學(xué)習(xí)、生活真實(shí)情緒的平臺(tái)。大學(xué)生不只能夠在各種網(wǎng)絡(luò)社交平臺(tái)中自由分享實(shí)時(shí)心情、動(dòng)態(tài)等個(gè)人信息,還可以及時(shí)對(duì)他人提供的信息進(jìn)行反饋和評(píng)論。泛在網(wǎng)絡(luò)中海量文本數(shù)據(jù)真實(shí)、全面、實(shí)時(shí)、互動(dòng)的特點(diǎn),為分析大學(xué)生群體的情緒提供了便利條件。

一、研究現(xiàn)狀

為了加強(qiáng)對(duì)文本的情感挖掘,國(guó)內(nèi)學(xué)者先后研發(fā)了知網(wǎng)Hownet情感詞典、清華大學(xué)李軍中文褒貶義詞詞典、大連理工大學(xué)情感詞匯本體詞典等,并基于微博,通過計(jì)算情感詞的情緒權(quán)值[1]、反饋“異常情感”[2]、無監(jiān)督情感分類、判斷情感傾向類別[3]進(jìn)行了文本情緒挖掘的優(yōu)化,將深度學(xué)習(xí)的方法引入文本情感識(shí)別工作中,用句法依賴規(guī)則和詞性特征[4]、Word2vec[5]、HMM[6-8]、卷積神經(jīng)網(wǎng)絡(luò)[9]構(gòu)建模型,預(yù)測(cè)情感強(qiáng)度。

相較于情感的內(nèi)隱性、持續(xù)性等特點(diǎn),情緒在第一時(shí)間產(chǎn)生,往往是伴隨著生理喚醒和外部表現(xiàn)的主觀體驗(yàn)[10]。大學(xué)生情緒具有體驗(yàn)豐富、波動(dòng)強(qiáng)烈、反應(yīng)敏感等特點(diǎn),并隨著學(xué)業(yè)、就業(yè)等壓力的增大而日益凸顯。對(duì)大學(xué)生的實(shí)時(shí)情緒進(jìn)行動(dòng)態(tài)挖掘和分析,對(duì)于大學(xué)生心理健康教育有著非常重要的意義。

本文擬通過自然語言處理方法,對(duì)泛在網(wǎng)絡(luò)環(huán)境中的大學(xué)生文本進(jìn)行情緒詞語采集和挖掘,并通過深度學(xué)習(xí)的工具方法,按照情緒類別和權(quán)值等性質(zhì)排序,初步建立大學(xué)生情緒語料庫。

二、WEB文本數(shù)據(jù)采集

隨著互聯(lián)網(wǎng)的普及,大學(xué)生在泛在網(wǎng)絡(luò)環(huán)境中不斷發(fā)生大量的檢索、瀏覽、下載等行為,并在互聯(lián)網(wǎng)社交平臺(tái)中留下大量的數(shù)據(jù)痕跡[11]。相較于QQ、微信的隱私性以及微博用戶的不確定性,全球最大的中文社區(qū)、注冊(cè)用戶量已達(dá)到10億的百度貼吧具有明確的高校主題、準(zhǔn)確的社區(qū)分類以及深度互動(dòng)等特點(diǎn),為大學(xué)生情緒文本的采集提供了便利條件。

2017年7月至2018年7月,課題組通過網(wǎng)絡(luò)爬蟲工具即集搜客,以“百度貼吧 高校”為關(guān)鍵詞進(jìn)行搜索,連續(xù)采集600個(gè)高校貼吧中的主題帖以及跟帖數(shù)據(jù),獲取共計(jì)289萬份貼吧文本數(shù)據(jù),經(jīng)去噪、去重處理后獲得114萬份文本數(shù)據(jù)。

三、文本預(yù)處理

大學(xué)生的網(wǎng)絡(luò)文本具有文本量大、文本長(zhǎng)度短、表達(dá)不規(guī)范[12]等特點(diǎn),這給情緒的準(zhǔn)確識(shí)別帶來很大的困難。課題組基于以上特征,結(jié)合現(xiàn)有的分詞軟件功能,設(shè)立分詞預(yù)處理比較原則如下:①文本提取的完整性,文本保留得越完整越好。②按照最少切分原則,比較詞元個(gè)數(shù),數(shù)量越少越好。③比較詞長(zhǎng)平均長(zhǎng)度,長(zhǎng)度越平均越好。

課題組在百度貼吧中隨機(jī)抽取一份大學(xué)生文本,其原文如下:“畢設(shè)讓我要瘋了:有沒有哪位大神會(huì)m序列的特性分析用C語言編出來,我要瘋了,這都是什么鬼,完全是毫無頭緒。”課題組基于天據(jù)英眼、ROSTCM、IKAnalyzer、Paoding、jieba這5種常用的開源分詞工具對(duì)此進(jìn)行分詞處理,結(jié)果如表1。

按照以上原則來分析會(huì)發(fā)現(xiàn),IKAnalyzer、Paoding、jieba5都存在自定義擴(kuò)展詞,天據(jù)英眼、IKAnalyzer的分詞結(jié)果中詞數(shù)量相對(duì)較多,ROSTCM6在文本完整性、詞元數(shù)量、詞平均長(zhǎng)度方面均具有較好的效果,故將該工具作為文中大學(xué)生文本的預(yù)處理工具。

課題組將114萬份貼吧文本數(shù)據(jù)進(jìn)行分詞、去噪,剔除12770項(xiàng)重復(fù)詞語,刪除出現(xiàn)頻率低于2的詞匯,確定42833個(gè)詞語作為大學(xué)生基本詞匯。

四、情緒分類及核心詞的確定

20世紀(jì)中葉,學(xué)者們基于面部表情等身體體征對(duì)情緒進(jìn)行了界定和分類,取得了不少成果。隨著互聯(lián)網(wǎng)的發(fā)展,海量互聯(lián)網(wǎng)文本信息的有效獲取以及數(shù)據(jù)挖掘技術(shù)和分析技術(shù)的不斷提升,學(xué)者們逐步轉(zhuǎn)向?qū)φZ言的情緒分類研究。

通過比較現(xiàn)有文本情緒分類的基本情緒分類,尤其是針對(duì)網(wǎng)絡(luò)微博的情緒分類,確定“高興、憤怒、悲傷、害怕、驚奇”5種文本基本情緒類別。結(jié)合大學(xué)生學(xué)習(xí)、經(jīng)濟(jì)、就業(yè)、人際交往等應(yīng)激源元素以及引發(fā)自殺的直接原因即心理痛苦[13],添加“痛苦”類情緒,建立“悲傷、痛苦、憤怒、害怕、驚奇、高興”6類大學(xué)生情緒類別。借助武漢大學(xué)開源的ROSTCM6軟件對(duì)42833個(gè)詞語進(jìn)行大學(xué)生基本詞匯詞頻統(tǒng)計(jì)和人工分類后,將各類情緒類別高頻詞按照數(shù)量高低統(tǒng)計(jì)如表3所示。

按照以上統(tǒng)計(jì)數(shù)據(jù),確定詞頻數(shù)最大的高頻詞為該類情緒的核心詞。

五、語料訓(xùn)練

(一)Word2vec模型選擇

Word2vec是google公司2013年推出的一款用于自然語言處理中詞向量訓(xùn)練的開源軟件工具,通過計(jì)算機(jī)訓(xùn)練給定文本的輸入和輸出,并不斷修正這個(gè)神經(jīng)網(wǎng)絡(luò)中的參數(shù),得到詞向量。

Word2vec有2種訓(xùn)練框架: ①在給定上下文的情況下,詞 w的概率CBOW(continuous bag-of-words),其特點(diǎn)是訓(xùn)練速度快,但窗口范圍外的詞匯關(guān)系難以正確被模型所捕獲。②在給定詞w的情況下,其上下文概率的 Skip-gram (continuous skip-gram) ,其特點(diǎn)是低頻詞的訓(xùn)練效果較好[14]。考慮到泛在網(wǎng)絡(luò)論壇文本中新詞及低頻詞大量存在,因此選擇Skip-gram模型進(jìn)行訓(xùn)練。

(二)Word2vec的工程目錄

Word2vec項(xiàng)目中與訓(xùn)練詞向量相關(guān)的語言文件主要是Learn.java、Word2vec.Java 2個(gè)文件,其中,Learn.java文件中包含了特征的訓(xùn)練、訓(xùn)練的模型、詞頻統(tǒng)計(jì)的實(shí)現(xiàn),Word2vec.java包含了模型的加載以及相似度的計(jì)算。

(三)訓(xùn)練參數(shù)比較

1.相同詞匯在不同數(shù)據(jù)量的相關(guān)性數(shù)據(jù)比較

相同詞匯在不同的數(shù)據(jù)量下,數(shù)據(jù)量的增大以及首次出現(xiàn)的新詞,導(dǎo)致相同詞匯與種子詞之間相關(guān)性的非線性變化,其結(jié)果如表4所示。

2.相同詞匯在不同窗口條件下的相關(guān)性數(shù)據(jù)比較

經(jīng)過對(duì)去噪、去重等處理后的114萬份語料文本進(jìn)行實(shí)驗(yàn)后,在相同詞匯下的不同窗口中可以看出,在窗口大小為10的時(shí)候其相似度更大,而且在人工挑選時(shí)通過去噪、去重處理的無意義詞匯最少,其結(jié)果如表5所示。

獲取適用于大學(xué)生情緒詞特征提取的方法:在窗口大小為10的情況下選擇大樣本分析。

(四)實(shí)驗(yàn)結(jié)果

114萬份語料文本經(jīng)Word2vec訓(xùn)練后,以“悲傷”為悲傷情緒的核心詞得到情緒詞362個(gè),以“哭”為痛苦情緒的核心詞得到情緒詞272個(gè),以“罵”為憤怒情緒的核心詞得到情緒詞304個(gè),以“打”為恐懼情緒的核心詞得到情緒詞338個(gè),以“酷”為驚奇情緒的核心詞得到情緒詞322個(gè),以“好”為高興情緒的核心詞得到情緒詞302個(gè)。

通過各詞語與各類情緒核心詞的相似度計(jì)算,建立大學(xué)生情緒詞典語料庫如表6所示。

六、展望

本文通過挖掘百度貼吧中的高校大學(xué)生文本,并基于Word2vec方法初步建立具有針對(duì)性的大學(xué)生情緒語料庫。接下來,課題組將拓展泛在網(wǎng)絡(luò)中的大學(xué)生文本數(shù)據(jù)來源,繼續(xù)挖掘文本數(shù)據(jù),并通過驗(yàn)證和實(shí)驗(yàn)進(jìn)一步提升分詞效率,增強(qiáng)情緒值的準(zhǔn)確性,不斷完善和更新語料庫,為更有效地開展大學(xué)生情緒聚類分析提供支撐和便利,從而為大學(xué)生心理健康教育和管理提供有效借鑒。

[ 參 考 文 獻(xiàn) ]

[1] 陽愛民,林江豪,周詠梅.中文文本情感詞典構(gòu)建方法[J].計(jì)算機(jī)科學(xué)與探索,2013(11):1033-1039.

[2] 孫波,陳玖冰,劉永娜.大數(shù)據(jù)背景下的學(xué)生情感詞典構(gòu)建方法[J].北京師范大學(xué)學(xué)報(bào)(自然科學(xué)版),2015(4):358-361.

[3] 柳位平,朱艷輝,栗春亮,等.中文基礎(chǔ)情感詞詞典構(gòu)建方法研究[J].計(jì)算機(jī)應(yīng)用,2009(10):2875-2877.

[4] 鄧淑卿,李玩?zhèn)ィ旖?基于句法依賴規(guī)則和詞性特征的情感詞識(shí)別研究[J].情報(bào)理論與實(shí)踐,2018(5):137-142.

[5] 楊小平,張中夏,王良,等.基于Word2Vec的情感詞典自動(dòng)構(gòu)建與優(yōu)化[J].計(jì)算機(jī)科學(xué),2017(1):42-47+74.

[6] 谷學(xué)靜.基于人工心理的HMM情感建模方法及虛擬人技術(shù)研究[D].北京:北京科技大學(xué),2003.

[7] 張謙,高章敏,劉嘉勇.基于word2vec的微博短文本分類研究[J].信息網(wǎng)絡(luò)安全,2017(1):57-62.

[8] 李銳,張謙,劉嘉勇.基于加權(quán) word2vec的微博情感分析[J].通信技術(shù),2017(3):502-506.

[9] 張志華.基于深度學(xué)習(xí)的情感詞向量及文本情感分析的研究[D].上海:華東師范大學(xué),2016.

[10] 傅小蘭.情緒心理學(xué)[M].上海:華東師范大學(xué)出版社,2016:5.

[11] 劉林.面向論壇文本的大學(xué)生情緒識(shí)別研究[D].武漢:華中師范大學(xué),2016.

[12] 楊佳能,陽愛民,周詠梅.基于語義分析的中文微博情感分類方法[J].山東大學(xué)學(xué)報(bào)(理學(xué)版),2014(11):14-21+30.

[13] SHNEIDMAN E S. Commentary: Suicide as Psychache[J].Journal of Nervous & Mental Disease, 1993(3): 145-147.

[14] 王仁武,陳川寶,孟現(xiàn)茹.基于詞向量擴(kuò)展的學(xué)術(shù)資源語義檢索技術(shù)[J].圖書情報(bào)工作,2018(19):111-119.

[責(zé)任編輯:龐丹丹]

猜你喜歡
大學(xué)生
大學(xué)生付費(fèi)實(shí)習(xí)“天坑”必須提防
國(guó)際大學(xué)生節(jié)
帶父求學(xué)的大學(xué)生
大學(xué)生之歌
黃河之聲(2017年14期)2017-10-11 09:03:59
新大學(xué)生之歌
北方音樂(2017年7期)2017-05-16 00:32:46
大學(xué)生實(shí)習(xí)“注水”誰之過
大學(xué)生實(shí)習(xí)如何落到“實(shí)處”
讓大學(xué)生夢(mèng)想成真
他把孤兒院辦成大學(xué)生搖籃
媽媽背出來的大學(xué)生
主站蜘蛛池模板: 精品国产网站| 国产极品粉嫩小泬免费看| 亚洲AV无码久久精品色欲| 伊在人亚洲香蕉精品播放| 国产成人亚洲综合A∨在线播放| 国产自在线拍| 久草视频精品| 波多野结衣中文字幕一区二区| 欧美成人免费| 亚洲日韩高清在线亚洲专区| 国产白浆在线| 亚洲成人在线网| 国产v欧美v日韩v综合精品| 精品91在线| 天天色天天综合网| 亚洲色无码专线精品观看| 免费国产无遮挡又黄又爽| 欧美自慰一级看片免费| 亚洲精品福利视频| 亚洲成人黄色网址| 亚洲精品卡2卡3卡4卡5卡区| 原味小视频在线www国产| 精品一区二区三区自慰喷水| 少妇人妻无码首页| 一区二区日韩国产精久久| 国产h视频在线观看视频| 一区二区影院| 亚洲AⅤ波多系列中文字幕 | 亚洲男人的天堂视频| 国产乱人乱偷精品视频a人人澡| 污污网站在线观看| 亚洲中文字幕无码爆乳| 中文字幕在线观| 国产高清免费午夜在线视频| 无码国产伊人| 国产呦精品一区二区三区下载| 日本欧美视频在线观看| 国产成人综合日韩精品无码首页| 91成人精品视频| 精品伊人久久久久7777人| 国产区免费精品视频| 91免费片| 国产精品视频公开费视频| 亚洲国产综合精品一区| 99re在线免费视频| 草草影院国产第一页| 国产青青操| 亚洲av色吊丝无码| 午夜少妇精品视频小电影| 国产欧美日韩18| 伊伊人成亚洲综合人网7777| 免费国产高清精品一区在线| 国产乱子伦无码精品小说 | 美女无遮挡免费网站| 免费xxxxx在线观看网站| 污污网站在线观看| 青青国产视频| 色视频久久| 一级毛片在线免费视频| 久久国产高清视频| 国产91无毒不卡在线观看| 亚洲天堂成人| 干中文字幕| 久久国产免费观看| 99久久国产自偷自偷免费一区| 青青草国产精品久久久久| 看你懂的巨臀中文字幕一区二区| 国产超碰在线观看| 人人看人人鲁狠狠高清| 青青热久免费精品视频6| 亚洲国产亚洲综合在线尤物| 99九九成人免费视频精品 | 久久国产乱子| 高清无码手机在线观看| 亚洲美女久久| 久热这里只有精品6| 亚洲成人黄色在线| 2020亚洲精品无码| 亚洲国产日韩一区| 色天堂无毒不卡| 日本久久免费| 91精品网站|