999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于泛在網(wǎng)絡(luò)的大學(xué)生情緒語(yǔ)料庫(kù)的構(gòu)建

2020-02-06 03:50:18王佳張子杰羅海吉劉英豪陳煒
大學(xué)教育 2020年1期
關(guān)鍵詞:大學(xué)生

王佳 張子杰 羅海吉 劉英豪 陳煒

[摘 要]隨著信息分享、交流、傳播等各種網(wǎng)絡(luò)社交行為的經(jīng)常化,對(duì)泛在網(wǎng)絡(luò)中的大學(xué)生情緒信息進(jìn)行分析及研究,有利于開展大學(xué)生群體的實(shí)時(shí)情緒監(jiān)測(cè)、輿情發(fā)現(xiàn)、輿論引導(dǎo)等工作。使用集搜客網(wǎng)絡(luò)爬蟲軟件挖掘2017年7月至2018年7月百度貼吧中的高校貼吧的文本信息,獲得289萬(wàn)份語(yǔ)料文本,經(jīng)去噪、去重后獲得114萬(wàn)份文本,基于基本情緒及大學(xué)生特有情緒分為“悲傷、痛苦、憤怒、害怕、驚奇、高興”6類大學(xué)生情緒類別,基于詞頻統(tǒng)計(jì)數(shù)據(jù)確定各情緒類別核心詞,并使用基于Word2vec工具進(jìn)行訓(xùn)練,構(gòu)建基于泛在網(wǎng)絡(luò)的大學(xué)生情緒語(yǔ)料庫(kù),為大學(xué)生領(lǐng)域的情緒聚類研究提供支撐。

[關(guān)鍵詞]泛在網(wǎng)絡(luò);大學(xué)生;情緒語(yǔ)料庫(kù)

[中圖分類號(hào)] G645 [文獻(xiàn)標(biāo)識(shí)碼] A [文章編號(hào)] 2095-3437(2020)01-0189-03

隨著學(xué)業(yè)壓力、就業(yè)壓力的增大,大學(xué)生心理問(wèn)題凸顯,各大高校紛紛尋求對(duì)策,圍繞心理健康教育、第二課堂活動(dòng)、心理狀況篩查等方面開展了大量的工作,并取得了不少成績(jī)。可是目前大學(xué)生的心理健康測(cè)試普遍存在主觀性強(qiáng)、隱藏性強(qiáng)、準(zhǔn)確性不夠的特點(diǎn),這給心理危機(jī)事件的預(yù)防和處理帶來(lái)了困難。

新媒體環(huán)境下,泛在網(wǎng)絡(luò)已日益成為反映大學(xué)生學(xué)習(xí)、生活真實(shí)情緒的平臺(tái)。大學(xué)生不只能夠在各種網(wǎng)絡(luò)社交平臺(tái)中自由分享實(shí)時(shí)心情、動(dòng)態(tài)等個(gè)人信息,還可以及時(shí)對(duì)他人提供的信息進(jìn)行反饋和評(píng)論。泛在網(wǎng)絡(luò)中海量文本數(shù)據(jù)真實(shí)、全面、實(shí)時(shí)、互動(dòng)的特點(diǎn),為分析大學(xué)生群體的情緒提供了便利條件。

一、研究現(xiàn)狀

為了加強(qiáng)對(duì)文本的情感挖掘,國(guó)內(nèi)學(xué)者先后研發(fā)了知網(wǎng)Hownet情感詞典、清華大學(xué)李軍中文褒貶義詞詞典、大連理工大學(xué)情感詞匯本體詞典等,并基于微博,通過(guò)計(jì)算情感詞的情緒權(quán)值[1]、反饋“異常情感”[2]、無(wú)監(jiān)督情感分類、判斷情感傾向類別[3]進(jìn)行了文本情緒挖掘的優(yōu)化,將深度學(xué)習(xí)的方法引入文本情感識(shí)別工作中,用句法依賴規(guī)則和詞性特征[4]、Word2vec[5]、HMM[6-8]、卷積神經(jīng)網(wǎng)絡(luò)[9]構(gòu)建模型,預(yù)測(cè)情感強(qiáng)度。

相較于情感的內(nèi)隱性、持續(xù)性等特點(diǎn),情緒在第一時(shí)間產(chǎn)生,往往是伴隨著生理喚醒和外部表現(xiàn)的主觀體驗(yàn)[10]。大學(xué)生情緒具有體驗(yàn)豐富、波動(dòng)強(qiáng)烈、反應(yīng)敏感等特點(diǎn),并隨著學(xué)業(yè)、就業(yè)等壓力的增大而日益凸顯。對(duì)大學(xué)生的實(shí)時(shí)情緒進(jìn)行動(dòng)態(tài)挖掘和分析,對(duì)于大學(xué)生心理健康教育有著非常重要的意義。

本文擬通過(guò)自然語(yǔ)言處理方法,對(duì)泛在網(wǎng)絡(luò)環(huán)境中的大學(xué)生文本進(jìn)行情緒詞語(yǔ)采集和挖掘,并通過(guò)深度學(xué)習(xí)的工具方法,按照情緒類別和權(quán)值等性質(zhì)排序,初步建立大學(xué)生情緒語(yǔ)料庫(kù)。

二、WEB文本數(shù)據(jù)采集

隨著互聯(lián)網(wǎng)的普及,大學(xué)生在泛在網(wǎng)絡(luò)環(huán)境中不斷發(fā)生大量的檢索、瀏覽、下載等行為,并在互聯(lián)網(wǎng)社交平臺(tái)中留下大量的數(shù)據(jù)痕跡[11]。相較于QQ、微信的隱私性以及微博用戶的不確定性,全球最大的中文社區(qū)、注冊(cè)用戶量已達(dá)到10億的百度貼吧具有明確的高校主題、準(zhǔn)確的社區(qū)分類以及深度互動(dòng)等特點(diǎn),為大學(xué)生情緒文本的采集提供了便利條件。

2017年7月至2018年7月,課題組通過(guò)網(wǎng)絡(luò)爬蟲工具即集搜客,以“百度貼吧 高校”為關(guān)鍵詞進(jìn)行搜索,連續(xù)采集600個(gè)高校貼吧中的主題帖以及跟帖數(shù)據(jù),獲取共計(jì)289萬(wàn)份貼吧文本數(shù)據(jù),經(jīng)去噪、去重處理后獲得114萬(wàn)份文本數(shù)據(jù)。

三、文本預(yù)處理

大學(xué)生的網(wǎng)絡(luò)文本具有文本量大、文本長(zhǎng)度短、表達(dá)不規(guī)范[12]等特點(diǎn),這給情緒的準(zhǔn)確識(shí)別帶來(lái)很大的困難。課題組基于以上特征,結(jié)合現(xiàn)有的分詞軟件功能,設(shè)立分詞預(yù)處理比較原則如下:①文本提取的完整性,文本保留得越完整越好。②按照最少切分原則,比較詞元個(gè)數(shù),數(shù)量越少越好。③比較詞長(zhǎng)平均長(zhǎng)度,長(zhǎng)度越平均越好。

課題組在百度貼吧中隨機(jī)抽取一份大學(xué)生文本,其原文如下:“畢設(shè)讓我要瘋了:有沒有哪位大神會(huì)m序列的特性分析用C語(yǔ)言編出來(lái),我要瘋了,這都是什么鬼,完全是毫無(wú)頭緒。”課題組基于天據(jù)英眼、ROSTCM、IKAnalyzer、Paoding、jieba這5種常用的開源分詞工具對(duì)此進(jìn)行分詞處理,結(jié)果如表1。

按照以上原則來(lái)分析會(huì)發(fā)現(xiàn),IKAnalyzer、Paoding、jieba5都存在自定義擴(kuò)展詞,天據(jù)英眼、IKAnalyzer的分詞結(jié)果中詞數(shù)量相對(duì)較多,ROSTCM6在文本完整性、詞元數(shù)量、詞平均長(zhǎng)度方面均具有較好的效果,故將該工具作為文中大學(xué)生文本的預(yù)處理工具。

課題組將114萬(wàn)份貼吧文本數(shù)據(jù)進(jìn)行分詞、去噪,剔除12770項(xiàng)重復(fù)詞語(yǔ),刪除出現(xiàn)頻率低于2的詞匯,確定42833個(gè)詞語(yǔ)作為大學(xué)生基本詞匯。

四、情緒分類及核心詞的確定

20世紀(jì)中葉,學(xué)者們基于面部表情等身體體征對(duì)情緒進(jìn)行了界定和分類,取得了不少成果。隨著互聯(lián)網(wǎng)的發(fā)展,海量互聯(lián)網(wǎng)文本信息的有效獲取以及數(shù)據(jù)挖掘技術(shù)和分析技術(shù)的不斷提升,學(xué)者們逐步轉(zhuǎn)向?qū)φZ(yǔ)言的情緒分類研究。

通過(guò)比較現(xiàn)有文本情緒分類的基本情緒分類,尤其是針對(duì)網(wǎng)絡(luò)微博的情緒分類,確定“高興、憤怒、悲傷、害怕、驚奇”5種文本基本情緒類別。結(jié)合大學(xué)生學(xué)習(xí)、經(jīng)濟(jì)、就業(yè)、人際交往等應(yīng)激源元素以及引發(fā)自殺的直接原因即心理痛苦[13],添加“痛苦”類情緒,建立“悲傷、痛苦、憤怒、害怕、驚奇、高興”6類大學(xué)生情緒類別。借助武漢大學(xué)開源的ROSTCM6軟件對(duì)42833個(gè)詞語(yǔ)進(jìn)行大學(xué)生基本詞匯詞頻統(tǒng)計(jì)和人工分類后,將各類情緒類別高頻詞按照數(shù)量高低統(tǒng)計(jì)如表3所示。

按照以上統(tǒng)計(jì)數(shù)據(jù),確定詞頻數(shù)最大的高頻詞為該類情緒的核心詞。

五、語(yǔ)料訓(xùn)練

(一)Word2vec模型選擇

Word2vec是google公司2013年推出的一款用于自然語(yǔ)言處理中詞向量訓(xùn)練的開源軟件工具,通過(guò)計(jì)算機(jī)訓(xùn)練給定文本的輸入和輸出,并不斷修正這個(gè)神經(jīng)網(wǎng)絡(luò)中的參數(shù),得到詞向量。

Word2vec有2種訓(xùn)練框架: ①在給定上下文的情況下,詞 w的概率CBOW(continuous bag-of-words),其特點(diǎn)是訓(xùn)練速度快,但窗口范圍外的詞匯關(guān)系難以正確被模型所捕獲。②在給定詞w的情況下,其上下文概率的 Skip-gram (continuous skip-gram) ,其特點(diǎn)是低頻詞的訓(xùn)練效果較好[14]。考慮到泛在網(wǎng)絡(luò)論壇文本中新詞及低頻詞大量存在,因此選擇Skip-gram模型進(jìn)行訓(xùn)練。

(二)Word2vec的工程目錄

Word2vec項(xiàng)目中與訓(xùn)練詞向量相關(guān)的語(yǔ)言文件主要是Learn.java、Word2vec.Java 2個(gè)文件,其中,Learn.java文件中包含了特征的訓(xùn)練、訓(xùn)練的模型、詞頻統(tǒng)計(jì)的實(shí)現(xiàn),Word2vec.java包含了模型的加載以及相似度的計(jì)算。

(三)訓(xùn)練參數(shù)比較

1.相同詞匯在不同數(shù)據(jù)量的相關(guān)性數(shù)據(jù)比較

相同詞匯在不同的數(shù)據(jù)量下,數(shù)據(jù)量的增大以及首次出現(xiàn)的新詞,導(dǎo)致相同詞匯與種子詞之間相關(guān)性的非線性變化,其結(jié)果如表4所示。

2.相同詞匯在不同窗口條件下的相關(guān)性數(shù)據(jù)比較

經(jīng)過(guò)對(duì)去噪、去重等處理后的114萬(wàn)份語(yǔ)料文本進(jìn)行實(shí)驗(yàn)后,在相同詞匯下的不同窗口中可以看出,在窗口大小為10的時(shí)候其相似度更大,而且在人工挑選時(shí)通過(guò)去噪、去重處理的無(wú)意義詞匯最少,其結(jié)果如表5所示。

獲取適用于大學(xué)生情緒詞特征提取的方法:在窗口大小為10的情況下選擇大樣本分析。

(四)實(shí)驗(yàn)結(jié)果

114萬(wàn)份語(yǔ)料文本經(jīng)Word2vec訓(xùn)練后,以“悲傷”為悲傷情緒的核心詞得到情緒詞362個(gè),以“哭”為痛苦情緒的核心詞得到情緒詞272個(gè),以“罵”為憤怒情緒的核心詞得到情緒詞304個(gè),以“打”為恐懼情緒的核心詞得到情緒詞338個(gè),以“酷”為驚奇情緒的核心詞得到情緒詞322個(gè),以“好”為高興情緒的核心詞得到情緒詞302個(gè)。

通過(guò)各詞語(yǔ)與各類情緒核心詞的相似度計(jì)算,建立大學(xué)生情緒詞典語(yǔ)料庫(kù)如表6所示。

六、展望

本文通過(guò)挖掘百度貼吧中的高校大學(xué)生文本,并基于Word2vec方法初步建立具有針對(duì)性的大學(xué)生情緒語(yǔ)料庫(kù)。接下來(lái),課題組將拓展泛在網(wǎng)絡(luò)中的大學(xué)生文本數(shù)據(jù)來(lái)源,繼續(xù)挖掘文本數(shù)據(jù),并通過(guò)驗(yàn)證和實(shí)驗(yàn)進(jìn)一步提升分詞效率,增強(qiáng)情緒值的準(zhǔn)確性,不斷完善和更新語(yǔ)料庫(kù),為更有效地開展大學(xué)生情緒聚類分析提供支撐和便利,從而為大學(xué)生心理健康教育和管理提供有效借鑒。

[ 參 考 文 獻(xiàn) ]

[1] 陽(yáng)愛民,林江豪,周詠梅.中文文本情感詞典構(gòu)建方法[J].計(jì)算機(jī)科學(xué)與探索,2013(11):1033-1039.

[2] 孫波,陳玖冰,劉永娜.大數(shù)據(jù)背景下的學(xué)生情感詞典構(gòu)建方法[J].北京師范大學(xué)學(xué)報(bào)(自然科學(xué)版),2015(4):358-361.

[3] 柳位平,朱艷輝,栗春亮,等.中文基礎(chǔ)情感詞詞典構(gòu)建方法研究[J].計(jì)算機(jī)應(yīng)用,2009(10):2875-2877.

[4] 鄧淑卿,李玩?zhèn)ィ旖?基于句法依賴規(guī)則和詞性特征的情感詞識(shí)別研究[J].情報(bào)理論與實(shí)踐,2018(5):137-142.

[5] 楊小平,張中夏,王良,等.基于Word2Vec的情感詞典自動(dòng)構(gòu)建與優(yōu)化[J].計(jì)算機(jī)科學(xué),2017(1):42-47+74.

[6] 谷學(xué)靜.基于人工心理的HMM情感建模方法及虛擬人技術(shù)研究[D].北京:北京科技大學(xué),2003.

[7] 張謙,高章敏,劉嘉勇.基于word2vec的微博短文本分類研究[J].信息網(wǎng)絡(luò)安全,2017(1):57-62.

[8] 李銳,張謙,劉嘉勇.基于加權(quán) word2vec的微博情感分析[J].通信技術(shù),2017(3):502-506.

[9] 張志華.基于深度學(xué)習(xí)的情感詞向量及文本情感分析的研究[D].上海:華東師范大學(xué),2016.

[10] 傅小蘭.情緒心理學(xué)[M].上海:華東師范大學(xué)出版社,2016:5.

[11] 劉林.面向論壇文本的大學(xué)生情緒識(shí)別研究[D].武漢:華中師范大學(xué),2016.

[12] 楊佳能,陽(yáng)愛民,周詠梅.基于語(yǔ)義分析的中文微博情感分類方法[J].山東大學(xué)學(xué)報(bào)(理學(xué)版),2014(11):14-21+30.

[13] SHNEIDMAN E S. Commentary: Suicide as Psychache[J].Journal of Nervous & Mental Disease, 1993(3): 145-147.

[14] 王仁武,陳川寶,孟現(xiàn)茹.基于詞向量擴(kuò)展的學(xué)術(shù)資源語(yǔ)義檢索技術(shù)[J].圖書情報(bào)工作,2018(19):111-119.

[責(zé)任編輯:龐丹丹]

猜你喜歡
大學(xué)生
大學(xué)生付費(fèi)實(shí)習(xí)“天坑”必須提防
國(guó)際大學(xué)生節(jié)
帶父求學(xué)的大學(xué)生
大學(xué)生之歌
黃河之聲(2017年14期)2017-10-11 09:03:59
新大學(xué)生之歌
北方音樂(2017年7期)2017-05-16 00:32:46
大學(xué)生實(shí)習(xí)“注水”誰(shuí)之過(guò)
大學(xué)生實(shí)習(xí)如何落到“實(shí)處”
讓大學(xué)生夢(mèng)想成真
他把孤兒院辦成大學(xué)生搖籃
媽媽背出來(lái)的大學(xué)生
主站蜘蛛池模板: 亚洲第一成年人网站| 特级毛片8级毛片免费观看| 免费人欧美成又黄又爽的视频| 性69交片免费看| 国产欧美亚洲精品第3页在线| 玩两个丰满老熟女久久网| 茄子视频毛片免费观看| 国产女同自拍视频| 亚洲精品第五页| 亚洲精品第五页| 亚洲香蕉伊综合在人在线| 国产欧美精品专区一区二区| 在线观看无码av免费不卡网站 | 国产对白刺激真实精品91| 国产自产视频一区二区三区| 自拍亚洲欧美精品| 国产一级视频在线观看网站| 国产一在线| 国产网站免费看| 国产免费精彩视频| 永久免费无码成人网站| 国产在线专区| 99激情网| 在线观看国产小视频| 亚洲精品国产日韩无码AV永久免费网| 久久久精品无码一区二区三区| 在线观看国产精品一区| 亚洲色中色| 国产在线精品网址你懂的| 四虎成人精品在永久免费| 欧美综合中文字幕久久| 国产亚洲欧美日韩在线一区| 最新痴汉在线无码AV| 911亚洲精品| 欧美亚洲欧美区| 婷婷六月色| 亚洲精品无码成人片在线观看| 午夜福利无码一区二区| 992tv国产人成在线观看| 欧美精品v| 久久一本精品久久久ー99| 亚洲AV色香蕉一区二区| 亚洲精品视频网| 久久国语对白| 四虎成人在线视频| 国产成a人片在线播放| 国产精品美女在线| 一区二区影院| 不卡视频国产| 国产精品成人AⅤ在线一二三四| 精品一区二区三区中文字幕| 成人午夜天| 国产毛片一区| 五月天综合婷婷| 国产剧情国内精品原创| 久久亚洲AⅤ无码精品午夜麻豆| 亚洲第七页| 91热爆在线| AⅤ色综合久久天堂AV色综合| 久久夜夜视频| 色偷偷男人的天堂亚洲av| 日韩色图在线观看| 18禁不卡免费网站| 福利小视频在线播放| 欧美怡红院视频一区二区三区| 亚洲欧洲自拍拍偷午夜色| 成人久久18免费网站| 国产精品免费露脸视频| 国产精品视频系列专区| 亚洲视频四区| 久久精品午夜视频| 伊人久久久久久久| 一本大道东京热无码av| 久久久久人妻一区精品色奶水| 91无码人妻精品一区| 国产第一页亚洲| 亚洲精品在线观看91| 视频一区视频二区日韩专区| 日韩人妻无码制服丝袜视频| 精品人妻系列无码专区久久| 亚洲第一天堂无码专区| 成人免费视频一区二区三区 |