999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于文本挖掘的網(wǎng)絡(luò)輿情研究進(jìn)展述評(píng)

2021-07-06 03:45:46常甜甜
新媒體研究 2021年3期
關(guān)鍵詞:文本情感分析

常甜甜

摘 要 [目的/意義]網(wǎng)絡(luò)輿情領(lǐng)域的研究受到多學(xué)科的共同關(guān)注,文本挖掘作為一種大數(shù)據(jù)分析技術(shù),在網(wǎng)絡(luò)輿情信息的挖掘中發(fā)揮著重要作用。[方法/過程]基于文獻(xiàn)計(jì)量學(xué)方法,使用CiteSpace軟件,以Webof Science核心合集為數(shù)據(jù)源,對(duì)基于文本挖掘的網(wǎng)絡(luò)輿情研究概況、研究熱點(diǎn)和研究前沿進(jìn)行分析。[結(jié)果/結(jié)論]目前該領(lǐng)域的研究仍處于發(fā)展階段,并開始集中向社會(huì)化媒體主題集中發(fā)展;情感分析、意見挖掘?yàn)轭I(lǐng)域中的熱點(diǎn)關(guān)鍵詞,2020年仍熱度不減。未來幾年的熱點(diǎn)仍將集中在情感分析和意見挖掘方面,推動(dòng)跨學(xué)科研究成為該領(lǐng)域發(fā)展的重要推動(dòng)力。

關(guān)鍵詞 文本挖掘;網(wǎng)絡(luò)輿情;CiteSpace ;知識(shí)圖譜

中圖分類號(hào) G2 文獻(xiàn)標(biāo)識(shí)碼 A 文章編號(hào) 2096-0360(2021)03-0005-03

1 數(shù)據(jù)來源與分析方法

本文使用文獻(xiàn)計(jì)量學(xué)知識(shí)圖譜分析工具CiteSpace軟件 [1],對(duì)國內(nèi)外近20年來的基于文本挖掘的網(wǎng)絡(luò)輿情研究概況進(jìn)行分析,發(fā)現(xiàn)研究熱點(diǎn)與前沿,并繪制網(wǎng)絡(luò)知識(shí)圖譜。數(shù)據(jù)源為Web of Science核心合集數(shù)據(jù)庫,選擇時(shí)間跨度為2000至2020年,通過搜索主題詞“text mining”AND“network opinion”,文獻(xiàn)類型限定為“ARTICLE”,最終得到706篇檢索結(jié)果。將結(jié)果導(dǎo)入CiteSpace 5.7.R2構(gòu)建數(shù)據(jù)集,之后通過國家機(jī)構(gòu)與作者共現(xiàn)分析、共被引文獻(xiàn)分析、關(guān)鍵詞共現(xiàn)分析等方法分析數(shù)據(jù)并得出結(jié)論。

2 基于文本挖掘技術(shù)的網(wǎng)絡(luò)輿情研究概況

對(duì)整體趨勢(shì)分析發(fā)現(xiàn),目前該領(lǐng)域研究仍然處于發(fā)展階段。從2004年開始,文本挖掘與網(wǎng)絡(luò)輿情交叉領(lǐng)域的研究呈逐年遞增趨勢(shì),其中2016和2019年相對(duì)前一年增長最為明顯,2019年的相關(guān)研究成果最多為174篇,2020年(截至12月17日)為110篇,與2018年持平。

2.1 各國研究現(xiàn)狀與主要機(jī)構(gòu)

通過分析近20年不同國家和機(jī)構(gòu)的發(fā)文數(shù),可以得到領(lǐng)域內(nèi)影響力較大的國家及主要研究機(jī)構(gòu)。從國家層面來看,領(lǐng)域關(guān)注度較高的為中國(192篇)、美國(95篇)、印度(77篇)和西班牙(51篇)。其中中國的研究成果數(shù)最多,約為美國的兩倍,首發(fā)時(shí)間為2008年,且中心性最高為0.6,與其他國家拉開了較大差距;這說明中國在研究的最初發(fā)展階段就進(jìn)入了領(lǐng)域,研究水平最為突出,在世界范圍內(nèi)發(fā)揮著重要影響力。

在機(jī)構(gòu)層面上,中國的研究機(jī)構(gòu)以中國科學(xué)院、南洋理工大學(xué)、清華大學(xué)為首,發(fā)文數(shù)量均在10篇以上,在全球范圍內(nèi)處于領(lǐng)先位置;美國的亞利桑那大學(xué)、西班牙的維戈大學(xué)、英國斯特林大學(xué)都對(duì)該領(lǐng)域有較高的關(guān)注度。對(duì)機(jī)構(gòu)發(fā)文突現(xiàn)分析可知,最早展開集中研究的是美國亞利桑那大學(xué),其突現(xiàn)強(qiáng)度最高為3.16,研究集中在2018至2012年間;2011年,首爾大學(xué)、南洋理工大學(xué)、北京航空航天大學(xué)的研究增多,香港城市大學(xué)在2014年關(guān)注度增高較為明顯(2.38);之后,同濟(jì)大學(xué)和上海科學(xué)技術(shù)研究院也相繼開展研究。

2.2 學(xué)科領(lǐng)域分布與作者分析

從學(xué)科分布來看,研究文獻(xiàn)分布在科學(xué)技術(shù)、社會(huì)科學(xué)、藝術(shù)人文三大學(xué)科領(lǐng)域,其中科學(xué)技術(shù)領(lǐng)域研究最為集中為686篇,是其他兩個(gè)領(lǐng)域之和的2.7倍。

通過對(duì)研究者發(fā)文量、突現(xiàn)時(shí)間與強(qiáng)度、節(jié)點(diǎn)度的分析,可以得到領(lǐng)域內(nèi)主要研究者,并對(duì)研究者的影響力和合作進(jìn)行分析。發(fā)文數(shù)最高的作者為艾瑞克·坎布里亞(9篇),其研究從2012年開始突現(xiàn),節(jié)點(diǎn)度為18,在研究者中的影響力最高,其研究主題為網(wǎng)絡(luò)輿情文本挖掘的深度神經(jīng)網(wǎng)絡(luò)研究。影響力Top 6的高產(chǎn)作者首發(fā)年份多集中在2012年之后,但研究者陳炘鈞首發(fā)日期相對(duì)較早(2008年)且有明顯突現(xiàn)(2.57),節(jié)點(diǎn)度為5,具有一定的影響力,研究主題主要在社會(huì)化媒體領(lǐng)域,是該主題研究探索的先驅(qū)。

2.3 研究發(fā)展的階段與脈絡(luò)

通過文獻(xiàn)共被引分析,可分析出該領(lǐng)域主要研究成果,并梳理出研究發(fā)展的階段與脈絡(luò)。具體是在共被引文獻(xiàn)網(wǎng)絡(luò)的基礎(chǔ)上,根據(jù)主題進(jìn)行T聚類,用極大似然估計(jì)(LLR)計(jì)算每個(gè)簇的標(biāo)簽,得到共被引文獻(xiàn)聚類圖譜(圖1)。圖譜中簇分布的相對(duì)位置代表不同時(shí)間階段,越靠近左邊的時(shí)間越近,越靠近右邊越遠(yuǎn),由此梳理出研究階段與對(duì)應(yīng)主題。

1)起始階段(2000—2010):網(wǎng)絡(luò)輿情視域下文本挖掘技術(shù)研究。此階段研究伊始,主題聚類標(biāo)簽為#4、#3、#10。2006至2008年,研究主要集中在多語言文本挖掘研究(#4)且研究數(shù)量連年遞增。如2005年劉冰等人提出了一種基于語言模式挖掘的方法,可以從用戶評(píng)論中提取產(chǎn)品功能描述[2]。2009年研究主題開始過渡到中文文檔(#3)和機(jī)器學(xué)習(xí)方法(#10)。如2008年阿巴斯等人對(duì)Web論壇和博客影響進(jìn)行分析,比較了幾種情感分析的特征表示方法的效果,并提出支持向量回歸相關(guān)合奏的方法來預(yù)測情緒強(qiáng)度[3]。2010年,社會(huì)化媒體(#7)的研究開始走入視野。麥克·塞沃爾等人從2007年就開始關(guān)注社交媒體MySpace,之后對(duì)社會(huì)化媒體進(jìn)行持續(xù)的研究,包括對(duì)短文本數(shù)據(jù)的情感監(jiān)測算法的研究,以及對(duì)社交媒體用戶行為、屬性及其社交關(guān)系網(wǎng)絡(luò)的分析等[4]。

2)探索發(fā)展階段(2011—2013):較為分散的主題分布。此階段研究主題聚類標(biāo)簽為#2、#3、#5、#7、#8、#15。2011至2012年,研究繼續(xù)在社會(huì)化媒體主題上進(jìn)行的同時(shí),也在中國微博(#2)、用戶認(rèn)知發(fā)現(xiàn)(#15)等主題上有所發(fā)展。2013年開始社會(huì)網(wǎng)絡(luò)文本挖掘(#8)成為研究的新興主題。如穆斯塔夫·穆罕默德在消費(fèi)者品牌情感進(jìn)行社會(huì)網(wǎng)絡(luò)文本挖掘的研究中,使用專業(yè)詞典對(duì)諾基亞等5個(gè)品牌的Twitter平臺(tái)網(wǎng)民情緒進(jìn)行挖掘[5]。莎拉·凱瑞特娜等人通過文本挖掘在Twitter社交網(wǎng)絡(luò)中進(jìn)行用戶身份識(shí)別研究[6]。

3)集中發(fā)展階段(2014年至今):以社會(huì)化媒體為主題持續(xù)發(fā)展。此階段研究主題聚類標(biāo)簽為#0、#1。2014年開始,研究主題開始集中到社會(huì)化媒體(#1)的網(wǎng)絡(luò)輿情文本挖掘上,之后的研究也繼續(xù)沿著這個(gè)脈絡(luò)不斷向前發(fā)展至今(#0)。如庫瑪·拉維等人對(duì)2000—2015年的社交媒體情感分析研究中,總結(jié)了情感分析的主要任務(wù)、方法和應(yīng)用情況,文本挖掘在社會(huì)化媒體中的應(yīng)用逐漸受到重視[7]。阿莎·馬尼克于2017年使用一種基于SVM的基尼索引特征選擇方法,對(duì)社交媒體中電影評(píng)論數(shù)據(jù)集進(jìn)行情感分類[8]。近年來,基于深度學(xué)習(xí)的社交媒體文本挖掘受到研究者的重視。如2019年泰國帕蘇帕等人對(duì)CNN、LSTM、Bi-LSTM幾種常見的深度學(xué)習(xí)模型進(jìn)行評(píng)估,發(fā)現(xiàn)使用word embedding、POS標(biāo)簽等功能的CNN模型效果最好[9]。

3 基于文本挖掘技術(shù)的網(wǎng)絡(luò)輿情研究熱點(diǎn)與前沿

3.1 研究熱點(diǎn)分析

1)關(guān)鍵詞頻次(Freq)統(tǒng)計(jì)分析。通過分析文獻(xiàn)的關(guān)鍵詞共現(xiàn)網(wǎng)絡(luò)圖譜,發(fā)現(xiàn)目前文本挖掘和網(wǎng)絡(luò)輿情的交叉領(lǐng)域熱點(diǎn)關(guān)鍵詞為情感分析、意見挖掘、文本挖掘、Twitter、文本分類、社會(huì)化媒體、機(jī)器學(xué)習(xí)等。其中,情感分析和意見挖掘的頻次最高,在數(shù)據(jù)集的706篇文獻(xiàn)中分別占比44%和34%。

2)中心性(Centrality)分析。將關(guān)鍵詞按照中介中心性排序,得到值最高的關(guān)鍵詞為情感分類(0.26),其余較高的還有社會(huì)化網(wǎng)絡(luò)(0.21)、SVM(0.13)等,說明這些關(guān)鍵詞在多個(gè)研究子領(lǐng)域中比較重要且影響力強(qiáng)。這可能是因?yàn)樯鐣?huì)化網(wǎng)絡(luò)和情感分類是網(wǎng)絡(luò)輿情研究中文本挖掘重要的應(yīng)用領(lǐng)域,而支持向量機(jī)是機(jī)器學(xué)習(xí)經(jīng)典的分類器,在情感分析和文本分類中都有廣泛的應(yīng)用。

3)突現(xiàn)(Burst)時(shí)間與強(qiáng)度分析。對(duì)關(guān)鍵詞突現(xiàn)進(jìn)行分析,可以得到關(guān)鍵詞發(fā)展的脈絡(luò)。關(guān)鍵詞中突現(xiàn)強(qiáng)度值最高的為深度學(xué)習(xí)(9.06),說明從2018年開始深度學(xué)習(xí)成為網(wǎng)絡(luò)輿情文本挖掘新的熱點(diǎn)。深度學(xué)習(xí)是機(jī)器學(xué)習(xí)中一個(gè)新的研究方向,它使文本挖掘的方法不再局限于統(tǒng)計(jì)和傳統(tǒng)的機(jī)器學(xué)習(xí)算法,而是可以利用卷積神經(jīng)網(wǎng)絡(luò)(CNN)、循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)、長短期記憶神經(jīng)網(wǎng)絡(luò)(LSTM)等神經(jīng)網(wǎng)絡(luò)進(jìn)行挖掘,為結(jié)果準(zhǔn)確度提升帶來了更大的空間。2019年突現(xiàn)的關(guān)鍵詞為情感分析、神經(jīng)網(wǎng)絡(luò),代表著近兩年的研究熱點(diǎn)發(fā)展方向。

3.2 研究前沿分析

根據(jù)之前的分析結(jié)果,發(fā)現(xiàn)2020年基于文本挖掘的網(wǎng)絡(luò)輿情研究主題將繼續(xù)集中在社會(huì)化媒體上。2020年,不同國家的研究發(fā)文量仍以中國為首(30篇),其次為美國和印度,分別為18篇和12篇。研究機(jī)構(gòu)中發(fā)文量最多的為伊朗的阿扎德大學(xué)(3篇),中國的機(jī)構(gòu)主要有中國科學(xué)院(2篇)、南京科技大學(xué)(2篇)、北京理工大學(xué)(2篇)等;印度主要有德里大學(xué)(2篇)、韋洛爾技術(shù)大學(xué)(2篇)等。

通過分析2020年關(guān)鍵詞共現(xiàn)知識(shí)圖譜,可知前沿的熱點(diǎn)研究主要集中在情感分析、意見挖掘、文本分類、深度學(xué)習(xí)、社會(huì)化媒體、神經(jīng)網(wǎng)絡(luò)、Twitter等關(guān)鍵詞,其中情感分析和意見挖掘的共現(xiàn)頻次最高,成為最受關(guān)注的主題。被引數(shù)較高的文獻(xiàn)中,Greco等人將文本情感挖掘應(yīng)用到品牌管理的顧客分析中,以Twitter為數(shù)據(jù)源研究用戶社區(qū)的特點(diǎn)及產(chǎn)品偏好、表征和情緒[10];阿德南·沙等人用深度學(xué)習(xí)的方法分析患者情緒,提出一種多模態(tài)方法來分析患者對(duì)醫(yī)療服務(wù)質(zhì)量的情緒狀態(tài)[11]。

4 總結(jié)與展望

本研究基于文獻(xiàn)計(jì)量學(xué),使用CiteSpace繪制網(wǎng)絡(luò)知識(shí)圖譜,對(duì)基于文本挖掘的網(wǎng)絡(luò)輿情研究的706篇相關(guān)文獻(xiàn)進(jìn)行國家機(jī)構(gòu)分析、研究者合作分析、關(guān)鍵詞共現(xiàn)與聚類分析,發(fā)現(xiàn)目前該領(lǐng)域的研究仍處于發(fā)展階段,并開始集中向社會(huì)化媒體主題集中發(fā)展;研究數(shù)量從2004年開始逐年呈現(xiàn)逐年遞增的態(tài)勢(shì),中國、美國和印度成為領(lǐng)域中研究成果較為突出的國家;其研究成果主要分布在科學(xué)技術(shù)學(xué)科領(lǐng)域,在社會(huì)科學(xué)和藝術(shù)人文中也占有一定比例;情感分析、意見挖掘成為領(lǐng)域中的熱點(diǎn)關(guān)鍵話題,在2020年依然熱度不減。

根據(jù)之前的趨勢(shì)分析和的前沿分析,未來該領(lǐng)域的熱點(diǎn)應(yīng)該仍集中在網(wǎng)絡(luò)輿情的情感分析和意見挖掘上;在研究發(fā)展方向上,一方面是對(duì)理論技術(shù)模型進(jìn)行不斷創(chuàng)新和優(yōu)化,另一方面是在社會(huì)科學(xué)和藝術(shù)人文領(lǐng)域能夠應(yīng)用文本挖掘技術(shù)進(jìn)行更多創(chuàng)新型的研究。文本挖掘技術(shù)在社會(huì)科學(xué)中的應(yīng)用使處理海量文本成為可能,這能夠幫助研究者歸納出一些隱藏的結(jié)論,并且更加客觀地分析情感、態(tài)度、觀點(diǎn)與行為的關(guān)系。但是其應(yīng)用也面臨一些問題,如算法不夠精準(zhǔn)、對(duì)數(shù)據(jù)的分析解讀不如人工細(xì)膩、掌握文本挖掘技術(shù)的人才較少等。因此,為了提高研究成果的質(zhì)和量,如何推動(dòng)跨學(xué)科研究的發(fā)展也是該領(lǐng)域需要重點(diǎn)考慮和解決的問題。

參考文獻(xiàn)

[ 1]陳美超.CiteSpace II:檢測和可視化科學(xué)文獻(xiàn)中的新興趨勢(shì)和瞬態(tài)模式[J].美國信息技術(shù)協(xié)會(huì),2006,57(3):359-377.

[2]劉冰,胡敏清,程俊生.意見觀察:網(wǎng)絡(luò)輿情的分析與比較研究[C]//美國計(jì)算機(jī)協(xié)會(huì).第14屆萬維網(wǎng)國際會(huì)議論文集.紐約:美國計(jì)算機(jī)協(xié)會(huì),2005:342-351.

[ 3]艾哈邁德·阿巴斯,陳秀珍,斯文·湯姆斯,等.基于相關(guān)集合的網(wǎng)絡(luò)論壇與微博使用影響研究[J].IEEE知識(shí)與數(shù)據(jù)工程學(xué)報(bào),2008,20(9):1168-1180.

[ 4]麥克·塞沃爾.社交網(wǎng)絡(luò)、性別與交友:基于MySpace平臺(tái)用戶的分析[J].美國信息技術(shù)學(xué)會(huì)雜志,2014,59(8):1321-1330.

[ 5]穆斯塔夫·穆罕默德.超越文字:社會(huì)網(wǎng)絡(luò)中的消費(fèi)者品牌情感文本挖掘研究[J].專家系統(tǒng)及其應(yīng)用,2013,40(10):4241-4251.

[ 6]莎拉·凱瑞特娜,漢尼·霍斯尼,道格·克賴頓.基于文本挖掘的Twitter社交網(wǎng)絡(luò)用戶身份識(shí)別研究[C]//IEEE系統(tǒng)、人與控制論國際會(huì)議.IEEE,2013:3079-3082.

[7]庫瑪·拉維 AB,瓦德拉瑪尼·拉維 A.意見挖掘與情感分析:任務(wù)、方法與應(yīng)用[J].知識(shí)庫系統(tǒng),2015,89:14-46.

[ 8]阿莎·馬尼克,迪帕·謝諾,錢德拉·莫漢,等.基于Gini指數(shù)特征選擇方法和SVM分類器的大型電影評(píng)論情感分析術(shù)語詞提取[J].萬維網(wǎng)、互聯(lián)網(wǎng)和萬維網(wǎng)信息系統(tǒng),2017,20(2):135-154.

[ 9]帕蘇帕 S,阿尤特亞 TSN.基于深度學(xué)習(xí)的泰語情感分析:基于詞嵌入、POS-tag和情感特征的比較研究[J].可持續(xù)發(fā)展城市與社會(huì),2019:50.

[ 10]希臘·弗朗西斯卡,波利·亞歷山德羅.情感文本挖掘:品牌管理中的消費(fèi)者分析[J].國際信息管理雜志,2020(51):1-8.

[ 11]阿德南·沙,嚴(yán)相斌,阿薩德·沙,等.基于患者意見挖掘的醫(yī)療保健服務(wù)質(zhì)量評(píng)估:一種深度學(xué)習(xí)方法[J].環(huán)境智能與人性化計(jì)算雜志,2020,11(7):1-18.

猜你喜歡
文本情感分析
隱蔽失效適航要求符合性驗(yàn)證分析
如何在情感中自我成長,保持獨(dú)立
失落的情感
北極光(2019年12期)2020-01-18 06:22:10
情感
在808DA上文本顯示的改善
電力系統(tǒng)不平衡分析
電子制作(2018年18期)2018-11-14 01:48:24
基于doc2vec和TF-IDF的相似文本識(shí)別
電子制作(2018年18期)2018-11-14 01:48:06
如何在情感中自我成長,保持獨(dú)立
電力系統(tǒng)及其自動(dòng)化發(fā)展趨勢(shì)分析
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學(xué)隱喻
主站蜘蛛池模板: 国产色偷丝袜婷婷无码麻豆制服| 天天躁夜夜躁狠狠躁躁88| AⅤ色综合久久天堂AV色综合| 精品综合久久久久久97超人该| 99在线观看国产| 久久婷婷综合色一区二区| 久久精品国产免费观看频道| 亚洲国产一区在线观看| 国产精品夜夜嗨视频免费视频| 超级碰免费视频91| 中文字幕在线视频免费| 久久精品视频亚洲| 久久亚洲国产视频| 亚洲无码91视频| 免费视频在线2021入口| 免费看一级毛片波多结衣| 国产一二视频| 亚洲综合九九| 色九九视频| 国产欧美在线| 日本不卡在线| 亚洲妓女综合网995久久| 国产精品人莉莉成在线播放| 国产精品久久久免费视频| 国产精品乱偷免费视频| 亚洲三级片在线看| 婷婷综合在线观看丁香| 男人天堂伊人网| 亚洲无码日韩一区| 韩国v欧美v亚洲v日本v| 欧美日韩一区二区三区在线视频| 国产三级毛片| 欧美日韩精品综合在线一区| 国产一二三区视频| 成人夜夜嗨| 黄色污网站在线观看| 91免费在线看| 香蕉网久久| 久久国产乱子| 国产尹人香蕉综合在线电影| 大香网伊人久久综合网2020| 日韩在线影院| 精品91视频| 九九热精品在线视频| 情侣午夜国产在线一区无码| 午夜国产小视频| 国产高清不卡视频| 日韩av资源在线| 国产一区在线视频观看| 免费不卡视频| 91麻豆精品视频| 成年人国产视频| 麻豆精品久久久久久久99蜜桃| 4虎影视国产在线观看精品| 国产无码精品在线| 麻豆精品国产自产在线| 亚洲无线国产观看| 国产另类视频| 成年女人a毛片免费视频| 无码国产伊人| 国产美女免费网站| 亚洲人成人无码www| 欧美天堂久久| 国模极品一区二区三区| 国产视频一二三区| 欧美色视频在线| 国产黄色视频综合| 国产欧美自拍视频| 免费在线国产一区二区三区精品| 欧美精品v| A级毛片高清免费视频就| 欧美成人在线免费| 18黑白丝水手服自慰喷水网站| 伊人大杳蕉中文无码| 亚洲中文字幕23页在线| 国产黑丝一区| 亚洲中文字幕23页在线| 波多野结衣在线一区二区| 亚洲国产日韩视频观看| 九色在线观看视频| 国产成人乱码一区二区三区在线| 国产成人凹凸视频在线|