999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

面向醫(yī)院網(wǎng)絡(luò)輿情分析的情感文本挖掘

2020-12-25 03:16:16楊雪寒焦瑋張倩孟潔
微型電腦應(yīng)用 2020年12期
關(guān)鍵詞:分類特征文本

楊雪寒, 焦瑋, 張倩, 孟潔

(河北醫(yī)科大學(xué)第三醫(yī)院, 河北 石家莊 050051)

0 引言

互聯(lián)網(wǎng)中許多社交平臺和評論社區(qū)為公眾提供了大量自由表達意見的平臺,這導(dǎo)致與醫(yī)院相關(guān)的公眾意見或評論的數(shù)據(jù)集十分龐大,通過研究這些公眾意見,可以分析公眾對醫(yī)患關(guān)系、醫(yī)療事故爭議等與醫(yī)院相關(guān)事件的主觀態(tài)度和情感取向,從而為取得輿論導(dǎo)向主動權(quán)提供科學(xué)的數(shù)據(jù)支撐[1-3]。因此,開展針對醫(yī)院輿論的文本挖掘和情感分析具有重要的現(xiàn)實意義。為此,本文提出了附加特征、奇異值分解(SVD)[4]和主成分分析(PCA)[5]的情感文本挖掘方法,實現(xiàn)提高分析準確性并減少文本挖掘的時間,并基于詞干設(shè)計了五個具有不同功能的模塊實驗,以比較性能并探索哪些因素會影響性能分類精度。本研究的目標如下:1)提出一種基于附加特征方法的情感文本挖掘方法,以提高情感評論大數(shù)據(jù)分析的分類準確性;2)提出一種特征提取算法,以提高情感分類的準確性;3)利用有效的SVD和PCA文本挖掘方法來減少數(shù)據(jù)維數(shù),提高情感分類效率。

1 情感文本挖掘方法

情感分類的目標是將文檔、文本或評論分類為已標記的情感類別(例如正面、負面、快樂、悲傷等)。情感分類中最具挑戰(zhàn)性的工作是如何提高分類結(jié)果的準確性。許多因素會影響分析,例如不同的數(shù)據(jù)預(yù)處理方法、情感分類(文檔或句子)的級別、所提取各種文本特征、特征詞典以及不同的機器學(xué)習(xí)方法。已有研究表明不同的特征選擇方法,例如詞語組合、雙字、詞性(POS)標記[6]、帶有POS標記的n-gram序列[7]和詞語頻率-反向文檔頻率(TF-IDF)[8]等,會導(dǎo)致情感分類結(jié)果的不同。為此,本文將實驗擴展到其他特征上以提高準確性,并結(jié)合SVD和PCA方法來減小特征維度、縮短文本分類的時間。此外,本研究利用詞干設(shè)計了五個具有不同功能的模塊實驗,以比較其性能并發(fā)現(xiàn)影響分類器準確性的因素。

本研究所提出的情感文本挖掘方法的過程,如圖1所示。

首先,將收集的數(shù)據(jù)集用于情感分類;然后,采用R統(tǒng)計的標記化,去除的停用詞和POS標記的預(yù)處理步驟;隨后,定義和提取特征,包括TF-IDF、每個文檔的情感分數(shù)、正負頻率以及形容詞和副詞的數(shù)量,之后,應(yīng)用分類算法訓(xùn)練和預(yù)測數(shù)據(jù);最后,評估分類結(jié)果。

圖1 情感文本分類方法

下面結(jié)合所收集的數(shù)據(jù)集對上述方法中五個主要步驟展開闡述以展示該方法的詳細過程。

步驟1,數(shù)據(jù)集收集。所搜集的一個數(shù)據(jù)集是基于使用Python程序從微博平臺中所爬取的數(shù)據(jù)組成了針對疫苗的用戶評論數(shù)據(jù)集。該數(shù)據(jù)集由WEB文檔組成,包括1 000條正面評論和1 000條負面評論。本研究使用Excel VBA(Microsoft)程序?qū)λ廊〉腤EB文檔進行導(dǎo)入處理,形成帶有標簽的Excel格式的情感文檔。

步驟2,數(shù)據(jù)預(yù)處理。通常從網(wǎng)絡(luò)收集的數(shù)據(jù)包含噪聲。在實施各種機器學(xué)習(xí)方法之前,始終需要通過以下五個步驟來處理所收集的數(shù)據(jù):標記化、停用詞刪除、詞干與詞性標記(POS標記)、特征提取和表現(xiàn)[9-10]。標記化的目的是刪除文本中的標點符號。這些標記對分類算法的準確性沒有幫助。停用詞是在文章中經(jīng)常使用的詞,即“在”、“也”、“的”、“它”、“為”等。這些詞會降低分類結(jié)果的準確性。詞干將單詞還原為詞根形式,而忽略單詞的POS。POS標記是用于識別文本中單個文字的詞性不同部分的過程。由于爬取數(shù)據(jù)經(jīng)常涉及噪聲,因此需要進行特征提取以幫助獲得相關(guān)信息。此步驟使用了兩個稱為RTextTools和openNLP的R語言包來處理POS[11]。特征提取將在下面詳細討論。除了特征提取之外,特征選擇也是影響分析結(jié)果重要的一步。

表1 特征說明

此步驟將所有文檔轉(zhuǎn)換為TF-IDF矩陣權(quán)重,同時讓正負頻率形成另一個特征集。接下來,利用POS標記對形容詞和副詞的數(shù)量進行計數(shù),并添加附加特征。TF-IDF參數(shù),如表2所示。特征提取算法,如表3所示。

步驟4,縮減TF-IDF矩陣維度。由于TF-IDF矩陣是具有許多零元素的大型稀疏矩陣,因此分析該矩陣需要耗費大量計算時間。因此,本研究采用SVD和PCA相結(jié)合的方法縮減矩陣維度。特征提取后,將預(yù)處理的矩陣用作SVD輸入。將SVD技術(shù)用于分解TF-IDF矩陣,使得接近零的值轉(zhuǎn)

表2 TF-IDF算法參數(shù)說明

表3 特征提取算法

換為零。然后,應(yīng)用PCA技術(shù)處理縮小后的矩陣,以進一步縮小矩陣維度。PCA的輸出,如表4所示。

表4 PCA降維算法的輸出

以本研究從微博等社交平臺所收集的疫苗評論數(shù)據(jù)集為例,經(jīng)過降維處理后,TF-IDF矩陣維度從2 000×46 467縮減至2 000×2 000。

步驟5,應(yīng)用四個分類算法訓(xùn)練處理后的數(shù)據(jù)集以實現(xiàn)對文本的分類,對數(shù)據(jù)集進行分類。所使用的四個分類算法包括樸素貝葉斯分類算法(NB)[12]、最大熵分類算法(ME)[13]、SVM[14]和隨機森林(RF)[15]分類算法。在本研究中,四個分類器的所有參數(shù)設(shè)置為默認值,并使用10次隨機采樣和10倍交叉驗證來驗證準確性。詳細說明和參數(shù)設(shè)置,如表5所示。

步驟6,準確度評估分類算法的性能。使用分類混淆矩陣計算準確度,如表6所示。

以對帶有正負標簽的文檔級情感進行分類。因為本研究所涉及的實驗數(shù)據(jù)集具有明顯的正面和負面情緒評論,所以本研究基于混淆矩陣使用來計算分類結(jié)果的準確度,如式(1)。

(1)

2 實驗驗證

基于提出的算法,本研究收集了針對疫苗的公眾評論數(shù)據(jù)集,并利用不同的實驗?zāi)K進行了實驗,并將結(jié)果與列表方法進行了比較。數(shù)據(jù)集從微博等社交平臺收集的評論文本。實驗數(shù)據(jù)集的詳細屬性,如表7所示。

對醫(yī)院來說,人才是立院之本、發(fā)展之基。齊魯醫(yī)院副院長陳玉國表示,通過三年住培,培養(yǎng)出了基本功扎實、達到主治醫(yī)師水平的臨床醫(yī)師,為醫(yī)院提供了真正“好用”的臨床醫(yī)師,縮短了用人單位與醫(yī)師的“磨合期”,充實與壯大了醫(yī)院醫(yī)療力量,為醫(yī)院的人才梯隊建設(shè)和學(xué)科發(fā)展提供了優(yōu)良儲備,也為醫(yī)療服務(wù)質(zhì)量提供了根本和長遠保障。“作為承擔(dān)住培任務(wù)的基地醫(yī)院,教學(xué)相長使其保有優(yōu)良的教學(xué)氛圍,提升醫(yī)院帶教醫(yī)師的能力水平,獲得可持續(xù)發(fā)展、追求卓越的強勁動力。”

2.1 數(shù)據(jù)集特征

基于TF-IDF的不同參數(shù)設(shè)置和是否進行詞干提取,設(shè)計了五個實驗?zāi)K,并采用列表方法對實驗結(jié)果進行比較,討論了哪些因素會影響分類算法的準確性,如表8所示。

表5 分類算法的參數(shù)設(shè)置

表6 情感分類的混淆矩陣

表7 實驗數(shù)據(jù)集的屬性

表8 實驗?zāi)K

實驗在提出的算法的第2步和第3步之后,從特征集中一共提取了46 467個特征。為了測試不同設(shè)置的效果,將SVD和 PCA相結(jié)合方法與列出的方法進行比較。實驗采用十次隨機采樣和十倍交叉測試方法以驗證算法性能,如表9、表10所示。

表9 不降維的實驗結(jié)果

表10 降維的實驗結(jié)果

如表9顯示,就五個分類算法的平均準確性而言,所建議的具有附加特征的方法要比不具有附加特征的方法更好。在準確性方面,SVM和最大熵分類算法優(yōu)于其他分類算法。表10顯示了在沒有詞干的情況下,模塊1和模塊4在縮小和不縮小矩陣大小之間的比較結(jié)果。總體而言,在帶有和不帶有矩陣大小縮減的情況,所提出的具有附加特征的方法要比沒有附加特征的方法性能更好。在大多數(shù)設(shè)置中,SVM和最大熵分類算法更為準確。

5個分類算法的總實現(xiàn)時間,在五個模塊中,除了模塊5以外,4個模塊可以減少運行時間。因此,為該方法中添加附加特征和矩陣降維是可行的,如表11所示。

表11 五個分類算法的運行時間

基于上述實驗結(jié)果可以發(fā)現(xiàn)。

1) 從表9可以看出,在特征提取方面,所提出的方法在模塊1和模塊4上表現(xiàn)最優(yōu)。模塊4在所有實驗中均獲得最高的準確度,并且特征數(shù)量減少到9.4%(4 366/46 467否)。表11的數(shù)據(jù)表明,在本實驗中的詞干特征的分類效果不明顯。

2) 從表9和圖2可以看出,將附加特征組合到特征集中后,可以提高分類性能,尤其是使用帶有徑向基函數(shù)的SVM算法時。

3) 從表10可以看出,采用附加特征和SVD、PCA相結(jié)合的矩陣降維方法可以增強情感分類的性能。此外基于表11的數(shù)據(jù)可知,采用附加特征和SVD、PCA相結(jié)合的矩陣降維方法后算法的運行效率較好,因此該方法具有良好的可行性,如圖2所示。

圖2 附加特征對不同模塊的影響

3 總結(jié)

隨著互聯(lián)網(wǎng)在全球范圍內(nèi)的普及,互聯(lián)網(wǎng)人口覆蓋率越來越高,互聯(lián)網(wǎng)已經(jīng)成為人們生活,工作和學(xué)習(xí)的不可或缺的組成部分。因此通過對網(wǎng)絡(luò)評論進行情感分析,把握公眾對醫(yī)院焦點事件的心里態(tài)度和行動趨勢,對醫(yī)院相關(guān)部門了解輿論動態(tài)和政府相關(guān)部門控制輿論導(dǎo)向都具有現(xiàn)實意義。為此本研究提出了一種通過附加特征方法來提高網(wǎng)絡(luò)文本情感趨向分類準確性,并采用SVD和PCA結(jié)合的方法則縮短情感文本挖掘中的實現(xiàn)時間。附加特征包括正面和負面形容詞和副詞的頻率。針對兩個實驗數(shù)據(jù)集的測試結(jié)果表明,所提出的方法比其他方法具有更高的精度,并且添加附加特征可以提高分類精度。此外,實驗數(shù)據(jù)表明,相對于本實驗中的其他算法,SVM和最大熵分類算法被證明是實現(xiàn)情感文本分類的更好選擇。將來,本研究從以下兩個方面繼續(xù)進行深入探討:1)從使用特定于領(lǐng)域的詞典來查找或過濾特征、為特征分配不同的權(quán)重、考慮文字和文檔之間的關(guān)系三個方面優(yōu)化特征選擇,以提高分類準確性;2)將該方法應(yīng)用于醫(yī)院聲譽監(jiān)控和患者情感檢測等不同的應(yīng)用領(lǐng)域。

猜你喜歡
分類特征文本
分類算一算
如何表達“特征”
在808DA上文本顯示的改善
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
分類討論求坐標
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
數(shù)據(jù)分析中的分類討論
教你一招:數(shù)的分類
抓住特征巧觀察
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學(xué)隱喻
主站蜘蛛池模板: 久久大香香蕉国产免费网站| 亚洲欧洲自拍拍偷午夜色无码| 欧美一区二区三区欧美日韩亚洲| 亚洲精品在线观看91| 亚洲av无码人妻| 亚洲视频一区在线| 91 九色视频丝袜| 中文字幕日韩久久综合影院| 国产成人盗摄精品| 亚洲综合中文字幕国产精品欧美| 久久亚洲国产一区二区| 理论片一区| 国产一区二区三区视频| 国产福利一区视频| 亚洲女同一区二区| 久久综合色88| 日韩毛片免费| 国产在线拍偷自揄拍精品| 欧美另类视频一区二区三区| 久久永久视频| 国产91av在线| 色偷偷男人的天堂亚洲av| 园内精品自拍视频在线播放| 国产内射一区亚洲| 国产精品视频系列专区| 国产精品大白天新婚身材| 五月婷婷导航| 99精品国产高清一区二区| 久久鸭综合久久国产| 国产精品视频观看裸模| 美女内射视频WWW网站午夜| 亚洲无码37.| 青青久久91| 中文字幕中文字字幕码一二区| 国产无码网站在线观看| 色婷婷色丁香| 亚洲三级成人| 激情影院内射美女| 91免费国产高清观看| 国产在线麻豆波多野结衣| h视频在线观看网站| 久久精品无码专区免费| 91青青草视频在线观看的| 18禁黄无遮挡网站| 亚洲Av激情网五月天| 国产大片黄在线观看| 亚洲无码久久久久| 亚洲欧洲自拍拍偷午夜色| 日韩欧美国产成人| 91视频99| 国产丝袜无码精品| 国产无码性爱一区二区三区| 久久精品国产电影| 好紧好深好大乳无码中文字幕| 国产精品偷伦视频免费观看国产| 欧美视频在线不卡| 97se亚洲综合在线韩国专区福利| 国产99精品视频| 91亚洲国产视频| 欧美日本二区| 国产精品主播| 欧美日韩亚洲国产主播第一区| 免费啪啪网址| 亚洲中文字幕av无码区| 国产一级毛片高清完整视频版| 91精品国产91久久久久久三级| 国产丝袜无码一区二区视频| 国产成人8x视频一区二区| 人妻丰满熟妇αv无码| 欧美一级99在线观看国产| 国产一区二区丝袜高跟鞋| 青青青草国产| 在线视频亚洲色图| 国产黄色免费看| 婷婷丁香在线观看| 国产精品一区二区无码免费看片| 免费看a级毛片| 国产午夜福利在线小视频| 另类欧美日韩| 视频二区中文无码| 无码高潮喷水专区久久| 无码电影在线观看|