999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

網絡評論觀點挖掘研究

2018-05-14 03:39:57曾寰胡運全李金忠戴貞明龍滿生
科技風 2018年29期
關鍵詞:挖掘網絡

曾寰 胡運全 李金忠 戴貞明 龍滿生

摘要:本文基于網絡評論觀點挖掘相關理論分析,對觀點挖掘的實現過程進行設計和分析,以期通過網絡評論觀點的挖掘,了解網絡用戶行為與觀點傾向,掌握網絡用戶觀點表達規律。

關鍵詞:網絡;評論觀點;挖掘

隨著互聯網時代的到來,信息與數量快速增長。在各種信息中,網絡評論觀點信息發揮著重要作用。通過對網絡評論觀點的挖掘,可為網絡輿情、電子商務等諸多領域帶來重要價值。[1]對網絡評論觀點進行挖掘,需依托大數據來展開,了解網絡用戶行為和觀點傾向。

1 針對網絡評論的觀點挖掘理論分析

網絡評論中的文字多表現出一定的主觀傾向,對網絡評論觀點態度進行挖掘,主要是從評論信息資源中對用戶觀點與態度加以提取,并通過容易理解的形式對其展現。[2]當前網絡評論的觀點挖掘,在任務上主要包括三點:一是主觀性分析,即對一個特定本文的客觀性進行判斷,明確其屬于客觀性,還是帶有主觀極性;二是極性分析,對主觀性的正面還是反面以及極性強度等信息進行分析;三是觀點總結,針對觀點信息加以整理與展示。對于本文來說,涉及的評論信息資源均為文本形式,因此,我們在觀點挖掘方面所涉及的主要為文字信息,如產品評論亦或者博客日記等,聲音、圖片等不在本文研究范疇中。

2 網絡評論挖掘實現的設計過程

2.1 對數據進行收集與處理

對網絡評論觀點挖掘進行研究,就必然會涉及評論語料集,因此需要先對數據進行收集,本研究用到的數據均源自網上。針對收集的初始數據,需給予篩選和清洗,對無用數據進行去除。網絡上的評論信息等,多以網頁形式存在,需將無用的網頁標記加以去除,使其轉化為結構化數據。

2.2 分詞與標準

在一個文檔中,多由句子和詞匯組成,計算機對于人類的語言當前并不能理解,針對整個無結構的文本,需對其進行轉化,使其成為結構化的數據形式。當前較為常用的方法為,使文本以詞匯為特征的向量集形式表示出來。該過程可由計算進行自動完成,即自動分詞。整個過程需基于信息處理需要,在文本的劃分上需根據分詞單位以特定規范加以劃分。在一個句子中,可能包含多種切分方式,為確保自動分詞的高效性,需對準確的分詞詞典進行建立,滯后基于語義分析對匹配算法及消岐算法加以建立,實現分詞目的。[3]然后進入詞性標準階段,該過程是針對切分得到的詞語,對相應的詞性進行標注。通常來說名詞與形容詞分別標注為n、a,動詞與連詞分別標注為v、c,對于副詞則標準為d 等,來使符號實現統一。在詞匯中,詞性為其重要語義特征之一,這一過程可以采用自動標注器來進行詞性標注。在文本表示中,分詞與標準僅為第一步過程,完成以上工作后即需對研究納入的文本內容進行處理。可對java 開發環境加以使用,同時可對中國科學院計算技術研究所研發出的漢語分詞類庫編寫分詞及標注程序做好評論文本內容方面的處理。通過分詞與標準,可得到新的涉及詞性標注的詞語集合數據。

2.3 對評論文本進行挖掘

該環節主要包括三點內容。首先是特征選擇方法,對于文本特征來說,主要指文本元數據,主要包括描述性特征與語義性特征,前者主要包括文本名稱、大小及日期等,后者主要包括文本標題、內容及作者等。雖然分詞能夠使文本機構化,但僅經過切分會得到龐大的數據,難以進行處理。因此,需要對文本數據特征加以確定,以此來排除無用詞語,將有用詞語留下。針對約簡選擇特征過程,多會對一個評價函數進行構造,對每個詞語的函數值進行計算,對達到閾值的詞語加以選擇,將其作為文本特征。[4]本文采用詞頻方法,基本思想在于對于低于詞頻率閾值的詞,均將其去掉,將剩余詞條作為特征保留下來。其次是數據表示方法,我們所選擇的數據類型均為文檔類,在數據的表示過程上,主要是將文檔通過選出的特征實施結構化表示。在常用的模型上,主要為布爾模型、布爾模型等,不管采用哪一種模式求出權值,在最終目的上均是為了使文本數據得到有效的表示,從而為進一步的文本挖掘方法的使用提供便利。再次是挖掘分析。主要通過關聯分析法對一些頻繁一起出現的特征詞進行分析,明確其關聯性與相互關系。然后采用文本分類器對文檔實施分類,通過無監督的聚類分析促使文本自動聚為幾類,繼而對文本潛在規律加以發現。在文本挖掘結果上,需以列表或圖形化形式加以展示,在結論分析基礎上得出有用的知識。

2.4 觀點識別和總結

在人們表達觀點的過程中,其對象主要為被評價事物及其特征,通過對自然語言處理技術的使用,在語義分析下,即可對評論文本中出現的特征進行挖掘。在評論觀點中,其特征多表現為極性詞及其對應的特征。根據每個句子,可通過在正面和反面極性數量方面的比較對句子的語義導向加以確定。在網絡觀點導向識別過程中,必須對否定詞重點考慮,如無“不”、“沒有”等否定詞,則多表示語義相反。[5]在將前面工作均完成后,可以將結果以圖表等直觀形式呈現出來,在比較分析下對不同物品及特征特點進行整理,在這一總結下,網絡評論中關于客戶的知識即可顯現出來,便于我們使用。網絡評論觀點挖掘,為近年來新興研究熱點,其以文本挖掘及Web挖掘為基礎,對計算機技術及自然語言處理技術等加以使用,開辟了數據挖掘領域新方向。不過,該方面的研究當前還處于起步階段,在應用范圍上還較為有限,仍需進一步研究。

參考文獻:

[1]于堯.網絡評論的規律與工作機制研究[J].課程教育研究,2018(6):7778.

[2]韓忠明,李夢琪,劉雯,等.網絡評論方面級觀點挖掘方法研究綜述[J].軟件學報,2018,(2):417441.

[3]陳巧紅,孫超紅,賈宇波.文本數據觀點挖掘技術綜述[J].工業控制計算機,2017,30(2):9495.

[4]高松,王洪偉,馮罡,等.面向在線評論的比較觀點挖掘研究綜述[J].現代圖書情報技術,2016,32(10):112.

[5]涂慧明.文本觀點挖掘和情感分析的研究[J].電腦知識與技術,2016,12(5):235237.

基金項目:吉安市社會科學研究項目(18GH113)

作者簡介:曾寰(1990),男,碩士,主要研究方向為數據挖掘;胡運全(1976),男,碩士,講師,主要研究領域為數據挖掘;李金忠(1976),男,碩士,副教授,主要研究領域為機器學習;戴貞明(1968),男,碩士,副教授,主要研究領域為機器學習;龍滿生(1977),男,博士,副教授,主要研究方向為圖像分析與虛擬仿真。

猜你喜歡
挖掘網絡
使德育開花結果
將“再也沒有”帶向更有深度的思考中
古詩詞教學中藝術內涵的挖掘策略
挖掘檔案文化資源推進檔案文化建設
資治文摘(2016年7期)2016-11-23 00:37:46
關注數學思考 提升數學本質
文理導航(2016年30期)2016-11-12 15:02:43
大數據技術在商業銀行中的應用分析
計算機網絡管理技術探析
芻議計算機網絡信息化管理
油氣集輸系統信息化發展形勢展望
基于網絡的信息資源組織與評價現狀及發展趨勢研究
主站蜘蛛池模板: 国产成人综合久久精品下载| 欧美在线视频a| 国产大片喷水在线在线视频| 亚洲成A人V欧美综合| 少妇精品在线| 国产精品久线在线观看| 四虎在线观看视频高清无码| 91精品啪在线观看国产| 日韩国产 在线| 国产在线拍偷自揄观看视频网站| 欧美亚洲国产日韩电影在线| 国产十八禁在线观看免费| 五月天丁香婷婷综合久久| 国产欧美日韩精品综合在线| 久青草网站| 国产18在线播放| AV不卡在线永久免费观看| 91视频99| 国产jizzjizz视频| 亚洲国语自产一区第二页| 男人天堂伊人网| 国产欧美视频在线| 日本免费a视频| 精品国产三级在线观看| 亚洲精品色AV无码看| 国内老司机精品视频在线播出| 国产麻豆福利av在线播放| 中文字幕精品一区二区三区视频 | 色成人综合| 国产精品流白浆在线观看| 欧美日韩国产系列在线观看| 日韩精品专区免费无码aⅴ| 色天堂无毒不卡| 天堂av综合网| 欧美黄网在线| 亚洲天堂在线免费| 欧美精品aⅴ在线视频| 99热最新在线| 精品久久久无码专区中文字幕| 狠狠v日韩v欧美v| 国产精品无码久久久久久| 国产第一色| 国产日韩欧美黄色片免费观看| 午夜福利在线观看成人| 国产无遮挡猛进猛出免费软件| 国产黑丝视频在线观看| 国产成+人+综合+亚洲欧美 | 国产精品女人呻吟在线观看| 精品视频在线观看你懂的一区| 亚洲伦理一区二区| 国产极品粉嫩小泬免费看| 2021最新国产精品网站| 亚洲国产欧美国产综合久久| 99性视频| 毛片免费高清免费| 国产精品成人免费视频99| 亚洲一区波多野结衣二区三区| 91区国产福利在线观看午夜| 久久国产亚洲偷自| 91毛片网| 亚洲成人手机在线| 无码专区第一页| 26uuu国产精品视频| 99视频精品全国免费品| 国产欧美自拍视频| 日本一本在线视频| 久久香蕉国产线看观| 国产屁屁影院| 国产xx在线观看| 国产超碰一区二区三区| 成人精品在线观看| 国产高清在线观看| 又黄又湿又爽的视频| 中文字幕中文字字幕码一二区| 午夜一区二区三区| 久久大香伊蕉在人线观看热2| 国产剧情一区二区| 亚洲妓女综合网995久久| 亚洲免费毛片| 一本大道AV人久久综合| 亚洲欧洲日韩国产综合在线二区| 亚洲午夜天堂|