999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

在線評論文本挖掘對電商的影響研究

2018-09-10 07:06:35崔永生
中國商論 2018年33期
關鍵詞:文本挖掘

崔永生

摘 要:目前各大電子商務網站每天都產生大量的在線評論,電商企業面對數量巨大的在線評論,能夠快速地找到消費者所關注商品或服務的評價信息,了解消費者真正的購物需求,存在一定的難度。在線評論文本內容是能夠表達買家對所購商品質量、電商企業服務、快遞物流服務等詳實的感受或體驗的部分,反映出消費者對購買全過程的滿意度。本文通過對在線評論文本挖掘的研究,設計基于語義詞典的評論商品屬性<特征詞、觀點詞>對抽取方法和在線評論情感極性及強度計算方法,可以幫助電商企業準確而快速地挖掘出在線評論文本中消費者感知有用性商品評價信息,進而改進企業產品或服務質量,幫助商家有效地制定精準營銷服務策略。

關鍵詞:在線評論 文本挖掘 情感分析 語義詞典

中圖分類號:F724.6 文獻標識碼:A 文章編號:2096-0298(2018)11(c)-017-07

1 引言

在線評論文本數據是一種非結構化或半結構化數據,數據中蘊藏著豐富的價值。在線評論文本數據中的高價值信息,對潛在消費者的感知、購買決策行為具有重要影響,進而對電商平臺和生產企業產品銷量產生重要影響。在線評論文本挖掘目前受到了學術界專家學者普遍關注,已經成為研究和企業實踐的一大熱點。

針對在線評論文本數據的非結構化數據特征,在線評論文本挖掘目前普遍采用文本數據挖掘技術和自然語言處理等技術,對在線評論文本半結構化和非結構化數據進行挖掘。主要任務包括評論產品屬性特征提取、在線評論情感分析及在線評論文本分類。所以目前在線評論文本挖掘的研究也主要集中在這三個方面的實現技術手段和實際商業應用研究。

基于在線評論的客戶細分應用研究。蔡淑琴等(2015)[1]構建了在線評論文本挖掘客戶偏好模型,使用數據挖掘中的兩階段聚類方法展開客戶細分的實證研究。首先,通過在線評論文本中的同義詞特征識別和抽取方法提取客戶偏好特征向量,然后基于產品屬性結構細粒度的客戶偏好向量計算客戶偏好,最后利用C均值聚類方法對客戶依據偏好值進行細分。

在線評論文本挖掘也常用于企業產品定價的研究。郭愷強等(2014)[2]基于消費者效用理論,構建了在線評論文本挖掘的產品銷售兩階段定價模型。劉洋等(2014)[3]通過在線評論文本挖掘,選擇用戶風險規避程度與在線評論數量作為關鍵指標,研究了在線評論對應用軟件產品及基于平臺的軟件開發者定價策略的影響。

在線評論文本挖掘用于電商企業網絡口碑預警系統研發的研究。李金海等(2015)[4]運用在線評論文本挖掘方法,針對電商企業目前所面臨的網絡口碑危害問題,提出并構建了基于在線評論文本挖掘的網絡口碑危機預警模型。該模型使用了大數據并行處理技術MapReduce來完成在線評論產品屬性挖掘,并使用情感模糊隸屬函數進行在線評論情感分析,進而獲得企業網絡口碑目前現狀及未來走勢,最后采用人工智能信息處理方法完成企業網絡口碑的評估以達到系統預警目標。

在線評論文本內容不僅包含了消費者購物滿意度信息,而且還包含其對新產品或服務的接納度和期望信息,所以通過在線評論文本挖掘可以分析確定新產品升級策略。龔艷萍和梁樹霖(2014)[5]基于精確似然ELM理論構建了在線評論雙重選擇路徑模型,通過產品特征提取來考察消費者對新產品接納度。實證結果表明,正向在線評論、客觀事實在線評論、在線評論內容質量對消費者的新產品感知有用性具有正向影響,進而顯著影響新產品的接納度。Lee和Yang(2015)[6]以亞馬遜網站為實例,采集143條產品在線評論。通過在線評論文本挖掘后發現,在線評論感知有用性對新產品接納度具有積極影響,在線評論的情感極性對新產品接納度具有負向影響,標題吸引力在在線評論情感極性對新產品接納度的影響上具有顯著調節作用。張璐等(2015)[7]采集小米品牌手機在線評論樣本數據,通過產品屬性特征提取,分析在線評論內容中產品屬性特征與產品升級和質量改進的關系。實證研究發現,在線評論中消費者對產品的客觀評價變化與產品改進方向和改進程度具有強關聯性,電商企業可以依據消費者對產品的客觀評價決定新產品升級和改進的內容和方向。

通過在線評論文本挖掘可以分析消費者對在線評論的響應程度并進行管理。Gu和Ye(2013)[8]以攜程網酒店在線評論樣本數據進行在線評論挖掘管理響應實證研究,結果發現管理響應對低滿意度客戶具有顯著影響而對其他類型客戶作用不顯著。低滿意度客戶如果收到管理響應,其將來滿意度會隨之增加;如果沒收到管理響應,會降低其對酒店將來的預期。Liu等(2014)[9]通過在線評論文本挖掘的實證研究發現高星級酒店更樂于接受響應管理;通過在線評論文本挖掘酒店響應率指標,發現星級不同的酒店響應管理并沒有表現出顯著的不同;具有針對性的響應管理對酒店評級具有正向影響作用。Xie等(2014)[10]采集843家酒店在線評論和管理響應面板數據,通過在線評論文本挖掘發現,評論效價、購買價值和位置及清潔度評分、在線評論方差及在線評論數量、管理響應數量與酒店業績具有顯著相關性,管理響應及在線評論方差在評論效價對酒店業績的影響作用上具有調節效應。

就目前已有在線評論文本挖掘研究成果來看,在線評論文本挖掘所用語料大部分是英語,所以針對中文在線評論文本挖掘的研究還不多見。Fong和Burton[11]在對比中國和美國的消費者在線口碑傳播行為的研究發現,由于中國消費者和美國消費者在個人文化背景、網購自信程度及消費市場特征方面的差異,在線評論對中國消費者的影響程度遠遠高于美國的消費者,而且中國在線消費市場規模巨大。因此,有針對性的研究中國消費者在線評論對企業產品績效影響作用,將具有重要的理論和實踐意義。

在線評論文本挖掘研究目前存在的不足表現在以下幾個方面。

首先,中文在線評論語言特征不規范,采用主題分類法會導致分詞錯誤,嚴重影響情感分類效果。

其次,使用監督學習方法進行在線評論文本情感分類,需要人工建立大規模的訓練語料集,才能獲得較好的分類效果,而這對中文在線評論語料顯然不現實。因此,從語義角度來研究中文在線評論情感分類才具有現實意義。

最后,在線評論情感分類處理最重要的處理環節是能夠自動處理并區分主、客觀文本信息,就目前已有研究成果來看,這方面研究還比較缺乏,需要進一步的理論探索和研究。

綜上所述,目前國內外學者對中文在線評論文本挖掘研究并不多見,特別是對基于語義詞典的在線評論文本挖掘方法還沒有形成一個系統的研究體系。

2 研究框架和設計思路

在線評論文本挖掘就是對在線評論的文本內容進行特征分類挖掘,它的過程遵循文本挖掘通用的幾個步驟。本文借鑒文獻[12]將在線評論句的結構化單元劃分成三個層次:最上層為在線評論對象;中間層為在線評論對象的屬性特征;最底層為屬性特征的情感表示。在線評論的商品屬性特征詞的抽取和與情感分析的具體流程如下。

(1)收集在線評論語料集,對語料數據集預處理。過程通常包括文本挖掘技術中的分詞、刪除停用詞、詞性標注等步驟,對語句中使用頻率高的單詞還需進行詞頻統計。

(2)篩選在線評論主題句,屬性特征詞集和<特征詞,觀點詞>對抽取,這一步驟對應的是文本挖掘的特征選擇和特征抽取部分,針對抽取的特征詞重要程度的差異,引入屬性特征詞權重因子。常見的權重因子計算法包括布爾權重法、基于熵的權重法、特征頻率法和TF-IDF法等,本文選擇TF-IDF方法來計算特征詞權重因子。

(3)基于情感詞典模型,依據抽取后的<特征詞,觀點詞>對,對在線評論文本集情感極性量化計算。

(4)根據計算出的情感量化分值來確定每條在線評論的情感傾向,選擇準確度(Accuracy)和F度量指標來評價算法的性能。

本文基于語義詞典的在線評論文本挖掘流程,如圖1所示。

3 在線評論商品屬性的特征抽取

3.1 特征詞和觀點詞的范圍界定

本文依據本體論的原理,將表征商品內部屬性和外部屬性的詞條統一定義為商品屬性特征詞。建立商品屬性特征本體機構,以手機商品為例,手機屬性特征本體結構(部分)如圖2所示,圖中“手機”為商品屬性特征本體結構根節點,“顏色”“樣式”“價格”為手機屬性的特征詞,同時作為手機根節點的子節點,“鮮艷”與“時尚”“便宜”為描述手機屬性特征的觀點詞,由手機屬性特征詞和觀點詞共同構成本體結構樹。

3.2 在線評論文本集的預處理

在篩選在線評論主題句,商品屬性<特征詞,觀點詞>對抽取之前,需要將在線評論語料集進行特征表示并格式化為標準格式,剔除數據噪聲,為后續的特征選擇和<特征詞,觀點詞>對抽取作好準備。對于在線評論語料中的數字及特殊符號,可以采用統一轉換成易識別的符號或空格,然后依據停用詞詞典或詞匯表將停用詞或稀有詞從語料中清除,預處理具體包括以下步驟。

(1)分詞。

分詞即將在線評論中的句子按照特定的算法分成獨立的單詞的過程。針對中文的分詞,本文使用中科院的中文分詞軟件ICTCLAS,它不僅可以進行詞性標注,而且可以加入分詞詞典,所以對詞語糾錯同時方便加入領域詞,進而提高分詞準確性。

(2)停用詞和稀有詞處理。

稀有詞是指在文本中使用頻率不高,對文本特征表示沒有價值而應該刪除的詞條。對于這類詞的處理一般采用預先設置詞頻閥值,經統計詞條使用頻后,如果低于閥值就刪除該詞條。停用詞是指目前在某一行業領域已經不在使用的詞條。對于這類詞的刪除,可以基于已有的停用詞詞典,如果特殊需要可以手動建立詞典。

(3)詞條歸并。

在文本中存在許多同義詞或近義詞,為了降低這些語義重復的詞條,需要將這類詞進行合并處理,提高分類的準確性。中文中“價位”“價錢”“價位”就是同義詞。

3.3 文本特征選擇與特征加權

在使用詞袋法表示文本特征時,特征向量會膨脹達到幾萬維甚至于幾十萬維,即使經過文本預處理,還會有很多的特征向量留下。所以在文本的特征抽取時,對高維特征詞降維處理至關重要。文本特征抽取和特征選擇是文本高維特征降維的兩個常用方法,本文將運用文本特征選擇的方法實現在線評論文本高維特征降維。

本文采用互信息(PMI)的方法抽取在線評論互信息高的名詞或名詞性短語來選取為選產品屬性特征,互信息的計算公式為式(1):

其中Wi表示該特征詞在文本集中的權重,等于特征詞詞頻TF與逆向文檔頻率IDF之積。

3.4 在線評論文本中<特征詞,觀點詞>對的抽取

在線評論語句中的商品屬性特征詞通常以名詞形式的形式出現,例如“外觀”“性價比”“價位”等,所以一般將語料分詞后經詞性標注所得到名詞作為候選商品屬性特征詞。將抽取到在線評論語句中表達消費者對商品屬性特征的評價和情緒的詞語,一般為形容詞和動詞,本文統稱為觀點詞,并以<特征詞,觀點詞>對的形式進行抽取,這主要是考慮觀點詞的傾向性主要依賴于商品的屬性特征,更能表達消費者對商品屬性特征的感受。

<特征詞,觀點詞>對抽取的過程為以下幾點。

(1)對照商品屬性詞典里的特征詞,逐一搜索在線評論語句集中的每一語句,將匹配的特征詞從語句中抽取出來,保存在指定的特征詞文件里。

(2)累計每個在線評論句中所抽取出的特征詞數量,如果結果為1,則將該語句標識為簡單在線評論句;如果結果大于1,則將該語句標識為復雜在線評論句。

(3)對標識為復雜在線評論句重復步驟1和步驟2的操作,直到所有復雜在線評論句都被切分成簡單在線評論句為止。

(4)將簡單評價句中的所有形容詞和動詞抽取出來作為該在線評論句的候選觀點詞,并加入和保存到指定的<特征詞,觀點詞>對文件中。對抽取的特征詞和觀點詞的關聯度進行評估,設定關聯度閥值,低于閥值的<特征詞,觀點詞>對將被從文件中刪除。對篩查后的<特征詞,觀點詞>對還需人工檢查,剔除無關聯或關聯不大的<特征詞,觀點詞>對,最終保留在文件中的<特征詞,觀點詞>對集作為詞典為在線評論情感分析提供支持。

4 在線評論文本情感極性量化

基于語義詞典的在線評論情感極性量化分析是從語言學的角度來展開問題研究的方法,該方法的核心是語義詞匯的分類規則。它借助于詞匯間的同義關系或反義關系,通過一定的算法準則計算出詞匯間的語義距離,得到詞匯語義間的情感極性及強度。目前已有研究普遍采用的語義詞典:英文常見有Word Net、Frame Net等,中文常見有 How Net(《知網》)《同義詞詞林》等。

本文利用Turney(2002)[13]提出的計算在線評論情感傾向的方法,計算情感詞和基準情感詞的距離。PMI-IR算法計算公式如式(5):

對照連詞詞典進行匹配標注,具體規則如下。

轉折連詞:在線評論語句中出現轉折連詞,連詞后面的語句則發生語義轉折,“前面正向,后面負向,則在線評論句情感極性為負向”;“前面負向,后面正向,則在線評論句情感極性為正向”。

遞進連詞:在線評論中出現遞進連詞,如英文中的“even、more、also等”,中文為“況且、不如、并”等,連詞后面所表達的情感極性得到增強。

5 文本挖掘有效性實證分析

5.1 在線評論語料的來源

本文收集的在線評論主要來自亞馬遜網站、京東網站兩個大型知名的B2C電商網站的買家。采用網絡爬蟲軟件分別抓取亞馬遜中國、京東網站上的手機商品評論記錄。

5.2 數據的采集過程及數據清洗

本文選取亞馬遜中國、京東熱銷的12個知名品牌手機產品,采集在線用戶評論文本作為挖掘原始數據,具體的步驟如下。

(1)對比研究兩大購物網站在線評論系統設置的異同,確定在線評論文本數據的采集格式、方法及工具的選用,本文將選用網絡爬蟲工具軟件八爪魚采集器V7.0作為評論數據采集工具。

(2)利用八爪魚工具軟件編輯器,采集數據范圍包括手機商品評價頁面信息(評論者用戶名、評論效價、評論題目、上傳圖片、評論發布時間等)及評論文本。

(3)數據收集的時間為2017年2月—2017年12月,共采集45892條評論記錄。

(4)對所得到的數據進行清洗,刪除同一用戶的重復評論后,對數據進行進一步篩選、整理和剔除沒有任何購物評價意義的在線評論,余下2842條在線評論,只保留評論標識ID和評論內容作為挖掘對象,將保留評論信息合并保存為手機評論.xls。

5.3 在線評論樣本的統計描述

本文整理評論語料集如表2所示,其中京東網站采集各類品牌手機評論文本1542條,亞馬遜中國網站評論文本1300條。通過手工標注整理京東正面評論871條,負面評論671條,亞馬遜正面評論500條,負面評論800條,作為后面的文本挖掘分類評價基準。

本文依據TFIDF特征選擇算法抽取的手機評論屬性特征詞(部分)如表3所示。

5.4 評價指標

本文采用通用的文本分類效果評價指標:全局查準率(accuracy)、查準率(precision)及查全率(recall)。文本分類效果評估通常使用二項分類列聯表(Contingency Table),表4為一個二項分類問題的列聯表。

5.5 <特征詞,觀點詞>對的抽取及情感強度計算結果

本文將程度副詞細分成6個級別,各級別權重系數依次設置為2、1.5、1.25、1.2、0.2、0.8、0.5,如果購物評價中不含程度副詞,則設置為1,否定詞、轉折連詞系數設置為-1。選擇知網(HowNet)和臺灣NTUSD情感詞典作為情感詞參照詞庫,如表5所示。

評論語料集經過數據清洗,預處理和主觀句的對的抽取,經情感極性量化及強度計算后,整理得到示例(部分)如表6所示。

采用3折交叉驗證方式,本文研究方法對比傳統的分類方法(決策樹、貝葉斯、SVM)進行了評價效果實驗,分別取評論句500條、1000條、1500條、2000條進行4次測試,準確率(accuracy)如表7所示,F-measure如表8所示。

依據全部輸入評論句集及在表3中整理出的手機屬性特征類,對消費者購物評價的情感極性分類計算,所得產品特征屬性類的抽取結果,如圖3所示。

由表7和表8可以看見,相比于傳統的機器學習的分類方法,本文研究方法分類效果良好。以評論句2000條為例,決策樹全局查準率(accuracy)和F1分別為91.28%、87.18%,貝葉斯為93.34%、87.23%、SVM為95.67%、91.34%、而本文研究方法達到97.21%、95.32%,明顯高于其他3種方法,這與各種詞典的詞匯準確性相關。

由圖3看出,消費者關注手機產品的性能情感程度明顯高于其他方面,其次是手機的配件,外觀和功效,通過特征類的情感對比,可以清楚地了解消費者的購物感受。

6 結語

本文設計了基于語義詞典的在線評論文本挖掘方法,對在線評論文本內容進行特征分類挖掘。在線評論文本挖掘有效性實證分析結果發現,基于語義詞典,運用細粒度的<特征詞,觀點詞>對抽取方法,可以理想地挖掘出在線評論文本中消費者購物評價信息,并實現情感極性量化和強度計算。采用此方法比其他的傳統的方法具有優良的分類準確率。通過本文設計的在線評論文本挖掘方法,可以抽取在線評論文本內容中的商品屬性特征好評度指標,提高了在線評論文本特征詞分類準確性。基于語義詞典的在線評論文本挖掘方法的研究,為從語義角度來研究中文在線評論情感分類相關研究提供了一個全新的視角。

參考文獻

[1] 蔡淑琴,蔣士淼,G D OLLE OLLE,等.基于在線客戶在線評論的客戶細分研究[J].管理學報,2015(7).

[2] 郭愷強,王洪偉,鄭晗.基于在線評論的網絡零售定價模型研究[J].商業經濟與管理,2014(4).

[3] 劉洋,廖貅武,劉瑩.在線評論對應用軟件及平臺定價策略的影響[J].系統工程學報,2014(4).

[4] 李金海,何有世,馬云蕾,等.大數據時代基于在線評論挖掘的企業網絡口碑危機預警研究[J].情報雜志,2015(2).

[5] 龔艷萍,梁樹霖.在線評論對新技術產品消費者采用意愿的影響研究——基于ELM視角[J].軟科學,2014(2).

[6] Lee K Y,Yang S B.The role of online product reviews on information adoption of new product development professionals[J].Internet Research,2015,25(3).

[7] 張璐,吳菲菲,黃魯成.基于用戶網絡在線評論信息的產品創新研究[J].軟科學,2015(5).

[8] Gu B.,Ye Q.First Step in Social Media:Measuring the Influence of Online Management Responses on Customer Satisfaction[J].Production and Operations Management Society,2013.

[9] Liu X W,Schuckert M,Law R.Can Response Management Benefit Hotels?Evidence from Hong Kong Hotels[J].Journal of Travel & Tourism Marketing,2014,32(8).

[10] Xie K L,Zhang Z,Zhang Z.The business value of online consumer reviews and management response to hotel performance[J].International Journal of Hospitality Management,2014(43).

[11] J.Fong,S.Burton. Electronic Word of Mouth:A Comparison of Stated and Revealed Behavior on Electronic Discussion Boards[J].Journal of Interactive Advertising,2006,6(2).

[12] 李慧,柴亞青.基于屬性特征的在線評論文本情感極性量化分析[J].數據分析與知識發現,2017,1(10).

[13] Turney P D.Thumbs up or thumbs down?:semantic orientation applied to unsupervised classification of reviews[C].Meeting on Association for Computational Linguistics.Association for Computational Linguistics,2002.

[14] 藺璜,郭姝慧.程度副詞的特點范圍與分類[J].山西大學學報(哲學社會科學版),2003,26(2).

猜你喜歡
文本挖掘
基于貝葉斯分類器的中文垃圾短信辨識
科技資訊(2017年5期)2017-04-12 15:18:52
基于潛在特征的汽車評論要素挖掘
基于評論信息的淘寶服裝類評分體系優化
商情(2016年32期)2017-03-04 00:27:28
數據挖掘技術在電站設備故障分析中的應用
軟件導刊(2016年12期)2017-01-21 15:55:21
基于LDA模型的95598熱點業務工單挖掘分析
文本數據挖掘在電子商務網站個性化推薦中的應用
商(2016年34期)2016-11-24 16:28:51
從《遠程教育》35年載文看遠程教育研究趨勢
基于文獻的中西醫結合治療腦梗死藥物使用情況分析
基于改進Hadoop云平臺的海量文本數據挖掘
慧眼識璞玉,妙手煉渾金
主站蜘蛛池模板: 亚洲综合色吧| 中字无码av在线电影| 午夜激情福利视频| 国产欧美日韩va| 内射人妻无套中出无码| 亚洲色图欧美| 国产成人久久777777| 美女免费黄网站| 国产精品视频久| 一级福利视频| 国产精品午夜福利麻豆| 中日无码在线观看| 2022精品国偷自产免费观看| 国产原创第一页在线观看| 无码有码中文字幕| 亚洲资源站av无码网址| 午夜日本永久乱码免费播放片| 青青青视频免费一区二区| 久久国产黑丝袜视频| 欧美日韩成人| 国产综合网站| 国产乱论视频| 国产微拍一区二区三区四区| 国产免费a级片| 91久久性奴调教国产免费| 日韩毛片在线播放| 在线观看精品自拍视频| 欧美成人二区| 国产视频你懂得| 国产丰满大乳无码免费播放| 亚洲欧洲日韩久久狠狠爱| 精品伊人久久久香线蕉| 国产成人亚洲精品色欲AV| a毛片在线播放| 四虎影视国产精品| 国产成人精品一区二区不卡 | 国产欧美视频在线| 免费无码AV片在线观看中文| 国产迷奸在线看| 免费人欧美成又黄又爽的视频| 亚洲第一香蕉视频| 亚洲国产欧美国产综合久久 | 日韩欧美中文字幕一本| 老司机精品久久| 麻豆a级片| 国产成人无码综合亚洲日韩不卡| 国产欧美日韩在线一区| 国产日韩精品欧美一区灰| 幺女国产一级毛片| 亚洲欧美日韩中文字幕在线一区| 99在线观看免费视频| 国产成人高清在线精品| 亚洲视频二| 精品久久高清| 亚洲天堂成人在线观看| 一级香蕉人体视频| 囯产av无码片毛片一级| 久久一级电影| 国产亚洲视频免费播放| 亚洲美女一级毛片| 国产无码精品在线| 欧美日韩一区二区三区在线视频| 日韩视频精品在线| 成年女人a毛片免费视频| 无码精油按摩潮喷在线播放 | 啪啪啪亚洲无码| 日韩中文字幕免费在线观看 | 国产精品专区第1页| 国产主播在线一区| 亚洲a免费| 亚洲一欧洲中文字幕在线| 伊人久久福利中文字幕| 亚洲av日韩av制服丝袜| 天天躁夜夜躁狠狠躁图片| 青青热久免费精品视频6| 欧美日韩国产综合视频在线观看| 大学生久久香蕉国产线观看| 色婷婷国产精品视频| 成人综合在线观看| 99热这里只有精品免费| 国模视频一区二区| 国产一级一级毛片永久|