(南京林業大學 210037)
第一步,用戶評論獲取。要分析網購用戶評論,首先要在網頁中獲取用戶評論。現階段國內許多在線購物網站都防止爬蟲,同時也做了很多反爬蟲工作,而R語言在爬蟲這點并不是很有力的工具,但是亞馬遜的網頁評論可以用R語言獲取。在獲取評論的過程中,需要注意有兩點:(1)如何獲取網購用戶的ID;(2)怎樣在網頁的編碼中獲取網購用戶評論的精確定位。選擇的對象是近三年內國人購買相對較多的某品牌保溫罐,分析的只針對一種商品,所以只需要考慮具體的用戶評論結果。
在得到評論文件后首先對評論進行第一步預處理。逐條檢查進行錯別字檢查,以方便之后進行的操作。
在對評論文本進行了整理后,我們發現分詞結果對評論的解釋度并不夠高,例如“后來發現右上角有一個坑”被分成了“后來”、“發現”、“右上角”、“有”、“一個”、“坑” ;若用此分詞結果,進行分析后會遺失很多關鍵的信息。所以需要先進行詞庫建立,利用詞庫對信息篩選。
在詞庫構建過程中首先需要對評論進行分析,觀察用戶評論中對產品的需求或對商家的服務、物流等提出的意見或建議。詞庫的建立利用了短句的方式。首先對評論語句進行解讀,對其中的信息進行篩選,找到差評中的關鍵信息如“包裝太差”、“質量不好”、“物流緩慢”、“態度惡劣”等,并且對文本中的長句變為短句,聯系上下文中的含義,其次對不必要的語氣詞,嘆詞等在斷句中進行剔除,獲得更為純凈的文本語句。依照此思路對好評與差評分別建立詞庫。
在詞庫的建立的過程中,需要盡可能的篩選出有用信息,因為本次研究所用的評論較少,所以使用的方法為逐條篩選;如果使用大批量的評論則需要使用構建語料庫,建立測試集等方法來進行評論分詞與篩選。在利用詞庫后對文本進行分詞后得到的結果比之前理想很多。
得到分詞結果后,需要對分詞進行進一步處理。在此過程中我們進行了以下步驟。
在獲得比較理想的分詞結果后,還需要在之后進行下一步處理之前需要對文本進行一些其他的處理。第一,降低詞頻處理。主要是保留詞條長度大于2的詞條。第二,符號、空格去除。
TF-IDF(term frequency-inverse document frequency)詞頻--反轉文件頻率,是一種用于情報檢索與文本挖掘的常用加權技術,用以評估一個詞對于一個文件或者一個語料庫中的一個領域文件集的重要程度。在R語言“jiebaR”函數中可以提取出文本中的關鍵詞及其在評論文本中所占的權重。將好評與差評中分別提取5個關鍵詞并獲得權重,得到結果如表2.3.1所示。詞頻權重分析會在之后的結果分析部分占大部分作用。

差評中詞頻及權重包裝 杯子 保溫 買 亞馬遜210.105 125.274 121.508 117.392 116.253好評中詞頻及權重保溫 效果 不錯 亞馬遜 包裝626.236 364.551 297.035 232.506 225.112
"詞云"就是對網絡文本中出現頻率較高的"關鍵詞"予以視覺上的突出,形成"關鍵詞云層"或"關鍵詞渲染",從而過濾掉大量的文本信息,使瀏覽網頁者只要一眼掃過文本就可以領略文本的主旨。
在好評詞云中(圖3.1.1),我們可以看到“保溫效果很好”、“保溫效果好”、“等積極詞匯占了大多數,剩下的則有“made”、“China”、“包裝簡單”等詞匯,“包裝簡單”說明有部分購買者在購買后對包裝存在不滿;“made”、“China”則說明了購買者對從美國亞馬遜進行海外購夠得的產品產品還是本國產不滿,存有購買后的心理落差。因此在好評中還有意見,好評中可能還是會有商品意見與對商家提出的建議,可能會有隱藏信息,需要進行進一步分析。

圖3.1.1 好評詞云
在差評詞云中(圖3.1.2),我們看到“保溫效果好”竟然也會出現,可以進一步說明商品的質量在保溫效果這一塊是比較優秀的,同時也說明了差評中也存在正向詞匯;“保溫杯”“很失望”“發郵件”等詞匯則說明了差評中購買者的主要態度,“發郵件”說明亞馬遜在與客戶溝通的時候的不便。
詞頻權重在表2.3.1中已經給出。如圖3.2.1所示的差評的直方圖顯示(左),關鍵詞包裝占了最大部分權重,剩下的四個關鍵詞所占權重基本一致,由此可知差評的點主要集中在包裝上。其余關鍵詞的權重差別不大。

圖3.1.2 差評詞云
在得出的差評的分詞文件中查找關鍵詞的詞條數,差評分詞文件詞條共計344條,我們由包裝開始找出差評主體的問題。在35條包裝評論中,只有一條提到包裝不錯,剩余的都在說包裝簡陋,簡單等。在15條杯子評論中,提到杯子有損壞、產地,杯子有或多或少的問題。在保溫這項則是對杯子保溫效果的評論居多,值得一提的是,很多人買這款產品作為燜燒杯使用,而非作為保溫杯使用,在試用過認為保溫效果不好時將其作為保溫杯使用,只有一條評論對保溫效果提出了肯定。
好評詞條分詞權重如。好評詞條總計1012條。同上述差評分析過程中發現在高權重位的“保溫”和“效果”兩個關鍵詞的詞條中出現重復的概覽很高,通過R進行權重比對后,發現絕大多數用戶肯定保溫效果。在關鍵詞“不錯”中,大多數用戶認為保溫效果不錯,剩余用戶對購買體驗與產品質量表示肯定。關鍵詞“亞馬遜”用戶都認為亞馬遜值得信賴,對亞馬遜的購物體驗表示很好。關鍵詞“包裝”中,半數購買者認為包裝不錯,半數購買者則認為包裝過于簡單。
結合詞語分析與權重分析兩種,我們可以得知,很大部分用戶對產品的保溫效果給予肯定,在詞云和權重中都出現了保溫效果好的詞條;否定保溫效果用戶可以由商家跟蹤服務調查,找出保溫效果降低的原因。對于商家的包裝,絕大多數的用戶給予了否定,即使在好評中也出現了很多不滿意包裝的用戶,主要存在于杯子包裝質量不好在運輸過程中造成了不同程度損傷。一個關鍵詞出現在好評與差評中是具有交叉性質的,在好評中有可能否定,而在差評中卻是肯定。因此,需要結合好評與差評中的同一個關鍵詞對文本進行分析。
本文通過對亞馬遜上一件產品的評論進行了文本挖掘,篩選有效信息,獲得了用戶對一件商品評價的分析。通過對文本進行分詞處理,建立了適用于本產品的評論詞庫,為的是將單體產品的評論中的信息解釋度提高,完整上下文,不是只局限于對詞頻分析。單一的詞頻分析有時并不能作為文本挖掘的主要結果,有時候會受到文本噪點的影響而忽略部分有效信息。詞頻分析與權重分析相結合可以得出較為準確的結果。因為本次分析的用戶評論量較少,所以使用了人工校準與建立詞庫,所得的結果相對比較準確,在使用手動建立詞庫的時候也可以在分詞過程中省略去停詞的過程,因為商品的好評與差評形成了鮮明的對比,用戶評論在情感分析方面具有一定的先天優勢。因此,兩種方法結合進行分析可以讓分析結果更為鮮明與準確,也能讓設計師、企業看到自身的優點,同時完善自己缺點。