宋 揚,唐輝軍,楊 孝(寧波大紅鷹學院信息工程學院,寧波315175)
電子商務中的評價口碑數據分析關鍵技術研究
宋揚,唐輝軍,楊孝
(寧波大紅鷹學院信息工程學院,寧波315175)
隨著我國網絡經濟的快速發展以及網上購物市場需求規模的不斷擴大,電商產品的滿意度日益成為被關注的主要問題。在網絡購物日益流行的今天,各類電商、商品不斷涌現。為幫助用戶在海量商品中選購到真正適合自身的商品,協助商家在制定商品營銷策略時,方便、快捷地獲取商品的消費者反響,自動化的觀點挖掘變得越來越迫切需要。電子商務評價口碑數據挖掘技術的提出,為解決該問題提供方向。
電子商務;評論信息;口碑搜索;經營決策
2014年浙江省大學生科技創新活動計劃暨新苗人才計劃(No.2014R423003)
電子商務的誕生催生了網絡經濟的繁榮,也帶給了個人購物的便捷性和低成本性。根據數據統計,2014全年網購電商交易額突破12.3萬億,網絡購物的影響力由此可見一斑。在網絡購物浪潮中,網民們經常會對商品的評價、商品的銷量、店鋪信譽等比較關注,并以此作為自己購物的信任首選。賣家也會積極應對買家的口碑評價調整自己的經營策略。淘寶、京東、易迅等眾多電子商務網站平臺的迅猛崛起,使得商品的展示和銷售絕非在某一特定平臺上,絕大多數商家選擇在各個電商平臺上進行鋪貨銷售。買家的商品評價是電商制定運行規則和賣家銷售商品中最重視的信息。
由于目前電子商務平臺種類繁多,用戶選擇的余地較大,但也相對地造成了某類商品價格、物流服務的不統一性,這對一些由于網絡知識和計算機操作相對薄弱的、網絡安全意識比較差的網購用戶,難以快速、直觀地獲取他們感興趣商品的關鍵信息,從而無法迅速找到性價比高的網購商品,甚至出現在網購過程中直接碰到釣魚網站或詐騙網站,造成了一定的經濟損失。這種情況嚴重影響了電子商務的發展,如何快速定位顧客的需求商品信息,商家如何面對口碑開展商務決策,成了網絡購物中買賣雙方共同面對的問題。
口碑評論信息是消費者在網購結束并確認收貨后通過網絡交流的所有關于產品和服務的具體特性的信息,其中包括消費者對本次消費商品的質量、體驗描述等評價信息[1]。從信息的產生和運行過程來分析其主要包括對產品、服務等的評價,已經完成網絡購物的消費者給商品的評論信息一定程度上給后續購買的消費者提供一定的提示信息導向,消費者根據商品的評論進行網購,很好地降低了消費者的搜尋成本,提高網購消費效率,因此哪些因素影響消費者,成為了現在研究的主題之一[3~4]。評價信息除了對后續購買者有一定的輿論導向外,賣家也可以并根據有用的評論信息,分析相關數據進而做出經營戰略調整[2],把產品更好更大規模地推廣出去。網絡市場是個信息不對稱的市場,賣方對產品的主要質量信息擁有比買方更多的信息,在線評論成為了消費者與消費者、消費者與賣家之間重要的溝通渠道[5~6]。

圖1 系統功能圖
由上圖可知:
(1)用戶登錄到電子商務評價信息的自動抽取與分析系統,賬號和密碼均可自行設置。
(2)對主題詞進行設置,則將商品網址自行復制粘貼到“商品網址”框中。
(3)若是需要對主題詞進行修改,則打開系統管理中的主題詞管理,在這里分別有“主題詞”、“好評語”、“壞評語”等模塊,其中,“主題詞”有:顏色、寶貝、物流、快遞、服務態度、質量、款式等;“好評語”有:很好、不錯、真品等;”壞評語”有:不好、差、假貨等。
(4)輸入商品網址,對商品的網購地址進行有效輸入,進而采集相關數據。
(5)進行采集分析。
電子商務評價信息的自動抽取與分析系統是基于多平臺電子商務下的口碑評價信息搜索挖掘。通過對各大電商平臺中的某類商品信息進行整合,應用網絡爬蟲技術從用戶評論中挖掘大眾用戶對商品的口碑評價,并從商品整體和其各個特征對口碑進行分析、歸納和總結,進而基于一定可視化工具應用的用戶交互式展示,從而開展用戶需求與商家經營決策交互。
根據系統需求分析及其數據庫的設計,相關電子商務評價信息的自動抽取與分析系統設計應包括系統登錄、評論抓取、系統管理、主題詞管理、用戶管理、密碼修改、開始采集、使用算法分詞、開始分析等功能,實現對網店銷售評論數據的有效挖掘和利用。系統模塊如圖1所示。
該系統的功能流程圖如圖2所示。

圖2 系統流程圖
對電子商務智能口碑搜索與分析支持關鍵技術的研究,重點為多平臺電子商務網站下的口碑評價信息搜索挖掘,以此開展用戶需求與商家經營決策交互。其主要應用的技術如下:
(1)中文自動分詞技術
基于搜索的分詞方法可作為中文評價信息有效應用技術。該技術實現可以對預料中相鄰共現的各個字的組合的頻率進行搜索識別,依據本系統內容,主要從物流、態度、質量三個方面看評價分析。這種方法只需對每條商品的評價信息進行預先設置內容。進而根據評價信息中的分詞結果得到識別內容。最后依據分詞結果可用作商品總體評價和特征評價的統計依據。其基本實現流程如圖3所示。

圖3 基于統計的中文分詞
搜索方式可依據一定的算法展開,例如后3位最大遍歷查找即為解決該問題的一種方法。其算法流程如圖4所示。

圖4 后3位最大遍歷查找
(2)數據采集技術
數據采集技術主要收集用戶對某一類商品的評價信息集成。在本項目的實現過程中,可選用Scrapy作為屏幕抓取和Web數據抓取框架,其主要用于抓取Web站點并從頁面中提取結構化的數據。Scrapy的主要技術應用過程如下:
①基于Python語言端開發獲取URL,對HTML網頁進行清洗。
②Scrapy引擎獲取URL,請求調度。
③引擎調度通過下載中間件發送到下載器。下載器通過預定義的下載數據類型字段,下載到數據庫。
在Scrapy的下載數據過程中,定義數據是十分重要的一項工作。其涉及到最后的數據庫生成字段,一個典型的數據字段類型item設置可以表示為:
from scrapy.item import Item,Field
class Torrent(Item):
name=Field()
url=Field()
description=Field()
size=Field()
(3)基于B/S結構的Web系統

圖5 系統數據庫E-R圖
所有技術依據B/S結構而實現,首先制定中文自動分詞算法,針對某一需求的商品信息,依據Scrapy技術建立網絡爬蟲,依據分詞統計結果,應用作為顯示的交互技術,實現用戶需求準備定位和期望,實現商家經營決策支持。頁面主要有以下模塊功能:
數據采集模塊功能:用戶只有登錄后才可以進行數據采集。輸入對應的地址進行數據采集,如沒有登錄,系統提示錯誤并返回登錄頁面。用戶采集的商品數據庫E-R圖可用圖5來表示。
分詞模塊功能:根據采集數據,針對每一條評論信息,采用基于神經網絡分詞算法和基于統計的算法,分詞的結果將導入數據庫中。
分析模塊功能:進行分詞以后,用戶可以查看分詞結果統計。
用戶修改資料模塊功能:用戶可以登錄后修改自己的注冊信息。
對電子商務智能口碑搜索與經營決策支持關鍵技術的研究旨在通過對各大電商平臺中的某類商品信息進行整合,從實際網絡購物需求出發,通過商品口碑信息搜索,從用戶評論中挖掘大眾用戶對商品的口碑評價,達到口碑信息的有效集成和分析,進而基于用戶交互式展示,體現經營商家決策依據,實踐證明對于購物者節省購物時間提升網購效率,促進商家決策依據具有重要的實際意義。
[1]朱玉如.口碑傳播在社交化電子商務網站中的應用分析[J].今傳媒,2014(2):121~123
[2]陳明亮.在線口碑傳播原理[M].杭州:浙江大學出版社,2009
[3]粟佳,廖惠.社會化購物網站的信息傳播研究[J].東南傳播,2012(10):110~111
[4]郭志杰.電子商務模式決策分析[J].中北大學學報.2010(4):79~81
[5]王興德.電子化商務決策分析[M].北京:清華大學出版社,2003.
[6]李天姣,宋一飛.Web 2.0時代下的網絡口碑傳播——以“大眾點評網”為例[J].今傳媒.2012(07):99~100
E-commerce;Review Information;Reputation Search;Business Decisions
Research on the Key Technologies of Review Reputation Data Mining in E-commerce
SONG Yang,TANG Hui-jun,YANG Xiao
(College of Information Engineering,Ningbo Dahongying University,Ningbo 315175)
Along with the large scale of economy of network and rapid development of the online shopping in our country,product satisfaction has become main problems to be concerned.As the online shopping increasingly becomes popular today,all types of business,goods are constantly emerging.To help users in the massive commodity purchasing to really choose the suitable ones for their demand,assist businesses to make decisions based on getting the repercussions of the consumer conveniently,automated opinion mining is becoming more and more urgent.The introduction of the technology of the data mining to the e-commerce reputation,which provides the direction for solving the problem.
1007-1423(2015)14-0050-04
10.3969/j.issn.1007-1423.2015.14.012
宋揚(1992-),男,浙江淳安人,本科,研究方向為信息管理與信息系統
唐輝軍(1982-),男,浙江寧波人,研究生,講師,研究方向為數據挖掘
楊孝(1993-),男,浙江溫州人,本科,研究方向為第三方物流
2015-04-01
2015-04-22
1007-1423(2015)14-0054-0610.3969/j.issn.1007-1423.2015.14.013