陳皓琰
四川城市軌道交通職業學院籌備中心
基于文本挖掘的電子商務市場表現研究
陳皓琰
四川城市軌道交通職業學院籌備中心
大數據轉變成可視化數據依靠的是計算機領域中的文本挖掘技術。文本挖掘中最重要且最基本的應用是實現文本的分類和聚類,前者是有監督的挖掘算法,后者是無監督的挖掘算法。本文重點講述如何利用文本挖掘技術對當前的電子商務市場表現進行研究。
文本挖掘;電子商務;數據分析;爬蟲
文本挖掘指的是從文本數據中獲取有價值的信息和知識,它是數據挖掘中的一種方法。數據挖掘[1]也稱知識發現(KDD),是從數據庫中便捷地抽取出未知的、隱含的、有用的信息。
本文的研究背景是基于大數據下進行的,而對電子商務市場表現進行研究,采用的技術是本文挖掘技術。文本挖掘技術是一項非常重要的挖掘和展示數據結論的技術。通過本文的研究,希望能對電子商務的市場表現有一個更加清晰的認識。
數據挖掘中的文本挖掘與我們的生活息息相關,比如,搜索引擎上的新聞熱點推送,雖然少不了編輯人員的工作,但是在繁雜網絡信息中,脫離電腦僅靠人工是幾乎不可能完成的。最近一款流行的APP,<<頭條>>,它其實也是文本挖掘技術應用的一種展現。本文挖掘的一般流程如圖2-1所示:

圖2 -1文本挖掘一般流程
2.1 文本獲取
一般情況下,我們通過網頁的形式,獲取網絡文本,再將得到的文本建成文本數據庫(數據集)。在這個過程中,可利用爬蟲程序來爬取網絡中的信息。爬取的策略有廣度和深度爬取,根據用戶的需求,爬蟲也可分為主題爬蟲和通用爬蟲。主題爬蟲主要是在相關站點進行爬取或者爬取特定主題的文本,而通用爬蟲則一般對此不加限制,所以得到的文本量和內容更多。現在網絡上已經存在很多開源的爬蟲程序,也可根據獲取對象的情況自行編寫。
2.2 文本預處理
通過執行爬蟲程序,我們獲取了大量的原始數據和相關資料,但網頁中存在很多我們不感興趣的信息,比如廣告、導航欄、html、js代碼、注釋等等。所以,我們還需要對文本中的信息進行篩選。這個步驟相當于做飯中洗菜的過程,沒有清洗過的食材,廚藝再好的人,我想也很難做出佳肴吧。
2.3 分詞系統
我們知道,文本中起到關鍵作用的是往往是一些關鍵詞,這些關鍵詞決定了文本取向。比如說一篇文章介紹的是體育相關的內容,我們只需要對文章中的關鍵詞進行分析就能得到想要的結果了。那么怎樣才能找到那些能夠影響主題的詞語呢?
在找出關鍵詞之前,要先獲取文本中所有的詞語。這個步驟需要用到一個分詞系統或者分詞工具。現在針對中文分詞,出現了很多算法,有最大匹配法、最優匹配法、機械匹配法、逆向匹配法、雙向匹配法等等。這里推薦使用中科院的分詞工具ICTCLAS[2],該工具是以北京大學計算機語言學研究所加工的《人民日報》語料庫為訓練語庫,基于層疊隱馬爾可夫模型的漢語分詞方法,是一個基于統計方法的、集成的一體化漢語詞法分析解決方案。
2.4 特征選擇
通過分詞工具的輔助,我們已經把所有的詞進行了分類。但是這些詞中,并不都是所需要的,比如語氣詞、形容詞、標點符號。這些詞和字符在文中都大量存在,與文本關鍵詞無太大關系,所以可以刪除。
經過處理,我們能夠得到一個文本集。有的詞會在這個文本集中大量出現,有的只出現幾次而已。出現頻率低的詞通常不能決定文章的主題,而且文本集中內容越大,維度會越高,矩陣稀疏度隨之成比,嚴重影響到挖掘結果。國內外許多學者已經在關鍵詞抽取領域中做了大量研究工作,簡立峰[3]使用PAT樹結構,利用詞與詞的聯系來對中文關鍵詞進行搜索,但是PAT樹模型的成本太大,本文引用權重計算方法TF-IDF(term frequency-inverse document frequency),該模型的主要思想是[4]:關鍵詞在文檔中權重為關鍵詞在文檔中出現的頻數反比于包含該特征詞的文檔書目。TF表示關鍵詞m在文檔D中出現的頻率,IDF表示所有文檔中出現關鍵詞m的文檔數目。
文本挖掘技術可以應用到各個領域當中,電子商務領域尤為廣泛。做過電商應用的朋友就會發現,在工作過程中,業務的需求基本來源于數據,這些數據主要靠文本挖掘來獲取。比如唯品會,其網站上商品的價格及展現形式都不是隨意設定的。唯品會的大數據部門,無時無刻不在運行著爬蟲程序,然后進行數據分析,尋找自己想要的商務數據。
3.1 數據爬蟲
本文中使用了Python開發的PyRailgun,它是一個簡潔、輕量、高效的網頁抓取框架。本人在其開源代碼的基礎上,加入了研究所需要的成分,然后設定好需要爬蟲的關鍵詞:電子商務、網購、商務公司、網購評價、商品評價、商品質量、公司融資、融資金額。這八個關鍵詞是程序重點爬蟲的對象,爬蟲程序執行以后會將與其相關的數據保存下來。本次爬蟲程序不做深度爬蟲處理,以三級爬蟲為最多爬蟲層數,數據量以10萬條為準,多于10萬條以上的數據,不再存儲,避免數據量過大,處理周期冗長。
3.2 數據預處理
在數據預處理階段,本人設定了一些文本規則,將不相關的文本數據清除,只保留和預期目標相關的數據。數據預處理的規則如下:
(1)去除含廣告類的數據,這部分數據與研究目標無直接聯系且數量巨大。
(2)數據分類:將與本文目標一致的數據劃分為一類。使用聚類分析算法,將其劃分為三類數據:電子商務公司名稱數據、網購評價數據、公司融資數據。
(3)數據精簡去重,一個主題相關詞只保留一條。
3.3 數據細分
經過數據預處理后,三種目標數據的純凈度大幅度提升。因為本文主要研究的是數據反應出的趨勢,所以要對數據再進行細分,規則如下:
(1)電子商務公司名稱數據
以公司名稱為重點關鍵詞,通過聚類分析算法進行數據分類。
(2)網購評價數據
數據相對零碎,比較難處理。本次實驗數據以天為單位,分好評與差評。
(3)公司融資數據
數據也是以公司名稱為重點關鍵詞:通過聚類分析算法,將各公司的融資數據情況劃分為一類,便于下一步的數據分析中挖掘重點融資情況。
3.4 數據分析
把分類好的數據進行匯總,即可得到所需的數據報表。
(1)電子商務公司名稱數據
匯總與電子商務有關的公司個數。
(2)網購評價數據
匯總好評和差評的頻次。
(3)公司融資數據
把各公司的每一輪融資結果,匯總成報表。
3.5 研究結論
(1)我國的電子商務公司一直處于增長的趨勢,由于文本程序每個季度執行一次,數據量偏少,因此得到的結論是:從2015年10月份到2017年2月份期間,2016年4月份的新增公司數量最多。
(2)客戶對網購評價好壞的趨勢。客戶對網購評價情況,在2015年10月份,網購給予差評的比例較大,基本占到了43%左右,但是隨著時間的推移,網購差評的比例越來越少,到了2017年1月份,已減少到了18%左右。說明客戶網購體驗的發展趨勢越來越好。
(3)電子商務創業型公司融資情況趨勢。在實驗范圍內,2016年4月的融資情況和融資數量最佳。
通過使用文本挖掘技術對電子商務市場表現展開應用,主要對一定時間內新增公司的數量趨勢、客戶對網購評價好壞的趨勢、電子商務創業型公司融資情況三個方面進行分析。
因為本次實驗的樣本有限,tf-idf方法也有不足之處[5],所以結論僅提供參考,期望有更好的云服務技術,對更多的數據進行專業級文本挖掘,進行更深層次的分析。
[1]JiaweiHan,Micheline Kamber.范明,孟小峰,等譯.數據挖掘概念與技術[M].北京:機械工業出版社,2001.
[2]劉群.漢英機器翻譯若干關鍵技術探究[M].北京:清華大學出版社,2008.
[3]Chien Lee Feng,PAT-tree-based Keyword extraction for Chinese information retrieval[C].Proceedings of the ACM SIGR InternationalConference on Information Retrieval,1997:50-59.
[4]Aizawa A.An Information-theoretic Perspective of tf-idfMeasures[J].Information Processingand Management,2003,39(1):45-65.
[5]徐建民,王金花,馬尾瑜.利用本體關聯度改進的TF-IDF特征詞提取方法[J].情報科學,2011,29(2):279-283.