李艷紅
(西安外事學院 工學院, 西安 710077)
隨著中國經濟的快速發展,中小企業已成為我國經濟發展的重要力量。相對于大型企業應對風險的能力,中小企業相對較弱,主要是中小企業缺乏信息化管理,決策者大都是依靠個人經驗進行決策,缺乏對市場和風險的科學論斷[1]。隨著互聯網的發展,用戶在各大類論壇、微博、媒體網站可以發表對某些產品的信息和看法。中小企業如果能夠充分利用海量網頁數據提供的信息幫助,可以極大的降低企業風險,并一定程度上彌補由于數據不足導致經營過程中出現問題[1]。消費者一般是通過網頁、博客和新聞等獲取相關產品的信息,中小企業如果能夠及時發現相關負面評論,并收集起來,以作為產品和服務改進的指導,可以極大的降低企業的經營風險。現有的研究成果大都是獨立考慮短文本評論,并且一般是針對電子商品觀點的挖掘,沒有從主題文章觀點和評論相結合角度進行觀點挖掘。基于此,本文通過利用爬蟲技術收集相關數據,并利用機器學習技術對文章進行分類、觀點預測,從而為企業決策者提供幫助,降低中小企業經營風險。
隨著數據挖掘技術的成熟,其技術可以更好的幫助中小企業進行科學決策,通過調研相關資料,總結大數據技術對于中小企業的促進主要包含以下幾個方面:
銷售風險預測:通過利用行業文章,結合微博實時數據,同時參考歷史銷售數據,對相關產品的銷售風險進行預測,幫助管理者降低企業經營風險。
新產品和新市場的發現:通過分析相關行業報告和行業文章走向預測觀點,來為中小企業管理者提供對未來產品走向的把握和理解,及時跟進市場動向,掌控市場風向,降低經營風險。
流程效率提升和成本縮減:通過利用機器學習技術,分析產品銷售生產過程中的數據,對各個環節進行科學監控和調整,達到優化支出,降低成本的目的[2]。
新客挖掘:通過利用機器學習技術,分析相關產品的評論數據以及相關產品的微博數據,在此基礎上獲取消費者的相關偏好,進而聚類客戶的分布區域,并有針對性的發掘新客戶。
本文主要是利用數據挖掘、機器學習相關技術,針對銷售風險預測、新產品和新市場的發現進行研究,通過利用行業新聞等長文本數據、微博等短文本數據,從多維數據角度探索新的中小企業風險控制模型。
行業相關的產品信息文章觀點可以反映用戶對該行業該產品的觀點和傾向,可以幫助中小企業一定程度上規避銷售風險。但是不同角度發表的信息,對該行業發展的影響也不同。基于此本文首先對文章進行分類,主要分為供應商、潛在進入者、購買商、替代產品等四類,同時將問題抽象成分類模型,通過借鑒文獻[3-4]的文檔分類方法進行分析,并在此基礎上進一步分析文章觀點的傾向性:正面/負面評價,從而為構建相關產品的預警和提示。同時微博相關的行業產品相關的數據具有實時性,可以迅速的幫助企業了解消費者對行業相關產品的喜好。相對于行業新聞博客等長文本數據,微博等短文本數據,具有信息少,表達不規范等問題,不能直接使用長文本相關的文檔分類技術。針對這些問題,提出了具體如何對短文本進行構建正負觀點分類模型。
文本首先通過提取特征,然后在此基礎上利用SVM模型進行預測,同時采用one VS all的模式進行頁面多分類。其中特征提取,主要是通過LDA(Latent Dirichlet Allocation)模型進行特征提取。原理所示如下。
1. Fort= 1…T
(a)φtDirichlet(β)
2. For each documentd∈D
(a)θd~Dirichlet(α)
(b) forωnind

首先對文檔進行切詞,通過LDA算法獲取和文檔類別最相關的30w個單詞,然后利用特征選擇算法,篩選6w左右的特征,計算相關單詞的TF值,并利用SVM算法進行文檔類別分類。在識別出文檔類別以后,通過利用相似技術進一步進行正負面評價觀點分類。
2.2.1 問題定義
R={r1,r2,…,rn}表示微博數據集合,每條微博樣本的特征集合用X表示,相應的類別標簽用Y表示:{正面評論,負面評論}。P表示正負面評論的可能概率。P([0,1]。F表示n×m的特征矩陣,n表示樣本的總數,m表示特征的總數|X|,yi表示第i條樣本的預測結果:
其中Θ表示分類模型的閾值。實驗過程中該值是0.65。
2.2.2 模型特征
本文假定微博數據是一個無格式的純文本。相對于傳統的篇章級文本而言,微博數據內容屬于短文本類型,這種短文本有著突出的問題就是其文本向量稀疏。現有的諸多方法在短文本分類的效果并不理想,機器學習的理論表明,特征決定了模型性能的上限[5]。因此對于短文本的單純分詞特征是遠遠不夠的,在應對特征稀疏問題時,本文通過特征選擇的方法提取對于產品觀點預測最具表現力的特征,同時發掘產品評論的其他特征,如:詞特征、字節級N元語法特征,詞組合特征,評論信息量特征,評論與產品描述的相似度特征等。
(1) 詞特征
利用中科院中文分詞工具ICTClas對微博信息分詞處理得到詞特征,例如手機微博信息,“華為拍照效果還是不錯,就是電池不是太耐用。”分詞處理后為:“華為 拍照v效果 還是d不錯a,wp就是v電池 不d是v太d耐用a。wp”。
(2) 字節N元語法特征
例如微博數據中的信息如“5月23日”先換成為字節形成,然后用N元語法模型選取特征,這里N取4,這樣可以有效提取微博數據的隱藏形式的強特征,避免繁雜的微博文本解析。
(3) 詞組合特征
利用哈工大LTP自然語言處理工具包中的句法分析功能,在評論信息中獲取詞組合特征,如評論信息“待機時間還可以”句法分析處理后可以發現名稱+動詞結構“待機時間可以”。
(4) 微博數據的信息量特征

其中,L表示微博數據的字符長度,K為調節因子,b為信息平滑因子。
(5) 特征選擇方法
統計模式識別中,費希爾線性判別是有效的特征選擇方法。主要思想是:假設在d維數據空間中有兩類樣本點,我們期望在原有的樣本數據空間找到一條分割線,使得樣本點在其上的投影可以盡可能的分離出來[6]。換句話說就是在兩類樣本點投影在分割線上,獲得較大的樣本差異平方,較小的類內散度。可以定義費希爾率為:

2.2.3 算法設計
1) 預處理微博數據,對微博數據集進行分詞、詞性過濾、去停用詞得到微博數據的詞向量;
2) 計算微博數據的信息量特征。
3) 對微博數據句法分析、輔以人工的手段得到詞組合特征。
4) 計算微博數據的字節N元語法特征。
5) 對微博數據隨機洗牌,增量式迭代多次,并依次在詞特征基礎上引入字節N元語法、詞組合特征、信息量特征,然后在此基礎上利用SVM算法進行分類。
在以上算法流程的基礎上,增加加強錯誤邊界學習的邏輯,如圖1所示。

步驟操作1w=0; // 初始化參數向量w為02for each xi,yi3p=exp(x→i?ω→)1+exp(x→i?ω→)4if p > 0.55預測為正面評論6else7預測為負面評論8if abs(p-0.5) <Θ or prediction error // tone9if yi == 110w→=w→+(1-p)?x→i?rate11else12w→=w→-p?x→i?rate
圖1 錯誤邊界學習邏輯
我們使用了兩個現實生活中的數據集來進行實驗,第一個數據集是一個標準公開的多領域情感分析數據集,該數據集DataSet1有13120個短文本數據,涉及四個不同的產品類別。第二個數據集是通過手動編寫爬蟲程序在微博和行業網站手動爬取的數碼產品的文章和微博數據,DataSet2包含34121條微博數據,DataSet3包含6812個行業文章,并進行了人工標注。行業文章和微博存在很多轉發情況,為了消除重復的內容,需要進行文本去重,本文認為信息有超過90%的 bigram 匹配,則認為數據是重復的。
實驗采用評估分類性能方面的常用評價指標:召回率、準確率、F1值[8]。召回率和準確率是分類任務借鑒信息檢索任務中的評價指標。在信息檢索中,通常采用精準率(Precision)和召回率(Recall)來衡量檢索出來的文檔的質量。一般將相關文檔稱為為正例(Positive),不相關文檔稱為負例(Negative)[9]。在整個信息檢索過程中,一般會產生四種結果:TP、TN、FP和FN。對應關系如表1所示。

表1 信息檢索過程中的四種結果
精準率是被正確檢索的相關文檔和所有被檢索出來的文檔的比例,對應的召回率是指被正確檢索出來的所有相關文檔與系統中所有相關文檔的比例。通常精準率又被稱為查準率,召回率又被稱為查全率。它們的取值范圍介于0到1之間,通過公式可以知道,二者的值越大,表示算法的效果越好,不過一般情況下,二者不會同時達到最優值。
行業文章分類算法在DataSet2中供應商類別分類的實驗結果如表2所示。

表2 DataSet3數據集的實驗結果
從上表中可以看出,LDA+SVM對于行業文章的分類效果比較好,滿足實際需要。
在訓練數據集 DataSet1 和 DataSet2采用詞特征+不同學習方法的對比實驗所獲得的效果,如下表3所示。

表3 DataSet1和DataSet2數據集的實驗結果
從上表可以看出,在兩個數據集,傳統SVM算法的分類效果,比本文提出的學習方法的分類效果表現稍差,統計學習理論表明特征決定了分類器的性能上限,因此本文從其他方面挖掘特征來對分類模型進行改進實現[10],同時考慮在線短文本數據分布的環境應該是個動態變化的過程,所以,通過在微博信息的詞特征基礎上增加字節N元語法特征、詞組合特征、信息量特征、相似度特征等,對微博數據的分類器性能有著一定程度的提升。
文章首先分析了中小企業存在的風險問題,具體介紹了大數據對于提升中小企業風險控制能力和效益的方法。在此基礎上本文利用海量互聯網文本數據,從行業文章智能分類著手,為中小企業決策者提供對從不同角度提供對行業信息的認知情況,利用微博數據等流媒體的實時性對行業產品相關的微博進行觀點挖掘,幫助中小企業管理者及時了解消費者對產品的態度和反饋情況。行業文章智能分類模型,采用LDA+SVM的算法策略進行文檔分類,微博短數據分類模型采用增量學習模型,考慮微博數據的向量空間模型的高維稀疏的特點,從字節N元語法、評論信息量、詞組和和產品評論和產品描述相似度等方法對模型的輸入特征進行擴展,
相較于傳統的SVM算法模型,擴展后的新模型對分類器的性能有了一定的提升。