崔澤豪 羅養霞 劉卓文 董雨萌



摘要:基于大數據分析指導銷售策略,提高經濟銷售量是網絡銷售的核心問題之一。論文基于數據分析挖掘情感詞,構建詞向量矩陣;通過最小平方擬合動態分析產品評級變化趨勢;然后通過互信息法構建評級模型,研究市場關注的商品屬性及滿意度關系;進而確定產品的設計特征與成功和失敗的衡量標準,從而找到合適的銷售策略。
關鍵詞:在線銷售;情感特征詞;互信息度量;KNN分析算法
中圖分類號:TP311 文獻標識碼:A 文章編號:1007-9416(2020)06-0219-02
0 引言
在線銷售蓬勃發展,帶來了大量的產品評論,產品評論對潛在顧客具有參考價值,對商家具有商業價值,基于大數據分析經濟銷售在線評論以促進銷售策略。在線評論依附于某種產品存在,針對產品本身以及其具有的屬性進行評價,研究采用依存句法分析對評論文本進行長句分割,然后對分割后的評論文本構建詞向量,再對單字進行過濾,提取出特征詞,進而統計特征詞出現的次數;為了方便分析評論文本特征詞和評級與時間的關系,將時間劃分為片段化,利用最小平方擬合得出指數和線性趨勢線,分析在線評論文本特征詞與產品評級隨著時間動態變化特點和趨勢,以此來確定可以作為追蹤的數據指標并關注產品聲譽的變化;按照文本和評級,采用KNN算法對在線評論文本的產品屬性詞在每個產品評級下的出現頻率進行統計,進而確定產品失敗和成功的衡量標準與銷量的關系,確定產品銷售決策。
1 基于數據挖掘的銷售行為分析模型構建
1.1 構建評論句詞向量
數據預處理直接影響數據的分析結果,會干擾結果的解釋,所以需要進行詞性標注預處理,構建評論句詞向量[2]。通過獲取詞頻、定義和捕捉情感詞、計算每個等級中情感詞的頻率,計算互信息值,來獲取名詞、形容詞和動詞組成評論詞向量,其中表示名詞,表示形容詞,表示動詞。
1.2 基于特征詞信息熵的特征評級
信息熵來度量特征詞分類的穩定性,特征詞熵愈小,系統的穩定性愈大。首先,給予每個情感特征的權重計算,再通過訓練文本分類,對情感特征詞進行評分,計算特征詞信息熵,熵值越小,系統的確定性越大,然后對所有情感詞進行權重的歸一化處理。
1.3 基于互信息的特征項過濾
基于互信息對情感詞進行分析,統計每個等級出現的情感詞頻,并且計算每個詞在每一類的互信息值[1],如公式(1)所示。
互信息的特征項過濾,僅保留特征性較高的詞,對普遍性較高的詞,如分布較均勻、不同類中分布差異不大的詞,則過濾掉。
1.4 基于依存句法分析構建屬性詞-詞頻模型
對評論句進行依存句法分析,并且將句子按照詞性分割。通過匹配句子中詞性的不同,尋找句子成分的邊界,并添加逗號,完成分割[2]。詞性標注能判定句子中每個詞的詞性,判定該詞在劇中所處的成分外,更能體現詞與詞之間的依存關系,通過聯合多個詞的句法和詞性標注的方式,加入了大量的上下文特征。
實驗通過Python程序,在Matplot仿真情感詞在不同評級下的互信息值,采用KNN分類算法對文本進行分類,系統在訓練集中對待分類文本,找與其最近的個近鄰,這個近鄰中的大多數屬于哪一類別,就把待分類文本歸為哪一類。具體步驟如圖1所示。
建立了基于依存句法分析構建屬性詞-詞頻模型,以此來為后續的基于時間模式的情感詞評論文本和評級模型來做基礎模型,便于統計和觀察基于時間模式下,產品評論和評級的變化趨勢,對產品聲譽好壞進一步挖掘評定。
2 基于時間模式的情感詞評論和評級模型
2.1 基于時間的用戶評論行為分析
從兩方面進行分析:一是分析在線用戶評論行為的時間分布規律,分別以月和年為時長片段,作為統計用戶評論行為的基礎時間序列;二是將評論的時間間隔作為時間序列,分別計算不同時間序列的用戶評論行為規律,并將時間間隔進行階段劃分,分析各個階段用戶評論數據的特征[3]。
2.2 不同評級的趨勢線擬合
應用趨勢線,即回歸分析,應用趨勢線擬合數據,預測未來銷售情況[4]。將產品評級作為因變量,按時間段(年)作為數據自變量,進行趨勢分析[5],如圖2所示。
可以看出,不同評級數據變化與年階段增長數據趨勢線擬合。包含情感的評論文本和產品評級有直接緊密的聯系,隨著評論文本里負面情感詞的增加,產品的評級降低,直接影響客戶對產品的購買和評價,決定下一步的銷售策略因素最大。
3 結語
此模型從從多個角度分析商業行為,注重各個因素之間的關系,運用大量數據進行仿真和模擬,使數據挖掘更具有說服力。不足之處是對噪音數據的處理不夠,下一步將引入評論中的否定詞、無特殊意義的字母,符號等,結合時效性進行深度分析。
參考文獻
[1] 胡云鳳.基于主題模型的在線評論分析方法研究[D].西安:西安電子科技大學經濟與管理學院,2017.
[2] 石翠.依存句法分析研究綜述[J].智能計算機與應用,2016,3(6):47-48.
[3] 安靜.基于依存句法分析與序列標注的英文長句機器翻譯[J].蘭州理工大學學報,2018,44(1):101-102.
[4] 張艷豐.在線用戶評論行為時間序列關聯特征規律研究[D].吉林:吉林大學管理學院,2018.
[5] 崔永生.在線評論文本挖掘對電商的影響研究[J].中國商貿,2018(33):17-23.