彭沖
(廣東第二師范學院 廣東省廣州市 510000)
客戶與攝影師在使用APP時會提出大量的意見和建議,并通過評價系統進行反映,然后利用人工進行分析。但是在分析時,會有速度慢、主觀化、不全面等問題的出現,不利于意見和建議的有效反饋。因此,利用文本挖掘技術充分、高效地分析攝影師的服務情況、客戶的自我體驗感,既有利于攝影事業的發展,又能為客戶提供高質量的攝影服務。同時,對攝影師的綜合分析,是對于眾多評價的集中反映,也是客戶評論的一種整合。通過性價比、安全性、服務質量、位置距離和攝影風格這五個方面進行量化,判斷分類后的評論情感傾向,得出相應的分數,對于客戶來說能夠對攝影師有更準確地判斷。最后,通過量化后的評分,挖掘特色和亮點,能更好地幫助客戶選擇適合自己的攝影師。
1.1.1 數據描述
數據來源于攝影師和客戶兩者的問卷調查,共有817個樣本數據。
1.1.2 數據預處理
進行一系列去噪操作后,進行去除停用詞、利用jieba庫進行分詞,然后利用Word2Vec進行詞向量的構建,再進行分類。
在分類前,由人工對部分評論進行了五大類的劃分,分別是性價比、安全性、服務質量、位置距離和攝影風格。基于CNN確實對訓練樣本中類別不平衡的問題很敏感,平衡的類別往往能獲得最佳的表現,而不平衡的類別往往使模型的效果下降。所以各類隨機分別標注了200條,保證了在深度學習的過程中,不會因為數據的采樣不均衡而對模型的構造產生不利。
在文本進入分類器之前,需要將文本轉化為計算機能識別的數字形式,其中詞向量是最普遍表現文本數字形式的方式。
詞向量(Word Vector),也被稱為詞嵌入(Word Embedding)。從概念上講,它是指把一個維數為所有詞的數量的高維空間嵌入到一個維數低得多的連續向量空間(通常是128或256維)中,每個單詞或詞組被映射為實數域上的向量。
Word2Vec是Mikolov等所提出模型的一個詞向量訓練工具,可以用來快速有效地訓練詞向量。Word2Vec包含兩種訓練模型,分別是CBOW和Skip_gram。文章使用的訓練模型是CBOW,以期通過模型訓練出評論的詞向量。
1.3.1 卷積神經網絡
文章的分類器運用的是經典深度學習分類器:Textcnn。其主要包括五層:第一層是嵌入層,第二層是卷積層,第三層是池化層,第四層是全連接層,第五層是激活函數與損失函數。Kim的TextCNN語句分類模型如圖1所示。

圖1:Kim的TextCNN語句分類模型
模型共設計了兩個卷積層,兩個全連接層,卷積核尺寸[3,4,5],batch_size定義每次訓練的批量數(整數型),兩個模型分別為256、128,epochs指訓練模型的次數,分別為66、82。validation_split即要用作驗證數據的訓練數據分數,兩個模型都為0.1。
1.3.2 模型效果
文章對文本分類模型進行評價時,采用準確率(Accuracy)和損失率(Loss)來作為性能評價指標。
由圖2、圖3可知,通過模型的訓練,攝影師評論和客戶評論分類任務的整體準確率分別達到了98%、94%,同時模型的損失率也分別降到了0.18、0.14,可見經過數據預處理詞向量構建的卷積神經網絡的分類模型效果較好。
評價指標體系:
SnowNLP是一個分析文本情感的工具。在利用SnowNlp進行情感分類時,是通過返回值的大小判斷情感是趨于正面還是趨于反面。返回值情緒的概率越接近1表示正面,越接近0表示負面。
SnownNlp的情感分類基本模型是貝葉斯模型。在SnowNlp進行情感判斷的過程中,首先進行數據預處理,然后讀入正樣本和負樣本,并對于讀入的文本進行分析,最后得出情感評分([0,1])。
樸素貝葉斯是基于貝葉斯決策的分類方法,是使用條件概率來分類的。假設有一個二分類問題,分A1類和A2類。假設樣本有兩個特征x和y,則需要分別求解條件概率P(A1|x,y)和P(A2|x,y)。而P(Ai|x,y)可以表述為:

由于特征之間是相互獨立的,所以P(x,y|Ai)=P(x|Ai) P(y|Ai)。如果P(A1|x,y)>P(A2|x,y),那么屬于A1類;如果P(A1|x,y)
基于SnowNlp計算的評價情感傾向結果得分在[0,1]之間,將情感得分轉換為5分制的評價等級得分,相應為:SnowNlp得分[0,0.2]對應5分制得分[0,1],以此類推SnowNlp得分[0.8,1]對應得分[4,5]。

圖2:攝影師評論卷積神經網絡模型準確率圖

圖3:用戶卷積神經網絡模型準確率圖
衡量本次評價結果用的方法是計算結果與實際評分之間的均方誤差(Mean Squared Error)來對模型進行評價。
均方誤差是指參數估計值與參數真值之差平方的期望值。MSE可以評估數據的變化程度,MSE的值越小,說明預測描述實驗數據具有更好地精確度。

攝影師評價模型的MSN評價結果如下:

APP評價模型的MSN評價結果如下:

兩個基于卷積神經網絡搭建的模型在經過數據預處理、人工標注的數據驗證以及MSE檢驗后,得到了不錯的效果,兩個模型的均方誤差均小于0.2,與參數真值擬合較好,說明模型具有實用性和真實性。
根據SnowNlp情感分析的分數,得出的攝影師與APP總得分的分布情況。我們根據得分的高低分把APP和攝影師分為三個層次:
高層次:4.5分以上:中層次:4.0-4.5分:低層次:4.0分以下。
攝影師與APP各層次分布比例為:攝影師總評得分分布高層次占30%,中層次占42%,低層次占28%。APP總評得分分布高層次占50%,中層次占44%,低層次占6%。
3.2.1 攝影師評分
在攝影師方面,通過對某些位置的客源、環境、交通等方面的數據進行分析,可以得出對于攝影師而言的最佳流動位置。
例如:攝影師A30在以老虎、長頸鹿、大象等動物為主要欣賞對象的景點有較好的發展前景,該區域深受小孩子歡迎。交通便利,地鐵直達。服務態度好,動物種類多,還有動物模型、電子互動游戲等配套設備。攝影環境好、綠化帶大、空氣較清新。總體來說,該攝影地性價比高,值得進行攝影師及設備的普及。
3.2.2 客戶及APP評分
模型將性價比、安全性、服務質量、位置距離和攝影風格這五個方面數據進行分析處理。在性價比方面,客戶傾向于在30-40元區間的攝影價格。在安全性方面,客戶多偏向于從評分與攝影接單數來判斷一個攝影師的安全性。在攝影風格方面,客戶偏向于清新自然的風格,對攝影師的修圖技術要求不高。經篩選,客戶在城區、著名景區、特色建筑等區域流量大、需求高,對攝影師的需求量較高,對APP的評價喜歡程度較高,具有普及價值。
文章基于卷積神經網絡模型和樸素貝葉斯模型解決了攝影師與客戶在APP上的評論分類、評分、文本有效性等問題。通過合理的模型搭建以及在原數據集的基礎上進行合理的人工標注,使模型貼近真實值,基本實現了原先設立的目標。