王鵬越 西安理工大學電氣工程學院
關鍵字:電商評論 文本分析 邏輯回歸
亞馬遜在線市場上有一項售后服務,使客戶能夠對購買進行評分和評論,其中包括“星級評定”、“評論”和“幫助評分”。陽光公司計劃在網上市場上出售微波爐,嬰兒奶嘴和吹風機。本文主要對上述售后服務中提供的三個產品數據集進行分析和支持,以幫助該公司能夠成功開發三個新產品。
根據現有要求,需要預處理三個指標的數據集-星級,評論和幫助等級。因此,首先要對數據進行基本清理,然后提取與上述三個指標有關的數據字段。分析結果表明,對產品給予高評價的購買者應該在評價內容中寫正面評價的評論,反之亦然。在此基礎上,本文嘗試提取評論中的關鍵詞,并以評論的有用性作為判斷評論中關鍵詞正確性的基礎。通過查找評論中關鍵詞與用戶評分之間的相關性,可以建立星級、評論和幫助評分的相關公式,并可以計算其準確性。
由于產品的類別不能影響產品評論的內容與用戶對產品的評價之間的關系,用戶的惡意否定評論應反映在所尋找的數學關系中,因此本文暫時忽略了數據內容邏輯的清除,僅清除存在明顯問題的數據記錄。在確認數據的基本有效性之后,將著重分析與評論相關的字段,包括兩個字段:verified_purchase 和review_body。對于這兩個字段將使用“單詞袋”的思想進行單詞分割,即將這兩個字段的內容分為一個單詞列表,每個單詞的頻率將被記錄。然后將標點符號和停止詞過濾掉,保留具有實際意義的詞。
在獲得每個評論的關鍵詞之后,再計算每個評論的每個關鍵詞的數目。由于兩位有用的字段可以有效地表達評論的有用性,因此很明顯,表明該評論無用的票數是total_votes-helpful_votes,將評論的參考值設置為V,用下式表示為:

為了避免當有用票數等于無用票數時V 為零,將V+1 用作評論的權重W。
本文將每個評論的權重W 乘以每個評論的關鍵詞數,最終結果視為每個評論的預期關鍵詞數。計算評論中帶有負色或正色的預期關鍵字數(評估得分不等于3),并由所有關鍵字及其對應的頻率構成字典。同時去除那些頻率太低的關鍵詞,評論權重W 將影響關鍵詞的排名,從而影響它們是否被去除。最后,找到在高頻下使用的關鍵詞,這些關鍵詞將根據頻率排列以形成關鍵詞組。
將每段文本劃分為關鍵詞,并判斷上述關鍵詞組是否分別出現在文本中。如果有,則在文本向量的相應位置將其標記為1,否則將其標記為0。E 反映了關鍵字組中的第j 個關鍵字是否存在于評論內容的第i 行中,具體可以用下式表示:

由于星級評定既反映了負面態度也反映了積極態度,因此被認為是衡量反對派重要性的指標。星級被標準化為(-1,1)范圍內的值,以適用于邏輯回歸[2]。得分是標準化的得分指標,可以通過下式計算:

由于邏輯回歸可以很好地建立文本向量Xi和得分之間的相關性,因此通過提供的三種商品的數據集訓練邏輯回歸模型,可以寫成:

綜上,模型訓練結束后即可以確定θ的值。
本文結合亞馬遜在線市場的三種產品的數據,通過建立Logistic回歸模型以定量評估商品評論。首先,基于文本挖掘清理了文本數據集,并考慮了關鍵字頻率統計信息。同時,考慮到有效投票對詞頻的影響,通過自建詞庫對文本進行矢量化處理。最后與購買者的評價標準建立了邏輯回歸模型,以獲取定量得分。本文模型合理地消除了高頻人稱代詞和低頻詞的干擾,使結果更加準確。