
摘要:為了更好地理解評(píng)論和星級(jí)評(píng)價(jià)對在線產(chǎn)品銷售的影響,本文綜合運(yùn)用數(shù)據(jù)科學(xué)方法建立了相應(yīng)的模型,進(jìn)一步完善了在線產(chǎn)品銷售策略。
首先,我們處理數(shù)據(jù),然后簡化條件。缺失的值,重復(fù)的和無用的評(píng)論將在數(shù)據(jù)處理開始時(shí)刪除。第二,我們將諸如vine和verify_purchase之類的數(shù)據(jù)轉(zhuǎn)換為定量數(shù)字,并計(jì)算幫助等級(jí)。最后,使用自然語言處理(NLP)技術(shù)和情感分析將評(píng)論內(nèi)容轉(zhuǎn)換為介于[0,1]之間的定量數(shù)字。總和是文本的最終分?jǐn)?shù)。對于問題1,將其分解為子問題,并逐步回答問題2,其解決方案如下:
制定規(guī)則:當(dāng)評(píng)估得分排在前25%,而詞云的重疊率排在最后25%(詞云:三種詞及其在評(píng)論中的出現(xiàn)頻率;由NLP處理)時(shí),可以判斷該產(chǎn)品具有成功的可能性很高。相反,可以判斷該產(chǎn)品有較大的故障概率。
關(guān)鍵詞:審查數(shù)據(jù)挖掘;層次分析法;情緒分析;方差分析
一、假設(shè)
我們做一些假設(shè)來簡化我們的模型。詳情如下:
(一)沒有零售商通過不誠實(shí)的手段來提高其產(chǎn)品數(shù)據(jù)的可信度。
(二)采用隨機(jī)抽樣以確保可以減少主觀影響。
(三)所選樣本可以代表總體特征,以確保更準(zhǔn)確地描述種群。
二、內(nèi)容
(一)定義
詞云:一組單詞及其出現(xiàn)的頻率。成功詞云:一組肯定詞及其出現(xiàn)頻率。失敗詞云:一組否定詞及其出現(xiàn)頻率。 SC的重疊率:ORSC =當(dāng)前詞云和SCC的重疊部分,當(dāng)前詞云FC:ORFC的重疊率:當(dāng)前詞云與FCC的重疊部分,當(dāng)前詞云
(二)評(píng)估模型
當(dāng)產(chǎn)品符合以下任一條件時(shí),我們將其視為成功或失敗的可能性很高。 (1)成功條件:如果產(chǎn)品平均綜合得分排名前25%,而評(píng)論內(nèi)容與SC的重疊率則超過75%。 (2)故障情況:如果產(chǎn)品平均綜合得分排名不低于25%,而同時(shí)評(píng)論內(nèi)容與FC的重疊率超過75%。
嬰兒奶嘴的SC和FC部分如下:
(三)結(jié)果分析
我們發(fā)現(xiàn),評(píng)估標(biāo)準(zhǔn)與復(fù)審文本的詞匯特性相結(jié)合比單個(gè)評(píng)估標(biāo)準(zhǔn)更加穩(wěn)定和準(zhǔn)確。
三、結(jié)論
在線評(píng)論,星級(jí),有用度和產(chǎn)品銷售之間的關(guān)系被綜合分析如下:
(一)為了定義最大信息的度量,使用層次分析法(AHP)來研究綜合產(chǎn)品評(píng)分,評(píng)論,星級(jí)評(píng)分和幫助評(píng)分之間的關(guān)??系。
(二)時(shí)間序列模型用于建立綜合的時(shí)間得分模型,該模型可用于預(yù)測聲譽(yù)的變化趨勢。
我們已經(jīng)獲得了基于文本的度量和基于費(fèi)率的度量的組合,以指示潛在的成功或失敗產(chǎn)品。
(三)我們計(jì)算了特定星級(jí)評(píng)價(jià)的情感傾向與評(píng)價(jià)內(nèi)容之間的關(guān)系。
(四)我們進(jìn)行了特征詞與星級(jí)評(píng)價(jià)之間的相關(guān)性分析。
參考文獻(xiàn):
[1] Saaty T L.層次分析法決策[J]。國際服務(wù)科學(xué)雜志,2008,1(1):83-98。
[2] Vincent T,Risser L,Ciuciu P.空間自適應(yīng)混合建模用于fMRI時(shí)間序列分析[J]。 IEEE醫(yī)學(xué)影像交易,2010,29(4):1059-1074。
[3] Pang B,Lee L.觀點(diǎn)挖掘與情感分析[J]。信息檢索的基礎(chǔ)與趨勢,2008,2(12):1-135。
[4] Feldstein M S.流動(dòng)性偏好和投資組合選擇理論中的均值方差分析[J]。經(jīng)濟(jì)研究評(píng)論,1969,36(1):5-12。
作者簡介:
王彤(1999-04-),男,天津人,本科學(xué)歷,研究方向:自動(dòng)化專業(yè)。