999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于商品描述文案的點擊預測模型

2022-12-31 00:00:00黃皓炫盛武
計算機應用研究 2022年8期

摘要:為了預測商品描述文案中商品特征對點擊的影響、量化分析用戶的消費行為特征及緩解冷啟動問題,建立了一種基于LDA模型和文本情感分析的點擊預測模型。該模型基于LDA主題模型對商品描述詞的分類篩選對構成詞進行情感分析,構建特征向量以表示用戶對商品各特征的情感傾向,并通過LightGBM算法進行點擊的預測。模型可以將非結構化文本數據轉換為結構化數據,量化用戶對商品不同特征的興趣傾向,并利用不同商品的相似特征緩解冷啟動問題。實驗結果表明,該模型有效提高了點擊預測效果并能緩解冷啟動問題。

關鍵詞:LightGBM; 點擊預測; 文本情感分析; LDA主題模型; 冷啟動

中圖分類號:TP391文獻標志碼:A

文章編號:1001-3695(2022)08-030-2422-05

doi:10.19734/j.issn.1001-3695.2022.01.0025

Click prediction model based on product description

Huang Haoxuan, Sheng Wu

(College of Economics amp; Management, Anhui University of Science amp; Technology, Huainan Anhui 232001,China)

Abstract:In order to predict the impact of commodity characteristics on click in commodity description copy, quantitatively analyze users’ consumption behavior characteristics and alleviate the cold start problem, this paper established a click prediction model based on LDA model and text emotion analysis. By means of the classification and screening of the commodity description words by the LDA topic model, the model analyzed the emotion of the constituent words, constructed the feature vector to represent the user’s emotional tendency to the characteristics of the commodity, and predicted the click through the LightGBM algorithm. The model transformed unstructured text data into structured data, quantified users’ interest in different characteristics of goods, and used the similar characteristics of different goods to alleviate the cold start problem. The experimental results show that the model can effectively improve the click prediction effect and alleviate the cold start problem.

Key words:LightGBM; click prediction; text sentiment analysis; LDA topic model; cold start

0引言

網購平臺上有很多商家等撰寫的商品描述文案,其中往往包括了對商品的外觀、尺寸、顏色、功能、打折信息等多方面多角度的詳細描寫,體現了行業從事者對消費者核心需求的思考、對同行及自己產品賣點特征的判斷。產品的屬性特征是多方面的,對消費者的吸引力也各有區別,有研究表明,商品描述的差異會影響消費者的購物意愿[1,2]。通過研究商品描述及其商品點擊量的不同,可以了解到消費者對商品不同屬性點的偏好和需求的差異。相比能夠直接體現用戶對商品主觀感受的購物后的用戶評價,購物前的商品描述更能反映消費者的消費沖動,體現了消費者的核心需求。對商品描述的研究,不僅可以為消費者更高效獲取商品信息提供支持,也能為商家改善商品性能、研發新產品、調整商品賣點宣傳提供依據。

目前國內外專門針對電商領域的中文商品描述的研究比較少,與此研究問題涉及內容相近的研究主要有計算廣告領域的點擊率預測研究、推薦系統領域的評分預測研究等。點擊率預測是計算廣告領域中一個重要的研究內容[3],因為按點擊付費是互聯網廣告的主要計價模型之一,通過對點擊率的預測研究,可以在提高廣告主的投資回報率的同時最大化用戶對展示廣告的滿意程度[4]。點擊率預測模型主要分為基于歷史日志的預估模型和基于稀疏數據的預估模型,前者基于廣告豐富的歷史數據(如廣告的位置、內容等),然后通過邏輯回歸、貝葉斯網絡等算法進行對點擊率的預測[5~7]。但這些方法的缺點是難以處理稀疏數據型的廣告或新廣告,因此誕生了如基于層次聚類分析、相似項、因子分解機等方法的預估模型[8~10]。文獻[4]從廣告語義的角度出發,通過LDA主題模型以挖掘廣告文本中的主題,以廣告與主題的相關性基于FM模型建立了點擊率預測模型,證實了文本語義與點擊的相關性。

推薦系統是在大量數據中篩選出最符合用戶需求偏好的結果推薦給用戶的一種系統[11,12]。其中,協同推薦算法作為推薦系統中最主流的算法之一,主要通過用戶對項目的評分來研究用戶與項目之間的關聯進行預測[13]。不過,早期的推薦系統算法主要將商家視做一個商品,通過尋找相似商品或相似用戶進行推薦。隨著互聯網的發展、社交網絡的興起,用戶和商戶的互動在不斷增加,評論信息數量不斷攀升,文獻[14]通過分析用戶的評論建立評分矩陣,提出了一種基于高斯模型的優化算法來研究用戶在商品不同方面的偏好;文獻[15]從常用詞或形容詞的角度建立詞袋來構建評分預測模型;文獻[16]則通過LDA主題模型提取評論的主題特征分布作為自變量構建評分預測模型。這些方法根據對用戶評論文本的分析處理,探究了文本信息與評分的關聯性,從評論文本語義的角度構建評分預測模型。針對如何進一步提高評分預測的精度,有學者通過融合其他因素或方法來解決這個問題,并獲得了良好的效果。文獻[17]融合元數據和評分數據構建特征變量進而對評分進行預測;文獻[18]則基于文本情感分析對文本數據進行情緒挖掘與分析,從而提取文本中的主要觀點傾向,將其作為自變量構建了評分預測模型,并取得了較好的評分預測效果。

在以上相關研究中,本文與文獻[16,18]的研究內容較為接近,都是通過對非結構化文本信息進行分析從而構建預測模型。其中主要區別如下:

a)預測的目標不同。文獻[16,18]都是根據評論構建評分預測模型,關注的是商品的售后口碑,本文則通過對商品描述文案不同特征的情感分析及LightGBM的可解釋性構建點擊模型,更關注商品中不同屬性對消費者的吸引力影響。

b)特征量化角度不同。文獻[16]通過使用LDA主題模型對文檔詞語進行主題分類,以分詞出現的概率作為各特征的量化值。本文考慮到商品不同功能對消費者的吸引力不同,以商品各特征的情感傾向作為量化值,進一步提高了預測效果。

c)特征值的量化不同。在情感分析中,情感詞的確立及情感權重的加權都是十分重要的,文獻[19,20]通過基于評論文本中通用情感詞典的積極、消極等情感詞進行整段評論的情感分析。但對于商品描述文案而言,文本主要由對商品的描述詞語組成,以功能性詞和積極情感詞為主,通用的情感詞典無法反映消費者的情感傾向。本文通過對商品特征進行分解,以與商品特征關聯度較高的詞作為情感詞,再通過定義一個情感傾向計算公式作為消費者的情感傾向權重,因而具有普適性,不需要預定的情感詞典,并可應用到不同商品的不同特征。

d)冷啟動問題。傳統協同過濾算法利用用戶對商品的評分數據進行推薦,存在數據稀疏性和冷啟動問題[21]。本文基于對商品描述文本的挖掘,以用戶對商品的特征偏好構建預測模型,可以通過具有相似特征的商品的數據模型來解決新商品缺乏數據的問題,從而緩解商品的冷啟動問題。

基于此,本文通過分析商品描述文本及點擊量之間的關系,提出一種基于商品描述文案的點擊預測模型。首先利用jieba分詞對商品描述文本進行詞語級分割,以及通過停用詞去除無關詞語;然后利用LDA主題模型提取商品隱含特征,建立商品的屬性分類;再基于各詞匯的概率分布及權重量化文本情感值,將商品描述文本特征量化;最后通過LightGBM算法模型對商品的點擊進行分類預測,分析商品各項特征對點擊量的影響挖掘用戶的行為特征,并緩解冷啟動問題。

1基于商品描述的點擊預測模型設計

本文基于LightGBM和文本情感分析的點擊預測模型主要包括數據預處理、特征提取、文本情感分析、LightGBM模型訓練和結果分析五個部分,模型框架如圖1所示。

1.1特征提取

不同于便于提取分析的結構化數據,商品描述文案的結構不規則,不符合預設的既定處理方法,屬于非結構化數據。其中,在對原始語句進行中文分詞和去除停用詞后,本文通過LDA主題模型對詞語的主題分類,從而獲得研究目標的主題分類,以其作為目標的特征屬性,再進行下一步分析。LDA主題模型在2003年提出,是一種基于詞袋模型的分析文檔主題分布的三層貝葉斯概率模型[22],它假設一篇文章具有K個主題,而每個主題又對應不同的詞。因此文檔的生成如下:a)從狄利克雷分布α中取樣生成文檔i的主題分布θi;b)從主題的多項式分布θi中取樣生成文檔i的第j個的主題zi,j;c)從狄利克雷分布β中取樣生成主題zi,j對應的詞語分布φz i,j;d)從詞語的多項式分布φz i,j中取樣生成最終詞語ωi,j。重復步驟b)~d)從而生成文檔i。

基于此,LDA主題模型通過逆向該過程,即給定文檔i及詞語,然后通過吉布斯采樣(Gibbs sampling)方法反推其主題的分布,從而獲得文檔i的K個主題及組成主題的詞語組。根據文檔劃分的K個主題,商品Ii的特征詞組可以記為ηi=[ηi1,ηi2,…,ηiK]。其中,ηiK表示商品Ii中與主題K的相關性詞的組合,若不存在相關詞,則ηiK為。其中,相關性詞為與主題K相關性最高的前1 000個詞。模型結構如圖2所示。

1.2文本情感分析及特征量化

文本情感分析又稱為傾向性分析或意見挖掘,是通過計算、分析、歸納文本信息,從而獲得其中的觀點、情緒或傾向的過程。根據粒度細分的不同,可以分為篇章級、句子級和詞語級三個層次,即對一篇文章、一個句子或一個詞的情感傾向分析。本文在獲得預處理后的文本后,把每個商品描述文案的點擊量作為其對應的情感傾向,然后基于統計方法進行情感分析,從而獲得詞語的情感傾向。由于點擊量分布的位置平均數靠左、峰度陡峭、數值范圍跨度大,若直接取其詞語的數學期望作為其情感傾向會導致高點擊量的權重過大,所以取詞語的點擊量進行對數處理后的數學期望作為詞語的情感傾向,點擊量分布如圖3所示。

最后,詞語的情感傾向計算如下:

ωt=1V∑Vv=1log10Cv(1)

其中:ωt表示詞語t的情感值,V表示包含詞語t的商品描述文案的頻數,Cv表示第v個詞語的點擊量。

根據商品Ti的特征詞組ηi,通過情感傾向計算公式可獲得商品Ii的特征向量ψi=[ψi1,ψi2,…,ψiK]。其中,ψiK表示商品Ii的第K個特征的特征值。特征值的計算如下:

ψiK=∑T1wt(2)

其中:T表示相關詞特征詞組ηiK中的詞語數。若特征詞組ηiK中沒有其特征詞,則ψiK=0。特征量化的過程如圖4所示。

1.3LightGBM算法

在上述特征向量構建完成后,將特征向量作為自變量輸入LightGBM模型。LightGBM模型是由微軟于2017年開源的一種基于決策樹的集成算法[23]。相較于XGBoost、GBDT等算法在計算信息增益時需要掃描所有樣本以找到最優劃分點,LightGBM模型采用Histogram、GOSS、EFB等方法,在面對大量數據或者特征維度很高的數據集時,具有更快的訓練速度、更低的內存消耗和更好的準確率等優點。

a)Histogram算法。通過對每個特征進行分箱(bin)處理構造成一個寬度為k的直方圖,在遍歷數據時根據分箱在直方圖中累積統計量,根據遍歷后的累計統計量遍歷尋找最優的分割點。

b)GOSS算法,又名單邊梯度采樣算法。從減少樣本的角度出發,根據信息增益的定義排除大部分對信息增益影響小的梯度小的樣本,保留梯度大的樣本。GOSS算法先將進行分裂的特征的所有取值按絕對值大小降序排序,選取絕對值最大的a×100%個樣本,再從剩余數據中隨機選取b×100%的樣本,并乘以一個常數,從而減少改變原數據集分布的影響。

c)EFB算法,可以通過將一些特征融合綁定從而降低特征數量。LightGBM的EFB算法將獨立特征綁定轉換為圖著色問題,構建一個加權無向圖,將所有特征視為圖的各個定點,將相互不獨立的特征用一條邊鏈接,邊的權重即為兩個相互連接的特征的總沖突值,選取沖突小的特征融合從而解決數據稀疏問題。

2實驗過程

2.1數據獲取

本文實驗選取自阿里云天池實驗室的公開數據Product Description[24],以其中content數據包中商品的描述文案及各類用戶的點擊量信息為實驗數據。本文所用點擊量若無特別說明外均為所有類型用戶點擊量之和,且缺失值視為0。篩選以“外套”為關鍵詞的數據作為研究對象,共包含34 892條數據,其點擊量分布如圖3所示,其點擊量百分位數如表1所示。

根據樣本的點擊量分布,將點擊量劃分為普通點擊量和高點擊量兩類。由于商品的推薦算法大多以用戶的點擊率(CTR)為主要優化目標,導致當某一類商品的點擊率越高時就會得到更多的曝光,所以點擊量往往呈現兩極分化的趨勢。一般而言,曝光度低的商品的點擊量主要與其商品的屬性相關,而曝光度高的商品的點擊量則容易受到各方面的影響。由此,本文對點擊量的劃分以離群值的判定為基礎。離群值也稱做溢出值,一般是指數據中與其他觀察值具有明顯不同特征的那些觀察值。在此以四分位法劃分離群值線,其計算如下:

Outl=Q75+(Q75-Q25)×1.5(3)

其中:Q25、Q75分別代表樣本中點擊量從小到大排列后的第25%和第75%的值。記普通點擊量為0,高點擊量為1,則普通點擊量的樣本數為28 667,高點擊量的樣本數為6 225,比值為4.61,因此本樣本為不平衡樣本。

2.2數據處理及特征量化

本文在獲取商品描述文本后,數據處理流程如下:

a)文本預處理。對商品描述文本進行預處理,對數據進行清洗,篩選出目標數據集;然后對商品描述文本信息進行jieba分詞,將每個樣本的文本轉換為詞組;再通過停用詞表過濾掉不重要的詞語,如“的”“啊”“!”等助詞和符號。

b)特征提取。對預處理完的文本建立詞典,使用LDA主題模型進行主題分析。對不同主題數分別進行迭代對比,當主題數num_topics=6時,主題比較清晰,主題分布如圖5、6所示。

如圖5主題詞云圖所示,六個主題可大致標記為“風格”“設計”“保暖”“換季”“穿搭”“身材”六個特征。而在主題分布圖中,圓圈表示不同的主題以及它們之間的距離,類似的主題看起來更近,而不同的主題更遠,圖中主題圓的相對大小對應于語料庫中主題的相對頻率。如圖6主題詞分布圖所示,6個主題的氣泡較為分散,僅主題1和3有少量相交部分,證明該主題劃分較為清晰獨立,有較高的區分度。

c)特征量化。根據預處理后的分詞構建詞典,按式(1)計算每個詞的情感傾向從而構建情感詞典。對每個商品描述按主題進行特征分類,根據情感詞典按式(2)對各特征值進行計算。其中,頻數少于10,與主題關聯度高低排名超過1 000的詞不參與特征的量化,以避免小概率事件的影響。部分特征量化后的商品描述如表2所示。

2.3LightGBM模型訓練

在訓練過程中,將數據集按7∶3比例分成訓練集和測試集,使用5折交叉驗證及網格搜索(grid search)窮舉的方式對模型進行調參。將需要調參的參數值分別進行訓練,以5折交叉驗證的平均得分作為模型最優參數,然后進行下一步的調參直到調參完成,過程如圖7所示。圖中實線為模型在各個參數值下的5折交叉驗證平均得分,色塊上端和下端分別為得分的最高分和最低分。其中,模型所訓練的樣本數據為不平衡數據,正負樣本比值為4.6。本文通過正負樣本懲罰權重的方法對分類中不同樣本數量的類別分別賦予權重,即對LightGBM模型的參數scale pos weight進行設置,設置值為5。

3實驗結果及分析

3.1模型的評價及對比

由于本文使用的是不平衡樣本,本文將選用AUC值作為模型之間的主要評價指標。AUC值被定義為ROC曲線下與坐標軸圍成的面積,一般用于表示模型的綜合性能,其特點是不容易受到不平衡樣本的影響。以普通點擊量為負例,高點擊量為正例,當樣本不平衡時,若模型的預測偏向于比例大的負例時,會導致模型的準確率偏大,不能客觀反映模型的性能。而對于不平衡樣本,對比例小的正例樣本的預測識別也相當重要,召回率可以表示樣本中的正例有多少被正確預測了。因此本文用準確率和召回率指標作為輔助參考指標。

另外,為了驗證模型的有效性,本文將添加已有模型的對比,以及與XGBoost、隨機森林、SVM、KNN等主流分類算法進行對比。其中,LGBM是以主題概率量化特征構建的LightGBM模型,XGBoost等算法也通過相同的調參方法(5折交叉驗證及網格搜索)進行調參,以確保對比的公平性。

模型性能對比結果如表3所示,從AUC值看,改進后的LightGBM模型的AUC值達到了63.13%,比以主題相關性量化特征的LightGBM模型的AUC高了3.43%,比XGBoost、隨機森林、SVM、KNN算法分別高了0.39%、10.02%、2.48%、8.63%,證明了式(1)能夠反映消費者的情感傾向,且LightGBM模型性能也比其他算法更優。

從準確率和召回率的角度來看,隨機森林、SVM、KNN算法的準確率明顯更好,但召回率極低,證明這三種算法對高點擊樣本的識別能力有限,模型效果差。而改進后的模型的準確率和召回率都比改進前的模型更好,再次證明了改進的有效性。

模型的學習曲線如圖8所示,隨著樣本數的增加,訓練集模型的得分在不斷下降,而測試集的得分在不斷上升,兩者得分開始接近且逐漸趨于平穩。這表明隨著樣本數的繼續增加,模型能獲得更好的性能。

LightGBM算法可以通過各個特征提供的信息增益來評估特征的重要性,而特征的重要性可以作為商品各個特征對用戶的整體吸引程度。特征重要性如圖9所示,可以認為外套的“保暖”“風格”方面的特征更能直接影響用戶的點擊,因此企業可以通過加大或重點宣傳商品的這兩方向特征,從而使生產的商品獲得更高的點擊。另外,企業可以根據商品不同特征的情感詞典測試商品功能的組合,并通過本文模型進行預測,發掘消費者需求,調整商品未來的研發方向,降低試錯成本,研發更可能受到消費者青睞的產品。

3.2數據污染及新文本效果分析

本文中模型的情感詞典是基于所有樣本構建的,存在數據污染的可能,本節通過分層抽樣的標準5折交叉方法劃分所有樣本,訓練集和驗證集比例為8∶2。僅以訓練集數據構建情感詞典,測試集不參與情感詞典的構建,從而驗證新樣本或新數據對模型性能的影響及模型與情感詞典的關系。

如表4所示,五個數據集的AUC值均穩定在61%~63%,平均AUC值為62.17%,十分接近原數據集的AUC分數,表明模型在情感詞典改變后依然有良好的性能,證明了數據污染的影響很低或沒有影響,對新樣本也保持著相似的預測能力。而平均值與原模型AUC值的差距很可能是由于構建情感詞典的樣本數量減少所導致的,根據大數定律,當樣本足夠大時,該差距無限接近于零。

3.3冷啟動問題分析

本節通過對目標商品的近鄰商品的模型適應效果分析來探討冷啟動問題對模型的影響。具體做法是用相同方法篩選對比商品的描述文案樣本,并觀察其在目標商品模型中的性能表現。商品關系及模型性能如圖10所示。其中AUC是以“外套”建立的情感詞典,使用各商品各自的樣本訓練的預測模型的性能得分,反映的是“外套”的商品特征在其他商品中的有效性;原AUC及原召回率則是直接使用原商品模型對其他商品樣本進行預測的模型性能,反映了原商品模型對其他商品樣本的預測能力;為了客觀闡述商品之間的關系,除了根據商品分類劃分商品外,還通過信息論中正點互信息公式(PPMI)計算總樣本庫中目標商品和其他商品關鍵詞的關系(即圖10中各商品括號內數值)。其中PPMI越大,表明商品之間關聯性越高。按PMMI排名的模型性能如表6所示。

對于無關商品,由圖10和表5可知,“零食”與“外套”兩種商品可視做無關商品。其中,“零食”的AUC值為51.26%,表明“零食”僅具備“外套”很少的商品特征;原AUC值為49.61%,表明原模型對“零食”商品幾乎沒有識別能力,與現實情況大致相符。

對于近鄰商品,由圖10可知,模型對近鄰商品的點擊量依然保留著一定的識別能力。其中,直系商品(衣服、夾克、棉衣等)的AUC值及原AUC值都比同類商品(T恤、襯衫)更高,表明用戶對直系商品的特征有著更相似的偏好。從AUC值看,直系商品的模型性能有著明顯更高的得分,而同類商品則較低,且接近無關商品的得分,這可能是由于同類商品中特征的著重點不同所導致的,與現實中對外套、棉衣等商品的關注點與T恤等明顯不同這一情況大致符合。從PPMI看,除“衣服”外,與原商品之間的關聯度(PPMI)越高,則模型在該商品的適應性就越強。基于這個特性,對于缺乏歷史樣本的新商品,可以通過篩選與新商品的直系商品或關聯度高的商品的樣本進行建模,從而緩解物品的冷啟動問題。企業也能通過對比近鄰商品特征的情感詞典,挖掘具備其他商品特征新產品的可能。

4結束語

本文通過挖掘商品描述文案中的商品屬性構建一個基于LightGBM的點擊預測模型。該模型可以對商品非結構化文本信息進行量化,獲得用戶對商品各特征的情感傾向,同時利用LightGBM可解釋性,根據特征重要性排序識別出對商品點擊影響較大的主要因素,從而可以為商品提供宣傳和研發上的決策支持。針對新商品的冷啟動問題,模型利用不同商品特征的相似性,使得模型能在新商品缺少歷史數據的情況下進行點擊預測。實驗結果證明,該模型較以主題概率量化特征構建的模型具有更好的預測效果,同時模型對新商品的預測性能與商品的關聯度呈正相關。本文模型是從對商品描述屬性對點擊量的影響分析問題,用LDA主題模型對商品特征的劃分帶有一定主觀性,也沒有考慮到商品圖片、價格等其他信息對商品點擊的影響,模型性能不夠高。未來工作可以通過使用更合適的主題模型及結合圖像識別等技術進一步挖掘商品特征,以進一步提高模型的預測性能或可靠性。

參考文獻:

[1]張秋韻, 郭斌, 郝少陽, 等. CrowdDepict:多源群智數據驅動的個性化商品描述生成方法 [J]. 計算機科學與探索, 2020, 14(10): 1670-1680. (Zhang Qiuyun, Guo Bin, Hao Shaoyang, et al. CrowdDepict: personalized recommendation content generation based on heterogeneous crowdsourced data [J]. Journal of Frontiers of Computer Science amp; Technology, 2020, 14(10): 1670-1680.)

[2]Chan Zhangming, Chen Xiuying, Wang Yongliang, et al. Stick to the facts: learning towards a fidelity-oriented e-commerce product description generation [C]// Proc of Conference on Empirical Methods in Natural Language Processing and the 9th International Joint Confe-rence on Natural Language Processing. Stroudsburg, PA: Association for Computational Linguistics, 2019: 4959-4968.

[3]劉夢娟, 曾貴川, 岳威, 等. 面向展示廣告的點擊率預測模型綜述 [J]. 計算機科學, 2019, 46(7): 38-49. (Liu Mengjuan, Zeng Guichuan, Yue Wei, et al. Review on click-through rate prediction models for display advertising [J]. Computer Science, 2019, 46(7): 38-49.)

[4]朱志北, 李斌, 劉學軍, 等. 基于LDA的互聯網廣告點擊率預測研究[J]. 計算機應用研究, 2016, 33(4): 979-982. (Zhu Zhibei, Li Bin, Liu Xuejun, et al. Research on click-through rate prediction of Internet advertising based on LDA [J]. Application Research of Computers, 2016, 33(4): 979-982.)

[5]Joachims T. Optimizing search engines using click through data [C]// Proc of the 8th ACMSIGKDD International Conference on Knowledge Discovery and Data Mining. New York: ACM Press, 2002: 133-142.

[6]Guo Fan, Liu Chao, Kannan A, et al. Click chain model in Web search [C]// Proc of the 18th International Conference on World Wide Web. New York: ACM Press, 2009: 11-20.

[7]Graepel T, Candela J Q, Borchert T, et al. Web-scale Bayesian click-through rate prediction for sponsored search advertising in Microsoft’s Bing search engine [C]// Proc of the 27th International Conference on Machine Learning. Madison, WI: Omnipress, 2010: 13-20.

[8]Regelson M, Fain D. Predicting click-through rate using keyword clusters [C]// Proc of the 2nd Workshop on Sponsored Search Auctions. 2006.

[9]Richardson M, Dominowska E, Ragno R. Predicting clicks: estimating the click-through rate for new ads [C]// Proc of the 16th International Conference on World Wide Web. New York: ACM Press, 2007: 521-530.

[10]Rendle S. Factorization machines [C]// Proc of the 10th IEEE International Conference on Data Mining. Washington DC: IEEE Computer Society, 2010: 995-1000.

[11] Sun Mingxuan, Lebanon G, Kidwell P. Estimating probabilities in recommendation systems [J]. Applied Statistics, 2012, 61(3): 471-492.

[12] Liu Hongyan, He Jun, Wang Tingting, et al. Combining user prefe-rences and user opinions for accurate recommendation [J]. Electro-nic Commerce Research amp; Applications, 2013, 12(1-6): 14-23.

[13]趙巖, 劉宏偉. 推薦系統綜述[J]. 智能計算機與應用, 2021, 17(7):228-233.(Zhao Yan, Liu Hongwei. Survey on recommender systems [J]. Intelligent Computer and Applications, 2021, 17(7):228-233.)

[14]Li Xin, Xu Guandong, Chen Enhong, et al. MARS: a multi-aspect recommender system for point-of-interest [C]// Proc of the 31st IEEE International Conference on Data Engineering. Washington DC: IEEE Computer Society, 2015: 1436-1439.

[15]Fan Mingming, Khademi M. Predicting a business star in Yelp from its reviews text alone [EB/OL]. (2014-01-05). https://arxiv.org/ftp/arxiv/papers/1401/1401.0864.pdf.

[16]楊貴軍, 徐雪, 趙富強. 基于LightGBM算法的用戶評分預測模型及應用 [J]. 數據分析與知識發現, 2019, 3(1): 118-126. (Yang Guijun, Xu Xue, Zhao Fuqiang. Predicting user ratings with XGBoost algorithm [J]. Data Analysis and Knowledge Disco-very, 2019, 3(1): 118-126.)

[17]丁勇, 陳夕, 蔣翠清, 等. 一種融合網絡表示學習與LightGBM的評分預測模型 [J]. 數據分析與知識發現, 2020, 4(11): 52-62. (Ding Yong, Chen Xi, Jiang Cuiqing, et al. Predicting online ratings with network representation learning and XGBoost[J]. Data Analysis and Knowledge Discovery, 2020, 4(11): 52-62.)

[18]張紅麗, 劉濟郢, 楊斯楠, 等. 基于網絡用戶評論的評分預測模型研究[J]. 數據分析與知識發現, 2017, 1(8): 48-58. (Zhang Hongli, Liu Jiying, Yang Sinan, et al. Predicting online users’ra-tings with comments [J]. Data Analysis and Knowledge Disco-very, 2017, 1(8): 48-58.)

[19]史偉, 王洪偉, 何紹義. 基于微博情感分析的電影票房預測研究 [J]. 華中師范大學學報:自然科學版, 2015, 49(1): 66-72. (Shi Wei, Wang Hongwei, He Shaoyi. Study on predicting movie box office based on sentiment analysis of micro-blog [J]. Journal of Huazhong Normal University: Natural Sciences, 2015, 49(1): 66-72.)

[20]孫春華, 劉業政. 電影預告片在線投放對票房的影響——基于文本情感分析方法 [J]. 中國管理科學, 2017, 25(10): 151-161. (Sun Chunhua, Liu Yezheng. Effects of online pre-launch movie trailers on the box office revenue———based on text sentiment analysis method [J]. Chinese Journal of Management Science, 2017, 25(10): 151-161.)

[21]李曉菊. 協同過濾推薦系統中的數據稀疏性及冷啟動問題研究 [D]. 上海:華東師范大學, 2018. (Li Xiaoju. Research on data sparsity and cold-start problem in collaborative filtering recommendation system [D]. Shanghai: East China Normal University, 2018.)

[22]Blei D M, Ng A Y, Jordan M I. Latent Dirichlet allocation [J]. Journal of Machine Learning Research, 2003, 3(3): 993-1022.

[23]Ke Guolin, Meng Qi, Finley T, et al. LightGBM: a highly efficient gradient boosting decision tree [C]// Proc of the 31st International Conference on Neural Information Processing Systems. Red Hook, NY: Curran Associates Inc., 2017: 3149-3157.

[24]Chen Qibin, Lin Junyang, Zhang Yichang, et al. Towards know-ledge-based personalized product description generation in E-commerce [EB/OL]. (2019-06-05). https://arxiv.org/pdf/1903.12457.pdf.

收稿日期:2022-01-12;修回日期:2022-03-08基金項目:安徽省自然科學基金資助項目(1808085MG212);安徽省高等學校省級教學示范課基金資助項目

作者簡介:黃皓炫(1995-),男,廣東韶關人,碩士研究生,主要研究方向為大數據、數據分析;盛武(1969-),男(通信作者),安徽渦陽人,副教授,碩導,博士,主要研究方向為管理決策與預測、大數據、安全管理(wsheng@aust.edu.cn).

主站蜘蛛池模板: 久久人午夜亚洲精品无码区| 无码国产偷倩在线播放老年人| 亚洲综合片| 色亚洲成人| 乱人伦99久久| 青青青草国产| 久久a级片| 国产黄色视频综合| 97se亚洲综合不卡| 国产呦视频免费视频在线观看| 久久综合国产乱子免费| 日韩福利在线视频| 久久精品中文字幕免费| 亚洲色图欧美| 凹凸国产熟女精品视频| 久久黄色一级视频| 国产精品密蕾丝视频| 黄片一区二区三区| 伊人无码视屏| 国产福利微拍精品一区二区| 亚洲人成网站色7777| 久久不卡国产精品无码| 99福利视频导航| 色吊丝av中文字幕| 亚洲大学生视频在线播放| 亚洲综合网在线观看| 国产丝袜丝视频在线观看| 国产精欧美一区二区三区| 农村乱人伦一区二区| 国语少妇高潮| 国产啪在线91| 亚洲日韩AV无码一区二区三区人| 99热最新网址| 全免费a级毛片免费看不卡| 欧美精品在线看| 亚洲黄色片免费看| 国产成人欧美| 国产一级做美女做受视频| 国产微拍一区| 亚洲综合第一页| 亚洲国产精品不卡在线| 精品久久国产综合精麻豆| 在线亚洲小视频| 国产亚洲欧美在线视频| 欧美视频二区| 热re99久久精品国99热| 992tv国产人成在线观看| 五月天天天色| 呦系列视频一区二区三区| 久久中文电影| 国产欧美日韩va| 亚洲国产精品无码AV| 91探花国产综合在线精品| 久夜色精品国产噜噜| 日本久久网站| 91美女视频在线| 精品91自产拍在线| 日韩免费视频播播| 日韩精品无码免费一区二区三区 | 久久青草精品一区二区三区| 农村乱人伦一区二区| 久久男人资源站| 99在线视频免费| 超碰精品无码一区二区| 人妻丰满熟妇αv无码| 亚洲无码日韩一区| 久久人搡人人玩人妻精品| 亚洲精品在线影院| 亚洲欧洲美色一区二区三区| 免费Aⅴ片在线观看蜜芽Tⅴ| 国产美女叼嘿视频免费看| 狂欢视频在线观看不卡| 国产成人亚洲无码淙合青草| 成人年鲁鲁在线观看视频| 99偷拍视频精品一区二区| 97在线免费| 国产主播在线一区| 久久综合九九亚洲一区 | 91精品国产一区| 亚洲国产欧美国产综合久久 | 国产精品无码一区二区桃花视频| 99精品这里只有精品高清视频|