王慶福
(遼寧行政學院,遼寧 沈陽 110161)
貝葉斯網絡在用戶興趣模型構建中的研究
王慶福
(遼寧行政學院,遼寧 沈陽 110161)
用戶興趣模型對于用戶畫像的刻畫至關重要。用戶畫像是用戶在互聯網中的身份證,完整地構建用戶畫像能夠相對明確地知曉用戶需求,這對于互聯網時代提升用戶體驗非常重要。眾所周知,電商購物、新聞視頻推薦等眾多領域都需要清晰地刻畫用戶畫像,根據用戶的興趣定向推薦相關內容。
用戶畫像;興趣模型;內容推薦
互聯網時代對內容信息的精細化已經越來越明確,傳統的信息粗分類的組合方式已經逐漸淡出人們的視野。信息粗分類方式目前以門戶網站(新浪、搜狐)和一些信息分類網站(58、趕集網)為主要形態。在信息粗分類的基礎上衍生了大量的垂直內容型平臺,今日頭條以咨詢內容推薦為依托已經在國內擁有非常大的用戶群,今日頭條是區別于傳統的門戶新聞類網站,傳統的門戶新聞類網站需要承載太多的內容,而且以熱門推薦為主要方式,今日頭條則以個性戶的推薦方式為主,根據用戶的興趣特點構建內容聚合流。不僅在新聞推薦這一領域,其它領域也不斷衍生出大量的垂直細分頻道。淘寶作為國內最早從事互聯網電商的平臺,淘寶的分類非常廣,從服裝、虛擬充值到票務,大量的分類信息在淘寶上都能夠找到對應的分類,隨后出現以京東為主的電子類產品購物平臺以及后來主打女性購物平臺的蘑菇街和美麗說。可見,隨著社會分工越來越精細化,在互聯網時代中也同樣需要各個領域作精細化分類。
用戶畫像作為用戶在互聯網中的身份證就說明了用戶的一切。從傳統行業到互聯網行業,無不希望能夠精準地構建用戶畫像,這意味著清晰地掌握了用戶需求,就能夠精確地為用戶提供所需要的服務。用戶畫像中一個重要的組成部分是用戶興趣,用戶興趣處于實時變化中,用戶的一些靜態信息基本上處于不變或者長期穩定的狀態,用戶的性別和年齡信息、用戶的居住地信息以及用戶的學歷信息等都非常穩定,因此用戶畫像的關鍵是構建用戶的興趣模型。貝葉斯網絡作為用戶興趣模型構建重要模型,本文主要針對貝葉斯網絡在用戶興趣構建的應用展開研究。
貝葉斯網絡作為機器學習中重要算法,通過將事件中各個狀態構建為網絡中各個節點,各個狀態之間的轉換概率則轉變為節點之間的邊連接權值,對貝葉斯網絡中各個節點之間的邊連接權值進行訓練學習,這便構成了貝葉斯網絡。
1.1 貝葉斯定理
貝葉斯定理就是概率論中的條件概率,如公式1所示:

對公式1進行變化可得公式2。

根據兩個變量的規則變化,推廣到多邊量上,可得公式3:

1.2 貝葉斯推斷
貝葉斯推斷是在貝葉斯定理的基礎上進行變形,P(A)就是先驗概率,是事件B發生之前A事件的概率。P(A|B)是后驗概率,是事件B發生以后發生事件A的概率。
1.3 樸素貝葉斯法
樸素貝葉斯方法是在貝葉斯定理和貝葉斯推斷的基礎上進行條件獨立性假設,通常用來進行分類。為什么要進行獨立性假設呢,其實就是為了簡化計算。因為涉及兩個條件以上的條件概率時計算公式。在構造樸素貝葉斯結構圖時如果事件是條件獨立的P(A|B,C)=P(A),可以進行簡化。
1.4 貝葉斯網絡
樸素貝葉斯方法要求各個事件條件獨立,這個要求在實際場景中很難真實存在,于是就有了貝葉斯網絡,貝葉斯網絡不像樸素貝葉斯要求那么高,各個事件之間不必是條件獨立的。貝葉斯網絡主要包含了條件概率表和網絡結構圖。通常貝葉斯網絡的難點在于如何構建貝葉斯網絡,因此對于貝葉斯網絡的研究也包含了結構學習和參數學習兩個方面。貝葉斯網絡結構如圖1所示。

圖1 貝葉斯網絡結構
簡而言之,用戶畫像是根據用戶社會屬性、生活習慣和消費行為等信息而抽象出的一個標簽化的用戶模型。構建用戶畫像的核心工作即是給用戶貼“標簽”,而標簽是通過對用戶信息分析而來的高度精煉的特征標識。除去“標簽化”,用戶畫像還具有的特點是“低交叉率”,當兩組畫像除了權重較小的標簽外其余標簽幾乎一致,那就可以將二者合并,弱化低權重標簽的差異。
用戶的興趣一般都是基于一定的環境,所以既要考慮到不同的劃分角度,又要考慮到不同時間段內用戶興趣的轉移。如現有的用戶短期興趣模型和長期興趣模型,以及混合興趣模型,將用戶的興趣劃分成相應的等級,根據權值進行度量。興趣的轉移可以通過對比不同時間窗口內用戶瀏覽內容的關鍵字聚類的結果得出。
數據是構建用戶興趣標簽的核心。用戶興趣標簽主要依賴3類數據。
第一,用戶數據。靜態用戶數據:用戶相對穩定的信息,主要包括用戶的自然屬性,商業屬性等方面數據。這類信息,自成標簽,如果企業有真實信息則無需過多建模預測,更多的是數據清洗的工作。動態信息數據:用戶不斷變化的行為信息,用戶搜索了什么商品,瀏覽了哪個頁面,贊了哪條微博消息,發布了積極或消極的評論,這些都是互聯網上的用戶行為,將成為用戶興趣標簽中偏好特征和消費特征的主要依據。
第二,商品數據。客觀商品屬性:商品功能、顏色、尺寸等具體數據。主觀的商品數據:包括商品的定位、風格的因素。商品的數據可認為是商品的標簽數據,需要和用戶的標簽進行關聯。
第三,平臺數據。平臺數據是指用戶和商品交互的平臺,用戶獲取信息的平臺,用戶購買商品的平臺,用戶發布評論的平臺等。不同的平臺對于用戶興趣的貢獻度各有不同,精準的定位平臺信息能夠幫助提升用戶興趣的準確度。
有了上述3類數據之后,需要根據用戶行為構建相應的數據模型產出標簽和權重。每一次用戶行為可以詳細描述為:什么用戶,在什么時間,什么地點,發生了什么事。
從上述建模方法中,可以簡單勾畫出一個用戶行為的標簽權重公式:標簽權重=時間衰減(何時)×網址權重(何地)×行為權重(做什么)。
通過數據建模,企業可以有效地為能覆蓋到的用戶打上標簽,之后結合渠道信息和商品信息,企業可根據需求定向地選擇數據挖掘的方法輸出結果,在營銷決策中,可能得到的結論例如“具有標簽a的人中購買了商品A”“購買商品B的用戶同樣會對商品A感興趣”“商品A的購買人群主要集中于渠道c”等等,這些信息將直接指導企業完成營銷決策。在這個過程中常用的算法包括聚類和關聯規則等,這些算法的核心邏輯可以認為是利用現有事實對未來進行預測的過程。構建流程如圖2所示。

圖2 用戶畫像構建流程
用戶畫像中主要任務是對用戶興趣標簽的刻畫,通過對用戶的行為進行建模,用戶的行為并未呈現單方面的有向性,并且用戶行為大多相互之間存在關聯性,這對于采用貝葉斯網絡進行分析非常合適,用戶各個行為之間構建有向連接,邊連接上權值表示各個行為之間關聯性,通過訓練數據對整個模型進行迭代訓練。
用戶畫像的分析刻畫非常重要。第一,精準營銷,分析產品潛在用戶,針對特定群體利用短信郵件等方式進行營銷;第二,用戶統計,比如中國大學購買書籍人數TOP10,全國分城市奶爸指數;第三,數據挖掘,構建智能推薦系統,利用關聯規則計算,喜歡紅酒的人通常喜歡什么運動品牌,利用聚類算法分析,喜歡紅酒的人年齡段分布情況;第四,進行效果評估,完善產品運營,提升服務質量,其實這也就相當于市場調研和用戶調研,迅速下定位服務群體,提供高水平的服務;第五,對服務或產品進行私人定制,即個性化的服務某類群體甚至每一位用戶(個人認為這是目前的發展趨勢,未來的消費主流)。比如,某公司想推出一款面向5-10歲兒童的玩具,通過用戶畫像進行分析,發現形象=“喜羊羊”,價格區間=“中等”的偏好比重最大,那么就給新產品提供這類非常客觀有效的決策依據;第六,業務經營分析以及競爭分析,影響企業發展戰略。
本文主要分析了用戶畫像在當前互聯網垂直頻道細分中重要性,結合貝葉斯網絡在用戶畫像中重要組成部分-用戶興趣標簽構建中應用展開研究。貝葉斯網絡能夠實現數據全局合理優化的作用,貝葉斯網絡將用戶行為特征映射為網格中各個節點之間轉換權值,提取分析用戶興趣標簽。
[1]張平,劉三陽,朱明敏.基于人工蜂群算法的貝葉斯網絡結構學習[J].智能系統學報,2014(3):325-329. [2]王巍.基于云參數貝葉斯網絡的威脅評估方法[J].計算機技術與發展,2016(6):1-5.
[3]高曉光,陳海洋,史建國.變結構動態貝葉斯網絡的機制研究[J].自動化學報,2011(12):1435-1444.
[4]慕春棣,戴劍彬,葉俊.用于數據挖掘的貝葉斯網絡[J].軟件學報,2000(5):660-666.
[5]王輝.用于預測的貝葉斯網絡[J].東北師大學報:自然科學版,2002(1):9-14.
Research on User Interest Model Construction Based on Bayes Network
Wang Qingfu
(Liaoning Academy of Governance, Shenyang 110161, China)
User interest model is essential for the user portrait depicts.User portrait is the Internet ID card of user, which completely builds user portrait to relatively clear awareness of the needs of users, and it is very important to improve the user experience in Internet age. As we all know, shopping, news video recommendation and other areas are required to clearly portray the user portrait, according to the user's interest oriented recommendation related content.
user profile; interest model; content recommendation
王慶福(1979— ),男,遼寧沈陽,本科,講師;研究方向:計算機網絡與數據庫技術。