尹健康 梁筱雨 劉志 陸梓祺
(1.四川省成都市煙草專賣局(公司) 四川省成都市 610000 2.云南中煙工業有限責任公司營銷中心 云南省昆明市 650000)
阿蘭康博(Alan cooper)為了解決用戶分類如何從抽象數據轉化為可視化的形象數據的過程,提出了用戶畫像的工具。用戶畫像方式非常符合大數據與商業結合后的需求,能夠將采集來的海量用戶數據進行分類研究,在個性化推薦、精準營銷、商業決策等領域被廣泛應用[1]。
一般認為第三方群體用戶一般是從網絡社交平臺衍生而來,通過與微博、微信、QQ、臉書、YouTube 等的商業化合作,將第三方用戶與合作企業的數據在合理、合法、合規的前提下進行整合[2]。
某卷煙企業第三方群體平臺中提取的基礎數據包括:人口屬性和人生狀態、生活工作、活動范圍等等。人口屬性:性別、年齡、學歷;人生狀態:育兒、戀愛、懷孕、備孕、新婚;生活工作:工作習慣、交通出行、行業;活動范圍:常住地、家鄉[3]。如表1 所示。
某卷煙企業第三方群體平臺中提取的移動通信設備屬性數據包括:品牌、機型、上市時間、設備價格、運營商。如表2 所示。
某卷煙企業第三方群體平臺中提取的垂直行業屬性數據包括:游戲:棋牌類、競技類、休閑類;金融:借貸、投資理財、彩票、保險。如表3 所示。
某卷煙企業第三方群體平臺中提取的財富屬性數據包括:房:租房、買房、潛在購房;車:潛在購車、維修保養、駕照考試、二手車、車險、租車。如表4 所示。
某卷煙企業第三方群體平臺中提取的興趣愛好屬性數據包括:旅游、游戲、金融、教育、餐飲、醫療健康。如表5 所示。
所謂詞頻(term frequency)即在第三方群體所在平臺,依法依規收集來的文檔中某一個詞語在其中產生的次數,一般被簡稱為TF。與此同時,為了便于計算,通過歸一化處理后,詞頻也被解釋為出現的頻率。依據有關文獻所述,詞語的價值與其所在文檔出現頻率正向相關,與此同時,詞語的價值與其所在語料庫出現頻率負向相關。在在第三方群體平臺環境下,借助上述規律,詞頻往往被用來做為提取文本中有代表性的關鍵詞的依據。
逆向文檔頻率在通用的語言環境中普遍統計相關詞匯,得到的某個特定詞語的普遍性價值,一般被簡稱為IDF。
上述兩者被組合稱為TF-IDF 方法。該方法通過量化的方式評估某個特定詞語在文檔中的價值(有時也會被拓展,用來評估某個特定文檔在語料庫中的價值)。
(1)計算TF。


表1:消費者畫像標簽類型中的基礎屬性

表2:消費者畫像標簽類型中的移動通信設備屬性

表3:消費者畫像標簽類型中的垂直行業屬性
如上公式所示,為計算TF 的基本依據,TFi,j代表的是某個詞語ti在文檔dj中的出現頻率。與此同時,代表的是k 個詞語在文檔dj中出現的頻次的累加值。
(2)計算IDF。

如上公式所示,為計算IDF 的基本依據,ti在文檔dj中的逆向文檔頻率為IDFi。
(3)計算TF-IDF。

詞語在某個特定文檔的高頻出現也可以帶來高權重的文檔區分能力。綜合二者,將其結合在一起,即可得到高權重的TF-IDF 算法值。這樣做的優勢在于,通過計算可以將普通詞語進行過濾,而保留了具有代表性的詞語。

表5:消費者畫像標簽類型中的興趣愛好屬性
在第三方群體平臺中,現在假設存在一個用戶卷煙偏好分析群體對象,現在假設為以此來表達用戶卷煙偏好分析群體對象相關的第三方群體的數量為n。同時假設基于TF-IDF 算法提取出來的第三方群體消費數據,將某卷煙企業的用戶卷煙偏好分析群體對象的卷煙產品類別也為m 個,并表示為符合TF-IDF 算法用戶畫像要求的將用戶卷煙偏好分析群體對象中的文檔屬性定義為Du,將用戶卷煙偏好分析群體對象中的文本信息定義為Tu,將用戶卷煙偏好分析群體對象中的用戶交互行為定義為Iu。
在第三方群體平臺中,用戶卷煙偏好分析群體對象的基礎屬性、移動通信設備屬性、垂直行業、財富屬性、興趣愛好等均被吸納進來。以性別為例,男性用戶對卷煙類產品有更為強烈的偏好。由上述用戶畫像標簽類型概述可知,在第三方群體用戶畫像過程中,面臨的數據基本性質為數值型、布爾型、字符型和時間型數據等。
3.2.1 字符型數據的用戶卷煙偏好預測算法的計算模型
字符型數據依照TF-IDF 算法的提取方式,因此,在基礎屬性下,借助TF-DIF 算法計算出用戶卷煙偏好分析群體對象中的權重,然后設計基于用戶畫像的用戶卷煙偏好預測算法的計算模型如下。

其中,B(uj,ci)代表的是用戶卷煙偏好分析群體對象中的用戶uj是否具有ci權重,M 是uj所擁有的用戶畫像標簽類型總數,w(ci)代表的是用戶卷煙偏好分析群體對象中的權重。
3.2.2 布爾型數據的用戶卷煙偏好預測算法的計算模型
布爾型數據依照高斯分布計算公式,來計算某卷煙公司的第三方群體的目標用戶與某卷煙公司的第三方群體的訓練用戶之間的距離,然后設計基于用戶畫像的用戶卷煙偏好預測算法的計算模型如下。

其中,B(uj,ci)代表的是用戶卷煙偏好分析群體對象中的用戶uj是否具有ci權重,M 是uj所擁有的用戶畫像標簽類型總數,w(ci)代表的是用戶卷煙偏好分析群體對象中的權重。
3.2.3 文本型數據的用戶卷煙偏好預測算法的計算模型
文本型數據依照相似度計算公式,來計算某卷煙公司的第三方群體的目標用戶與某卷煙公司的第三方群體的訓練用戶之間的距離,然后設計基于用戶畫像的用戶卷煙偏好預測算法的計算模型如下。

其中,sim(T,Ti)為相似度計算方程,T 為TF-IDF 算法中的(TF-IDF)的值。

其中,B(uj,ci)代表的是用戶卷煙偏好分析群體對象中的用戶uj是否具有ci權重,M 是uj所擁有的用戶畫像標簽類型總數,w(ci)代表的是用戶卷煙偏好分析群體對象中的權重。
3.2.4 加權組合

如上述公式所示,PD(u,ci)為某卷煙公司在第三方群體平臺中采集后數據的處理結果,也就是,基于用戶畫像的用戶卷煙偏好預測算法的最終計算值。
各種類型數據的用戶卷煙偏好預測算法組合在一起后,組合計算模型具體的計算過程如下。
輸入:采集來的某卷煙公司的第三方群體用戶文檔屬性數據。
輸出:預測某卷煙公司的第三方群體用戶卷煙偏好值。
第一步:構建某卷煙公司的第三方群體的用戶畫像。
第二步:計算某卷煙公司的第三方群體的相似度。
第三步:采用加權平均的方式,計算某卷煙公司的第三方群體的類別偏好值。
通過研究發現,在卷煙企業中,還沒有一套成熟的用戶偏好預測模型并且缺乏有效的用戶畫像標簽分類方式。本文通過探索互聯網精準營銷的實現路徑,結合某卷煙企業的精準營銷實踐,在合理、合法、合規基礎上,搭建基于用戶畫像的用戶卷煙偏好預測模型。本文提出了一種新的基于第三方群體的用戶卷煙偏好預測模型,并且應用到卷煙企業的第三方群體平臺,借助文檔屬性構建卷煙用戶畫像,并應用用戶畫像標簽進行具體的分析。在本文提出的新算法中,借助TF-IDF 方法可以有效預測用戶對卷煙的情感傾向。