權甜甜 王虎
摘 要:大數據時代必然會導致“信息過載(information overload)”現象,企業如何在海量的用戶行為數據中準確判斷用戶屬性,是精準營銷等領域值得思考的問題。特別是在搜索領域,搜索公司幾乎無法獲得用戶的真實屬性信息,但用戶的基本屬性很大程度上可以影響到用戶查看不同廣告的可能性。基于背景,利用Doc2Vec、TF-IDF算法對搜索數據進行特征提取,并借助機器學習算法、XGBoost算法構建了用戶基本屬性混合預測模型,并對模型的準確性進行了檢驗。
關鍵詞:搜索數據;Doc2Vec;TF-IDF;機器學習算法;用戶基本屬性混合預測模型
中圖分類號:TB 文獻標識碼:Adoi:10.19311/j.cnki.1672-3198.2018.16.099
1 引言
據CNNIC最新數據顯示,截至2017年6月,我國網民規模達到7.51億,半年共計新增網民1992萬人,半年增長率為2.7%。互聯網給我們帶來便利的同時,也帶了很多安全隱患。2016年12月10日,京東一個12G的數據包被流傳到網上,其中包括京東注冊用戶的姓名、密碼、郵箱、QQ號、電話號碼、身份證等多個維度的數據,數據量達到了千萬條。2017年國內外網絡信息安全泄露事件主要有58同城全國簡歷泄露、國外巨頭Dun%Bradstreet 52G數據庫遭泄露、印度麥當勞220W用戶收據遭泄露等。隨著近年來信息泄密事件的頻繁發生,用戶越來越不愿意將自己的真實屬性及其他信息透漏給第三方平臺。
對于搜索企業,其主要的收入來源于廣告。艾瑞咨詢發布的《2017年中國網絡廣告市場年度監測報告》中顯示,2016年,互聯網廣告的市場份額為2902.7億元。報告中指出2016年電商廣告的市場份額已經超過搜索廣告,并且有逐漸增長的趨勢。……