楊潔
本項目通過大數據分析,人工智能算法,挖掘五大類家庭圈模型,包括單身青年、育兒家庭、學生家庭、老人家庭、多代同堂五大場景家庭模型,用于基礎業務填充、智慧家庭產品、泛智能終端、權益等產品的精準營銷、異網挖掘、對外合作等,為市場賦能,助力企業運營。
互聯網發展經歷了三大階段,縱觀互聯網發展的歷史長河,每隔十三年都會誕生一個新的互聯網時代。第一階段是開始于1994年的PC互聯網時代,主要起源于家庭帶寬的普及與接入,同時帶動的是以互聯網服務入口為機遇的門戶時代,新浪、網易、搜狐、騰訊以及再往后的Google、百度等互聯網搜索工具,成為PC互聯網紅利的最終受益者。第二階段是盛行于2007年的移動互聯網時代。相較于PC互聯網,移動互聯網則年輕得多,3G和4G蜂窩網提供了移動互聯網服務在低速和高速寬帶下的管道要求,期間不斷涌現出產業爆發之初所擁有的流量與人口帶來的紅利。第三階段是2020年進入的家庭互聯網時代,隨著移動互聯網的紅利逐漸趨于飽和和平穩,時代與技術卻也在不斷的演進,同時互聯網的演進也逐步進入3.0時代,家庭互聯網的概念與移動互聯網、PC互聯網并非完全獨立的存在,而是基于目前互聯網連接基礎上的延伸。相比寬帶接入帶來的PC互聯網爆發以及終端變革帶來的移動互聯網紅利,家庭互聯網則將更進一步體現出用戶需求向場景需求演進,海量的家用傳感器、智能終端設備以及通信設施將組建一個立體的家庭網絡,圍繞家庭用戶為核心,建立一整套基于每個家庭的數據資源庫,以便于將精準的服務傳遞到用戶家庭中。
在5G、人工智能、大數據等新技術背景下,電信運營商一直在創新和轉型。在公眾業務方面,以家庭互聯網承載的智慧家庭,智能家居成為發展方向。運營商和互聯網公司都看到了這個發展契機,運營商有其獨特的優勢,集約化的IT系統和實名制的系統,保證了分析的便捷性和用戶的真實性。本項目的研發就是基于這個大時代背景下,看到了家庭市場是通信行業競爭的焦點。
本項目的研發思路是從眾多用戶中識別出哪些用戶屬于一個家庭,根據用戶之間的通話、位置、融合關系、互聯網行為等特征,通過數據分析技術和人工智能算法,識別出哪些手機號碼是一個家庭圈。同時以識別本網家庭圈為基礎,挖掘其異網成員加入家庭圈。通過模型的建立,結合市場各類產品,進行具體產品的目標用戶挖掘,并將目標用戶推送至營銷人員手中。
挖掘家庭圈模型主要可以用于三大類場景:一是基礎業務填充,包括對圈內單移網用戶推薦融合業務;二是智慧家庭產品推薦,包括TV增值產品,以及各類泛智能終端產品;三是異網用戶挖掘,對寬帶Wi-Fi下的異網用戶進行家庭圈識別,可以推薦運營商副卡、推薦攜號轉網業務以及推薦融合業務。本項目選取了用戶通話,用戶位置等特征、使用了多個模型算法進行分析挖掘,結合互聯網行為數據,識別出家庭圈用戶,助力企業市場運營。
項目可以分為四大步驟:第一步是數據預處理;第二步是機器學習建模;第三步是異網挖掘,也就是異網用戶拉進本網家庭圈;第四步是市場賦能,識別出本網家庭產品的潛在家庭用戶畫像。
(一)數據預處理
數據預處理的方法是將B\O\M域的數據進行拉通、加工為各類寬表、視圖,形成標簽沉淀,主要建立用戶資料寬表、交際圈寬表、基站位置寬表等。
(二)機器學習建模
根據數據預處理的寬表,取得的主要特征有:半夜時間段基站位置出現次數,年齡特征等。利用機器學習里的有監督學習,通過邏輯回歸、決策樹、隨機森林、集成算法分別對數據進行建模,預測出用戶的家庭圈,取準確率、覆蓋率、F1值較高的預測結果為預測的家庭圈。
這里以兩戶家庭圈模型為例,選取小地市小數據集進行建模訓練,用邏輯回歸算法和隨機森林算法介紹建模過程。
邏輯回歸(Logistic Regression)又稱為邏輯回歸分析,是分類和預測算法中的一種。通過歷史數據的表現對未來結果發生的概率進行預測。例如,我們可以將購買的概率設置為因變量,將用戶的特征屬性,例如性別、年齡、注冊時間等設置為自變量。根據特征屬性預測購買的概率。
不同訓練集,不同測試集,結果不同。實際使用時,需要根據調查情況確定樣本比例。應盡可能多收集數據,增大數據量可以使模型的預測結果更穩定,泛化性更強。
隨機森林 (RandomForestClassifier)算法是利用多棵決策樹對樣本進行訓練并預測。隨機森林就是通過集成學習的思想將多棵樹集成的一種算法,它的基本單元是決策樹,而它的本質屬于機器學習的一大分支——集成學習(Ensemble Learning)方法。
通過集中算法的比較,隨機森林分類模型默認參數的預測結果比較好,經過調試參數后,預測效果還可以提高。隨機森林模型穩定性很好,調試后不容易過擬合,但參數比較復雜,調試參數工作量很大,參數調試需要并發操作,對硬件要求很高。本項目選取隨機森林算法進行部署實施。
(三)異網挖掘
異網挖掘指的是從O域數據的寬帶DPI數據中獲取Wi-Fi下的異網手機號碼,再結合Wi-Fi下的運營商本網號碼,將其納入本網號碼的家庭圈模型中。寬帶用戶主要通過無線路由器,將各無線終端接入至運營商公司“光貓”,用于上網,利用運營商公司網絡數據,可識別每個家庭的“光貓” 和其接入的每一臺終端設備,建立篩選機制,完善數據的可使用性,關聯之前家庭圈的預測結果,合并數據集,完成異網號碼識別,形成包含異網號碼的家庭圈模型。
(四)市場賦能
經過大數據算法和DPI獲取的數據結合,形成整體的家庭圈模型的目標用戶,針對目前家庭互聯網大力發展推出的智慧家庭產品,沃家組網、沃家電視、沃家神眼、沃家固話等,可以通過不同的家庭圈模型的用戶的基礎上,結合產品特點,深挖產品的潛在用戶,為其推送產品。仍以兩口之家為例,除了模型為其推薦權益類產品外,還可以為其推薦我們打造的各類泛智能終端產品,為其量身定制智慧家庭場景下的各類應用。
項目上線兩年以來,為中國聯通公眾市場存量價值提升帶來了良好的經濟效益,基礎業務發展穩步提升,全國排名靠前,形成了一套端到端的閉環的數據賦能體系流程,為新產品運營發展提供了平臺和數據手段,通過數字化的能力提升了整個公眾市場的智慧運營,為企業培養了大數據人工智能新技術的研發人才,本項目具有長期推廣和運營的價值。
本項目通過與市場協同作戰,將模型與產品銜接,在實際生產場景中進行應用,取得了良好的效果,為公司帶來了收入的拉動,為用戶帶來了感知的提升,為公司高質量發展做到了助力賦能。
作者單位:中國聯合網絡通信有限公司山西省分公司數字化部