張宇 阮雪靈

移動用戶在使用移動網絡過程中都會留下自己的痕跡,包括:靜態信息、動態信息以及它們之間關系的信息等,企業可以憑借用戶畫像來提取真實用戶的行為特征以及興趣特征,以便為群體劃分、廣告投放、產品營銷等工作提供依據。目前,用戶畫像已成為學術界、廣告界以及互聯網界的熱門話題,將大數據技術與用戶畫像構建進行有效結合,發揮大數據算法優勢,不僅可以達到有效的內容服務和產品營銷效果,還可以為產品研發帶來有效的技術參考。
(一)數據平臺整理
數據指標梳理一般來源于系統之前保存的日志記錄系統,可利用Sqoop將HDFS進行導入。如果Sqoop系統暫時無法導入,還可以利用代碼來實現導入,即利用Spark當中的JDBC與數據庫當中的Cache進行有效連接,同樣可將HDFS進行導入。在HDFS導入之后,就需要利用Hive進行編寫,并依照業務邏輯將ETL進行有效拼接,確保移動用戶能夠對應上各種用戶標簽數據,進而生成對應的源表數據,不僅能夠更好的操作用戶畫像系統,還有利于后續利用不同規則來生成標簽寬表。
(二)數據平臺計算
目前,數據平臺應用越來越方便,只要通過系統管理員就可以申請資源以及注冊服務。但是在處理離線業務時往往還是需要應用到Hadoop,而Hadoop的實際封裝函數較為單一,只有Map以及Reduce,還欠缺其他的封裝函數,仍需進一步提高實際開發效率。首先,在計算框架的選擇過程中,可采用Spark以及Hadoop。其中,Spark的基本作用主要有兩點:一是能夠對數據處理以及規則數據進行篩選過濾,并依靠Scala進行編寫,使Spark代碼能夠有效提交至對應的系統當中,二是能夠對SparkSQL進行有效服務,有效啟動Spark與前臺應用進行有效連接。Hadoop的基本作用則是對標簽數據進行合理打分,并根據過濾算法以及其他推薦算法對各種數據進行綜合評分。其次,在計算框架完成之后,還要利用到MongoDB當中的內存數據,主要用來對單個用戶進行有效的實時查詢。在此過程中,可對Spark數據進行實時梳理,再將標簽寬表進行有效的數據格式轉換,使標簽寬表能夠順利導入到MongoDB當中,接著將前臺應用于MongoDB進行有效連接,從而實現單個標簽的有效展現。最后,在標簽展現結束之后,可利用MySQL對應用標簽規則的具體存儲以及頁面信息的具體展現進行優化,再利用Cache元數據對其他數據進行有效整合,從而與HDFS當中的真實數據進行有效處理。
(三)數據平臺應用
經過前期的數據平臺整理以及數據平臺計算之后,已經生成了一個有效的標簽大寬表。在此之后,前臺應結合業務邏輯將各種標簽進行勾選,并有序完成標簽求和以及標簽剔出等操作。在此過程中,由于SQL當中的聚合函數以及多表關聯類似于Hadoop中兩種內容,分別是MapReduce以及Shuffle,這就容易出現內存溢出的情況,反而有利于定位實際客戶數量,并能提高客戶標簽分析效率,使產品營銷策略更為精準。
(一)分布式計算技術
目前,移動用戶畫像構建的主要平臺包括Spark以及Hadoop。其中Spark主要屬于基于內存計算方法的分布式計算框架,可有效增強數據處理的有效性和實時性,并提高了容錯性以及可伸縮性,有利于將Spark充分部署在硬件當中,以此構成一個集群。借助分布式計算法可將分布式存儲數據進行有效讀入,并將任務有效分發到關鍵節點當中進行快速計算,還可將磁盤數據充分讀入到內存中,并將中間結果有效保存到內存中,有利于快速進行迭代運算。同時,Spark還具有處理速度快、易用性強、容錯率高、兼容性強以及計算范式多等諸多優點,在移動用戶畫像構建中使用較為廣泛。而Hadoop則是由HDFS以及Hive等元素組成,但實際運用中HDFS系統作用最為顯著,可有效存儲集群內部的所有存儲節點文件,以此有序執行程序中的重要引擎。
(二)樣本標注技術
移動用戶畫像構建使用的數據樣本有著顯著的海量性,并且涉及到的數據領域和種類較多,通常將人工標注以及自動標注進行有效結合。其中,自動標注主要是依照樣本的具體特征值以及某個關鍵詞進行的標注,如:根據行業的顯著關鍵詞進行標注。自動標注還可以通過半監督方式對一些樣本進行標注,再對剩下未標注的樣本進行有效地分類訓練。現階段,常見的自動標注方法包括:自動訓練法、多視角算法以及圖論方法等。而人工標注則是通過專業技術人員自行對行業關鍵詞進行的手工分類和標注,標注效率低,但是準確性高,可以避免機器標注帶來的領域歧義性、分詞不合理等問題,具體應用通常是結合自動標注共同進行。此外,在樣本標注之后,還會涉及到文本語義理解這一內容。目前,自然語言理解屬于我國人工智能的難點,也是實現智能語音交互以及人機對話的關鍵核心,在用戶畫像處理過程中,某些應用場景往往需要處理大量的文本,需要對這些自然語言進行充分有效地理解。現階段,常見的文本語義理解方法包括RNN模型以及LSTM模型等。
(三)機器學習技術
機器學習技術可有效對移動用戶進行分類,如:貝葉斯網絡以及隨機森林等方法,本文以移動商務環境下“孕婦標簽”為例,闡述基于大數據深度學習建模的具體過程。首先,將移動用戶在各個品類中的實際購買行為作為基本模型訓練特征,并對這些品類進行有效劃分,以此挑選出與孕婦標簽顯著契合的品類,如:孕婦裝、營養品、高跟鞋以及彩妝等商品,并根據某些品類的實際購買行為進行篩選,以此挑選出訓練正負樣本。例如,根據移動用戶在各個品類中的實際購買次數進行分析,如果跟孕婦標簽相契合的品類購買次數達到3次以上,如孕婦裝以及營養品等,則標識為正樣本;如果跟孕婦標簽相違背的品類購買次數超過3次以上,如高跟鞋以及彩妝等,則標識為負樣本。經過有效標識,可提供模型訓練必備的特征數據,從而構造一個最為初始的網絡模型,以此觀察網絡模型是否能夠進行自我學習。由于孕婦標簽對于時間具有較強的敏感性,在構造網絡模型過程中應注意時間維度的影響。例如,在半年前有過購買孕婦類產品的移動用戶,如果在最近一到兩個月都沒有再買孕婦類產品,反而開始購買母嬰類產品,則表明這類移動用戶已經不再是孕婦了,此時應去除掉這類移動用戶的孕婦標簽,而是加上寶媽標簽,并將其歸納到寶媽標簽中進行觀察。
(一)精準識別移動用戶
移動用戶識別作為畫像構建的第一步,具有至關重要的意義。其主要目的是為了更好的區分移動用戶以及單點定位。目前,移動用戶的識別方式較多,包括注冊ID、注冊手機號以及微博等途徑,但隨著移動用戶越來越趨向于使用手機APP,而手機號注冊的意愿越來越低,如今新浪微博、微信、QQ以及抖音快手等第三方登錄已成為當代企業最佳的移動用戶識別選擇。

(二)動態追蹤移動用戶的具體行為軌跡
軌跡追蹤作為畫像構建的第二步,能夠有效確認移動用戶在各種情境下所產生的訪問軌跡,以便提供后期的各種優質服務。目前,移動用戶在網絡平臺中的行為動態追蹤可分為三個維度,分別是情境、媒體以及路徑。其中,情境主要涉及到訪問設備以及訪問時段,可有效掌握移動用戶的時間、位置等各種動態信息;媒體主要涉及到移動用戶在某個時間段實際訪問的媒體,包括:資訊類媒體、游戲類媒體、社交類媒體、音樂類媒體、小說類媒體以及視頻類媒體等,可有效了解移動用戶的媒體喜好;路徑主要涉及到移動用戶進入媒體的路徑以及離開媒體的路徑,如:搜索進入、打開APP、直接關閉以及站內跳轉等各種方式,可有效了解移動用戶的具體站內行為以及具體站外行為。經過軌跡追蹤這一環節,一方面可優化流量運營模式,減少媒體的流量運營開支,另一方面可掌握不同頁面的投放頻次,減小對移動用戶服務的負面效應。
(三)根據靜態數據評估移動用戶價值
評估價值作為畫像構建的第三步,可為后續工作提供參考。在獲取相關的靜態數據之后,應對移動用戶人群進行因子分析以及聚類分析。例如,在產品設計過程中,通常都是根據移動用戶的使用動機以及使用行為進行相應的劃分;在媒體營銷過程中,則通常都是根據移動用戶的消費形態進行相應的分類。一般來講,靜態數據主要涉及到移動用戶的人口屬性、生活屬性、商業屬性以及消費屬性四個方面。目前,靜態數據的獲取方式較多,但最為常見的獲取方式則是數據挖掘。如果數據十分有限,還應結合定性分析以及定量分析加以處理。其中,定性分析主要涉及到小組座談、用戶深訪以及日志法等方式,基本策略就是根據開放性問題來了解移動用戶的實際心理需求,以此達到刻畫移動用戶特征的目的。定量分析主要涉及到問卷調研的方式,基本策略就是加強對后期定量數據的建模以及分析,并根據封閉性問題來掌握移動用戶的實際分布規律,以便更好的對定性假設進行有效驗證。
(四)移動用戶群體的優先級排序
優先級排序作為畫像構建的第五步,直接決定了畫像構建的落地效果,其本質上就是媒介的一種組合策略。一般來講,組合策略可根據頻率高低、市場規模、收益情況以及競爭優勢進行考慮,并結合移動服務領域的實際情況進行相應的排列組合。特殊情況下,畫像構建流程通常在前面四個環節就已經結束,但增加優先級排序這一步驟可有效提高畫像構建的實際質量和效果,在畫像構建過程中具有重要的領域實用價值。
(一)新浪微博移動用戶畫像的應用
新浪微博將每一位移動用戶都視為一個網絡節點,網絡節點具有發布、傳播及消費信息等功能。其中,少數移動用戶側重于能力節點,有著發布優質原創消息的作用,并能夠充分利用社交網絡將有效信息進行快速傳播。大部分移動用戶則側重于消費節點,主要作用就是消費信息且傳播信息。從新浪微博平臺的傳播方式來看,可以充分發揮能力節點的作用,使其從原創信息傳播中有效提升自身對于網絡的實際影響力,有利于能力節點打造屬于自身獨特的品牌,以此促使其他節點去消費能力節點的原創信息。這種傳播方式的優勢就是引導消費節點在消費信息的基礎上開發其自身興趣,使其能夠對同類消息進行消費,以此增強能力節點的實際活躍度。由此可見,加快優質信息的傳播速度是未來發展的首要任務,充分挖掘具有發布原創信息作用的能力節點,并為這些能力節點貼上相應的能力標簽,可有效促進后續工作的開展質量。例如,新浪微博在移動用戶注冊環節中,已將移動用戶的基礎信息轉化為靜態數據,包括移動用戶的實際年齡、具體地域、粉絲數、實際性別以及關注數等內容,但由于這些數據信息關聯性較弱,還不足以明確定義特定群體的用戶畫像,為了進一步精確用戶畫像,新浪微博開展興趣話題,將對同一類話題感興趣的移動用戶聚集到一起,并引導這些移動用戶針對興趣話題展開討論,以此獲取這類移動用戶群體的基礎信息。就可以有效提取這類移動用戶群體的標簽,構建這類移動用戶群體的用戶畫像,可為后期精準化服務提供良好的支持作用。
(二)數字圖書館移動用戶畫像的應用
目前,我國數字圖書館的移動用戶數據主要包括兩個部分:實名數據以及行為數據。其中,實名數據主要涉及到圖書館管理系統中儲存的移動用戶注冊信息以及借閱信息等內容,而行為數據主要涉及到APP平臺訪問、APP平臺借續、APP平臺咨詢、網站系統登錄、網站系統下載以及網站系統閱讀等內容。然而,不論是實名數據還是行為數據主要都儲存在多個系統當中,并且這些系統之間較為獨立,再加上這些數據之間也欠缺一定關聯性,這就需要在構建用戶畫像之前做好各個系統之間的數據整合工作。例如,數字圖書館根據現有的服務內容進行設計,將圖書館APP、微信平臺以及一卡通等不同系統之間的數據進行有效整合,針對注冊數據來判斷移動用戶的具體屬性特征,針對借閱數據、閱覽數據以及檢索數據來判斷移動用戶的具體行為特征,再通過用戶屬性特征以及用戶行為特征共同構建出移動用戶畫像的基礎數據來源,以此提高數字圖書館的用戶管理和服務質量。
通過構建移動用戶畫像的研究,內容服務提供商可以給用戶提供動態、精準的個性化服務,極大提高移動用戶的滿意度。因此,企業應從精準識別移動用戶、動態追蹤移動用戶的具體行為軌跡、根據靜態數據評估移動用戶價值、定義移動用戶的具體標簽等環節做好大數據技術的應用,提高移動用戶畫像構建的準確性和可靠性,充分發揮移動用戶畫像的最大價值。隨著我國移動用戶數量的增長,移動用戶對于動態化和精準化服務的需求日益強烈,基于大數據的移動用戶畫像的方法和技術將會在未來經濟發展中發揮重要作用。
作者單位:武漢紡織大學管理學院
基金項目:教育部人文社會科學青年基金項目“普適個性化內容推薦的方法研究--基于知識管理和服務過程建模的視角”項目編號:15YJC870031