周景
(上海安達通信息安全技術股份有限公司, 上海 201210)
隨著社會經濟和科學技術的不斷發展,越來越多的企業進入到了移動互聯網時代,信息量的爆發式增長以及信息獲取方式的革新,使得商業智能分析受到越來越多的企業的重視的同時,其應用價值也得到了更好地體現。
近幾年,隨著無線網絡的不斷普及,為了提供更好的服務環境,提升競爭力,很多大型購物中心或者商場都為消費者提供了免費WLAN,在提供了便捷的上網服務的同時,也為自身的商業分析打下了堅實的基礎。
基于WLAN的信息采集,商場的BI分析平臺通過對用戶畫像構建技術的運用,可以準確識別和描繪目標客戶特征。[1]在此基礎上根據用戶標簽將消費者進行精細劃分,了解消費者需求,分析消費者的消費意向及消費水平,為企業實施精準營銷策略提供了決策依據。[2]
在大型商場或購物中心等業務場景里,用戶位置信息是用戶畫像建模過程中必不可少的組成部分。通過結合商戶分布分析用戶的常駐位置、來訪次數等信息有助于建立用戶興趣屬性。
由于在室內環境的限制,因此無法通過GPS進行定位。本文采用基于Wi-Fi位置指紋的定位系統,對室內移動物體及設備進行高精度定位。
其定位原理是通過在商場環境中合理部署相應的Wi-Fi 接入點,形成Wi-Fi信號的有效覆蓋。定位時首先獲取定位區域位置點上由一組Wi-Fi接入點的信號強度數據組成的指紋信息P={P1(AP1,AP2,AP4),P2(AP1,AP3,AP4),……,P16(AP2,AP3,AP6)}。如圖1所示。

圖1 Wi-Fi指紋定位示意圖
根據以上獲取的Wi-Fi指紋信息形成指紋信息庫。最后在采集用戶Wi-Fi時,通過匹配指紋庫獲取到用戶位置,實現室內定位。
用戶畫像(persona) 是指真實用戶的虛擬代表,是建立在一系列屬性數據之上的目標用戶模型。通過用戶畫像,可以幫助企業實現精細化運營和分層運營。
用戶畫像模型建立的過程其實就是用戶標簽化的過程,通過用戶屬性的標簽化來定義畫像[3]。
用戶畫像的畫像屬性可以分類兩類,一類是客觀屬性,一類是主觀屬性??陀^屬性包括個人的基本信息,如年齡、性別、籍貫、婚姻狀況、學歷情況、工作等。主觀屬性范圍十分寬泛,如興趣點、偏好傾向、消費習慣、支付習慣、性格傾向等等均屬于主觀屬性[4]。
對于用戶畫像中的客觀屬性的標簽化,只需收集相關信息即可,其信息相對容易確定。而對于主觀屬性則需要通過大量的數據采集并且通過機器學習等手段進行抽象和標簽提取。
對于商場的用戶分析而言,主觀屬性是不可或缺的,主觀屬性的標簽化是否準確也是直接關系到BI分析的可信度。同時,用戶畫像的主觀屬性眾多,為了更高效地建立在建立模型時,需要結合業務場景進行有針對性的進行屬性標簽化。
定位及位置信息采集子系統由Wi-Fi探針、負載均衡、位置存儲、定位引擎、指紋存儲庫和接口API等模塊組成。系統架構圖如圖2所示。

圖2 定位及位置信息系統架構圖
Wi-Fi AP探針通過交換機將探針數據傳送到定位服務器上。
負載均衡根據設置的負載策略將采集的數據轉送至定位引擎,以實現并發處理。
定位服務引擎通過將接收Wi-Fi AP上報的探針數據,向數據服務器請求查詢,并通過運行算法進行位置匹配。
指紋存儲是用于存儲Wi-Fi AP的指紋信息的信息庫,用于位置信息匹配。
位置存儲是用于存儲計算的到的用戶位置信息。
接口API提供用戶管理接口,便于第三方應用進行位置管理。
基于本文1.2章節對用戶畫像模型的定義,用戶畫像分析系統需要構建客觀標簽和主管標簽。
對于客觀屬性的標簽通常可以通過會員注冊方式進行采集。主觀屬性則可以通過用戶使用WLAN瀏覽信息時進行捕捉。
僅僅捕捉到用戶瀏覽信息并不能直接抽象成標簽,因此就需要通過模型對采集的信息進行訓練再結合之前采集得到的位置信息形成標簽集合。
用戶畫像訓練主要是針對用戶畫像中主觀興趣偏好屬性的分析建模。
1) 用戶興趣偏好主題構建
本文基于LDA模型的思想,建立用戶興趣偏好主題模型,實現興趣偏好的標簽化。通過將單個用戶的瀏覽內容視作LDA模型中的一篇“文檔”,對“文檔”中的每個詞的主題概率分布來獲得用戶的興趣標簽。
本文系統通過使用python的gensim庫實現LDA模型,具體的實現方式如下:
Step1:導入gensim、pyltp等工具庫
gensim是一款開源的第三方Python工具包,用于從原始的非結構化的文本中,無監督地學習到文本隱層的主題向量表達。支持包括TF-IDF,LSA,LDA,和word2vec在內的多種主題模型算法。
pyltp是 LTP 的 Python 封裝庫,提供了分詞,詞性標注,命名實體識別,依存句法分析,語義角色標注的功能。
Step2:將文檔分句和分詞
讀取文檔內容,并通過pyltp. SentenceSplitter().split()方法對文檔進行分句和分詞,并將分詞的數據輸出到指定文件。
Step3:加載數據
加載分完詞的數據,并將所有詞合并成一句句子。通過corpora.Dictionary將加載的數據形成詞袋模型。
Step4:主題提取
使用models.ldamodel.LdaModel方法進行主題建模。
Step5:清理無用的標點與詞
使用pyltp對詞性進行標注, 根據詞性標注表,保留詞性為['a', 'b', 'd', 'i', 'j', 'n', 'nh','ni', 'nl', 'ns', 'nt', 'nz', 'v']的詞。
Step6:輸出每篇文檔高概率的主題
使用lda.get_document_topics方法獲取高概率的主題。
Step7:主題驗證及標簽化
結合用戶位置信息等輔助信息,對高概率主題進行驗證。
2) 用戶畫像模型構建
考慮到本文設計的系統構建用戶畫像的目的是為更好地了解用戶的關注內容和潛在的消費傾向。因此在構建主題模型訓練集時,結合商場運營品牌的類型,從目前公開的sougou新聞語料庫中篩選出關于服裝、鞋類、首飾、數碼、飲食、運動、健康、教育等相關內容的語料,作為本系統的語料庫。
由于該語料庫的內容為xml,因此需要進行格式化處理,然后根據模型構建步驟對語料庫進行主題模型訓練,得到相關主題的關鍵詞分布。訓練結果的部分示例如下:
>>> lda.print_topics(10)
經多因素邏輯回歸分析結果顯示,侵入性操作、曾住ICU及住院時間長是骨科老年患者術后發生醫院感染的危險因素(P<0.05)(見表3)。
Topic 0:0.066260*球+ 0.056633*勝+ 0.056031*教練+ 0.056094*名單+ 0.055958*比賽+……;
Topic1:0.022327*時裝+ 0.012388*風格+ 0.012672*藝術+ 0.005783*氣質+ 0.003268*元素 + 0.002304*造型+ ……
由此形成了適用于本系統用戶畫像模型的語料庫。當需要預測用戶的興趣偏好時,可以將該用戶瀏覽的網頁內容格式化后作為新文檔輸入模型,得到主題分布概率,示例如下:
當輸入的文檔信息為某一篇體育新聞報道時,系統輸出結果(部分)如下:
(0, 0.568434238758278281),
(1, 0.044391307824360784),
……
通過示例可以基本確定該文檔的主題概率為Topic0,即體育運動類,系統將給該用戶打上“運動”興趣標簽。
同時,根據用戶在商場駐留時間可以對興趣屬性的標簽進行修正。例如某個打有美容標簽的用戶在化妝品柜臺樓層駐留時間長,則可以認為該用戶對于美容、化妝內容確實有較高的興趣,也證明用戶標簽設置正確。
在完成用戶畫像的偏好屬性標簽化后,就能構成一個完整的用戶畫像標簽,為更好地是運營者直觀地了解用戶畫像,本文設計的系統用戶畫像提供可視化界面,界面顯示如下:

圖3 用戶畫像標簽集
3) 用戶客群聚類
基于上述方法形成的用戶畫像其屬性標簽眾多,而對于用戶畫像分析而言需要針對已形成的客戶屬性標簽,進一步對客戶進行客群分類。
本文主要使用了k-means聚類算法,其是一種無監督學習模型,可以在不帶標簽的多維數據集中尋找確定數量的簇。
主要實現思路是將用戶畫像屬性標簽向量化后作為輸入,即將每個用戶均看作是一個n維向量集P={p1,p2,……,pn}。通過k-means算法實現對多維數據集的聚類計算。算法的實現主要使用了python的sklearn庫。
在k值的設定上主要根據行業經驗將商場客戶分為購物類、餐飲聚會、家庭親子類、休閑娛樂類、閑逛類等五類。因此在這里將參數k值設為5,以此計算得到聚類分組。
最后通過對計算得到的分組數據進行解析,實現對標簽屬性相似的畫像進行歸類,形成客群信息,并實現可視化界面[6-7]。
基于用戶畫像構建和分析的商業智能分析可以用于商場的營銷決策,幫助商場更好地了解用戶需求,提升服務品質。
例如,針對客戶在商鋪的停留位置、來訪次數、喜愛偏好等判斷客戶的人物屬性,從而發現用戶的當前興趣熱點,結合商場自身的商鋪或者產品,就可以針對性的給予廣告或者優惠提示。如圖4所示。

圖4 基于用戶畫像的興趣熱點分析
另外,通過客戶群體在商鋪的停留位置的熱點規律,可以形成客流分布熱力圖,幫助商場了解哪些商鋪位置是熱門商鋪以及哪些品牌是熱門品牌,為商鋪租金決策提供依據。另一方面也為集團化運營的商場集團在增設商場時提供了品牌入駐選擇的依據。

圖5 基于用戶畫像位置信息的熱力圖
本問設計的系統在上線前通過了第三方軟件測試,測試使用LoadRunner v9.5工具對系統的訪問頁面進行并發測試,測試結果如表1所示。

表1 測試結果
通過測試,證明系統在200個并發用戶訪問頁面的場景下能達到平均0.899秒的響應,并且事務成功率能夠達到99.976%。
同時,系統經過可靠性測試,測試結果證明系統具備長時間服務能力,測試內容和結果如表2所示。

表2 測試內容和結果
目前用戶畫像分析系統已在上海地區等35家購物中心投入使用,覆蓋全國30家購物中心。系統日均完成5 000人/天的新增用戶分析以及50 000人/天的活躍用戶分析,成功支撐了包括百聯中環、東方商廈、上海環球港在內的50余家商場近百場線上線下活動。
本文結合商場提供顧客免費Wi-Fi的業務場景,基于商業智能的WLAN,以用戶畫像的構建為目的,運用了室內定位技術,通過Wi-Fi指紋和定位算法實現用戶位置信息的獲取。同時針對用戶的瀏覽信息通過主題發現模型實現用戶偏好和消費傾向的標簽化,并運用標簽的聚類分析形成用戶畫像,以此形成一套從信息采集、模型構建及數據挖掘分析的用戶畫像分析系統。
基于用戶畫像模型的商業智能分析可以幫助商場更清晰地了解用戶的興趣與需求,使商家和會員之間保持緊密溝通,便于向用戶提供感興趣的內容以此來提升廣告的關注度,同時也使商場能夠更加及時的提供服務,提升會員對品牌的好感度與忠誠度。這不但有助于品牌在會員中開展品牌理念與文化上的傳播,在未來也將具有更大的商業價值和應用前景。