郭大勇 朱俊偉

摘 要:用戶畫像標簽技術已經在電商、金融、保險、電信等領域的精準營銷、差異服務、分險防控等方面得到了廣泛的應用,并取得了顯著的成效。本文就如何利用互聯網成熟的用戶畫像標簽技術,在“互聯網+政務服務”領域進行應用,從而實現政務服務的個性化、精準化、主動化、智能化提出可借鑒的方法。
關鍵詞:用戶畫像;動態標簽;學習標簽;離線標注
中圖分類號:TP311.1 文獻標識碼:A 文章編號:1671-2064(2020)06-0029-02\
1 “用戶畫像標簽”應用現狀分析
在電商領域,淘寶、京東、美團、攜程等互聯網公司,根據用戶的喜好、購買記錄等建立起了電商用戶畫像標簽體系。在金融領域,銀聯、支付寶、招商銀商、交通銀行、農業銀行等金融公司,根據用戶的人群、職業、學歷、收入、信貸記錄等建立起了金融用戶畫像標簽體系。在信息領域,今日頭條、簡書、知乎等信息內容公司,根據用戶的年齡、性別、瀏覽記錄、分享記錄等建立起了信息用戶畫像標簽體系。各領域基于各自的用戶畫像標簽體系,實現精準營銷,提供精準服務、主動服務,降低營銷和服務的綜合成本。同時,也使用戶在獲得便捷服務體驗時,降低了搜索、比較、鑒別的時間成本。
2 “用戶畫像標簽”應用模式分析
(1)“用戶畫像標簽”在互聯網領域應用模式分析。分析電商、金融等領域用戶畫像的各種應用場景,用戶畫像標簽本質上是對用戶的分群分類,而且都是從商品、產品角度分析適用于哪些用戶、適用于用戶的哪些生命周期階段,從而進行用戶畫像特征的細分刻畫。電商是從商品特征和用戶的購買行為特征關系來刻畫用戶畫像標簽,如華為、小米、蘋果等商品的品牌作為用戶的喜好標簽。金融是從理財產品特征和用戶的人群特征關系來細分刻畫用戶畫像標簽,如有無工作、有車無車、有房無房、有無信用卡、有無不良征信記錄等標簽。(2)“用戶畫像標簽”在政務服務領域應用模式分析。借鑒互聯網領域用戶畫像標簽的應用模式,在政務服務領域面向用戶提供的不是商品、產品,提供的是一種服務。服務和商品、產品一樣,也是不同的服務特征適用、匹配于不同的個人(企業),同樣也需要從服務的角度對用戶進行細致的分群分類,從而實現基于政務服務用戶畫像特征的提前服務、精準服務、主動服務,讓用戶知曉什么時間、什么情形需要辦理什么服務,從普遍式等“客”上門式服務向主動預測推薦式服務轉變。
3 “政務用戶畫像標簽”體系構建方法
(1)來源分析。從政務服務內容事項辦事指南和政策申報條件等文本內容中識別提取用戶畫像標簽,是一種從“需求側”出發的有效方法。如《推動大眾創新創業的實施意見》政策文件中可識別提取了“園區注冊”、“在孵團隊大于3個”、“無不良信用記錄”等用戶畫像標簽要素。(2)識別提取。明確了用戶畫像標簽的分析來源,利用NLP自然語言處理技術的實體識別、實體消岐技術,從事項辦事指南、政策申報條件等服務內容文本中自動識別提取用戶畫像標簽,再結合人工審核加工就可快速形成政務用戶畫像標簽語料庫。(3)分類聚類。基于初步形成的用戶畫像標簽語料庫,利用分類技術和聚類技術,對用戶畫像標簽進行分類聚類處理,并和用戶生命周期分類結合形成容易理解、帶有層次結構的用戶畫像標簽分類。(4)判定規則。基于數據資源目錄的大數據資源信息,對每個用戶畫像標簽建立數據判別計算規則。同時,對于數據資源目錄中缺少的信息資源,以用戶畫像標簽判別規則為需求進行數據共享歸集。(5)計算標注。利用數據資源目錄和用戶畫像標簽判別規則,通過計算機程序建立用戶畫像規則執行引擎,按照任務批量進行離線標注或按照用戶訪問時自動進行動態標注,實現用戶畫像標簽信息和服務內容的匹配關系建立。
4 “政務用戶畫像標簽體系”整體架構設計
4.1 “政務用戶畫像標簽”術語和定義
(1)基礎標簽。個人或企業用戶基礎靜態信息,如個人的姓名、性別、出生日期、籍貫、出生地等標簽信息,靜態標簽一般通過基本信息的查詢即可判別,無需進行復雜的規則計算。(2)動態標簽。個人或企業用戶動態變化信息,如個人的學歷(小學、中學、大學…)、企業的規模(小微、中小、規上…)等標簽信息,動態標簽需要通過多種行為數據進行較為復雜的業務規則計算后才能判別。(3)學習標簽。通過對個人(企業)的歷史行為數據特征進行機器學習后得出的預測性用戶畫像標簽為學習標簽。如“下季度辦理居轉戶的人員”、“明年企業專利數>2的企業”等預測性標簽。(4)標簽識別提取。通過人工結合自然語義處理技術的方式,從服務事項、法律法規和政策文件的申請條件、適用范圍等文本內容中自動進行個人(企業)用戶畫像標簽的實體抽取、實體消岐的過程。(5)標簽計算規則。用戶畫像標簽特別是動態標簽是需要依靠用戶行為數據按照一定的業務規則來計算判斷的,如“規模以上企業”標簽,需要通過年產值是否超過2000萬元人民幣業務規則來判斷。(6)標簽動態標注。標簽動態標注是指在用戶訪問服務時,才進行當前用戶符合哪些標簽的實時計算標注,動態計算標注主要對年齡、婚姻狀況等規則計算量小的標簽進行處理。(7)標簽離線標注。標簽離線標注是指無需用戶在線訪問,系統利用線下空閑時間進行畫像標簽的自動提前標注,是用戶畫像標簽標注的預處理過程,主要針對計算量大的標簽規則。如“即將退休人員”標簽需要經過多種數據源綜合判別計算才能得出。(8)標簽自動學習。利用政務服務用戶歷史行為數據,如事項歷史辦件庫、政策歷史申報庫,結合人口、法人基礎特征信息,通過協同過濾等算法進行標簽自動學習,形成如“近期可能辦理社保卡的外來人員”預測標簽。
4.2 “政務用戶畫像標簽”整體應用架構
政務用戶畫像標簽體系整體架構圖1所示。
(1)數據層。一是由政務服務內容信息(事項、政策等)組成,主要作為用戶畫像標簽的分析來源數據。二是由數據資源目錄信息(事項辦件庫、政策申報庫等)組成,主要作為標簽規則計算數據。(2)算法層。由NLP自然語言處理相關的實體抽取、屬性抽取、關系抽取、實體消岐以及協同過濾算法等組成,主要作為用戶動態標簽和學習標簽的識別提取、分類聚類的技術支撐。(3)畫像層。由用戶畫像表和畫像標簽表、標簽規則表以及標簽規則執行引擎組成,主要存儲通過規則計算標注后用戶和標簽的數據關系集合。(4)應用層。主要由基于用戶畫像標簽體系建立的事項推薦、政策推薦、符合度預測搜索等智能應用組成,支持多終端多渠道。
5 “政務用戶畫像標簽”關鍵技術
5.1 NLP自然語言處理技術
信息抽取(information extraction,IE)能夠幫助人們在海量信息中快速定位到自己真正需要的信息,它是一個以未知的自然語言文檔作為輸入,產生固定格式、無歧義的輸出數據的過程[1]。政務服務用戶畫像標簽就是利用NLP信息抽取、實體消岐技術,從事項辦事指南、政策文件原文等文本型非結構化數據中,快速進行如“本市戶籍居民”、“非首次生育”、“小微企業”等標簽實體單元的識別抽取,迭代地生成政務服務畫像標簽實體和屬性標注語料庫,提高政務服務畫像標簽的處理效率。
5.2 文本分類聚類處理技術
文本的分類算法是一種有監督學習的過程,需要人類實現對數據進行一定的區別和分類,從而在這種基礎上使計算機系統能夠通過機器學習來對數據進行一定的分類。文本聚類算法通過文本的相似度信息計算每個簇,相似度信息隨應用場合不同而不同。當前文本聚類主要應用包括多文檔自動文摘、搜索引擎結果聚類、信息過濾與信息推薦、文本分類、文本可視化以及文本自動歸檔等領域[2]。利用NLP實體抽取、實體識別和實體消岐技術從政務服務內容(辦事指南、政策文件原文)識別提取形成用戶畫像標簽語料庫,是初步的草稿集,為了進一步提高用戶畫像標簽的可讀性和可用性,需要利用文本分類和聚類統計技術,對用戶畫像標簽語料庫進行進一步的分類和聚類,形成可讀性強,使用性更高的標簽標準集。
5.3 機器學習標簽標注技術
協同過濾(CollaborativeFiltering,CF)是目前推薦引擎中應用最廣泛的個性化推薦技術之一。其通過研究用戶歷史行為,分析用戶興趣(或項目屬性),為用戶建立模型,依據活躍用戶對項目的評價,來尋找與活躍用戶興趣相同的用戶組,然后用該用戶組中評價比較高的一組項目序列為活躍用戶作出相關推薦[3]。對于預測性用戶畫像標簽識別和標注,需要基于用戶“歷史辦事數據”的自動化學習和訓練,最終篩選出與預測目標性用戶畫像標簽相匹配的用戶結果集,從而實現對用戶畫像標簽的自動化標注。如通過對法人庫和歷史已取得和未取得高新技術企業認定的企業特征數據進行學習,利用協同過濾模型,實現“3年內可能符合高新技術企業認定政策的企業”結果集的預測性篩選。
6 “政務用戶畫像標簽”應用深化拓展
政務用戶畫像標簽體系不僅在“互聯網+政務服務”領域深入應用,還可以在“互聯網+監管”領域、“智慧城市網格化治理”領域、“扶貧脫貧幫困”領域進行拓展應用,實現精準服務、精準監管、精準治理、精準扶貧等目標的實現,從普遍服務向主動服務、精準服務轉變。
參考文獻
[1] 牟晉娟,包宏.中文實體關系抽取研究[J].計算機工程與設計,2009(15):3587-3590.
[2] 史夢潔.文本聚類算法綜述[J].現代計算機,2014(3):3-6+25.
[3] 蘇楊茜.協同過濾算法改進及研究[J].軟件導刊,2015(2):74-77.