吳明禮,楊雙亮
(北方工業大學,北京 100144)
基于移動特征數據的內容推送技術研究與應用
吳明禮,楊雙亮
(北方工業大學,北京 100144)
隨著移動互聯網的快速發展以及移動設備的普及,移動信息內容推送已經成為當前的熱點之一。根據移動終端用戶的行為習慣確定內容推送,提高內容推送的性能和用戶滿意度,已成為移動內容推送的主要任務之一。為此,在概括分析傳統推送技術及自動推送技術優勢的基礎上,根據移動數據的動態特征,提出了一種基于移動特征數據變化的內容推送模型。該模型根據用戶所處位置和時間的變化,通過支持向量機(Support Vector Machine,SVM)算法來預測用戶的類別標簽偏好,并從內容庫中選取相應的內容,推送給用戶,并通過實驗的方式對基于移動特征數據變化的內容推送模型的推送效果進行了驗證。實驗驗證結果表明,所提出的模型有效、可行且適用性好。
移動特征數據;支持向量機;內容庫;用戶畫像;推送模型
隨著移動互聯網的迅速發展,移動互聯用戶的數量得到迅速增長。據2016年互聯網數據中心(IDC)最新研究報告顯示:2016年全球互聯網用戶數將達到32億,約占總人口的44%,其中移動互聯用戶總數將達到20億,再者由于移動終端設備的應用普及以及軟硬件方面的不斷改進,使得移動互聯網成為人們獲取信息的一個絕佳平臺。用戶可以根據需求在移動的過程中獲取Internet的服務,例如天氣預報、娛樂資訊、股票投資等最新的服務內容信息。但是隨著信息量的不斷暴增,使得用戶手機經常收到一些對自己無用的內容信息或者難以搜索到自己感興趣的信息,嚴重影響了用戶體驗,致使大量用戶的流失。如何有效地根據移動用戶需求,自動為用戶推送其感興趣的內容,吸引新用戶,留住老用戶,成為亟待解決的重要問題。移動個性化服務是解決該問題的有效途徑,其目標是創新服務模式,用智能、主動的、信息找人的推送模式,代替陳舊的、被動的、人找信息的搜索模式[1]。
目前個性化服務研究領域用戶需求獲取技術的研究還處于探索階段[2],而移動用戶需求獲取技術方面的研究則更少。與傳統網絡相比,移動通訊網絡有其自身特點:帶寬有限,連接穩定性差,延遲長;與電腦相比,移動終端有屏幕相對較小,CPU處理能力較低,電池續航能力較短等不足;而且在移動網絡環境下,用戶周圍的上下文復雜多變,對用戶需求的影響更加明顯[3]。因此如何結合這些特點,實時、準確獲取用戶在不同上下文(例如位置、時間等)影響下用戶的需求,推送用戶感興趣的內容,實現服務按需提供,內容按需推送,將有助于實現以用戶為中心的服務模式,提高用戶的滿意度。
為此,在研究分析用戶需求獲取技術及推送技術的基礎上,提出了基于移動特征數據變化的內容推送模型。該模型包含移動用戶需求的獲取、內容庫的設計及內容的選擇、內容自動推送等。實驗證明了該模型的適用性和有效性。
1.1用戶需求獲取技術
用戶需求獲取技術是指在復雜、融合、協作、泛在的移動網絡環境下,通過跟蹤、學習用戶的興趣、偏好以及性格特征等信息,實時、準確地發現不同用戶對各種移動網絡服務的需求,并對其變化做出適應和調整[4]。所涉及的用戶需求是包含用戶偏好、興趣在內的,是廣義上的業務需求。傳統的用戶需求獲取技術一般有以下幾種:
(1)TF-IDF方法。Yeung等[5]將用戶感興趣的文檔,通過分詞,表示成關鍵詞的向量,然后計算出用戶對各個關鍵詞的權重。
(2)聚類方法。常慧君等[6]運用聚類的方法對用戶行為進行聚類,獲取各個人群的行為規律。
(3)決策樹歸納。范琳等[7]將用戶偏好的獲取過程表達成一棵決策樹,用戶從根節點開始,被引導來回答一系列問題。一旦達到葉子節點,可得到對用戶偏好的完整描述。
(4)樸素貝葉斯分類。
隨著時間的推移,用戶需求會發生變化,如何監測這些變化并進行適應,對個性化服務具有重要價值。用戶模型更新技術主要分為三類:信息增補技術[5];神經網絡技術:用戶的興趣偏好發生變化時,神經網絡的連接權重也會跟著變化,最終導致不同的輸出結果;如周樸雄等結合情景的用戶偏好模型,運用BP神經網絡方法來預測不同情景下的用戶偏好[8]。
1.2推送技術
所謂的推送技術就是一種基于客戶端/服務器端(C/S)的機制,服務器端主動將內容信息發送到客戶端的技術。其優點在于內容信息發送的主動性和及時性,可隨時將信息推送到用戶面前(客戶端)[9]。那么如何使客戶端能夠接收到服務器端的內容,主要有兩種方式:
(1)Pull(拉):它是客戶端每過一定的時間間隔到服務器端獲取消息,通過比較信息是否有更新,這是一種偽推送方式,因為并不是服務器主動向客戶端發送內容消息,而是客戶端每隔一定的間隔向服務器端發送一次查詢來獲取新的內容消息[10]。
(2)Push(推送):服務器端有新信息后,就自動將最新的內容信息Push到客戶端[11]。
目前主要的推送技術有:簡單輪詢、SMS(Short Message Service,短信群發系統)、持久連接方式。而這些推送技術都有其不足之處,而且都是主動進行推送,當有新的內容需要推送時,才進行手動操作,沒有考慮到用戶需求。因此結合移動數據的特點,運用移動用戶獲取技術,獲取移動用戶的需求,然后從內容庫中選取移動用戶感興趣的內容,并推送給用戶。這種自動推送的方式既具有傳統推送技術的優點,又考慮了用戶需求,并且節省了大量的人力資源。例如鄭小雪為了使政府部門快速且正確處理公眾的訴求和意見,提出了基于知識地圖的政府訴求文件自動推送模型,從而減少了人工分揀文件的作業,提高了政府的行政效率[12]。
2.1系統架構
圖1為整體的系統架構。

圖1 系統整體架構
首先通過移動終端的APP軟件,獲取移動終端用戶的相關信息,包含靜態信息和動態信息等,然后經過一系列的數據抽取(Extract)、轉換(Transform)、加載(Load)(簡稱ETL),用于上一層的數據建模,預測出用戶的需求,從而自動從內容庫中選擇用戶可能感興趣的內容服務,推送給用戶。
2.2移動特征數據
采用的數據來源于智能終端的APP軟件,它能夠自動收集用戶的一些顯式信息和隱式反饋數據。相比于顯式信息,隱式反饋數據的使用具有更多優勢,其采集成本更低,對用戶的干擾更小,擁有豐富的數據量[13]。顯式信息包含用戶的性別和年齡,由用戶注冊,隱式信息包含用戶的位置信息、使用手機的信息、使用手機APP軟件的信息以及用戶上網瀏覽的網址信息等,用戶的主要信息分為兩種:
(1)用戶的靜態信息:一般是指用戶的信息不發生變化的,或者很長時間內不會發生變化的信息。例如用戶的性別、年齡等信息,一般情況下是由用戶自己注冊的,因此這些信息的獲取相比而言較為困難。
(2)用戶的動態信息:移動用戶在長期使用智能終端的基礎上形成的行為習慣信息。
①用戶的位置信息。
位置信息是由經度屬性LON和緯度屬性LAT以及當前的時間點兩部分組成,即LOCATION=,其含義就是用戶U在T時刻處于
②用戶使用手機信息。
移動通信可以通過無處不在的移動通信網絡,在任何地點任何時間介入到網絡中。只要有移動網絡覆蓋的區域就可以隨時隨地使用移動智能終端。通過獲取智能終端開關屏的信息,來表示用戶使用手機的情況,其使用智能終端的信息用表示,其中STATE有兩種狀態:0代表智能終端屏幕關閉,1代表智能終端屏幕打開。那么用戶使用智能終端一次的信息,就可以用兩條記錄表示,即,,那么就可以用T2-T1表示該用戶這次使用手機的時間長短,那么也可以通過這些記錄來獲取用戶使用智能終端的頻次。
根據人的日常行為規律進行離散化分析,將每天二十四小時分成不同的時間段(T來代表),每個時間段的時長不等(見表1),這種方式能夠得到用戶在各個時段的興趣愛好。
針對時間信息,Yuan等發現用戶在某些給定時段里的行為具有一定的規律[15],而且呈現出一定的峰段。在此基礎上,研究了用戶在一天24小時內使用智能終端的情況,如圖2所示。對連續的時間,采用離散化方式進行分析,研究其規律。

表1 時間段劃分

圖2 用戶每天使用手機情況
無論是使用頻次,還是使用時長,在T3、T5、T8時段都會出現相應的峰值,在T7時段也會出現較高的次數。從圖中可以看出,這些也都符合人們的作息規律,T3、T7為上下班時間段,T5為中午吃飯時間段,T8為晚上時間段,這些時間段用戶有更多的時間使用手機。那么這些時間段對于內容提供者而言就是一種很好的即時推送時刻,如果能在用戶經常使用智能終端的時間段里,為用戶推送感興趣的內容,那么將會起到事半功倍的效果。
③用戶使用APP信息。
移動智能終端上,用戶還安裝了很多APP軟件,用戶的每次啟動都會在智能終端的操作系統上啟動相應的進程,可以通過該進程來獲取用戶使用智能終端上APP的情況,以及相應APP軟件每次使用所消耗的流量,可以通過來表示。其中flow代表用戶該次使用所消耗的流量。通過記錄用戶所有使用APP的記錄,可以知道用戶對哪種APP軟件更為感興趣。
2.3需求預測模型
用戶信息影響用戶自身標簽的形成,也影響用戶在特定情景下的意圖,尤其移動端用戶,因為用戶可以隨時隨地地使用移動終端來搜索自己需要的內容。相應移動終端用戶的因素可能會有很多,如位置、時間、天氣等,而在這些因素中,時間、位置是最重要的因素,因此在情景信息主要考慮時間、位置這兩個因素。
約定1:情景信息Context用C表示,C={Lon,Lat,T},其中T表示預先約定好的時間段,Lon,Lat分別表示用的經緯度。不同的T,或者不同的經緯度,都代表著不同的情景。那么U={C1,C2,…,Cn}表示用戶的N個不同的情景信息。
約定2:用戶的情景偏好用四元組表示為UCP={U,C,P,W}。其中,U表示具體的用戶,C表示情景,P表示某一特定領域本體中的類別標簽,W表示用戶U在C情景下,對于P標簽的偏好的權重大小,該值是通過該用戶的歷史數據計算出來的。
在四元組的基礎上,首先通過用戶每天的行為數據,計算出用戶在各個情景下對于各個類別標簽的權重即W,那么就組成了用戶在不同時間,不同地點,對于不同的類別標簽,擁有不同的喜好程度。由于時間和位置兩個特征屬性的多樣性,使得對于多分類問題的求解較為困難。
首先將用戶分為兩類:一類是有用戶行為數據的用戶;另一類是沒有任何行為數據的用戶,即新用戶。對于不同的用戶應當擁有不同的處理方式。
1)有行為數據的用戶。用戶擁有相應歷史行為數據,首先根據用戶的歷史數據計算出每個用戶對應場景下類別標簽的權重大小,即W。然后根據用戶不斷使用所產生的歷史行為數據,采用支持向量機模型(Support Vector Machine,SVM)預測用戶在未來某個場景下用戶的類別標簽偏好。之所以選用SVM,是因為移動用戶所處的位置特征和時間特征太多樣化了,而SVM能很好地處理多分類問題。
SVM是一種新的統計學習算法,其學習原則是使結構風險最小化,通過二次規劃問題需將數據分為兩類的最佳超平面[16]。核心內容為:對于輸入空間中的非線性可分問題,選擇適當的映射,將映射空間中的樣本點映射到一個高維特征空間,使得樣本點在該空間線性可分,而且通過核函數使其計算在原空間進行,降低映射高維特征空間計算的復雜性。SVM算法步驟如下:
(1)已知訓練集T={(x1,y1),(x2,y2),…,(xn,yn)},其中xi∈X,yi∈Y,i=1,2,…,N。首先假設樣本集z={(xi,yi),i=1,2,…,k},其中,輸入向量xi=(x(1),x(2),…,x(n))∈Rn代表不同的屬性或指標;yi代表樣本類別。對于二分類問題,所有的樣本被分成A、B兩類,以yi∈{-1,+1},i=1,2,…,k來表示,每一個樣本對應一個yi,若xi=+1,則將xi分到A類,若xi=-1,則將xi分到B類。
對于yi=+1,對于yi=-1,可以得到:
yi[wTφ(xi)+b]≥1,i=1,2,…,k
其中,Rn→Rd表示映射函數,可將低維的樣本集映射到高維空間,從而實現線性可分,等號成立的樣本點xi被稱為支持向量。
由最佳超平面可以計算出兩類樣本的分類間隔2/‖w‖2,要保證分類間隔最大,等價于使‖w‖2/2最小。另外,在利用核函數進行分類時,假定數據是線性可分的,雖然說將原始數據映射到高維空間后,能夠使線性可分的概率大大增加,但并非所有的數據都是線性可分的,因為數據有噪音,即使在映射后的高維空間也會判別錯誤。因此,支持向量機模型在優化問題中引入了松弛變量,即使映射在高維空間也會被判別錯誤的可能性。因此,支持向量機模型加上一個松弛變量,且ε>0,最終的模型為:
其中,C(>0)表示樣本點被錯誤分類時的懲罰系數,C值越大,代表對錯誤懲罰越嚴重。

2)無行為數據的用戶。
對于沒有任何歷史行為數據的用戶來說,可以通過用戶的靜態屬性信息,例如性別、年齡,對用戶進行聚類分析,從而得到與用戶同性別、同年齡段的用戶群體較為感興趣的內容,然后再從該群體的興趣愛好中選擇Top-k作為推薦列表。
2.4內容庫設計
內容庫用于存儲要推送給用戶的內容,推送系統可以根據用戶所處的位置、使用手機的習慣等,從內容庫中選取相應的推送內容,進而推送給用戶。一般來說,內容類別標簽都是以層級的形式組織的,可以有一級維度、二級維度等。其主要來源有已有內容的標簽、網絡抓取流行標簽、對運營內容進行關鍵詞的提取。
(1)基于位置的內容庫。
由于移動終端的便捷性,移動終端設備(智能手機)便于攜帶,現有的GPS等技術可以方便、快速地定位移動終端用戶,而相同的用戶在不同的位置具有不同的愛好,那么就應當根據用戶的具體位置來為用戶推送相應服務。推送的內容庫是基于位置的內容庫,它是根據中國的行政單位來劃分的,在最低級的行政單位下,要推送相應的具體內容序列。
(2)基于圖片偏好的內容庫。
圖3為圖片的愛好內容庫,總共十七個大類,每個大類下平均十幾個二級分類,每個二級分類下,擁有多組的要推送的內容序列。如圖所示,體育、財經為一級分類,足球、籃球等為體育下的二級分類,籃球下的CBA、NBA為事先編輯好的有一定意義的內容序列。

圖3 圖片愛好庫
(3)基于APP偏好的內容庫。
表2為APP分類,總共十九大的分類,每種下又有多種二級分類,然后以樹狀的形式進行組織。這種APP分類的類別都是網絡爬蟲從APPStore上爬下來的,從而保持APP分類的更新。

表2 App偏好內容庫
前面分析了用戶使用手機的時間情景、位置情景,二者都會影響手機內容是否被用戶所接受,并且用戶使用手機在時間上具有一定的規律性,如果能夠在用戶經常使用手機的時段,為用戶推送感興趣的內容,那么就能被用戶即時地接觸到;當然對于處在不同位置的用戶,如果能夠根據用戶的不同位置,為用戶推送附近用戶感興趣的內容,也能達到增強內容的效果。因此要基于這些動態特征數據,觸發相應的用戶感興趣的推送內容。觸發方式可以是位置、動作、時間、環境屬性等,這里最重要的當然是位置和時間了。韓吉等提出了通過無線傳感器感知外界氣象的變化,實時地向Android手機端推送預警通知[15]。因此,基于位置情景和時間情景兩個維度的動態變化來觸發相應的推送內容服務,并從相應的內容庫中選取相應的內容序列,進而推送給用戶。其基于動態特征數據變化的推送算法如下:
(1)獲取當前用戶的經緯度以及當前的時間點,用四元組表示。
(2)判斷用戶的位置是否發生變化。以用戶的位置優先,對于移動智能終端來說,由于其便捷性,用戶可以很方便地攜帶在身上,隨時記錄用戶的位置屬性。如果用戶的位置發生變化,則優先根據用戶的當前所在位置,從內容庫中選擇相應的推送內容。使用中國的行政單位的邊界為界限,來判定用戶的位置是否發生變化。每個行政區邊界可以使用一組經緯度表示:邊界=<
(3)對于推送內容該如何選擇。每個位置區域下又有多個事先編輯好的具有一定意義的內容,可以使用Item=
(4)如果用戶的位置不發生變化,則會基于用戶的時間情景來觸發用戶的內容推送服務。對于移動終端用戶而言,如果用戶不使用移動終端,那么即使為用戶推送了內容,用戶也看不到,當然如果能夠在用戶使用移動終端的時刻為用戶推送感興趣的內容,那么內容被看到的次數增多,內容被接受的概率就會提高。
(5)有了觸發推送的時刻,使得用戶有更大的機會看到推送的內容,然后就是要推送用戶感興趣的東西了,這個要根據用戶需求預測的結果來為用戶提供個性化推送,使得推送的內容為用戶感興趣的內容。圖4的UTP庫代表用戶在不同的情景下,用戶對某一類別標簽的偏好程度。
在用戶頻繁使用移動終端的基礎上,為用戶推送該時間段下用戶感興趣的類別標簽,類別標簽可能有多個,而每個標簽又占有不同的權重。如用戶U感興趣的類別標簽為:B=

圖4 推送流程
實驗一:針對SVM算法懲罰因子C以及核函數中σ的確定。采用從200多位移動端用戶收集來的近400 000條行為數據,300 000條用戶使用APP軟件數據。將數據的80%作為訓練集,剩余的20%作為測試集。通過預測的準確率來確定C和σ的值,見表3。

表3 因子與準確率的關系
實驗二:測試推送效果。使用兩種方式來測試推送服務的效果,一種是模擬仿真,模擬真實的用戶;另一種是以用戶為中心的方式,讓真實用戶參與到實驗中[16]。采用第二種方式來進行測試,邀請了8位同學作為此次實驗的真實用戶,給他們的手機上安裝該款APP軟件,并注冊使用一個月的時間,在這一個月的時間中,用戶的生活和平常一樣,分別為其推送相應的圖片序列;然后下一個月將其切換為傳統的推送技術進行圖片推送。用如下公式評估推送的內容被用戶接受的情況。
其中,Numslide表示推送后用戶瀏覽觀看的類別標簽數;Numpush表示推送系統為用戶推送的類別標簽數。
八位用戶對于推送內容的瀏覽情況如圖5所示。與傳統的內容推送相比,這種自動推送方式被用戶所瀏覽的次數普遍要高。由此可見,基于移動特征數據變化的推送更加高效。

圖5 瀏覽情況
為解決提高移動終端推送準確性的問題,提出了一種基于移動特征數據的內容推送模型。該模型針對移動特征數據進行分析,預測移動用戶需求,并根據移動特征數據的動態變化,動態地為用戶推送感興趣的內容,使得內容推送服務更加及時和準確。當然,推送內容是否精準更多地取決于用戶需求預測的準確性,預測得越準確,推送內容也就越精準,用戶瀏覽和接受的概率就越大。
[1] Pan B,Wang X,Song E,et al.Camspf:cloud-assisted mobile service provision framework supporting personalized user demands in pervasive computing environment[C]//9th international wireless communications and mobile computing conference.[s.l.]:IEEE,2013:649-654.
[2] Adomavicius G,Tuzhilin A.Context-aware recommender systems[M]//Recommender systems handbook.[s.l.]:Springer,2011:217-253.
[3] Ai D X,Zuo H,Yang J.Personalized mobile catering recommender system based on context ontology model and rule inference[C]//Advanced materials research.[s.l.]:Trans Tech Publications,2013:708-713.
[4] 孟祥武,王 凡,史艷翠,等.移動用戶需求獲取技術及其應用[J].軟件學報,2014,25(3):439-456.
[5] Yeung K F,Yang Y,Ndzi D.A proactive personalised mobile recommendation system using analytic hierarchy process and Bayesian network[J].Journal of Internet Services and Appli-cations,2012,3(2):195-214.
[6] ?;劬?,單 洪,滿 毅.基于分段、聚類和時序關聯分析的用戶行為分析[J].計算機應用研究,2014,31(2):526-531.
[7] 范 琳,王忠民.穿戴位置無關的手機用戶行為識別模型[J].計算機應用研究,2015,32(1):63-66.
[8] 周樸雄,張兵榮,趙龍文.基于BP神經網絡的情境化信息推薦服務研究[J].情報科學,2016,34(3):71-75.
[9] 倪紅軍.基于Android平臺的消息推送研究與實現[J].實驗室研究與探索,2014,33(5):96-100.
[10] 孫澤軍,常新峰.基于XMPP推送技術在移動OA中的應用研究[J].實驗室研究與探索,2015,34(7):130-134.
[11] 律智堅,吳廣財.消息推送在移動高級應用中的研究與實現[J].廣東電力,2014,27(2):117-120.
[12] 鄭小雪.基于知識地圖的政府訴求文件自動推送模型研究[J].現代情報,2015,35(8):43-46.
[13] 孟祥武,紀威宇,張玉潔.大數據環境下的推薦系統[J].北京郵電大學學報,2015,38(2):1-15.
[14] 章少平,梁雪春.優化的支持向量集成分類器在非平衡數據集分類中的應用[J].計算機應用,2015,35(5):1306-1309.
[15] 韓 吉,周 杰,杜景林.基于Android的氣象WSN監測系統設計與實現[J].計算機工程與設計,2014,35(8):2709-2714.
[16] Hawalah A,Fasli M.A multi-agent system using ontological user profiles for dynamic user modelling[C]//Proceedings of the 2011 IEEE/WIC/ACM international conferences on web intelligence and intelligent agent technology.[s.l.]:IEEE Computer Society,2011:430-437.
Research and Application on Content Push Technology with Mobile Feature Data
WU Ming-li,YANG Shuang-liang
(North China University of Technology,Beijing 100144,China)
With the rapid development of mobile Internet and the popularity of mobile devices,mobile content delivery has become one of the hottest topics in the pushing field.How to push content for users based on the behaviors of the mobile users has become the main task of mobile content push to improve its performance and user satisfaction.On the basis of analysis on traditional push technology and advantages of automatic push technology as well as the dynamic characteristics of mobile data,a content push model based on the changes of mobile feature data has been presented,which can predict the user’s category label preference by SVM and select the relevant content from the content library for commendation to the users according to the change of user’s location and time.The experiments for its verification is conducted,which show that it is effective and feasible with good applicability.
mobile feature data;SVM;content library;user profile;push model
2016-10-15
:2017-01-18 < class="emphasis_bold">網絡出版時間
時間:2017-07-11
北京市教育科技計劃面上項目(KM201510009008)
吳明禮(1978-),男,博士,講師,研究方向為數據庫技術和數據挖掘;楊雙亮(1988-),男,碩士,研究方向為數據挖掘、推薦系統。
http://kns.cnki.net/kcms/detail/61.1450.TP.20170711.1455.058.html
TP39
:A
:1673-629X(2017)09-0155-06
10.3969/j.issn.1673-629X.2017.09.034