黃蓉
摘? 要:本文主要從分析現有的校園信息發布平臺出發,圍繞個性化主動信息推送這一目標,研究及探索一種基于移動網絡和用戶興趣挖掘技術的校園信息推送系統。針對不同的用戶訂制個性化的服務策略和功能模式,并通過分析用戶信息和瀏覽行為以及用戶信息訂閱來構建用戶興趣模型,主動將用戶可能感興趣的信息推送給他們,并對推送結果進行反向跟蹤,實現信息的“推”技術,以此構建一個全新的校園信息推送服務系統,達到信息的主動投放和精確獲取的效果。
關鍵詞:校園信息推送系統;興趣挖掘;移動終端;Android
中圖分類號:TP319?????????? 文獻標識碼:A
1?? 引言(Introduction)
校園信息發布平臺[1]是校園信息化建設的核心內容之一,通常用于發布學校內部各行政機構、院系部門、課程平臺、學生社團的相關信息,有利于職能部門工作的開展和信息公布,并能有效促進學校與社會的信息交流。一個全面、快捷、個性化的校園信息平臺能讓師生實時關注、參與、發布校園信息,如:會議、活動、講座、展覽、比賽、實習、求職等,讓師生充分利用好身邊的資源,為工作學習帶來便利,并根據自己的興趣和愛好,結交興趣相投的朋友,使校園生活充實起來,同時能有力提高校區管理和服務水平,提升學校的社會競爭力和知名度。
隨著互聯網時代的逐步深入,移動互聯網蓬勃發展,移動終端設備不斷普及,傳統的校園信息發布形式已經不能滿足當今智慧校園“任何時間、任何地點、任何方式”的信息發布要求,同時,目前校園的信息平臺通常只是在Web上將信息內容進行簡單的按時間或者分類展示,用戶被動瀏覽的信息不一定與用戶興趣相關,不容易取得用戶的共鳴、信任與支持,用戶必須能夠準確地表達自己的信息需求,才能獲得所需的信息,這樣勢必制約了用戶獲取信息的興趣和能力;另一方面,移動設備性能和移動互聯網帶寬及流量的限制也要求減少無效信息的發送。在此背景下,個性化移動信息推送服務[2]應運而生,和傳統“人找信息”的方式不同的是,它提供給用戶一種新的服務模式以解決“移動信息爆炸(過載)”[3]的問題。因此,研究并設計一種基于興趣挖掘技術[4]的移動校園信息推送系統對校園信息化建設都有著重要的意義。
本文主要從分析現有的校園信息發布平臺出發,圍繞個性化主動信息推送這一目標,構建基于移動網絡和用戶興趣挖掘技術的校園信息推送服務系統。智能推送服務系統基于移動終端,方便隨時隨地訪問,并能通過用戶信息訂閱以及分析用戶信息和瀏覽行為來獲得用戶的興趣,主動將這些用戶可能感興趣的信息推送給他們,達到信息的主動投放和精確獲取的效果。
2?? 問題的由來(Origins)
目前,國內校園信息發布、宣傳、獲取、溝通、共享的各種渠道與平臺普遍存在不足,已有的校園信息發布平臺一般僅基于Web,雖然Web有其信息量大、不需安裝的優點,但會受到時間、地點的限制,獲取信息不及時;而使用手機訪問院校Web,也有界面呈現不友好、操作不方便等缺點;其他移動通信常用解決方案如SMS、微信,雖然使用簡單,但又具有信息量小,功能不能個性化訂制,且需依賴服務提供商等局限,不能使用戶真正享受到快捷準確的信息服務,不能滿足校園信息平臺主動投放和精確獲取的服務要求。
主動信息獲取方式很多,目前應用最廣泛的是推送技術[5]。推送技術,最早由PointCast Network公司在1996年提出,推出目的是為了提高計算機網絡的信息獲取效率。作為一種高效快捷的主動信息獲取方法,推送技術是解決信息爆炸問題的有效途徑,并為信息服務的智能化、個性化及主動性提供了新的方向。自此,國外各機構就開始研究如何利用推送技術更好地滿足用戶的個性化信息需求問題,研究基于個性化用戶需求的信息分析、篩選和過濾技術,并且開始將Push技術應用于Web信息主動推送服務。Push技術的應用研究涉及個性化產品推薦、信息導覽與檢索、信息推薦系統、信息共享平臺、移動平臺推薦服務等眾多領域。
國內對Push技術的研究雖然起步較晚,但從2004年至今的十年間,國內有關Push技術的文獻就涌現了近2000篇,其中有相當大的部分是對Push技術的理論和應用的研究。最近五年,研究主要集中在信息檢索、電子商務個性化服務、WEB目錄推薦、圖書館個性化主動服務以及手機等移動終端推薦服務的Push技術等領域,尤其是移動推薦領域,通過獲取和預測移動終端用戶潛在偏好及興趣來過濾不相關的信息,為移動終端用戶提供能滿足其個性化需求的信息,逐漸成為緩解“移動信息過載”的有效手段,獲得越來越多的關注。其優勢在于:①提高消息準確率。消息推送技術可以有效控制搜索的廣度和深度,查找、過濾類似消息和無關消息,提高消息服務的準確性。②節省查找時間開銷。在移動網絡環境下,網絡情況不穩定,用戶的時間被切割成“碎片”,很難保證查找消息的時間,利用消息推送技術可以有效減少獲取消息的時間,避免無目的性的點擊查詢。
③推送和保存的消息形式多樣。可以推送各種圖像、小程序、音頻、視頻等,并且可以文本文件的形式保存在用戶設備。④提高消息推送效率。消息推送服務器可以針對用戶興趣對推送消息進行智能識別和預測,按照用戶興趣模型自動篩選、搜集信息,定期向目標用戶主動發送滿足不同用戶興趣的信息。
在關注信息推送技術優點的同時,本文通過研究分析發現:信息推送技術在信息服務的實際應用中仍然存在信息過載情況嚴重、個性化程度不高等有待解決的問題,還需對其進行完善和優化。目前,國內外針對推送技術具體方法及其改進策略的研究主要集中在Web挖掘技術、RSS推送技術、Agent推送技術、基于網格的信息推送技術和協同過濾(Collaborative filtering)推送技術。但就目前推送技術的應用現狀而言,上述多數推送技術的個性化程度不強,難以滿足用戶有針對性的推送要求,具體表現在訂制信息時要求用戶具有專業的知識背景,用戶只有能準確地表達自己的信息需求,才有可能獲得準確的相關信息,這樣往往制約了用戶獲取信息的興趣和能力,因此以上技術在信息服務中均表現不佳。endprint
近年來,針對用戶興趣建模的相關技術已逐漸成為信息推送服務系統中最關鍵也是最需解決的研究內容,如何進一步挖掘用戶可能興趣,關注用戶潛在需求已經成為數據挖掘領域的研究熱點。2012年,由王微微等人提出的基于用戶行為的興趣度模型,可以利用期望最大化算法并結合用戶興趣,實現用戶聚類,以此創建用戶興趣度模型,進而對用戶進行個性化信息管理[6];趙妍、趙學民在《基于CURE的用戶聚類算法研究》中提出可以根據用戶興趣的主要特征,提取元素的顯著屬性進行預聚類,為小類合并提供合理的初始類集,達到聚類降維的效果[7]。雖然這些聚類算法在個性化推薦應用中表現出較好的效果和質量,但是這些用戶模型的建立都是基于傳統互聯網,由于移動用戶與傳統互聯網用戶相比面臨著更加融合、復雜、協作的移動網絡環境和泛在的移動信息提供環境,只有在充分、準確提取和預測移動用戶在移動網絡環境下對各種類型移動信息內容的偏好后,才能有效的生成移動推薦[8]。因此,盡管移動推薦系統的基本思想與傳統互聯網推薦系統相似,仍需著重考慮移動網絡環境給推薦系統帶來的影響,如:移動推薦系統中用戶移動性強,移動信息推薦需求受上下文影響很大;且移動設備屏幕小、處理能力差、輸入受限;無線網絡帶寬窄、穩定性不佳等因素使其對信息準確度和實時性的要求更高,從而使得適應傳統互聯網的用戶推薦方法并不能直接應用到移動推薦系統中,在此方面還有許多工作需要研究和解決。
3?? 技術分析(Technical analysis)
目前關于信息推送和用戶興趣模型建模技術的研究不少,但卻沒有一套完整的、成熟的技術體系,導致在此基礎上的應用不多,特別是將移動信息推送和用戶興趣挖掘技術相結合的研究更是少之又少,需要進一步的研究。
根據以上分析,本文提出了基于用戶興趣挖掘技術且適用于移動網絡的個性化信息推送模型,并以此為基礎提出個性化信息推送服務框架,針對不同用戶設計個性化的服務策略和系統,通過分析用戶信息和瀏覽行為以及信息訂閱來獲得用戶的興趣,主動將這些用戶可能感興趣的信息推送給他們,并對推送結果進行反向跟蹤,實現信息的“推”技術,以此構建一個全新的校園信息推送服務系統。
本文通過深入研究并借鑒國內外校園信息平臺已有的研究成果,理論結合實際,在現有研究工作的基礎上,開發個性化校園信息推送系統,探索和研究校園信息平臺的新思路、新方法,將根據移動互聯網中校園用戶興趣的各種特點,深入研究移動信息推送服務中用戶興趣管理和興趣更新的難題,并結合數學建模技術,構建用戶興趣更新模型和用戶興趣管理模型,建立適用于移動互聯網的基于用戶興趣挖掘技術的校園信息推送模型,最終研究設計出基于移動終端的個性化校園信息推送系統原型,對研究成果進行測試、驗證,并調優。
4?? 基于用戶興趣挖掘技術的移動校園信息推送系
統設計(Design of mobile campus information
push system based on user interest in mining
technology )
4.1?? 移動校園信息推送系統總體架構設計
在充分對移動校園信息推送系統的業務需求、網絡需求進行綜合分析后,本文研究的移動校園信息推送系統總體架構采用C/S架構,分為客戶端和服務器端。
客戶端需安裝移動校園信息推送APP應用軟件,應用基于Android平臺和應用程序框架進行開發,分為展示層、業務層和持久層。展示層主要負責調用視圖展示系統中定義的各類信息;業務層主要提供接收、存儲、維護服務器端推送過來的信息,并提供對各類信息的查詢、維護和簡單的業務邏輯功能;持久層提供各類推送信息、多媒體資源和日志記錄等的持久化存儲功能,提供數據、文件的通用訪問接口。
服務器端則包括信息的檢索、維護、信息推送和權限控制等關鍵業務功能,采用成熟的開源框架進行開發,分為業務層、服務層、數據層三層架構。業務層提供信息檢索、信息分發、信息維護、信息下載、信息內容過濾等服務;服務層為業務層提供支持,提供信息分發、信息維護、權限管理和各類推送方式接口,是信息推送系統的核心,負責收集用戶使用習慣、分析用戶興趣、信息維護、推送方式選擇等核心服務;數據層提供資源目錄、基本信息、用戶訂閱信息、權限和日志數據的持久化存儲和文件和數據庫訪問接口。
客戶端和服務器端之間通過Socket或HTTP方式連接,客戶端用戶登錄后,系統記錄用戶的連接信息,并定時向客戶端發送保活連接信息,直至客戶端退出。無線通信網絡主要由移動通信基站(如3G、4G網絡等)和Wi-Fi網絡提供通信功能。
4.2?? 消息訂閱及推送機制研究
用戶興趣模型建立的一個主要依據就是用戶對消息的訂閱列表。用戶訂閱列表建立在服務器中系統創建的消息分類數據結構基礎之上,消息分類數據結構在系統初始化時即被創建,在服務器運行期間可以動態新增、刪除、修改、移動和管理消息分類子項。訂閱的內容包括用戶消息和系統消息。系統消息是系統強制要求用戶訂閱的內容,普通用戶不能隨意刪除或修改該消息,訂閱規則由各部門相關管理人員根據實際需求制定及調整,根據規則推送消息;用戶消息則是用戶根據興趣自行訂閱相關內容。不論是系統消息還是用戶消息在申請時都必須對訂閱用戶權限級別進行審核,如果經審核發現訂閱內容要求權限高于申請人員的已有權限,系統將提示用戶沒有訂閱權限,不予執行此次訂閱要求。
消息推送機制包括消息推送和消息反饋兩個階段。推送階段有人工消息推送和系統消息推送方法實現,人工消息推送是指管理人員人工選擇推送內容和方式將消息推送到指定的接收端;系統消息推送是服務器將處理過的消息按要求自動推送到接收端。其中系統推送方式是指服務器根據消息的時間要求和重要程度來智能選擇推送方式,以此來保障消息的實時性和準確性要求,實現推送效率最優。消息按重要程度分為高優先級、中優先級和低優先級三個層次;消息的實時性要求分為緊急、一般、不緊急三個層次。endprint
消息反饋階段可以保證重要消息能夠安全及時被推送到指定客戶端,采取消息跟蹤反饋機制實現,流程如下:
(1)首先,每當服務器端發送一條消息到客戶端,先根據消息的重要程度進行判斷,如果是重要消息,則開始跟蹤,并啟動一個計時器進行計時。
(2)客戶端收到消息后立即將一條反饋消息發還給服務器端。
(3)如果服務器端在計時器超時前接收到客戶端的反饋消息,則終止計時,并將反饋消息存儲到反饋消息表中。
(4)如果服務器端超時仍未收到反饋消息,則重新發送該條消息到客戶端,重啟計時器,重復步驟(3),同時令發送失敗計數器加1;如果計數器大于4,系統則認為該客戶端不可達,停止發送此消息到該客戶端,同時將未成功發送消息存到表中。
通過該消息跟蹤反饋機制,系統能夠清楚知道重要消息的發送情況,有利于保障實時性和管理人員后階段行動安排。
同時,為了提升消息推送的準確度,推送之前系統先對消息進行過濾,消息過濾模塊的主要功能就是針對不同用戶特征,綜合多個制約因素對推送消息進行篩選和過濾。本文中消息過濾主要參考因素包括用戶的興趣訂閱列表、系統訂閱規則、用戶當前上下文、所屬部門及職務和當前位置等。
4.3?? 用戶興趣挖掘算法研究
如何針對不同用戶特征定制個性化服務,挖掘用戶感興趣的偏好是最有效的手段,通過用戶興趣挖掘,建立用戶興趣模型,不僅可以保障推送到用戶的消息的精確度,而且可以發現潛藏興趣。用戶興趣分為顯式興趣和隱式興趣:
I=X+Y
公式中:I表示用戶所有興趣,X表示用戶顯式興趣,Y表示用戶隱式興趣。
其中,顯式興趣較易獲得,我們可以先根據不同用戶對各種類型消息的訂閱列表取得用戶感興趣的消息清單,然后統計每位用戶對不同類型消息的訪問次數,并進行排名,序號靠前的就是用戶相對比較感興趣的消息類別。雖然我們可以通過上述計算求得用戶的顯式興趣,但如何發掘用戶的潛在興趣仍是研究的難題。數據挖掘技術中的聚類算法可以通過分析一類用戶群體的共同特征,以此獲得某個特定用戶的隱式興趣。
聚類算法的實現原理是在數據庫中創建用戶訪問記錄表,用戶的所有訪問記錄全部存儲在此表中,表結構參見表1。
表1 用戶訪問記錄存儲結構表
Tab.1 User access records storage structure
主鍵?用戶ID?信息分類ID?訪問次數?訪問時間
但是,當用戶數量龐大,系統使用時間較長時,訪問記錄表將變得非常巨大,需要按時間周期分成不同子表,每個時間周期對應一張子表,本周期內的所有用戶訪問記錄都保存在這張子表中,系統按時間檢索不同子表,從而有效提高檢索速度。
系統定期分析此時間周期的用戶訪問記錄子表,挖掘用戶潛在興趣。主要步驟如下:首先構建用戶相似度矩陣進行聚類。用戶相似度算法可以反映兩個用戶的相似程度,系統著重考慮此時間周期內的用戶相似度,同時兼顧前一時間周期的用戶相似度,通過加權求和得出用戶總體相似度,計算公式如下:
式中:—當前兩個用戶間的相似度,—兩個用戶的訪問相同鏈接次數,—兩個用戶所訪問的鏈接的總數。
由此可以得出多個用戶的相似度矩陣如下:
系統將用戶訪問記錄分割成以T為時間間隔的表中,為了保持數據的連續性和提高系統處理效率,系統只生成最近時間間隔T內用戶間相似矩陣,然后與上一次最新用戶間相似矩陣加權求和,取得最新的用戶間相似矩陣,數學表示為:
式中:—最新的用戶間相似矩陣,—上一次最新用戶間相似矩陣,—最近時間間隔T內用戶間相似矩陣。
在加權求和時,如果某用戶被刪除,將中矩陣對應的行和列刪除;如果添加新用戶,則在矩陣的行和列尾部添加相應的行和列,新加項的初始值均為0,后續再根據訪問情況進行修改,求得用戶的相似矩陣后,再通過用戶瀏覽路徑算法對用戶進行聚類。本文中,由于采用了分時間周期加權求和的方法,避免了聚類算法每次對所有的用戶來求用戶間相似矩陣的問題,時間開銷大大減少。
5?? 結論(Conclusion)
本文通過研究移動信息訂閱和信息推送機制以及基于聚類算法的用戶興趣挖掘和服務器端混合信息過濾技術,設計并實現一個基于用戶興趣挖掘技術的移動校園信息推送服務系統,并在已覆蓋Wi-Fi等移動互聯網的校園區域內進行測試,對系統功能進行測試驗證。系統能過濾用戶感興趣的信息,提高信息推送的質量和準確度,減少無關信息推送到客戶端;同時能通過數據挖掘技術,進一步發掘用戶潛在興趣,從而獲得更好的用戶體驗。本文的研究是對現有信息推送技術的優化和改進,在傳統的基礎上,結合數據挖掘技術和用戶模型管理,建立一套適合移動網絡的混合型信息推送系統,結合用戶身份信息、用戶訂閱的主題、用戶所屬的任務信息、用戶所在位置等信息,通過數據挖掘獲取用戶潛在興趣,解決用戶模型的更新問題,是對現有信息推送技術理論的有力補充與完善,同時,雖然本文是圍繞校園信息推送系統進行研究,但是研究構建的基于用戶興趣挖掘技術并適用于移動網絡的個性化信息推送模型同樣適用于其他應用領域,如:移動新聞信息推送、移動旅游信息推送、移動電子商務個性化服務等。因此,研究完成后,研究成果將具有廣泛的項目應用前景。
參考文獻(References)
[1] 王晨輝.基于Android平臺校園信息發布系統[J].數字技術與
應用,2010,(08):123.
[2] 孟祥武,等.移動推薦系統及其應用[J].軟件學報,2013,24(1):
91-108.
[3] 王立才,孟祥武.移動網絡服務中基于認知心理學的用戶偏好
提取方法[J].電子學報,2011,39(11):2547-2553.
[4] 林霜梅,等.個性化推薦系統中的用戶建模及特征選擇[J].計
算機工程,2007,33(17):196-230.
[5] 廖軼宸.基于移動網絡的混合型信息推送系統的研究[J].計算
機工程與設計,2012,33(8):3268-3273.
[6] 王微微,夏秀峰,李曉明.一種基于用戶行為的興趣度模型[J].
計算機工程與應用,2012,48(8):148-151.
[7] 趙妍,趙學民.基于CURE的用戶聚類算法研究[J].計算機工
程與應用,2012,48(11):97-101.
[8] 宋樂怡,熊輝,張蓉.下一代移動推薦系統[J].華東師范大學學
報(自然科學版),2013,5(3):37-45.
作者簡介:
黃? 蓉(1981-),女,碩士,講師.研究領域:移動計算,通信
工程.endprint
消息反饋階段可以保證重要消息能夠安全及時被推送到指定客戶端,采取消息跟蹤反饋機制實現,流程如下:
(1)首先,每當服務器端發送一條消息到客戶端,先根據消息的重要程度進行判斷,如果是重要消息,則開始跟蹤,并啟動一個計時器進行計時。
(2)客戶端收到消息后立即將一條反饋消息發還給服務器端。
(3)如果服務器端在計時器超時前接收到客戶端的反饋消息,則終止計時,并將反饋消息存儲到反饋消息表中。
(4)如果服務器端超時仍未收到反饋消息,則重新發送該條消息到客戶端,重啟計時器,重復步驟(3),同時令發送失敗計數器加1;如果計數器大于4,系統則認為該客戶端不可達,停止發送此消息到該客戶端,同時將未成功發送消息存到表中。
通過該消息跟蹤反饋機制,系統能夠清楚知道重要消息的發送情況,有利于保障實時性和管理人員后階段行動安排。
同時,為了提升消息推送的準確度,推送之前系統先對消息進行過濾,消息過濾模塊的主要功能就是針對不同用戶特征,綜合多個制約因素對推送消息進行篩選和過濾。本文中消息過濾主要參考因素包括用戶的興趣訂閱列表、系統訂閱規則、用戶當前上下文、所屬部門及職務和當前位置等。
4.3?? 用戶興趣挖掘算法研究
如何針對不同用戶特征定制個性化服務,挖掘用戶感興趣的偏好是最有效的手段,通過用戶興趣挖掘,建立用戶興趣模型,不僅可以保障推送到用戶的消息的精確度,而且可以發現潛藏興趣。用戶興趣分為顯式興趣和隱式興趣:
I=X+Y
公式中:I表示用戶所有興趣,X表示用戶顯式興趣,Y表示用戶隱式興趣。
其中,顯式興趣較易獲得,我們可以先根據不同用戶對各種類型消息的訂閱列表取得用戶感興趣的消息清單,然后統計每位用戶對不同類型消息的訪問次數,并進行排名,序號靠前的就是用戶相對比較感興趣的消息類別。雖然我們可以通過上述計算求得用戶的顯式興趣,但如何發掘用戶的潛在興趣仍是研究的難題。數據挖掘技術中的聚類算法可以通過分析一類用戶群體的共同特征,以此獲得某個特定用戶的隱式興趣。
聚類算法的實現原理是在數據庫中創建用戶訪問記錄表,用戶的所有訪問記錄全部存儲在此表中,表結構參見表1。
表1 用戶訪問記錄存儲結構表
Tab.1 User access records storage structure
主鍵?用戶ID?信息分類ID?訪問次數?訪問時間
但是,當用戶數量龐大,系統使用時間較長時,訪問記錄表將變得非常巨大,需要按時間周期分成不同子表,每個時間周期對應一張子表,本周期內的所有用戶訪問記錄都保存在這張子表中,系統按時間檢索不同子表,從而有效提高檢索速度。
系統定期分析此時間周期的用戶訪問記錄子表,挖掘用戶潛在興趣。主要步驟如下:首先構建用戶相似度矩陣進行聚類。用戶相似度算法可以反映兩個用戶的相似程度,系統著重考慮此時間周期內的用戶相似度,同時兼顧前一時間周期的用戶相似度,通過加權求和得出用戶總體相似度,計算公式如下:
式中:—當前兩個用戶間的相似度,—兩個用戶的訪問相同鏈接次數,—兩個用戶所訪問的鏈接的總數。
由此可以得出多個用戶的相似度矩陣如下:
系統將用戶訪問記錄分割成以T為時間間隔的表中,為了保持數據的連續性和提高系統處理效率,系統只生成最近時間間隔T內用戶間相似矩陣,然后與上一次最新用戶間相似矩陣加權求和,取得最新的用戶間相似矩陣,數學表示為:
式中:—最新的用戶間相似矩陣,—上一次最新用戶間相似矩陣,—最近時間間隔T內用戶間相似矩陣。
在加權求和時,如果某用戶被刪除,將中矩陣對應的行和列刪除;如果添加新用戶,則在矩陣的行和列尾部添加相應的行和列,新加項的初始值均為0,后續再根據訪問情況進行修改,求得用戶的相似矩陣后,再通過用戶瀏覽路徑算法對用戶進行聚類。本文中,由于采用了分時間周期加權求和的方法,避免了聚類算法每次對所有的用戶來求用戶間相似矩陣的問題,時間開銷大大減少。
5?? 結論(Conclusion)
本文通過研究移動信息訂閱和信息推送機制以及基于聚類算法的用戶興趣挖掘和服務器端混合信息過濾技術,設計并實現一個基于用戶興趣挖掘技術的移動校園信息推送服務系統,并在已覆蓋Wi-Fi等移動互聯網的校園區域內進行測試,對系統功能進行測試驗證。系統能過濾用戶感興趣的信息,提高信息推送的質量和準確度,減少無關信息推送到客戶端;同時能通過數據挖掘技術,進一步發掘用戶潛在興趣,從而獲得更好的用戶體驗。本文的研究是對現有信息推送技術的優化和改進,在傳統的基礎上,結合數據挖掘技術和用戶模型管理,建立一套適合移動網絡的混合型信息推送系統,結合用戶身份信息、用戶訂閱的主題、用戶所屬的任務信息、用戶所在位置等信息,通過數據挖掘獲取用戶潛在興趣,解決用戶模型的更新問題,是對現有信息推送技術理論的有力補充與完善,同時,雖然本文是圍繞校園信息推送系統進行研究,但是研究構建的基于用戶興趣挖掘技術并適用于移動網絡的個性化信息推送模型同樣適用于其他應用領域,如:移動新聞信息推送、移動旅游信息推送、移動電子商務個性化服務等。因此,研究完成后,研究成果將具有廣泛的項目應用前景。
參考文獻(References)
[1] 王晨輝.基于Android平臺校園信息發布系統[J].數字技術與
應用,2010,(08):123.
[2] 孟祥武,等.移動推薦系統及其應用[J].軟件學報,2013,24(1):
91-108.
[3] 王立才,孟祥武.移動網絡服務中基于認知心理學的用戶偏好
提取方法[J].電子學報,2011,39(11):2547-2553.
[4] 林霜梅,等.個性化推薦系統中的用戶建模及特征選擇[J].計
算機工程,2007,33(17):196-230.
[5] 廖軼宸.基于移動網絡的混合型信息推送系統的研究[J].計算
機工程與設計,2012,33(8):3268-3273.
[6] 王微微,夏秀峰,李曉明.一種基于用戶行為的興趣度模型[J].
計算機工程與應用,2012,48(8):148-151.
[7] 趙妍,趙學民.基于CURE的用戶聚類算法研究[J].計算機工
程與應用,2012,48(11):97-101.
[8] 宋樂怡,熊輝,張蓉.下一代移動推薦系統[J].華東師范大學學
報(自然科學版),2013,5(3):37-45.
作者簡介:
黃? 蓉(1981-),女,碩士,講師.研究領域:移動計算,通信
工程.endprint
消息反饋階段可以保證重要消息能夠安全及時被推送到指定客戶端,采取消息跟蹤反饋機制實現,流程如下:
(1)首先,每當服務器端發送一條消息到客戶端,先根據消息的重要程度進行判斷,如果是重要消息,則開始跟蹤,并啟動一個計時器進行計時。
(2)客戶端收到消息后立即將一條反饋消息發還給服務器端。
(3)如果服務器端在計時器超時前接收到客戶端的反饋消息,則終止計時,并將反饋消息存儲到反饋消息表中。
(4)如果服務器端超時仍未收到反饋消息,則重新發送該條消息到客戶端,重啟計時器,重復步驟(3),同時令發送失敗計數器加1;如果計數器大于4,系統則認為該客戶端不可達,停止發送此消息到該客戶端,同時將未成功發送消息存到表中。
通過該消息跟蹤反饋機制,系統能夠清楚知道重要消息的發送情況,有利于保障實時性和管理人員后階段行動安排。
同時,為了提升消息推送的準確度,推送之前系統先對消息進行過濾,消息過濾模塊的主要功能就是針對不同用戶特征,綜合多個制約因素對推送消息進行篩選和過濾。本文中消息過濾主要參考因素包括用戶的興趣訂閱列表、系統訂閱規則、用戶當前上下文、所屬部門及職務和當前位置等。
4.3?? 用戶興趣挖掘算法研究
如何針對不同用戶特征定制個性化服務,挖掘用戶感興趣的偏好是最有效的手段,通過用戶興趣挖掘,建立用戶興趣模型,不僅可以保障推送到用戶的消息的精確度,而且可以發現潛藏興趣。用戶興趣分為顯式興趣和隱式興趣:
I=X+Y
公式中:I表示用戶所有興趣,X表示用戶顯式興趣,Y表示用戶隱式興趣。
其中,顯式興趣較易獲得,我們可以先根據不同用戶對各種類型消息的訂閱列表取得用戶感興趣的消息清單,然后統計每位用戶對不同類型消息的訪問次數,并進行排名,序號靠前的就是用戶相對比較感興趣的消息類別。雖然我們可以通過上述計算求得用戶的顯式興趣,但如何發掘用戶的潛在興趣仍是研究的難題。數據挖掘技術中的聚類算法可以通過分析一類用戶群體的共同特征,以此獲得某個特定用戶的隱式興趣。
聚類算法的實現原理是在數據庫中創建用戶訪問記錄表,用戶的所有訪問記錄全部存儲在此表中,表結構參見表1。
表1 用戶訪問記錄存儲結構表
Tab.1 User access records storage structure
主鍵?用戶ID?信息分類ID?訪問次數?訪問時間
但是,當用戶數量龐大,系統使用時間較長時,訪問記錄表將變得非常巨大,需要按時間周期分成不同子表,每個時間周期對應一張子表,本周期內的所有用戶訪問記錄都保存在這張子表中,系統按時間檢索不同子表,從而有效提高檢索速度。
系統定期分析此時間周期的用戶訪問記錄子表,挖掘用戶潛在興趣。主要步驟如下:首先構建用戶相似度矩陣進行聚類。用戶相似度算法可以反映兩個用戶的相似程度,系統著重考慮此時間周期內的用戶相似度,同時兼顧前一時間周期的用戶相似度,通過加權求和得出用戶總體相似度,計算公式如下:
式中:—當前兩個用戶間的相似度,—兩個用戶的訪問相同鏈接次數,—兩個用戶所訪問的鏈接的總數。
由此可以得出多個用戶的相似度矩陣如下:
系統將用戶訪問記錄分割成以T為時間間隔的表中,為了保持數據的連續性和提高系統處理效率,系統只生成最近時間間隔T內用戶間相似矩陣,然后與上一次最新用戶間相似矩陣加權求和,取得最新的用戶間相似矩陣,數學表示為:
式中:—最新的用戶間相似矩陣,—上一次最新用戶間相似矩陣,—最近時間間隔T內用戶間相似矩陣。
在加權求和時,如果某用戶被刪除,將中矩陣對應的行和列刪除;如果添加新用戶,則在矩陣的行和列尾部添加相應的行和列,新加項的初始值均為0,后續再根據訪問情況進行修改,求得用戶的相似矩陣后,再通過用戶瀏覽路徑算法對用戶進行聚類。本文中,由于采用了分時間周期加權求和的方法,避免了聚類算法每次對所有的用戶來求用戶間相似矩陣的問題,時間開銷大大減少。
5?? 結論(Conclusion)
本文通過研究移動信息訂閱和信息推送機制以及基于聚類算法的用戶興趣挖掘和服務器端混合信息過濾技術,設計并實現一個基于用戶興趣挖掘技術的移動校園信息推送服務系統,并在已覆蓋Wi-Fi等移動互聯網的校園區域內進行測試,對系統功能進行測試驗證。系統能過濾用戶感興趣的信息,提高信息推送的質量和準確度,減少無關信息推送到客戶端;同時能通過數據挖掘技術,進一步發掘用戶潛在興趣,從而獲得更好的用戶體驗。本文的研究是對現有信息推送技術的優化和改進,在傳統的基礎上,結合數據挖掘技術和用戶模型管理,建立一套適合移動網絡的混合型信息推送系統,結合用戶身份信息、用戶訂閱的主題、用戶所屬的任務信息、用戶所在位置等信息,通過數據挖掘獲取用戶潛在興趣,解決用戶模型的更新問題,是對現有信息推送技術理論的有力補充與完善,同時,雖然本文是圍繞校園信息推送系統進行研究,但是研究構建的基于用戶興趣挖掘技術并適用于移動網絡的個性化信息推送模型同樣適用于其他應用領域,如:移動新聞信息推送、移動旅游信息推送、移動電子商務個性化服務等。因此,研究完成后,研究成果將具有廣泛的項目應用前景。
參考文獻(References)
[1] 王晨輝.基于Android平臺校園信息發布系統[J].數字技術與
應用,2010,(08):123.
[2] 孟祥武,等.移動推薦系統及其應用[J].軟件學報,2013,24(1):
91-108.
[3] 王立才,孟祥武.移動網絡服務中基于認知心理學的用戶偏好
提取方法[J].電子學報,2011,39(11):2547-2553.
[4] 林霜梅,等.個性化推薦系統中的用戶建模及特征選擇[J].計
算機工程,2007,33(17):196-230.
[5] 廖軼宸.基于移動網絡的混合型信息推送系統的研究[J].計算
機工程與設計,2012,33(8):3268-3273.
[6] 王微微,夏秀峰,李曉明.一種基于用戶行為的興趣度模型[J].
計算機工程與應用,2012,48(8):148-151.
[7] 趙妍,趙學民.基于CURE的用戶聚類算法研究[J].計算機工
程與應用,2012,48(11):97-101.
[8] 宋樂怡,熊輝,張蓉.下一代移動推薦系統[J].華東師范大學學
報(自然科學版),2013,5(3):37-45.
作者簡介:
黃? 蓉(1981-),女,碩士,講師.研究領域:移動計算,通信
工程.endprint