陳 碩,李曉戈
(西安郵電大學 陜西 西安 710119)
當今的人類社會已然步入到了信息時代,特別是受到各種自動化機器人大規模應用影響,用戶行為得到了更加精細化的記錄,若能夠將用戶行為數據充分挖掘出來,進而掌握其中的行為模式,對用戶需求做出預估,掌握經濟社會需求規律,為用戶提供更具個性化的服務,以實現對全社會生產效率的大幅度提升,有著巨大的現實意義。而在開展用戶行為分析工作時,對大數據與云計算技術的應用便是其中必須要應用到的技術手段,基于大數據與云計算背景下之下的用戶行為分析將迎來一輪新的發展高峰。
目前有關用戶行為分析的研究已經取得一定的成果,但大數據的引入也為用戶行為分析帶來了許多新的難題,主要反映在以下幾方面當中:
與以往的數據記錄方式相對比而言,大數據不單單僅是規模上的擴大,且其本質內涵也發生了徹底性的轉變。以往所采取的用戶行為分析在數據存儲方面更多還是依靠的數據倉庫。然而基于大數據的背景下,數據存儲則會面臨數據前移代價過大及適應性不強的問題。為應對大規模數據信息存儲與處理,開展用戶行為分析將是必備前提。
(1)大數據信息的主要來源途徑之一即各種設備在運行過程中所產生出的數據信息,以及用戶在瀏覽網站過程中所產生出的交互信息,上述信息內容存在著大量的半結構化數據信息,且有許多數據仍未原始數據。因缺乏對數據結構與內涵的釋義,許多數據定義不明確,成為了真偽難辨的雜亂數據,這也就導致數據預處理工作將面臨著更加困難的挑戰要求。(2)從大數據用戶行為數據挖掘來分析,這是一項需長期堅持且不斷積累的發展過程,考慮到數據信息總量規模龐大,對于數據信息的挖掘結果仍需基于多個云平臺之上的數據節點體系內來開展。直接面向大數據的知識架構應能夠滿足于更高的拓展性且要支持即時更新,以及快捷化的信息整合等能力。
近年來有關云計算的概念已經席卷了整個互聯網行業,同時也使得用戶行為分析在迎來巨大機遇的同時也面臨著新的困難挑戰。云計算可為用戶行為分析提供以下幾項技術支持:
為獲得大數據存儲及訪問,眾多公司都開展了分布式網絡文件系統研究。以谷歌公司所研發出的GFS系統為例,這一系統硬件是一項大規模中低端計算機集群組織,其中含括了兩大節點,即主節點和眾多的數據節點。程序在進行數據訪問時,最先對主節點進行訪問,得到數據節點信息及授權以后,再訪問數據節點。其中任意一處數據節點發生故障,對于整體數據應用都不會造成影響。
云計算將計算工作從用戶終端集中到“云端”,是基于互聯網的一種計算模式。在國外的一些國家中,將云計算技術逐漸作為維持國家核心競爭力的重要手段,例如,美國軍隊、司法、農業等都應用了云計算服務,通過構建云計算生態系統,推動產業鏈的發展。還有澳大利亞政府通過頒布相應的文件,注重將大數據分析應用到公共行業中,進行服務改革,制定出公共政策。我國在云計算方面,已經突破了存儲系統軟、硬件設備技術,在彈性計算、分布式計算等方面有了很大的突破,我國的教育云、北京電力等的機構都已經應用了H3C云計算。
這一系統與GFS較為相似,是通過主節點掌控并配置每一處子節點的計算資源。每一項子節點均可由集群內移除,且對于當下所執行的任務并不會造成干擾。容錯、分布計算及負載平衡等技術均可通過系統直接完成,用戶本身也無需利用此方面知識便可高效應用分布式計算。以開源分布式計算架構Hadoop為例,其整體架構具備以下功能:提供支持Hadoop系統的公用組件;幫助用戶實現對海量數據吞吐的分布式系統;任務規劃及子節點程序調度、實現大規模數據集平行計算。
當前所搜集到的各項大數據信息均是通過業務、日志等數據方式所生成的,但卻未能夠認識應當如何確保此類數據更加適用在對用戶行為的分析上,這同時也為更加高效化的分析用戶行為帶來了新的挑戰。開展用戶行為分析能夠依據用戶需求,提出大數據信息組織規范,利用元數據或是標記語言等策略標示出大數據的信息內涵,從而為用戶行為分析軟件提供便利,更好的搜集并分析相關數據信息。
信息資源整合類型包括兩大類型,即同類數據合并與異類數據關聯。其中第一種關于同類數據的合并類似與將網絡用戶的發帖信息匯聚起來便可研究某一類用戶群體的關注熱點,盡管數據本身為同一類型,但在數據格式、規模等方面仍有所區別,因此在實施資源整合時就必須充分考慮到數據格式的統一性,以及不同數據規模的代表性。而后一種如科技信息的檢索,一般是將相關的用戶日志、文獻摘要、關鍵詞等信息予以整合。
這一方面的應用在大數據集用戶行為分析方面優勢突出,主要體現在以下兩個方面:(1)因受到數據異構性、安全性和相關的法律限制影響,將相關的數據信息內容采取集中化分析顯然有些不切實際,因此可采取本地處理后再進一步采取后續處理措施;(2)把數據源分為多個小模塊,盡可能在本地即做到對數據信息的預處理及數據挖掘,最終合并所挖掘到的數據信息,能夠大幅度減小數據傳輸與系統計算的費用支出。
總而言之,隨著大數據的產生也預示著更大規模的數據信息將會被應用到用戶行為分析過程當中,這不僅能夠為用戶行為分析帶來新發展,同時也將會使得當前所沿用的理論架構與技術面臨新的挑戰。在開展大數據應用研究時,可采用傳統情報學作為指導,將數據生成、信息分析與知識重構視作為一個整體,從更加廣闊的視野角度來研究大數據用戶行為分析。
[1] 季正波,白光偉,沈航等.基于用戶行為記錄的云服務隱私保護體系和算法[J].計算機科學,2015,42(8).
[2]毛建景,張凱萍.云計算環境下海量用戶行為信任評估模型[J].計算機仿真,2016,33(3).
[3] 王兵.基于云計算技術的大數據用戶行為引擎設計[J].電腦知識與技術,2016,12(5).
[4] 盧小賓,王建亞.云計算采納行為研究現狀分析[J].中國圖書館學報,2015,(1).