伍瑩++黃鑫
[摘 要] 隨著信息技術的快速發展,各種信息數據的規模呈爆炸式增長,社會逐漸進入“大數據時代”。數據挖掘技術作為大數據技術的核心技術之一,其在各行各業得到了廣泛的應用。在門戶網站中,通過數據挖掘技術的應用,能夠對用戶行為和需求進行全面的分析,從而使網站的各方面內容能夠更加貼合用戶的興趣,吸引更多的用戶,推動網站的發展。
[關鍵詞] 大數據;門戶網站;用戶行為分析;數據挖掘;聚類分析
doi : 10 . 3969 / j . issn . 1673 - 0194 . 2017. 19. 087
[中圖分類號] TP311 [文獻標識碼] A [文章編號] 1673 - 0194(2017)19- 0203- 02
0 引 言
隨著大數據時代的到來,數據的重要性日漸凸顯,門戶網站作為提供綜合性信息資源的網站,應該充分利用大數據技術的優勢,對用戶行為和需求進行深入分析,從而對網站內容進行調整,提升網站內容的豐富性,更好地滿足用戶的多樣化需求。同時,通過大數據技術的分析,還能夠提升網站服務的精準性,開發各類增值業務,提升網站的效益。
1 大數據分析在網站應用的現狀
從全球范圍來看,隨著大數據技術的發展,各類門戶網站的建設逐漸向著智慧化、精準化、主動化的方向發展。在這種門戶網站發展趨勢的背后,有著深刻的技術變革背景,即近幾年來數據分析工具的技術創新,逐漸朝著基于云模式采集用戶行為數據,應用大數據分析平臺對用戶行為的深度挖掘。近幾年來,很多網站基于先進的網站智能分析工具,對用戶的需求進行準確及時的分析,從而向用戶推送精準的信息和服務,取得了良好的效果。
2 數據挖掘及用戶行為分析
2.1 數據挖掘技術
數據挖掘技術是大數據技術的重要應用內容,其主要是從大型數據庫或者數據倉庫中提取一些隱含的、未知的以及具有潛在應用價值的信息或模式[1]。通過對數據的挖掘,提供預測性決策的方法、工具和過程。在大數據背景下,數據挖掘技術在網站中的應用,主要是利用數據挖掘技術從網站數據庫記錄的用戶瀏覽信息中提取出他們感興趣的信息,是一項綜合性技術,對于網站內容的優化調整,精準服務等具有重要的參考價值。
2.2 用戶行為分析
隨著大數據時代的到來,鋪天蓋地的網絡數據向人類襲來,這些龐大的數據蘊含了非常巨大的價值,隨著網絡用戶的增加,大量門戶網站著手進行用戶數據的分析,從而總結出用戶的具體行為特征,向用戶精準推送網站內容。網絡用戶行為分析主要是對網絡用戶數據進行統計和分析,從其中發現用戶的行為規律,可以利用一些特征公式來表示用戶的這種行為規律,也可利用可視化技術將這種特征體現出來。
對于網站訪問用戶行為的分析,可以利用下面的模型簡單計算出用戶的行為值:
B=S+T
其中,S表示用戶訪問網站消耗的流量;T表示用戶訪問網站消耗的時間。
3 聚類分析技術
聚類分析是數據挖掘中最主要的方法和功能之一,近幾年來越來越受到人們的重視。用戶的行為的分析主要是結合用戶的特征分析出不同的類或者簇,聚類是在未知類或者簇的數目和特征情況下對數據進行分類。正常網絡行為非常豐富,而在分析之前并不知道可以聚為多少個類。選擇何種算法主要由數據的類型、聚類的目的和應用來確定。小波聚類算法主要是以信號分析理論為基礎提出的一種聚類算法,信號的高頻部分對應特征空間中數據點的快速變化部分,可以將其作為聚類的邊界。而信號的低頻部分主要對應特征空間中數據點較為集中的部分,即聚類的本身。其核心思想是:給定空間對象集O,算法的目的是檢測簇,給對象分配其所屬的簇的標簽,通過小波變化轉換原特征空間,然后找到新空間中的密集區,這樣就能夠將用戶按照指定的行為模型分類到不同的類[2]。在該算法中,以多為數據對象的特征向量作為輸入值,輸出聚類對象。
4 小波聚類算法在門戶網站用戶行為分析中的應用
本文選擇門戶網站新浪網作為算法應用對象,數據選用了新浪網用戶行為日志數據集,從其中選取了1 000個用戶,選用了其中1個月的網絡日志數據,對網站主要六大板塊,用戶訪問情況進行了分析,包括“新聞”、“財經”、“科技”、“體育”、“娛樂”和“游戲”六個板塊的內容。統計用戶訪問各板塊的流量,并根據前文提出的用戶行文模型計算相應的行為值,并通過小波聚類算法將對應的行為值聚類到相應的簇中,從而準確劃分出用戶訪問網站內容的行為偏好。由于用戶在工作日與周末訪問網站的行為習慣存在較大差異,因此,將兩個時段分開進行聚類分析,具體結果如表1和表2所示。
通過表1和表2的數據可以看出,在利用小波聚類算法對用戶訪問行為進行聚類分析之后,將所有用戶的行為進行了明確的分類,可以利用這些數據準確的總結出用戶在工作日以及周末訪問網站的具體傾向,為網站運維團隊對網站內容選擇以及客戶服務等提供了重要的參考方向。
5 結 語
在大數據時代,門戶網站需要充分利用大數據技術的優勢,對各種信息數據進行充分挖掘,總結出用戶的需求和行為特征,為網站的設計、內容的選擇以及客戶服務等提供重要的決策依據,進一步推動網站的可持續發展。
主要參考文獻
[1]陳玲霞.大數據時代檔案網站用戶體驗優化研究[J].云南檔案,2017(1):58-60.
[2]屠以撒.淺析大數據分析技術在新聞網站中的應用[J].新聞研究導刊,2016(1):192-193.