趙 露,李 廬
(1.安徽電子信息職業技術學院,安徽蚌埠 233000;2.安徽財經大學,安徽蚌埠 233000)
互聯網與人類社會之間的關系變得越來越緊密,從社會整體發展的角度分析.在網絡滲透各行各業的今天,當前的社會活動已經不能完全脫離互聯網[1].從生活的角度分析,互聯網的出現已經從根本上改變了人們生活方式,人們在日常生活中的基本訴求都可通過網絡得到滿足,包括溝通、購物、獲取信息等等[2].在全民的用網形式調查中,以智能客戶端為基礎的數據占總體的90%以上,這種發展趨勢主要受無線網絡覆蓋面積大幅提升的影響[3].通過上述兩個方面的分析不難看出,互聯網已經成為了人類社會活動開展以及個人日常生活中不可或缺的重要組成部分.就現階段的網絡發展態勢分析,在移動互聯網不斷發展的時代背景下,其對人類的影響將會向著更深、更全面、更廣泛的方向發展.互聯網用戶的增加帶來的最直接的問題就是網絡用戶的行為數據的增長,這種增長不僅表現出明顯的大規模屬性,同時也表現出明顯的多樣化屬性[4].網絡的開放性和動態性決定用戶上網數據復雜程度逐漸提高,導致網絡用戶行為分析的難度也逐漸提升.
基于此,本文提出網絡用戶行為大數據分析引擎設計,重點對大數據的獲取進行優化.通過本文的研究,以期為網絡用戶行為分析工作提供有價值的參考.
本質上,通過觀察計算其中的規律性特征,將其轉化為相關行業或平臺的優化目標.隨著網絡數據規模的增加,對用戶行為信息進行有效采集,對采集到的數據進行準確分析成為了相對困難的課題[5].獲取完整可靠的數據信息是網絡用戶行為大數據采集分析的前提,為此,本文從數據采集分析角度對引擎進行設計.
近些年來,伴隨著現代信息技術的發展,互聯網的應用范圍和應用程度都實現了大幅提升,因此,要實現對網絡用戶行為大數據分析,可靠的數據采集是極為必要的.為此,本文采用搭載了FACE(FPGA Algorithm Acceleration Engine)算法的數據采集裝置FACE-ZU-15EG作為引擎的數據采集構件,以此適應不同環境下的數據獲取需求[6].

圖1 FACE-ZU-15EG數據采集構件實物圖Fig.1 Physical map of FACE-ZU-15EG data acquisition component
首先,在FPGA與ARM的支持下,FACE-ZU-15EG可以實現對相關連接軟件及硬件的靈活控制,不僅如此,FACE-ZU-15EG支持全可編程操作,因此可以按照設計引擎的實際應用需求做出適應性調節,在并行算法的運行模式下,當網絡中出現動態的可重構用戶行為數據時,FACE-ZU-15EG也可以是在短時間內完成對其的搭配組合,外圍搭載的大容量DDR3/DDR4存儲以及PCI-E、QSFP、SATA等高速接口,使得引擎相關功能項目的開發不會受到額外干擾.其實物圖如圖1所示.
利用FACE-ZU-15EG獲取網絡用戶行為數據時,主要是利用其搭載的FACE系統實現的,FACE-ZU同時搭載ZYNQ UltraScale器件以及ZYNQ-7000全可編程器件,使得數據和數據傳輸可以同步進行.FACE-ZU系統搭載FPGA主器件為XTBPD0032-2FFVB14125I,板載FPGA協處理器件為XC4500-2CLG440I.當所采集到的網絡用戶行為大數據出現異常波動時,二者共同作用可有效實現對FACE-ZU-15EG的采集速度適應性地進行調節.
其次板卡外設有PS DDR4 SODIMM插槽,采集到的數據可以實時傳輸到傳輸裝置中.考慮到由于部分條件下可能會存在網絡環境異常的情況,導致數據的傳輸速率與采集速率出現偏差,為此,配置2個USB 2.0接口作為備用連接,確保數據采集工作的順利進行,內置的8GB PS eMMC存儲器可以暫存采集的數據[7].在512 MB PS QSPI Flash存儲器的支持下,PS Micro-SD卡槽支持內存拓展,適應更大規模的數據暫存需求.對于ZYNQ協處理器的外設構成,分為PS部分和PL部分兩組構造.其中PS部分包括1個1024 MB DDR3存儲器,1個256 MB QSPI Flash存儲器,千兆以太網以及一個64 GB的eMMC存儲器;PL部分包括1個FMC擴展連接器,其中含有4對GTP,34對LVDS,2個PL差分時鐘以及1個MGT時鐘.FACE-ZU-15EG搭載的Zynq UltraScale+ MPSoC處理器系統具有三個主要的處理單元.其運行方式如圖2所示.

圖2 以FACE-ZU-15EG為基礎的網絡數據獲取流程Fig.2 Network data acquisition process based on Face-ZU-15EG
在圖2的基礎上,通過在引擎內一鍵創建Vivado,生成FACE-ZU-15EG的配置文件,其采集到的數據就可以直接解壓到目標目錄,在Vivado開發環境下對數據進行進一步分析[8].
通過該構件,實現對網絡數據的完整獲取,為后續的分析工作提供可靠的基礎.
定義網絡用戶關系為G=(B,F),其中,B表示網絡中具有相同行為的用戶集合,F表示用戶之間的聯動關系.根據FACE-ZU-15EG采集到的數據,網絡中活躍程度高的用戶所產生的行為與其他用戶產生關聯的幾率更高,因此,在網絡中擁有較多互動行為的用戶節點對應的行為在整個網絡行為中的貢獻也更大[9-10].本文通過計算用戶關系網絡中活躍用戶節點與其他節點的交互連接次數,衡量用戶之間行為的相似度.本文采用PageRank算法確定網絡中用戶的活躍程度:
(1)
其中,R(a)表示用戶a的活躍程度,c表示活躍阻尼強度,在正常網絡環境中,其取值范圍為[0.80,0.90],n表示采集的數據中包含的用戶總量,D(Ui)和R(Ui)分別表示所有其余用戶與a用戶的互動次數和互動頻率.通過這樣的方式,得到活躍度相對較高的用戶,本文取前20%作為基礎用戶,對其關聯的用戶在行為上相似度達到60%的作為聚類標準,再將與之關聯的二級用戶相關聯的用戶在行為上相似度達到70%的作為聚類標準,以此類推,最終得到的聚類結果為:
P=a+0.6a+0.7(0.6a)+(0.8(0.7(0.6a)))+...+(1(0.9(0.8)(0.7(0.6a)))))
(2)
其中,P表示聚類結.通過這樣的方式,以聚類為單元,分析每個聚類中用戶的行為特征,本文利用HITS算法計算,其表示方式為:
(3)
其中,ei表示聚類中行為的中心值,f(P)表示聚類P的行為特征.
為了測試在實際網絡環境中本文設計引擎對用戶行為分析的效果,進行如下測試試驗.
本文以某學院1年時間內IIS服務器的用戶訪問日志作為測試數據,利用Java語言對IIS的日志文件數據完成解析后,通過FACE-ZU-15EG對其進行采集.結合實驗服務器的數據規模以及數據流量大小,本文將Cortex-A53作為應用程序處理單元,以FACE-ZU-15EG的APU形式存在,并設置其對應的構架為64位四核CPU ARM v8;將Cortex-R5為FACE-ZU-15EG的實時處理單元,以FACE-ZU-15EG的RPU形式存在,并設置其對應的構架為32位雙實時CPU ARM v7;將ARM MaliTM-400 MP2作為FACE-ZU-15EG的GPU.利用USB3.0接口和串行GMII接口作為數據傳輸接口,實現最大5 Gb/s,最小1 Gb/s的傳輸線速率.以此為基礎,將數據傳輸到分析引擎中,以K-均值聚類的方式將具有相似行為的用戶聚類,并設置不同的閾值標準,分別統計聚類結果.
在上述基礎上,首先統計了引擎在數據采集方面的效果,采用現階段應用最為廣泛的YAFIM和Flume作為對照組,測試結果如表1所示.

從表1中可以看出,本文設計的分析引擎,在數據采集方面具有良好的應用效果,在不同的最小支持度閾值下,項目粒度明顯小于對比方法,用戶粒度高于對比方法.這是因為本文在網絡數據獲取方面應用FACE-ZU-15EG,按照實際數據環境需求通過ZYNQ-7000全可編程器實現了采集速率的自適應調節,以此提高采集速率.
在上述基礎上,統計了本文設計分析引擎對用戶行為數據的聚類結果,其具體如表2所示.

從表2中可以看出,在不同的相似度閾值條件下,本文設計的分析引擎對用戶行為的分析具有較高的準確性,相似行為的聚類質量始終保持在0.700 0以上,且孤立點的數量不超過170個,表明設計引擎能夠對絕大多數網絡數據進行采集分析,聚類數量隨著相似度閾值增大而增加,表明引擎對行為的分析精度也逐漸提高.
網絡時代,用戶行為數據中不僅體現出了用戶的需求,同時也暗示了相關行業的發展或者轉型的方向.而網絡用戶行為在一定程度上指導著網絡的發展方向,同時對于相關行業的發展,其中蘊含的數據價值也是極具指導意義的.精準有效的數據分析是十分具有現實價值的.海量網絡用戶產生的數據規模是巨大的,如何實現對這種海量數據的分析成為了值得關注的問題,本文設計的網絡用戶行為大數據分析能夠實現對數據的有效采集分析.