向大為 吳燕波


關鍵詞:數據收集;數據分析;互聯網用戶行為分析
中圖分類號:TP393.092 ? ? ?文獻標識碼:A 文章編號:2096-4706(2019)06-0014-03
Keywords:data collection;data analysis;analysis of internet user behavior
0 ?引 ?言
隨著互聯網應用的普及,互聯網數據資源競爭白熱化,越來越多的企業和組織出于各種目的和動機,不斷投入人力、物力和財力,致力于用戶行為數據的挖掘,試圖掌握其中的行為模式,對用戶需求做出預估。數據對現代互聯網行業而言就是財富,誰擁有了數據誰就擁有了互聯網,誰掌握了互聯網誰就擁有了財富。
互聯網用戶行為數據的收集與分析表現在很多方面。例如,從海量用戶中收集用戶的瀏覽喜好,將用戶進行群體劃分;根據搜索詞頻率,分析用戶喜好;通過收集分析海量數據,反映相關應用的用戶規模、用戶屬性和行業熱點,通過宏觀分析,了解用戶群體的不同特征等等。對此,筆者認為應當一分為二地看,如果單純從商業利益的角度來看,用戶行為數據收集與分析的確可以在某種程度上掌握互聯網用戶的動態,為用戶提供個性化服務,以實現提升電子商務等經濟活動的效率和挖掘潛在市場等目的;但如果把視角放到更多領域,會發現此類行為帶來了很多不容忽視的問題,例如經濟秩序、知識產權、商業秘密、個人隱私等法律方面的問題。
1 ?互聯網用戶數據采集
數據采集是進行數據挖掘的基礎階段,采集技術分為線上和線下兩種類型。線上數據采集主要通過網絡終端后臺實現,比如檔案、日志、瀏覽、點擊等相關信息;線下數據采集則通過傳感器、磁卡片、RFID技術等實現獲取用戶的線下行為數據,從而建立用戶的行為數字數據庫[1]。本文主要研究線上數據采集。互聯網數據主要由文本、圖像、語音和多媒體數據組成。用戶行為數據主要是用戶在固定網絡終端和移動設備中點擊、瀏覽、發送、交易等行為過程中產生的。數據采集是搜集符合數據分析要求的原始數據(Raw Data)的操作。原始數據是分析者認為有價值的、希望獲得的一手或二手數據資源。數據采集方法很多,既可以直接從現有數據中搜集提取,也可以通過問卷調查、采訪、溝通等間接方式獲得。所有的數據采集都是圍繞對象、動作、條件、目的等參數進行的。
例如,較傳統的Web端采集可通過Web Service記錄日志分析和JavaScript嵌入等方式來實現。有些企業和組織并不希望自己網站的流量數據被任何第三方獲取,那么只能通過Web日志的方式進行收集。如果需要更符合用戶行為的精確數據,就需獲得相關許可,采用JavaScript標記收集數據,這種方式不僅可以訪問緩存、訪問代理記錄,而且可以通過Cookie精確定位用戶。除此之外,還有爬蟲技術、移動終端APP數據采集技術等,具體特點參如表1所示,后面對幾種常見分析技術做了簡單介紹。
1.1 ?Web Service日志分析
用戶瀏覽互聯網頁面后,如果沒有立即刪除Web日志或做“不記錄”的系統設置,會在瀏覽器等程序中自動留下較詳細的日志記錄[2]。通過該記錄,分析者可以收集到用戶瀏覽網頁的時間、次數、順序、頻率和搜索的關鍵詞等。另外,在網站服務器的Log文件中,數據的收集與分析從用戶輸入URL發出http請求就可以開始。網站服務器Log文件中記錄的內容包括遠程主機名(或IP)、登錄名、日期時間、方法、地址、協議、端口、返回狀態和文檔大小等參數。
1.2 ?JavaScript嵌入技術
從客戶端收集用戶行為數據,通常在頁面上嵌入Java Script代碼,當用戶訪問網頁時,JavaScript代碼通過瀏覽器程序執行后會自動發送請求到日志收集服務端,從而記錄用戶訪問的數據。利用客戶端跟蹤技術,Web服務器可通過訪問Cookies確認此客戶端是否訪問過本網站。JavaScript標記同Web日志收集數據一樣,從網站訪問者發出http請求開始記錄。訪問者的Cookie會記錄訪問時間、瀏覽器信息、user ID等參數,數據收集服務器收集后存入數據庫中。
1.3 ?網頁爬蟲技術
網絡爬蟲是捜索引擎程序自動抓取網頁數據的重要子程序,主要功能是將網頁下載到本地形成鏡像。通過網絡爬蟲和一些網站平臺提供的公共API(如Twitter和新浪微博)可以從網站上收集數據。
1.4 ?APP數據采集
APP常用的采集方式是通過集成SDK進行埋點。埋點是指針對特定用戶行為或事件進行捕獲、處理和發送,SDK進程先監聽軟件運行過程中的事件,所監聽的事件通常由操作系統、瀏覽器、APP框架等平臺產生,也可在基礎事件上進行觸發條件的自定義,當事件發生時進行判斷和捕獲,然后收集整理必要的上下文信息,并發送至服務器。
2 ?互聯網用戶數據分析
2.1 ? 互聯網用戶數據分析方法
數據收集完成后,通過分析策略和工具進行定量和定性分析,重新整理能使數據變得有價值。常用的分析研究方法有以下幾種。
2.1.1 ?來源分析
對用戶來源進行定位,可以更加準確地了解用戶群體的具體需求,從而為特定用戶提供個性化服務。來源分析越細致,所得到的數據就越有針對性。用戶的性別、年齡、民族、籍貫、上網時間段、目的地、信仰、愛好、交往人群、價值觀念、常用搜索引擎及關鍵詞、網站的種類和瀏覽量等都可以做較為深入的分析。
2.1.2 ?類別分析
類別分析主要在來源分析完成后進行,所謂“物以類聚,人以群分”,其目的在于抽象分類,而不是準確定位。通過來源分析定位后,可根據不同的參數對用戶進行簡單直觀的分類,例如網購數據可根據性別、年齡進行分類,語言數據可以根據民族、地域進行分類,社區應用數據可以根據交往人群、價值觀、信仰進行分類等。
2.1.3 ?對比分析
類別分析主要是對用戶數據進行粗線條的分門別類,如果要對同類型用戶數據進行更深入和詳細的分析,可以進行對比分析。對比分析是指對多種或多個具有共同特征又有不同差異的用戶數據依照某種指標參數進行比較。例如,相同性別的人群,處在不同年齡段,其購物愛好不同;相同的交往人群,價值觀念不同,其訴求和表達方式不同等。
對比分析在日常分析中作為一種基礎的分析方法,不僅僅是要對比和分析,更要實現追蹤,將分析結果落地(將分析結果聯系到對應的責任人,找出異常或者失利原因,并根據原因制定解決方案),這樣才能夠讓數據和分析產生價值。
2.1.4 ?定量分析
如果要對用戶數據進行統計分析,可以根據不同參數設定不同的指標范圍,通過數字化的指標體系進行精確的定量,為后面的定性分析提供參照。例如,年齡段可以10年為劃分標準,也可以1年為劃分標準;交往人群可以同民族人數為劃分標準,也可以同地域人數或同職業人數為劃分標準等。
2.1.5 ?定性分析
在定量分析的基礎上,如果需要得出相對準確的結論,就可以使用定性分析的方法,定性分析可參照的指標體系來源于不同分析角度。例如,通過用戶數據分析不同的職業人群,分析角度就是職業特征;分析不同的價值觀體系人群,分析角度就是不同的價值觀念。
3 ?數據收集與分析帶來的問題
用戶數據收集與分析處理對現代社會以及互聯網經濟的發展有著顯著的推動作用,隨著技術的進步,數據收集方式也層出不窮,生活節奏越來越快的人們日益依賴互聯網工作和生活,而知識、認識和技術上的差異,無形中會造成人們對個人信息泄露的忽視,甚至是無視[3]。例如,當安裝手機APP時,服務條款中已明確提示過隱私授權,很多人群直接忽略,而有些人明明知道,卻又不得不用。數據雖然是客觀的,但是對于數據的解釋權卻掌握在少數策劃者、設計者、分析者和使用者手中,因此難以避免人們由于立場利益、價值觀念的不同,造成數據使用和解讀的偏差及成見。數據的大量收集和運用加大了人們的隱私風險,而泄露和忽視的人群越多,其安全隱患自然就越大,當這種隱患積累到一定程度,終會帶來法律上的問題。殷鑒不遠,個人身份證信息的買賣已經形成黑色產業鏈,目前公安機關已多年打而不絕,正如前面引言所述,經濟秩序、知識產權、商業秘密、個人隱私……不一而足,筆者這里拋磚引玉,后面還待更多學者研究探討。
參考文獻:
[1] 陳利萍.門戶網站分布式數據挖掘云平臺架構分析 [J].數字技術與應用,2018,36(5):184-185.
[2] 王微.一種基于云計算的數據挖掘平臺架構設計研究 [J].電子制作,2017(15):82-83.
[3] 宋遠方,馮紹雯,宋立豐.互聯網平臺大數據收集的困境與新發展路徑——基于區塊鏈理念 [J].中國流通經濟,2018,32(5):3-11.
作者簡介:向大為(1980-),男,漢族,湖南湘潭人,講師,碩士,研究方向:計算機司法鑒定、網絡安全與執法;通訊作者:吳燕波(1979-),女,漢族,湖南婁底人,講師,碩士,研究方向:網絡與信息安全、計算機應用。