王朝霞 姜軍 馮炎
摘要:面對海量Web輿情信息數據資源,在前期探索其演化規律及影響因素研究基礎上,該文對Web輿情信息數據進行了特征分析,結構化定義,設計了Web數據分析系統框架,并深入了相關技術研究,為把握Web數據發展態勢,科學管理互聯網數據信息提供了可行性依據。
關鍵詞:Web數據;數據挖掘;文本分類;文本聚類
中圖分類號:G206 文獻標識碼:A 文章編號:1009-3044(2018)03-0022-03
1 概述
互聯網及相關技術地快速發展,產生了海量的網絡數據信息,面對千變萬化的網絡數據資源,單純采用傳統的手工檢索、收集、分析、處理方法,已經無法滿足網絡數據管理需求。本文在已有的網絡信息演化階段、影響因素等研究基礎上[1],構建了網絡數據模型,設計了網絡數據分析系統框架,并研究了技術路線,為快速抽取網絡數據信息,有效把握其發展態勢,方便實現科學管理提供了可行性依據。
2 相關研究述評
饒元等Web數據網絡分析主要從社區網絡分析、整體網絡分析和個體網絡中心開始,主要采用數據網絡分析手段、方法來解決系統分析的主要問題[2]。龐宇提出了網絡數據的特點及主要載體[3]。鄭琳提出了Web用戶評論中同階層人群的“抱團取暖”行為[4]。厚澤民等提出了基于潛在語義索引的改進算法[5]。安計勇等提出了改進的K均值文本聚類算法[6]。
3 Web數據模型研究
3.1 Web數據特征分析
Web數據來源于互聯網,具備發布隨意、形式多樣、表達自由等特點,使得特征分析結果冗余度高,離散效果明顯,準確度差,難以科學把握其數據挖掘過程和結果分析。因此,對Web數據文本開展有效地預處理,去偽存真,消除冗余和關聯數據,是確保Web數據挖掘質量的關鍵所在,也是進一步開展數據分析、聚類研究的前提。
Web數據來源于互聯網,在網民作用力下隨著互聯網信息的演化、影響因素的制約和內驅力作用呈現出沿時間軸發展的趨勢,Web數據具備以下幾個關鍵特征:
1) Web數據所在文本數量規模大。據中國互聯網網絡信息中心統計報告,廣大網民借助在線博客、微信、論壇、微博等社交工具開展社交討論。這是Web數據的廣泛來源。
2) Web數據涉及面廣,內容復雜。Web數據幾乎涵蓋了政治、經濟、文化、軍事、科技、藝術、醫療、生態、環保、養老、就業等所有重要領域,還包含了區域特點、風土人情及民眾生活的方方面面及社會百態。
3) 廣告信息多,真假難辨。非官方的Web頁面多數存在大量的廣告信息,以及不實信息帖子等,與Web數據主題無關,需要對數據進行噪聲預處理,其質量高低直接影響文本挖掘和數據分析結果。
4) Web數據分布的不均衡。Web用戶網上行為(發帖偏好、發帖時間、發帖內容、發帖主題、態度觀點等)的不確定性、選擇載體的不確定性等因素決定了Web數據的分布不均。如:天涯論壇大多討論社會百態,鐵血論壇主要針對軍事領域,小木蟲論壇科研技術數據居多。不同網民圍繞各自的興趣傾向訪問不同Web頁面,衍生出一系列的評論、轉帖、頂帖等行為數據。
5) Web用戶存在情緒傾向、行為偏好等個性特征。Web用戶大多數屬于普通用戶,十分關注生活所用、工作所需以及與自身利益相關的就業、環保、退休養老等熱點話題,個人情緒及行為偏好等相關數據在所難免地存在與Web數據中。
3.2 Web數據結構化模型定義
在掌握Web數據結構特征前提下,為了充分挖掘Web數據,并能為數據分析、數據處理所用,本文對Web數據結構化定義如下:
1) Web用戶主體結構化模型定義
Web用戶作為互聯網的主體對象,多數情況需要信息注冊后才能獲得瀏覽內容、回復評論及下載資料等行為允許。對Web用戶而言,不僅在互聯網產生靜態數據結構信息,同時產生了動態操作行為、操作內容以及和其他Web用戶之間建立的關聯關系等社會網絡信息。因此,本文對Web用戶主體結構化模型定義包含三方面內容:一是Web用戶靜態屬性信息,如:用戶名、性別、年齡、住址、URL、活躍等級、社會階層、社會影響力、社會知名度、學歷、收入、教育經歷、工作經歷、個人簡介、注冊日期、個性標簽等;二是Web用戶動態屬性信息,發表文章數、回復帖子數、Web頁面瀏覽愛好、在線時長、關注數、支持數、粉絲數、反對數、評論數、推薦數、情緒傾向、行為偏好、最后登錄時間等;三是行為關聯文本信息,如:標題、領域類別、文本內容等;四是用戶關聯關系信息,如:關注我的Web用戶、被我關注的Web用戶,關系屬性等。其模型描述如圖1所示:
2) Web數據文本結構化模型定義
眾所周知,Web頁面的數據文本內容,本身就包含自身存在的靜態文本對象內容和動態加載的新聞內容,除此之外,還包含了不同的Web用戶參與回復、評論行為等動態描述內容。由于Web頁面信息多、內容復雜等特征,為達到噪聲預處理成效,提高內容挖掘質量,方便文本分類或聚類操作,本文對Web頁面數據屬性進行了抽象化描述。綜上,Web數據文本結構化模型定義包含四反面的內容:一是Web頁面文本的靜態屬性,如:URL、標題、內容、標簽、發表時間、作者、領域;二是Web頁面文本的動態屬性,如:回復內容、回復話題、回復時間、回復情感等;三是Web頁面文本的抽象屬性,如:特征詞、特征向量、聚類主題、表達情感、現實意義等;四是用戶關聯關系信息屬性,如:收藏者、推薦者、轉載者或回復者等用戶關系及用戶情感等。其模型描述如下:
4 Web數據分析系統設計
4.1 Web數據分析系統框架
Web數據分析系統的基本原理為根據管理員需求收集特定主題新聞或消息(即與Web頁面相關文本信息)并進行文本內容預處理(凈化網頁噪聲、特定文本分詞、相關詞頻統計、文本特征選擇、文本特征提取算法等),然后將預處理文本結果入庫,利用挖掘算法開展數據分析,最終反饋出熱點搜索信息及其跟蹤事件等。本系統設計框架如圖3。
4.2 子模塊功能設計及技術分析
4.2.1 輸入輸出層
輸入層主要指論壇社區、博客、新聞網頁、微博、微信、搜索引擎等載體信息和相關數據源。數據源是指根據系統管理員需求所需要收集的相關數據信息,主要的信息采集范圍包括Web新聞頁面,互聯網信息及傳媒信息等。隨著互聯網用戶的突增猛漲,網絡媒體已經滋生了與廣大Web用戶息息相關的重要信息平臺,如微信、微博、論壇、政府官方門戶網站等,人們可以從中獲取娛樂、生產、科研、消費、生活、社交等重要價值意義信息。
輸出層主要指系統前端展示,主要提供滿足管理員需求的一系列數據處理結果信息,如相關新聞排行榜、熱點話題統計信息、關鍵詞統計、情感傾向性和行為傾向性統計、數據統計報告自動生成和統計結果可視化展示等。
4.2.2 業務處理及擴展層
1) 數據采集及預處理
如果互聯網是一張大圖,那么網頁就是互聯網上一個個節點,不同網頁的鏈接關系則是鏈接節點的一條條邊,Web頁面數據采集就是以一個網頁為中心出發點,根據圖論的遍歷方法自動獲取其他頁面,形象地稱為網絡爬蟲,網絡爬蟲技術會通過采集模塊收集和返回頁面文檔中有價值的信息并保存到緩沖區,將緩沖區數據進行預處理后保存到數據庫。Web數據的數據采集主要通過網頁之間的鏈接關系,獲取網頁資源源碼及其定位,并根據鏈接朝整個網絡方向擴散。Web數據分析系統根據用戶提出的用戶檢索需求,設定關鍵詞、主題及其關注關系目標,使用信息自動采集和人工干預相結合的方法完成Web數據采集任務。對于已經定位的網絡資源,首先判斷抽取出的內容是否已經保存到歷史數據庫中,如果數據庫中已經存在,并且數據庫中保存的資源沒有變化,則采用內容去重方法忽略該資源開展下一個資源收集工作。如果數據庫中不存在該資源,則按照文本分類方法存儲到固定數據庫模塊中。
Web數據預處理任務是:將采集的網絡頁面進行數據清洗,分詞,分類,并形成新的格式化數據存儲到數據庫中。Web數據預處理是Web數據分析系統的技術準備及數據準備階段,主要對新收集的文本正文信息等進行預處理,如網頁格式轉換、重要信息過濾。對于新聞評論等內容,濾除無關信息,保留用戶名、性別、年齡、住址、URL、活躍等級、社會階層等Web用戶主體結構化和URL、標題、內容、標簽、發表時間、作者、領域等Web數據文本結構化內容。
2) 數據處理
Web數據處理主要包括數據入庫、網頁快照、附件存儲等相關操作。Web數據入庫主要是將Web用戶主體結構化信息和Web數據文本結構化信息保存到數據庫中。數據庫操作只要包括算法知識庫、數據收集知識庫、向量特征庫及語義分析庫等。
3) 數據語義分析
主要針對Web數據預處理模塊所得數據進行數據挖掘,主要采用內容分析、模式識別、自動摘要、文本聚類、主題檢索與跟蹤、情感傾向識別、趨勢分析等相關技術。該模塊是Web數據分析系統的核心模塊,是熱點跟蹤、科學發現功能的技術關鍵所在。
在系統實現過程,網頁信息分析方法建構在向量空間模型理論基礎上,采用當前比較成熟的文本聚類、文本分類等數據挖掘技術。在信息處理過程,將多種數據挖掘算法有機結合在一起,進行可定制和可選擇的算法組織形式,對Web數據信息進行分析和挖掘,這就保證系統能根據管理員和實際應用需要,進行策略調整和優化,確保系統運行能達到最佳狀態。
4.2.3 相關技術分析
文本聚類:文本聚類是指將一組文本和文章信息開展相似性比較,比較結果相似的文本和文章歸為相同組的技術。聚類事先沒有約定類別數確定的類別,聚類不需要人工標注分類器。
文本分類:分類是事先定義好類別數固定的類別,采取分類器將把人工標注的預料訓練而得,屬于指導性學習,文本分類技術是數據挖掘的重要技術。
內容分析法:內容分析法讓研究者采用間接方式對人類行為開展研究。研究者通過直接或間接方式獲得相關信息,也可以通過書籍或網絡媒介得到。內容分析法不受時空干擾,可以研究文獻記錄或歷史文檔鉆研,了解當前社會狀況。內容分析法節時節源,缺點是重視資料次數,忽略了易被忽略和少數內容。
模式識別:就是采用計算機用數學方法研究模式判讀和自動處理。模式識別對現象和表征事物開展形式化的信息分析及處理技術(如文字的、邏輯的和數值的)。對現象或事件開展描述、辨認、解釋、分析等過程,是人工智能和信息科學組成部分。
自動摘要:就是自動利用計算機從原始文本自動提取文摘,文摘就是按照自動摘要將文本簡單連貫的短文。常用方法就是將文本作為句子自動摘要成線性序列。
主題檢測與跟蹤:就是在傳統檢測話題基礎上,從社會話題監測和突發性檢測基礎上與跟蹤方法同時分析,最好展望跟蹤方法及檢測話題的發展趨勢。
情感傾向識別:主要針對Web用戶評論等主觀性情感及看法急劇增長,已分析判斷威脅和數據發展態勢為目的數據分析系統,得到廣大Web用戶數據分析崛起,成為職能分析的核心技術之一。
趨勢分析:就是數據達到的效果,與財務報表的在不同時期的指標數據開展比較,從而確定現金流量、經營成果、財務狀況的變化趨勢和規律的數據分析方法。
5 結束語及展望
互聯網存在的海量Web數據,本文進行了結構化定義、特征分析,設計了基于Web數據分析系統框架,同時對技術有所研究,下一步需要進行詳細地編碼實現。
參考文獻:
[1] 王朝霞,姜軍,高紅梅,等.Web數據“蝴蝶效應”的預警機制研究——以群體性突發事件為例[J].新聞界,2015(16):59-64.
[2] 饒元,馮妮,宋明爽,員鵬,等.數據分析—基于內容與結構的網絡輿情分析報告(2015)[M].電子工業出版社, 2015:10-15.
[3] 龐宇.Web數據事件預防與應對[M].中國法制出版社,15-26.
[4] 鄭琳.首席數據官:2013-2014Web數據響應百例[M].電子工業出版社,2014:280-290.
[5] 侯澤民.一種改進的基于潛在語義索引的文本聚類算法[J].計算機與現代化,2014(7):24-27.
[6] 安計勇,高貴閣,史志強, 等.一種改進的K均值文本聚類算法[J].傳感器與微系統,2015,5(34):131-133.