王朝霞 姜軍 馮炎
摘要:面對海量Web輿情信息數(shù)據(jù)資源,在前期探索其演化規(guī)律及影響因素研究基礎(chǔ)上,該文對Web輿情信息數(shù)據(jù)進(jìn)行了特征分析,結(jié)構(gòu)化定義,設(shè)計(jì)了Web數(shù)據(jù)分析系統(tǒng)框架,并深入了相關(guān)技術(shù)研究,為把握Web數(shù)據(jù)發(fā)展態(tài)勢,科學(xué)管理互聯(lián)網(wǎng)數(shù)據(jù)信息提供了可行性依據(jù)。
關(guān)鍵詞:Web數(shù)據(jù);數(shù)據(jù)挖掘;文本分類;文本聚類
中圖分類號:G206 文獻(xiàn)標(biāo)識碼:A 文章編號:1009-3044(2018)03-0022-03
1 概述
互聯(lián)網(wǎng)及相關(guān)技術(shù)地快速發(fā)展,產(chǎn)生了海量的網(wǎng)絡(luò)數(shù)據(jù)信息,面對千變?nèi)f化的網(wǎng)絡(luò)數(shù)據(jù)資源,單純采用傳統(tǒng)的手工檢索、收集、分析、處理方法,已經(jīng)無法滿足網(wǎng)絡(luò)數(shù)據(jù)管理需求。本文在已有的網(wǎng)絡(luò)信息演化階段、影響因素等研究基礎(chǔ)上[1],構(gòu)建了網(wǎng)絡(luò)數(shù)據(jù)模型,設(shè)計(jì)了網(wǎng)絡(luò)數(shù)據(jù)分析系統(tǒng)框架,并研究了技術(shù)路線,為快速抽取網(wǎng)絡(luò)數(shù)據(jù)信息,有效把握其發(fā)展態(tài)勢,方便實(shí)現(xiàn)科學(xué)管理提供了可行性依據(jù)。
2 相關(guān)研究述評
饒?jiān)萕eb數(shù)據(jù)網(wǎng)絡(luò)分析主要從社區(qū)網(wǎng)絡(luò)分析、整體網(wǎng)絡(luò)分析和個(gè)體網(wǎng)絡(luò)中心開始,主要采用數(shù)據(jù)網(wǎng)絡(luò)分析手段、方法來解決系統(tǒng)分析的主要問題[2]。龐宇提出了網(wǎng)絡(luò)數(shù)據(jù)的特點(diǎn)及主要載體[3]。鄭琳提出了Web用戶評論中同階層人群的“抱團(tuán)取暖”行為[4]。厚澤民等提出了基于潛在語義索引的改進(jìn)算法[5]。安計(jì)勇等提出了改進(jìn)的K均值文本聚類算法[6]。
3 Web數(shù)據(jù)模型研究
3.1 Web數(shù)據(jù)特征分析
Web數(shù)據(jù)來源于互聯(lián)網(wǎng),具備發(fā)布隨意、形式多樣、表達(dá)自由等特點(diǎn),使得特征分析結(jié)果冗余度高,離散效果明顯,準(zhǔn)確度差,難以科學(xué)把握其數(shù)據(jù)挖掘過程和結(jié)果分析。因此,對Web數(shù)據(jù)文本開展有效地預(yù)處理,去偽存真,消除冗余和關(guān)聯(lián)數(shù)據(jù),是確保Web數(shù)據(jù)挖掘質(zhì)量的關(guān)鍵所在,也是進(jìn)一步開展數(shù)據(jù)分析、聚類研究的前提。
Web數(shù)據(jù)來源于互聯(lián)網(wǎng),在網(wǎng)民作用力下隨著互聯(lián)網(wǎng)信息的演化、影響因素的制約和內(nèi)驅(qū)力作用呈現(xiàn)出沿時(shí)間軸發(fā)展的趨勢,Web數(shù)據(jù)具備以下幾個(gè)關(guān)鍵特征:
1) Web數(shù)據(jù)所在文本數(shù)量規(guī)模大。據(jù)中國互聯(lián)網(wǎng)網(wǎng)絡(luò)信息中心統(tǒng)計(jì)報(bào)告,廣大網(wǎng)民借助在線博客、微信、論壇、微博等社交工具開展社交討論。這是Web數(shù)據(jù)的廣泛來源。
2) Web數(shù)據(jù)涉及面廣,內(nèi)容復(fù)雜。Web數(shù)據(jù)幾乎涵蓋了政治、經(jīng)濟(jì)、文化、軍事、科技、藝術(shù)、醫(yī)療、生態(tài)、環(huán)保、養(yǎng)老、就業(yè)等所有重要領(lǐng)域,還包含了區(qū)域特點(diǎn)、風(fēng)土人情及民眾生活的方方面面及社會百態(tài)。
3) 廣告信息多,真假難辨。非官方的Web頁面多數(shù)存在大量的廣告信息,以及不實(shí)信息帖子等,與Web數(shù)據(jù)主題無關(guān),需要對數(shù)據(jù)進(jìn)行噪聲預(yù)處理,其質(zhì)量高低直接影響文本挖掘和數(shù)據(jù)分析結(jié)果。
4) Web數(shù)據(jù)分布的不均衡。Web用戶網(wǎng)上行為(發(fā)帖偏好、發(fā)帖時(shí)間、發(fā)帖內(nèi)容、發(fā)帖主題、態(tài)度觀點(diǎn)等)的不確定性、選擇載體的不確定性等因素決定了Web數(shù)據(jù)的分布不均。如:天涯論壇大多討論社會百態(tài),鐵血論壇主要針對軍事領(lǐng)域,小木蟲論壇科研技術(shù)數(shù)據(jù)居多。不同網(wǎng)民圍繞各自的興趣傾向訪問不同Web頁面,衍生出一系列的評論、轉(zhuǎn)帖、頂帖等行為數(shù)據(jù)。
5) Web用戶存在情緒傾向、行為偏好等個(gè)性特征。Web用戶大多數(shù)屬于普通用戶,十分關(guān)注生活所用、工作所需以及與自身利益相關(guān)的就業(yè)、環(huán)保、退休養(yǎng)老等熱點(diǎn)話題,個(gè)人情緒及行為偏好等相關(guān)數(shù)據(jù)在所難免地存在與Web數(shù)據(jù)中。
3.2 Web數(shù)據(jù)結(jié)構(gòu)化模型定義
在掌握Web數(shù)據(jù)結(jié)構(gòu)特征前提下,為了充分挖掘Web數(shù)據(jù),并能為數(shù)據(jù)分析、數(shù)據(jù)處理所用,本文對Web數(shù)據(jù)結(jié)構(gòu)化定義如下:
1) Web用戶主體結(jié)構(gòu)化模型定義
Web用戶作為互聯(lián)網(wǎng)的主體對象,多數(shù)情況需要信息注冊后才能獲得瀏覽內(nèi)容、回復(fù)評論及下載資料等行為允許。對Web用戶而言,不僅在互聯(lián)網(wǎng)產(chǎn)生靜態(tài)數(shù)據(jù)結(jié)構(gòu)信息,同時(shí)產(chǎn)生了動態(tài)操作行為、操作內(nèi)容以及和其他Web用戶之間建立的關(guān)聯(lián)關(guān)系等社會網(wǎng)絡(luò)信息。因此,本文對Web用戶主體結(jié)構(gòu)化模型定義包含三方面內(nèi)容:一是Web用戶靜態(tài)屬性信息,如:用戶名、性別、年齡、住址、URL、活躍等級、社會階層、社會影響力、社會知名度、學(xué)歷、收入、教育經(jīng)歷、工作經(jīng)歷、個(gè)人簡介、注冊日期、個(gè)性標(biāo)簽等;二是Web用戶動態(tài)屬性信息,發(fā)表文章數(shù)、回復(fù)帖子數(shù)、Web頁面瀏覽愛好、在線時(shí)長、關(guān)注數(shù)、支持?jǐn)?shù)、粉絲數(shù)、反對數(shù)、評論數(shù)、推薦數(shù)、情緒傾向、行為偏好、最后登錄時(shí)間等;三是行為關(guān)聯(lián)文本信息,如:標(biāo)題、領(lǐng)域類別、文本內(nèi)容等;四是用戶關(guān)聯(lián)關(guān)系信息,如:關(guān)注我的Web用戶、被我關(guān)注的Web用戶,關(guān)系屬性等。其模型描述如圖1所示:
2) Web數(shù)據(jù)文本結(jié)構(gòu)化模型定義
眾所周知,Web頁面的數(shù)據(jù)文本內(nèi)容,本身就包含自身存在的靜態(tài)文本對象內(nèi)容和動態(tài)加載的新聞內(nèi)容,除此之外,還包含了不同的Web用戶參與回復(fù)、評論行為等動態(tài)描述內(nèi)容。由于Web頁面信息多、內(nèi)容復(fù)雜等特征,為達(dá)到噪聲預(yù)處理成效,提高內(nèi)容挖掘質(zhì)量,方便文本分類或聚類操作,本文對Web頁面數(shù)據(jù)屬性進(jìn)行了抽象化描述。綜上,Web數(shù)據(jù)文本結(jié)構(gòu)化模型定義包含四反面的內(nèi)容:一是Web頁面文本的靜態(tài)屬性,如:URL、標(biāo)題、內(nèi)容、標(biāo)簽、發(fā)表時(shí)間、作者、領(lǐng)域;二是Web頁面文本的動態(tài)屬性,如:回復(fù)內(nèi)容、回復(fù)話題、回復(fù)時(shí)間、回復(fù)情感等;三是Web頁面文本的抽象屬性,如:特征詞、特征向量、聚類主題、表達(dá)情感、現(xiàn)實(shí)意義等;四是用戶關(guān)聯(lián)關(guān)系信息屬性,如:收藏者、推薦者、轉(zhuǎn)載者或回復(fù)者等用戶關(guān)系及用戶情感等。其模型描述如下:
4 Web數(shù)據(jù)分析系統(tǒng)設(shè)計(jì)
4.1 Web數(shù)據(jù)分析系統(tǒng)框架
Web數(shù)據(jù)分析系統(tǒng)的基本原理為根據(jù)管理員需求收集特定主題新聞或消息(即與Web頁面相關(guān)文本信息)并進(jìn)行文本內(nèi)容預(yù)處理(凈化網(wǎng)頁噪聲、特定文本分詞、相關(guān)詞頻統(tǒng)計(jì)、文本特征選擇、文本特征提取算法等),然后將預(yù)處理文本結(jié)果入庫,利用挖掘算法開展數(shù)據(jù)分析,最終反饋出熱點(diǎn)搜索信息及其跟蹤事件等。本系統(tǒng)設(shè)計(jì)框架如圖3。
4.2 子模塊功能設(shè)計(jì)及技術(shù)分析
4.2.1 輸入輸出層
輸入層主要指論壇社區(qū)、博客、新聞網(wǎng)頁、微博、微信、搜索引擎等載體信息和相關(guān)數(shù)據(jù)源。數(shù)據(jù)源是指根據(jù)系統(tǒng)管理員需求所需要收集的相關(guān)數(shù)據(jù)信息,主要的信息采集范圍包括Web新聞頁面,互聯(lián)網(wǎng)信息及傳媒信息等。隨著互聯(lián)網(wǎng)用戶的突增猛漲,網(wǎng)絡(luò)媒體已經(jīng)滋生了與廣大Web用戶息息相關(guān)的重要信息平臺,如微信、微博、論壇、政府官方門戶網(wǎng)站等,人們可以從中獲取娛樂、生產(chǎn)、科研、消費(fèi)、生活、社交等重要價(jià)值意義信息。
輸出層主要指系統(tǒng)前端展示,主要提供滿足管理員需求的一系列數(shù)據(jù)處理結(jié)果信息,如相關(guān)新聞排行榜、熱點(diǎn)話題統(tǒng)計(jì)信息、關(guān)鍵詞統(tǒng)計(jì)、情感傾向性和行為傾向性統(tǒng)計(jì)、數(shù)據(jù)統(tǒng)計(jì)報(bào)告自動生成和統(tǒng)計(jì)結(jié)果可視化展示等。
4.2.2 業(yè)務(wù)處理及擴(kuò)展層
1) 數(shù)據(jù)采集及預(yù)處理
如果互聯(lián)網(wǎng)是一張大圖,那么網(wǎng)頁就是互聯(lián)網(wǎng)上一個(gè)個(gè)節(jié)點(diǎn),不同網(wǎng)頁的鏈接關(guān)系則是鏈接節(jié)點(diǎn)的一條條邊,Web頁面數(shù)據(jù)采集就是以一個(gè)網(wǎng)頁為中心出發(fā)點(diǎn),根據(jù)圖論的遍歷方法自動獲取其他頁面,形象地稱為網(wǎng)絡(luò)爬蟲,網(wǎng)絡(luò)爬蟲技術(shù)會通過采集模塊收集和返回頁面文檔中有價(jià)值的信息并保存到緩沖區(qū),將緩沖區(qū)數(shù)據(jù)進(jìn)行預(yù)處理后保存到數(shù)據(jù)庫。Web數(shù)據(jù)的數(shù)據(jù)采集主要通過網(wǎng)頁之間的鏈接關(guān)系,獲取網(wǎng)頁資源源碼及其定位,并根據(jù)鏈接朝整個(gè)網(wǎng)絡(luò)方向擴(kuò)散。Web數(shù)據(jù)分析系統(tǒng)根據(jù)用戶提出的用戶檢索需求,設(shè)定關(guān)鍵詞、主題及其關(guān)注關(guān)系目標(biāo),使用信息自動采集和人工干預(yù)相結(jié)合的方法完成Web數(shù)據(jù)采集任務(wù)。對于已經(jīng)定位的網(wǎng)絡(luò)資源,首先判斷抽取出的內(nèi)容是否已經(jīng)保存到歷史數(shù)據(jù)庫中,如果數(shù)據(jù)庫中已經(jīng)存在,并且數(shù)據(jù)庫中保存的資源沒有變化,則采用內(nèi)容去重方法忽略該資源開展下一個(gè)資源收集工作。如果數(shù)據(jù)庫中不存在該資源,則按照文本分類方法存儲到固定數(shù)據(jù)庫模塊中。
Web數(shù)據(jù)預(yù)處理任務(wù)是:將采集的網(wǎng)絡(luò)頁面進(jìn)行數(shù)據(jù)清洗,分詞,分類,并形成新的格式化數(shù)據(jù)存儲到數(shù)據(jù)庫中。Web數(shù)據(jù)預(yù)處理是Web數(shù)據(jù)分析系統(tǒng)的技術(shù)準(zhǔn)備及數(shù)據(jù)準(zhǔn)備階段,主要對新收集的文本正文信息等進(jìn)行預(yù)處理,如網(wǎng)頁格式轉(zhuǎn)換、重要信息過濾。對于新聞評論等內(nèi)容,濾除無關(guān)信息,保留用戶名、性別、年齡、住址、URL、活躍等級、社會階層等Web用戶主體結(jié)構(gòu)化和URL、標(biāo)題、內(nèi)容、標(biāo)簽、發(fā)表時(shí)間、作者、領(lǐng)域等Web數(shù)據(jù)文本結(jié)構(gòu)化內(nèi)容。
2) 數(shù)據(jù)處理
Web數(shù)據(jù)處理主要包括數(shù)據(jù)入庫、網(wǎng)頁快照、附件存儲等相關(guān)操作。Web數(shù)據(jù)入庫主要是將Web用戶主體結(jié)構(gòu)化信息和Web數(shù)據(jù)文本結(jié)構(gòu)化信息保存到數(shù)據(jù)庫中。數(shù)據(jù)庫操作只要包括算法知識庫、數(shù)據(jù)收集知識庫、向量特征庫及語義分析庫等。
3) 數(shù)據(jù)語義分析
主要針對Web數(shù)據(jù)預(yù)處理模塊所得數(shù)據(jù)進(jìn)行數(shù)據(jù)挖掘,主要采用內(nèi)容分析、模式識別、自動摘要、文本聚類、主題檢索與跟蹤、情感傾向識別、趨勢分析等相關(guān)技術(shù)。該模塊是Web數(shù)據(jù)分析系統(tǒng)的核心模塊,是熱點(diǎn)跟蹤、科學(xué)發(fā)現(xiàn)功能的技術(shù)關(guān)鍵所在。
在系統(tǒng)實(shí)現(xiàn)過程,網(wǎng)頁信息分析方法建構(gòu)在向量空間模型理論基礎(chǔ)上,采用當(dāng)前比較成熟的文本聚類、文本分類等數(shù)據(jù)挖掘技術(shù)。在信息處理過程,將多種數(shù)據(jù)挖掘算法有機(jī)結(jié)合在一起,進(jìn)行可定制和可選擇的算法組織形式,對Web數(shù)據(jù)信息進(jìn)行分析和挖掘,這就保證系統(tǒng)能根據(jù)管理員和實(shí)際應(yīng)用需要,進(jìn)行策略調(diào)整和優(yōu)化,確保系統(tǒng)運(yùn)行能達(dá)到最佳狀態(tài)。
4.2.3 相關(guān)技術(shù)分析
文本聚類:文本聚類是指將一組文本和文章信息開展相似性比較,比較結(jié)果相似的文本和文章歸為相同組的技術(shù)。聚類事先沒有約定類別數(shù)確定的類別,聚類不需要人工標(biāo)注分類器。
文本分類:分類是事先定義好類別數(shù)固定的類別,采取分類器將把人工標(biāo)注的預(yù)料訓(xùn)練而得,屬于指導(dǎo)性學(xué)習(xí),文本分類技術(shù)是數(shù)據(jù)挖掘的重要技術(shù)。
內(nèi)容分析法:內(nèi)容分析法讓研究者采用間接方式對人類行為開展研究。研究者通過直接或間接方式獲得相關(guān)信息,也可以通過書籍或網(wǎng)絡(luò)媒介得到。內(nèi)容分析法不受時(shí)空干擾,可以研究文獻(xiàn)記錄或歷史文檔鉆研,了解當(dāng)前社會狀況。內(nèi)容分析法節(jié)時(shí)節(jié)源,缺點(diǎn)是重視資料次數(shù),忽略了易被忽略和少數(shù)內(nèi)容。
模式識別:就是采用計(jì)算機(jī)用數(shù)學(xué)方法研究模式判讀和自動處理。模式識別對現(xiàn)象和表征事物開展形式化的信息分析及處理技術(shù)(如文字的、邏輯的和數(shù)值的)。對現(xiàn)象或事件開展描述、辨認(rèn)、解釋、分析等過程,是人工智能和信息科學(xué)組成部分。
自動摘要:就是自動利用計(jì)算機(jī)從原始文本自動提取文摘,文摘就是按照自動摘要將文本簡單連貫的短文。常用方法就是將文本作為句子自動摘要成線性序列。
主題檢測與跟蹤:就是在傳統(tǒng)檢測話題基礎(chǔ)上,從社會話題監(jiān)測和突發(fā)性檢測基礎(chǔ)上與跟蹤方法同時(shí)分析,最好展望跟蹤方法及檢測話題的發(fā)展趨勢。
情感傾向識別:主要針對Web用戶評論等主觀性情感及看法急劇增長,已分析判斷威脅和數(shù)據(jù)發(fā)展態(tài)勢為目的數(shù)據(jù)分析系統(tǒng),得到廣大Web用戶數(shù)據(jù)分析崛起,成為職能分析的核心技術(shù)之一。
趨勢分析:就是數(shù)據(jù)達(dá)到的效果,與財(cái)務(wù)報(bào)表的在不同時(shí)期的指標(biāo)數(shù)據(jù)開展比較,從而確定現(xiàn)金流量、經(jīng)營成果、財(cái)務(wù)狀況的變化趨勢和規(guī)律的數(shù)據(jù)分析方法。
5 結(jié)束語及展望
互聯(lián)網(wǎng)存在的海量Web數(shù)據(jù),本文進(jìn)行了結(jié)構(gòu)化定義、特征分析,設(shè)計(jì)了基于Web數(shù)據(jù)分析系統(tǒng)框架,同時(shí)對技術(shù)有所研究,下一步需要進(jìn)行詳細(xì)地編碼實(shí)現(xiàn)。
參考文獻(xiàn):
[1] 王朝霞,姜軍,高紅梅,等.Web數(shù)據(jù)“蝴蝶效應(yīng)”的預(yù)警機(jī)制研究——以群體性突發(fā)事件為例[J].新聞界,2015(16):59-64.
[2] 饒?jiān)T妮,宋明爽,員鵬,等.數(shù)據(jù)分析—基于內(nèi)容與結(jié)構(gòu)的網(wǎng)絡(luò)輿情分析報(bào)告(2015)[M].電子工業(yè)出版社, 2015:10-15.
[3] 龐宇.Web數(shù)據(jù)事件預(yù)防與應(yīng)對[M].中國法制出版社,15-26.
[4] 鄭琳.首席數(shù)據(jù)官:2013-2014Web數(shù)據(jù)響應(yīng)百例[M].電子工業(yè)出版社,2014:280-290.
[5] 侯澤民.一種改進(jìn)的基于潛在語義索引的文本聚類算法[J].計(jì)算機(jī)與現(xiàn)代化,2014(7):24-27.
[6] 安計(jì)勇,高貴閣,史志強(qiáng), 等.一種改進(jìn)的K均值文本聚類算法[J].傳感器與微系統(tǒng),2015,5(34):131-133.