王艷閣
(中原工學院 計算機學院,河南 鄭州 450000)
互聯網傳播信息的快速傳播,因此微博給人們的工作、生活帶來了方便,但同時也給虛假信息和網絡暴力的迅速傳播等惡意、違法行為提供了滋生的溫床。即使公眾媒體和信息管理部門一直呼吁廣大網民規范自己的上網行為,維持網絡秩序,但是被有些人別有用心的傳播、制造網絡謠言,形成非理性非合法的網絡輿論氛圍,危害正常的生活、社會秩序。因此,不能僅僅依靠于網民的自律行為,需要網絡信息監管部門對網絡言論進行管理和監控,對網絡的輿情進行研究和分析,完善網絡輿情監控管理機制,培育高雅文明、開放成熟的正確輿論。
目前的互聯網世界已經進入到了自媒體時代,而這其中不可不提的一個關鍵詞便是微博。作為互聯網2.0時代最重要發明之一,它不僅僅把傳統媒體從紙上變到了電子媒介上,更重要的是它徹底改變了傳播的路徑。在這個微博時代,人人都是記者和編輯,每一個人都可以在遇到新聞突發事件的時候,進行新聞的采集和傳播。微博使廣大人民群眾參政議政有了更好的渠道和平臺,這是好的一面。但同時我們也應該看到其另一面,社會中的人素質有高低,認識社會、判斷社會的能力也有高低,不同階層的人、不同素質修養的人,都會利用微博做事情,而做出來的事情就會有著不同的效果,這就使得微博容易滋生大量的輿情輿論信息,這些信息一旦引發了不合常理的群體行為,將導致社會正常生活受到嚴重不良影響。因此,如何在大量信息中查找、瀏覽有用的輿情資訊,進行分析判斷、以有效的地控制和規范網絡信息的傳播是亟需研究解決的問題。
目前智能挖掘的運用和機器學習識別是網絡輿情系統的核心,用來挖掘分析網絡上的大量的時刻變化的網絡輿情信息。處理在人工技術手段下無法解決對大量、時刻變化網絡內容的及時監控和管理。常用關鍵技術如下:
第一是項智能的無需人為干預、自動獲取互聯網信息的數據挖掘和信息搜索技術。以前的網絡爬蟲從一個或若干初始網絡的URL開始,獲得初始網絡上的URL,在爬取網絡的時候中,不停的從當前網絡上抓取新的URL放入隊列,一直到滿足系統的部分停止條件為止。全部被其抓取的網絡將會自動被系統保存,以判斷抓取的頁面是列表頁還是內容頁。如果是列表頁,則調用相應的列表頁模板進行分析研究,新的URL添加到未下載URL隊列中,等待下載;如果是內容頁,則把它寫入文件。
第二是信息提取與檢索。對于網絡爬蟲抓取的大量信息,用前期的檢索引擎并且把自然與然分析技術和數據攫取技術結合起來進行對信息的提取。內存中存取的數據是爬蟲在爬取目錄下采集的,這些數據是爬蟲定期搜索獲取的。保存頁面中的有價值的信息,并且把頁面中的征文和標題部分驚醒區別的技術是,網頁站點智能抓取技術。調用有用的插件把內容提取出來是分析線程的主要任務,按照相應的表達式所表達的意思,按照一定的周期把數據存入到文件中。
第三是自動摘要的形成,也就是機器通過智能的方法把文檔自動形成摘要的過程和技術方法。這種方法是提取信息的重要手段,同時在提取的過程中這種技術綜合了機器識別和挖掘數據技術。這種方法有基于理解和基于統計這兩種方式,基于理解的文摘是根據線索詞詞頻、詞典、句子和詞的統計方法進行模式匹配提取摘要;而基于統計的方式則是利用語義句法、語義知識等知識,在對文章的內容進行理解的基礎上提取摘要。
第四是主題追蹤與檢測。這種技術追蹤一些目標主題的的各種信息以及與之有關的信息片段。
以上4中技術就可以滿足當前的熱點事件的追蹤、專題特別報道、新事物的快速識別等。主題檢測是從各個信息集合的片段中檢測出新的主題,并且是實時在線的。
微博輿情系統是微博最為監控的主題,與比較重要的主題論壇信息進行對比分析,從而掌握網絡輿情的發展的新動向。話題聚類、數據采集和微博輿情預測是微博淤青監控的主要部分,第一數據采集的內容主要是使用爬蟲自動收集頁面信息。爬蟲模塊是網頁站點信息采集的重要工具,它的作用是非常重要的,也是網絡微博最初數據的獲取來源。為了給用戶制定相應的爬行策略,爬蟲模塊提供一定的抓取任務和爬蟲的運行方法,從而對網站頁面的信息抓取達到給用戶方便快捷的操作平臺。微博輿情系統采用的是聚焦式網絡爬蟲。傳統網絡爬蟲和聚焦網絡爬蟲的區別在于,通過配置敏感信息規則和系統自學習功能,根據系統事先定義的與輿情相關的敏感關鍵詞集合,如何剔除無關的搜索信息過濾掉不符用戶定制的主題主題,是頁面算法的重要功能實現,除了實現以上功能外,還要把有用的數據信息、有效地鏈接信息等用戶需要的數據采集到放到URL隊列中。微博爬蟲的基本方法就是按照原定的抓取策略,確保與主題有關的信息多爬行、多下載,并分析計算下一個將要被獲取的連接于用戶定義主題的關系度,盡最大可能少的下載無用頁面。
與通用網絡爬蟲相比,微博爬蟲的研究目標是以下三個方面:(1)如何描述或定義抓取網頁目標。(2)怎樣排列待爬行URL的具體次序。微博爬蟲根據已經下載頁面的相關聯程度度,怎樣將頁面放到優先級隊列中是根據該頁面的子頁面與用戶定義的相關度來決定的。有了用戶定義的相關度,微博爬蟲的爬行策略就不再是簡單的深度或者廣度優先了,而是根據相關度的大小,最先訪問相關度大的網頁連接。(3)怎樣判斷一個網頁是否和策略有關系。挖取數據技術可以實現應經在隊列等爬行的連接和已經獲取的網頁并且可以獲取具體的信息內容。因此,主體不同的爬蟲之間的主要區別二就是目前爬行頁面的主題相關度。
微博爬蟲抓取策略是聚焦式定向抓取,根據需要對相應的網頁或者論壇的信息進行獲取,所以域名或者網站的條件需要過濾,并且條件還需要特定的設置。如baidu.com就可以設置成過濾條件,那么爬蟲收集網頁信息的時候就只會收集百度的網頁信息。對網站過濾、關鍵詞過濾、搜索工具過濾和最初連接的個數過濾等是聚焦式爬蟲的工作方式。用戶指定的網頁在全網的連接站點進行抓取。但是聚焦式爬蟲的回應是在前期完善的搜索平臺上進行操作,如在百度或者谷歌上面來獲取一些鏈接并和本主題關系度較大。在爬行的時候首先從常用的搜索引擎中獲得一些網站鏈接,然后從中開始抓取,抓取的時候也是相關度越來越高,直到和用戶定義的條件滿足為止,到達最深的爬行度的時候才結束本次爬行過程。為了提高爬行的精度,微博爬蟲采用先對與用戶定義相關的頁面進行連接,而不像普通爬蟲那樣對所有的頁面的進行爬行,對用戶的相關度進行分析后再處理,這樣爬行的精度就很自然的提高了,同時爬行的結果也與用戶與期待的結果相關的也大,達到了雙優的結果,即使有少數遺漏了,也能讓大部分的用戶滿意。從以上可以看出如何分析用戶提出定義的主題的相關度是本微博爬蟲的關鍵技術,對用戶提出的關鍵詞進行分析是實現的最簡單的方法,再深一步的話就可以對主題所提到的概念和語義的分析,達到這一層次是比較精深的。
怎么對用戶定義的關鍵詞的主題相關度分析呢,大概的主要思路下面具體闡述:第一要確定用戶提出的關鍵詞,這個關鍵詞要有一定的權重還要能夠代表受限制的領域。第二利用空間向量的模型算法,來算出頁面的相關程度,從而確定主題的相關度的取舍與用戶定義主題相關度大的網絡頁面。普通爬蟲是概念和主題爬蟲的基礎,兩者都是在普通爬蟲功能上進行擴充,在整個基于概念和基于關鍵詞的主題爬蟲系統全是以普通爬蟲作為基礎,而在這基礎上進行功能上的擴充,主題分析相關度,優化中子模塊,主題確立模塊,排序模塊就是頁面處理的整個過程。兩種方法的主要不同之處在于的怎么表示。其系統工作具體流程如下:第一爬行模塊搜索網絡頁面;第二爬行模塊對所爬取的網頁進行分析,調用相關的算法模塊;第三根據檢測的結果對不同的結果進行分析研究;第四對正在數據庫里等待處理的網絡連接進行調用返回到第一步,一直到沒有新的網絡連接;第五爬取的響應網頁結果進行排序。做為輿情監控控系統的重要組成部分,微博爬蟲和通用的網絡爬蟲類似,也需要遵守普通爬蟲的基本原則,如穩定性、活動性、爬行時要遵守Robots協議等。
由于微博輿情監控系統的特殊需要,微博爬蟲部分的設計和通用網絡爬蟲相比有很大區別。對整個網絡內容信息進行抓取時通用爬蟲的的工作策略,深度和廣度策略都要用到。每一次完成抓取內容,爬蟲都需要廣泛的撒網,范圍很大,同時也需要相對較長的時間和資源。聚焦抓取和定向抓取是爬蟲常用的策略,但是在具體的實施過程中要選擇既效率高又節省資源的方法對各種和主題相關的網頁進行收集獲取,這也是輿情監控系統重要功能體現。聚焦爬蟲為了避免資源浪費,采取了只對與用戶定制主題相關的資源進行獲取,實現的方法是通過計算向量空間模型實現的,在最短的時間內完成信息的獲取,并且工作范圍還比較小,這就是定向抓取的方式。通過網頁的連接信息能夠查詢到所屬的歸屬地,也可以判斷出這個網頁是否和具體的某個微博關系度比較大。用戶只關心與自己定義主題有關的信息,所以僅連接本微博相關度大的連接。用關鍵詞的范圍比較和語義擴展來實現微博爬蟲的靈活性。為了不丟棄和用戶定義的主題的信息,可以通過提高判斷關鍵詞和識別的比較的方法。為了減輕微博爬蟲爬行負擔,爬蟲一般會設法減少爬取網頁的相關數目。用戶可以通過設置一定的爬行策略來滿足抓取時的特殊需要,如設置限定的爬蟲的爬取范圍或者利用關鍵詞實現高速獲取信息等,省掉了抓取無關網頁的大量時間。
第一,快速抓取網絡時刻更新的大量內容,網絡頁面的更新也需要爬蟲定時的回訪原來爬行過的頁面站點,從而確保最新的焦點話題能夠能夠在整個輿情監控系統中快速獲取。微博爬蟲的工作效率和多次抓取有著重要的關系,尤其是多次爬去的效率和范圍。增量式抓取和周期性抓取策略是網站頁面抓取的重要手段,為了保證網頁信息的時效性采取對多個網頁定期性的爬取,同時根據爬去的周期性采取不同的爬行策略,對于和主題相關度比較大的網頁重點抓取。
第二,在微博爬取過程中在一定時間內是爬行模塊是比較固定的,它的目錄機構要遵循一定的命名規則,所以很明顯的區別與其他的模塊。例如新浪微博等微博中不相同模塊就可以通過域名來區別出來,也就可以利用這樣來給爬取的文檔分類保存,不同的微博模塊可以采用不同的爬取策略,例如對變化比較快,比較大的模塊可以設置多次的爬行策略,而對于變化速度比較慢的模塊可以減少爬行次數,從而提高了爬行的效率。當然要實現以上的策略,需要有智能的識別系統來識別微薄的更新速度和時間,也對不同的網絡連接是指不同的抓取策略。
[1]PJianpingZeng,PShiyong Zhang,Chengrong Wu,PJianfengXiePredictive Modelfor Internet Public Opinion.Proceedings of the Fourth International Conference onFuzzy Systems and Knowledge Discovery(FSKD 2007).2007,Vol.3:7-11。
[2]姜勝洪.網絡輿情熱點的形成與發展、現狀及輿論引導[J].理論月刊,2008,(4)
[3]張旭,張振江,劉云.BBS輿情系統爬蟲模塊的研究[J].鐵路計算機應用2010(12)18-21
[4]劉金紅,陸余良.主題網絡爬蟲研究綜述[J].計算機應用研究.2007(10)26-29.
[5]A.Rungsawang,N.Angkawattanawit.Learnable topic—sp'ecificweb crawler[J].Journal ofNetwork and Computer Applica—tions.2005(28):97—11
[6]邁克塞沃爾.鏈接分析:信息科學的研究方法[M].孫建軍,李江,張煦,等.南京:東南大學出版社,2009:15.