999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

網絡輿情信息提取技術研究與實現

2016-03-01 08:59:22劉華春王星捷
計算機技術與發展 2016年9期
關鍵詞:頁面信息

劉華春,王星捷

(成都理工大學工程技術學院,四川樂山 614007)

網絡輿情信息提取技術研究與實現

劉華春,王星捷

(成都理工大學工程技術學院,四川樂山 614007)

網絡輿情信息提取是輿情分析系統中最為關鍵的部分,是實現輿情分析、輿情統計的數據基礎。為此,設計和實現了一個基于話題線索的輿情信息提取方案。該方案將輿情頁面以話題為線索進行邏輯劃分;采用基于DOM樹的廣度優先搜索方法,設計了輿情信息提取算法;通過設置最低重復話題閾值θ,用戶定制提取格式,信息去重去噪措施,實現了輿情信息的有效提取。通過對多個論壇輿情信息的提取實驗,結果表明,所設計的方案有很好的提取性能,召回率、正確率、F指數都較高,能夠很好地提取出論壇、評論等輿情信息。

輿情信息;Web信息提取;話題線索;DOC樹

0 引言

網絡輿情系統是對網絡中的輿論信息進行采集、檢測、監控的互聯網信息系統。用戶針對所關注的輿論話題,能夠快速檢索所關注網站、論壇及以微博為代表的自媒體上的言論,對輿論觀點分類,做出分析和預測預警。通過對輿情信息的過濾、提取、分類、聚類、主題監測、專題聚焦、自測等技術,使用戶即時掌握網絡輿情狀態。

網絡輿情系統通常包括數據采集、網頁信息抽取、數據統計分析、輿情數據處理和系統管理等。網頁信息抽取是網絡輿情系統中極其關鍵的部分[1]。網絡輿情信息主要來源于新聞報道、各種論壇、微博等,這些信息是非結構化或半結構化的。需要將其抽取、轉換為結構化的信息,存入數據庫中,使得采用成熟的基于數據庫的各種查詢和統計、分析輿情信息成為可能[2]。結構化、規范化的各種輿情數據是網絡輿情系統數據處理,輿情分析模塊的基礎和前提。

1 網頁信息抽取技術分析

網頁信息抽取是從采集到的網頁中提取相關數據信息的過程,其研究內容是針對需要抽取信息的網站,研究其頁面信息的分布規律,通過構造抽取規則,尋求最為高效和準確的抽取方法,抽取網頁中的信息,以供網絡輿情分析使用。

傳統的網頁信息抽取方法是構造一個具有特定規則和針對性的包裝器Wrapper[3]。包裝器從采集的網頁中提取所需要的數據信息,并將這些數據轉化成恰當的格式,如XML、表格等[4]。目前,出現了很多采用不同技術而改進的包裝器,如基于HTML文檔、統計方法、DOM文檔、視覺的技術等等。

(1)基于HTML文檔的提取。

該類提取技術主要根據抓取的HTML文檔的結構特點,制定一套正則表達式,過濾出需要的數據信息。也可采用HTML解析工具,如HtmlParser解析器,通過匹配HTML標簽,抽取出網頁中所需的信息。該類抽取技術優點是技術簡單,抽取準確率高;缺點是通用性差,需要針對各類待抽取網頁的特征單獨制定抽取模板[5]。

(2)基于統計特征的提取。

該類提取技術是基于網頁的文本信息與標簽信息的比率關系。如網頁中某塊中文與HTML代碼的比例,正文信息與周圍超鏈接的比例,逗號、句號使用頻率等文本特征,判別出該信息是文本信息還是廣告導航之類的信息,從而抽取出需要的文本信息[6]。該類抽取技術缺點是準確率不高,而且無法抽取BBS論壇信息。由于論壇類網頁中各人語言的隨意性,使得各個樓層正文信息長短不一,風格各異,所以難以采用該類方法。

(3)基于DOM的提取。

該類抽取技術是采用DOM文檔對象模型,即將HTML或者是XML這類文件理解或者說解析成一種文檔對象,把XML文檔里的各個標簽視為節點對象,即DOM樹,根據XML的節點信息,解析出所需的文本信息[7]。將該技術用于BBS論壇網頁抽取,具有明顯優勢。由于BBS論壇每一層的樣式相同,反映在HTML代碼上,各層都具有相同的兄弟節點,所以,可以制定通用的抽取模板。

(4)基于機器學習技術的提取。

將目前非常流行的機器學習技術應用于網頁信息的提取。機器學習是采用某種學習算法(如BP神經網絡、SVM支持向量機、關聯、聚類等)進行數據模型訓練學習,得到一種模型,再用此模型進行實際檢測提取[8-11]。其優點是自動化程度高,缺點是提取準確性較差。

在當前的Web網頁中,絕大多數是新聞類網頁,少部分是BBS論壇類網頁。目前幾乎沒有一種通用模板可以包含這兩種類型的網頁。而網絡輿情系統除了正文信息提取外,還需要統計作者名稱、發帖時間、回帖人名稱、回帖時間等內容。因此,網絡輿情信息抽取技術越來越趨向于算法的復雜化,是多種提取技術的交叉和綜合應用。

2 網絡輿情系統信息抽取

網絡輿情是民眾關于社會中各種現象、問題所表達的信念、態度、意見和情緒等等表現的總和。在網絡環境下,輿情信息的主要來源包括新聞評論、社區論壇、博客、微博等。網絡輿情主要以話題的形式存在和傳播。

2.1 網絡輿情信息抽取特點

從信息資源特點來看,每一種信息資源特點都不一致,如論壇的文本通常較短,且用語多非書面化,在信息抽取時需要較多的樣本和詞典支持。新聞評論是跟帖的較多,各條評論之間關系復雜[12]。為此,文中提出一種獨立于輿情信息源的信息抽取方法,即面向話題的信息抽取方法。

2.2 面向話題的輿情信息抽取

(1)話題線索抽取。

網絡輿情信息抽取就是將基于某一話題的信息進行抽取,分析,統計。這些半結構化的信息主要分布于各類評論、論壇中。在論壇中,其結構為標題頁加內容頁面形式,標題頁即為話題,標題鏈接內容頁面,內容頁面即為某一話題的評論內容。在各類評論中,其結構為話題加評論,話題為新聞、口碑等,評論為對該新聞或口碑的評價[13]。為了便于瀏覽,通常一個頁面所顯示的內容是固定的,當內容超出一頁時,采用多頁顯示,如圖1所示。信息內容頁主要顯示話題內容及對該話題的各種評論和鏈接。

由于論壇或評論在Web頁面中大都采用同一功能的CGI模塊來生成統一格式的HTML頁面,發帖人傳入的參數也是具有規律的,其URL具有相似的結構[14-15]。因此,可以根據用戶選定來生成特定URL類的匹配模式,實時地提取輿情信息。

話題線索抽取算法描述如下:

①判別是論壇類信息源轉②;如果是評論類信息源轉⑤。

②論壇類信息源:從標題頁中提取每個指向消息內容頁面的鏈接,初始為未處理,表示該鏈接為某一話題的起始位置,下載該URL指向的消息頁面。

③提取同話題的消息頁面內容。將話題線索中指向該消息頁鏈接處理標志置位已處理。

④遞歸轉②處理,判別下一話題鏈接處理標志,若未處理轉③,全部已處理轉⑥。

⑤評論類信息源:從消息話題頁提取話題和評論,置處理標志為已處理。若全部話題頁標志為已處理,轉⑥。

⑥結束話題線索抽取。

(2)信息內容提取。

信息內容提取的目的是將半結構化的HTML形式話題,提取其屬性值,如發帖人、發帖時間、話題內容、點贊數、轉發數等信息,將其轉換為結構化的信息內容記錄,存入數據庫表中,重構結構化的話題線索,為輿情分析、統計提供數據基礎。

通常一個信息頁面中包含多條信息,每條信息即是一個話題內容或一個評論內容的信息塊。在HTML結構中,每一個信息塊是DOM樹的一個相對獨立的子樹,子樹之間有相同的父節點,子樹呈兄弟節點關系,其內部結構特征相同,如圖2所示。div下都是相同的結構,代表了一條信息,因此,用戶指定一個信息節點的處理方式,系統能夠自動處理其他節點。

(3)輿情信息提取算法。

論壇頁面由于其具有重復子樹的特點,由前兩節可知,論壇輿情信息提取的算法核心是基于重復模式的DOM子樹遍歷。文中采用廣度優先搜索算法遍歷輿情論壇DOMDocment。廣度優先遍歷算法是從樹的根節點開始,依次遍歷下一層的子節點。由于輿情論壇回帖信息大部分是從屬于某一個話題節點,即父節點,回帖節點信息大都是平行的,因此采用廣度優先搜索算法是最合適的。具體算法流程如圖3所示。

該算法采用一個隊列來實現DOM樹的廣度優先搜索過程,循環測試是否找到符合條件的節點,如果找到,并且總數大于設定的閾值θ,退出循環,算法結束。重復子樹模塊閾值θ,是具有相同子樹的節點統計值,預先設定,如果頁面中相似的節點出現的次數大于θ,這些節點就為同一話題節點。

(4)信息去重去噪。

網絡輿情信息提取需要處理的數據量巨大。在海量數據提取的過程中,最主要的是不再保存重復的提取信息,這樣可減輕數據存儲時的負擔,并且為分析數據提供方便。文中的輿情信息自動抽取技術在存儲數據時對數據庫進行了優化,為了避免重復數據的采集,采用HashCode(哈希值)作為表的索引。以論壇為例,通過對作者、時間、標題這3個字段組成的字符串進行哈希運算,由于重復的對象具有相同的哈希值,這樣有效避免了重復信息的存儲,極大提高了數據庫的查詢效率。

3 系統實現及實驗結果分析

3.1 系統實現

網絡輿情的信息源站點具有不同的頁面格式,因此,文中所提出的抽取系統可以根據用戶設定的抽取規則定制抽取模塊。如圖4所示,輿情信息抽取系統分為規則定制部分和信息抽取部分。規則定制部分流程:抽取樣本頁面,定制輿情話題線索抽取規則,生成XML格式的抽取規則模塊。信息抽取部分工作流程:啟動輿情話題線索抽取引擎,系統根據生成的XML抽取規則,從輿情信息源站點抽取合乎規則的預期信息結果文件,保存在數據庫和XML文件中。

3.2 實驗結果分析

(1)性能評價指標。

MUC(Message Understanding Conference,消息理解會議)為信息檢索和信息提取領域內的算法性能測試提供評估參數,主要有召回率R(Recall)、正確率P (Precision)和F指數。召回率是指正確抽取的記錄占被抽取頁面中所有記錄的比例;正確率是指所有抽取出來的記錄中正確抽取的評論記錄所占的比例。

(2)結果分析。

利用網絡爬蟲分別從汽車之家論壇、天涯社區論壇、新浪論壇、貓撲社區、網易論壇各抓取100個頁面,共計500個頁面。文中算法將每個頁面基于信息塊的子樹,從每個信息塊中提取出“作者”、“正文”、“時間”、“其他”。“其他”為鏈接或按鈕等非文本信息。測試結果如表1所示。

表1 輿情信息抽取結果

經過測試可以看出,R、P、F指數都較高,可以比較滿意地提取出所需信息的內容,抽取效果較好。

4 結束語

網絡預期信息抽取是網絡輿情系統中最重要的部分,是進行后續的輿情分析、輿情統計等的基礎。文中采用面向輿情話題的信息提取方法,將話題線索轉換為對文檔的DOM樹的廣度優先搜索,并采取設置重復子樹閾值θ、去重去噪等方法以實現輿情信息的提取。在提取系統設計中,采用了基于用戶制定格式,即標注提取方式。實驗結果表明,召回率、正確率都較高,可以較為滿意地提取輿情信息內容。

[1] 王 權,施韶亭.Web信息抽取技術在統一檢索系統中的應用研究[J].計算機應用與軟件,2010,27(10):120-122.

[2] 王全民,王 莉,曹建奇.基于評論挖掘的改進的協同過濾推薦算法[J].計算機技術與發展,2015,25(10):24-28.

[3] 姬 鑫,鐘 誠.基于分塊的新聞網頁信息抽取算法[J].計算機應用與軟件,2015,32(4):317-322.

[4] 張 昕,鄂海紅,宋美娜,等.基于視覺特征的就業信息頁面抽取方法[J].軟件,2014,35(9):16-20.

[5] 張 奇,郝志峰,溫 雯,等.基于互信息度量的Web信息抽取[J].計算機應用與軟件,2013,30(12):15-18.

[6] 吳 秦,胡麗娟,梁久禎.基于分塊重要度和二維條件隨機場的Web信息抽取[J].南京大學學報:自然科學版,2014,50(1):79-86.

[7] 王志華,魏 斌,李占波,等.基于本體的Web信息抽取系統[J].計算機工程與設計,2012,33(7):2634-2639.

[8] Madhavan J,Ko D,Kot L,et al.Google’s deep web crawl[J]. Proceedings of the VLDB Endowment,2008,1(2):1241-1252.

[9] Stevanovic D,An Aijun,Vlajic N.Feature evaluation for Web crawler detection with data mining techniques[J].Expert Systems with Applications,2012,39(10):8707-8717.

[10]顧韻華,高 原,高 寶,等.基于模板和領域本體的Deep Web信息抽取研究[J].計算機工程與設計,2014,35(1): 327-332.

[11]Liu X,Gong D.A comparative study of a-star algorithms for search and rescue in perfect maze[C]//Proc of ICECICE.[s. l.]:IEEE,2011:24-27.

[12]丁艷輝,李慶忠,董永權,等.基于集成學習和二維關聯邊條件隨機場的Web數據語義標注方法[J].計算機學報,2010,33(2):267-278.

[13]Cali A,Martinenghi D.Querying the deep web[C]//Proceedings of the 13th international conference on extending database technology.[s.l.]:[s.n.],2010:724-727.

[14]趙 濤,張太紅,陳燕紅.中文農業網頁去重及相似度判斷研究[J].計算機技術與發展,2015,25(1):191-194.

[15]房 勇,李銀勝.基于DOM狀態轉換的隱網頁信息抽取算法[J].計算機應用與軟件,2015,32(9):17-21.

Research and Implementation of Information Extraction Technology in Network Public Opinion

LIU Hua-chun,WANG Xing-jie
(Engineering&Technical College of Chengdu University of Technology,Leshan 614007,China)

Internet public opinion information extraction is the most critical part of public opinion analysis system,which is also a data base of the public opinion analysis and statistics.For this reason,a public opinion information extraction method based on clues topic is designed and implemented.In the method,pages of public opinion as one topic clue is divided to logical region,and the breadth-first search methods based on DOM tree is applied to design extraction algorithm of public opinion information.By setting a minimum repeat topic threshold θ,customized extraction format,removed duplicate and noise of information,public opinion extraction is realized effectively.By experiment of the public opinion of multiple forums,the results show that this scheme has good extract performance,and the recall,the correct rate and F measure are higher,which is able to well extract forum and reviews and other public opinion information.

public opinion information;Web information extraction;topic clues;DOC tree

TP391

A

1673-629X(2016)09-0008-04

10.3969/j.issn.1673-629X.2016.09.002

2015-11-28

2016-03-09< class="emphasis_bold">網絡出版時間:

時間:2016-08-23

四川省自然科學重點項目(A22012003);四川省樂山市科技局重點項目(14GZD050)

劉華春(1966-),男,碩士,副教授,研究方向為智能信息處理、機器學習。

http://www.cnki.net/kcms/detail/61.1450.TP.20160823.1359.046.html

猜你喜歡
頁面信息
微信群聊總是找不到,打開這個開關就好了
大狗熊在睡覺
刷新生活的頁面
保健醫苑(2022年1期)2022-08-30 08:39:14
訂閱信息
中華手工(2017年2期)2017-06-06 23:00:31
展會信息
中外會展(2014年4期)2014-11-27 07:46:46
同一Word文檔 縱橫頁面并存
淺析ASP.NET頁面導航技術
其實IE也懂Chrome的心
信息
建筑創作(2001年3期)2001-08-22 18:48:14
健康信息
祝您健康(1987年3期)1987-12-30 09:52:32
主站蜘蛛池模板: 在线国产综合一区二区三区| 毛片大全免费观看| 欧美国产日产一区二区| 午夜日b视频| 99久久精品国产麻豆婷婷| 精品中文字幕一区在线| 九九热精品视频在线| 狼友视频一区二区三区| 视频二区亚洲精品| 99er精品视频| 欧美国产日韩一区二区三区精品影视| 欧美精品色视频| 99精品视频播放| 黄色网页在线播放| 国产免费网址| 国产精品视频3p| 中文国产成人精品久久| 亚洲中文无码av永久伊人| 精品人妻AV区| 农村乱人伦一区二区| 国产第一页第二页| 孕妇高潮太爽了在线观看免费| 国产日本欧美在线观看| 成人午夜网址| 影音先锋亚洲无码| 亚洲国产精品一区二区高清无码久久| 久久毛片基地| 国产微拍精品| 一本久道久久综合多人| 日韩 欧美 小说 综合网 另类| 国产69囗曝护士吞精在线视频| av色爱 天堂网| 毛片网站免费在线观看| 国产又大又粗又猛又爽的视频| 久久亚洲国产视频| 粉嫩国产白浆在线观看| 亚洲天堂视频网站| 久久久91人妻无码精品蜜桃HD| 国产乱人免费视频| www亚洲天堂| 在线观看视频99| 青草精品视频| 毛片视频网址| 日韩欧美一区在线观看| 亚洲欧美一区二区三区麻豆| 日韩一级二级三级| 欧美精品亚洲精品日韩专区va| 婷婷久久综合九色综合88| 亚洲香蕉伊综合在人在线| 欧美在线精品一区二区三区| 青青草国产免费国产| 精品少妇人妻一区二区| 无码AV日韩一二三区| 亚洲最大在线观看| 国产主播喷水| 亚洲欧美在线综合一区二区三区| 亚洲无线观看| 亚洲色图另类| 日本免费一区视频| 国产三区二区| 毛片久久网站小视频| 色播五月婷婷| 久久精品免费看一| 六月婷婷激情综合| 欧洲极品无码一区二区三区| 亚洲最猛黑人xxxx黑人猛交 | 91免费观看视频| 欧美全免费aaaaaa特黄在线| 精品国产美女福到在线不卡f| 欧美国产中文| 尤物亚洲最大AV无码网站| 欧美精品v欧洲精品| 99久久精品国产综合婷婷| 日韩高清一区 | 无码电影在线观看| 国产精品区网红主播在线观看| 国产91色在线| 精品午夜国产福利观看| 91无码视频在线观看| 欧美啪啪精品| 国产精品亚洲va在线观看| 日韩精品无码免费一区二区三区 |