999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

網(wǎng)絡(luò)熱點(diǎn)信息發(fā)現(xiàn)系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)

2014-03-08 02:01:45邱海健
自動化與儀表 2014年8期
關(guān)鍵詞:評價檢測信息

邱海健

(南京工業(yè)大學(xué) 電子與信息工程學(xué)院,南京 211816)

隨著計(jì)算機(jī)網(wǎng)絡(luò)技術(shù)的快速發(fā)展,大量網(wǎng)民認(rèn)為互聯(lián)網(wǎng)是獲取信息的最重要的渠道,網(wǎng)絡(luò)信息的爆炸增長和網(wǎng)民參與熱情的空前高漲使得對網(wǎng)絡(luò)內(nèi)容的監(jiān)控和管理變得十分迫切和緊要,而面對海量的互聯(lián)網(wǎng)信息,網(wǎng)絡(luò)輿論信息為其中比較突出的代表,網(wǎng)絡(luò)輿論是在互聯(lián)網(wǎng)上傳播的公眾對某一焦點(diǎn)所表現(xiàn)出的有一定影響力的、帶傾向性的意見,而且網(wǎng)民言論同時具有巨大的信息爆發(fā)力和輿論影響力[1]。

互聯(lián)網(wǎng)上,熱點(diǎn)話題表現(xiàn)為互聯(lián)網(wǎng)用戶閱讀網(wǎng)頁、回帖和跟帖等,隨著網(wǎng)民的關(guān)注和事情的發(fā)展和變化,討論中心也會發(fā)生改變,同時真實(shí)地反映了大多數(shù)網(wǎng)民對該事件的態(tài)度。可見,獲取熱點(diǎn)信息變得更加重要。

根據(jù)某單位的需求,要及時地發(fā)現(xiàn)熱點(diǎn)問題和熱點(diǎn)話題的變化[2],提出熱點(diǎn)信息發(fā)現(xiàn)系統(tǒng)。系統(tǒng)主要功能是利用Web技術(shù)[3]采集頁面信息并且根據(jù)Single Pass算法熱點(diǎn)評價算法[4]檢測網(wǎng)絡(luò)熱點(diǎn)信息。

1 方案設(shè)計(jì)

發(fā)現(xiàn)熱點(diǎn)話題是為熱點(diǎn)信息檢測服務(wù)的,首先把測試信息結(jié)合在一起,分析其中有影響力的話題,為熱點(diǎn)挖掘提供可靠的依據(jù)。

按照處理過程,本系統(tǒng)主要可以分為以下幾個步驟:信息采集、信息挖掘、信息熱度評價。系統(tǒng)流程如圖1所示。

系統(tǒng)主要流程是提取出來用戶可能感興趣的頁面信息,再進(jìn)行處理,將大量的信息整合成為有序的熱點(diǎn)話題,來提高熱點(diǎn)信息發(fā)現(xiàn)系統(tǒng)挖掘熱點(diǎn)信息的準(zhǔn)確度和效率。

圖1 系統(tǒng)流程圖Fig.1 Flow chart of system

2 系統(tǒng)總體設(shè)計(jì)

本系統(tǒng)采用B/S三層體系結(jié)構(gòu),由應(yīng)用層、業(yè)務(wù)邏輯層和數(shù)據(jù)服務(wù)層構(gòu)成,三層之間相互交互來實(shí)現(xiàn)系統(tǒng)的整個功能。用戶通過發(fā)送請求到應(yīng)用層查詢需要處理的頁面,通過Web技術(shù)和相關(guān)算法處理得到信息存儲在數(shù)據(jù)庫中。數(shù)據(jù)服務(wù)層主要提供數(shù)據(jù)存儲服務(wù),由數(shù)據(jù)庫的服務(wù)器和文件系統(tǒng)組成。系統(tǒng)總體框架如圖2所示。

圖2 系統(tǒng)總體框架Fig.2 Modules of system

每個子系統(tǒng)都有自己單獨(dú)功能模塊程序,而且需要不斷地和數(shù)據(jù)庫進(jìn)行交互完成各自的功能。整個系統(tǒng)包含信息采集子系統(tǒng)、熱點(diǎn)挖掘子系統(tǒng)、熱點(diǎn)評價子系統(tǒng)。

信息采集子系統(tǒng) 主要是對網(wǎng)頁的內(nèi)容進(jìn)行篩選,選出網(wǎng)頁的主要內(nèi)容。

熱點(diǎn)挖掘子系統(tǒng) 主要是對信息采集子系統(tǒng)處理過的內(nèi)容進(jìn)行聚類分析,把信息進(jìn)行歸類。

熱點(diǎn)評價子系統(tǒng) 主要是對熱點(diǎn)挖掘子系統(tǒng)的歸類信息進(jìn)行熱點(diǎn)評價,評價并且排行出近期活躍度高的熱點(diǎn)話題。

3 系統(tǒng)的關(guān)鍵算法

3.1 網(wǎng)頁信息采集

本論文所構(gòu)建的熱點(diǎn)信息發(fā)現(xiàn)及分析系統(tǒng)是利用網(wǎng)絡(luò)信息采集和挖掘等相關(guān)技術(shù),將互聯(lián)網(wǎng)上可能引起用戶興趣話題和關(guān)注比較大的信息整理出來,以直觀的數(shù)據(jù)表現(xiàn)方式提供給相關(guān)用戶進(jìn)行特定處理。

信息采集子系統(tǒng)中主要工作:首先處理測試網(wǎng)頁中一些沒有用的信息例如廣告信息等,得到一些干凈的網(wǎng)頁之后,找出相關(guān)信息網(wǎng)頁。

3.2 熱點(diǎn)信息檢測相關(guān)算法3.2.1 Single Pass聚類算法

Single Pass算法主要是根據(jù)輸入內(nèi)容,將內(nèi)容處理為內(nèi)容文本,將內(nèi)容文本與已有話題進(jìn)行相似性比較,根據(jù)相似度的值進(jìn)行匹配選取。如果與某個話題相似度高,則把文本歸入該話題,如果相似度度量均小于某一閾值,則將該文本定義為一個新的話題,創(chuàng)建一個新的話題類型。其Single Pass算法的流程圖如圖3所示。

圖3 Single pass算法Fig.3 Single pass algorithm

3.2.2 話題熱度評價

性能評測一般采用漏檢率(Pm)誤檢率(Pf)來判斷算法存在的問題,而檢測代價[5](Cn)是用來衡量話題發(fā)現(xiàn)的質(zhì)量,Cn一般是越小表示效果越好。如話題i中相關(guān)的文檔數(shù)目為H、不相關(guān)的數(shù)目為H1、與話題i不相關(guān)文本C,其中C中有C1篇被誤放入話題i中,則:

平均漏報率Pm,平均誤報率Pf和檢測代價Cn。其計(jì)算公式為

其中:G1、G2是漏報和誤報的代價;Pm、Pf是漏報和誤報的概率;P是文本話題類的先驗(yàn)概率。根據(jù)熱點(diǎn)評價的標(biāo)準(zhǔn),一般設(shè)定 G1=1,G2=0.1,P=0.02。

4 系統(tǒng)測試

為了驗(yàn)證本系統(tǒng)采用2013年4月新浪、網(wǎng)易、搜狐、新華網(wǎng)、人民網(wǎng)等幾個網(wǎng)站的網(wǎng)頁,首先利用信息采集子系統(tǒng)的Web技術(shù)處理網(wǎng)頁內(nèi)容,得到一些關(guān)鍵信息內(nèi)容;再利用熱點(diǎn)挖掘子系統(tǒng)處理歸類;最后利用熱點(diǎn)話題評價子系統(tǒng)進(jìn)行熱度排行。

頁面信息處理得到四川雅安地震(YA)、H7N9亞型禽流感病毒(H7N9)、明星跳水秀(MX)、復(fù)旦投毒案(FD)、鳳凰古城(FH)、海天盛筵(HT)等 6 個話題,驗(yàn)證系統(tǒng)檢測話題的有效性和準(zhǔn)確性。測試各項(xiàng)數(shù)據(jù)如表1所示。

表1 熱點(diǎn)信息表Tab.1 Information hotspots

測試中各項(xiàng)數(shù)據(jù)根據(jù)式(1)~式(5)得出,漏報率 數(shù) 據(jù) 是 0.253、0.229、0.221、0.222、0.257、0.1875,誤報率數(shù)據(jù)是 0.01125、0.01、0.00875、0.005、0.0038、0.0075,而檢測代價數(shù)據(jù)是 0.0062、0.0056、0.0053、0.0049、0.0055、0.0045。在漏報率和誤報率計(jì)算中,檢測代價越小表示信息的集中程度越高。根據(jù)結(jié)果數(shù)據(jù)可以得出,信息熱度排名為海天盛筵(HT)、復(fù)旦投毒案(FD)、明星跳水秀(MX)、鳳凰古城(FH)、四川雅安地震(YA)、H7N9亞型禽流感病毒(H7N9)。

5 結(jié)語

本系統(tǒng)基本達(dá)到了企業(yè)提出的需求,基于.NET和關(guān)鍵算法構(gòu)建出熱點(diǎn)信息發(fā)現(xiàn)系統(tǒng),實(shí)現(xiàn)了網(wǎng)頁信息熱點(diǎn)檢測。系統(tǒng)在網(wǎng)絡(luò)熱點(diǎn)話題發(fā)現(xiàn)上既保證了一定的準(zhǔn)確性、實(shí)時性,又為某單位對某事件的態(tài)度傾向提供數(shù)據(jù)服務(wù)。

網(wǎng)絡(luò)熱點(diǎn)話題檢測作為輿情信息挖掘的關(guān)鍵任務(wù)也是研究重點(diǎn),同時還有許多問題有待進(jìn)一步的探索與研究。如實(shí)時動態(tài)的信息獲取并發(fā)送分析好的信息給領(lǐng)導(dǎo),作為下個版本開發(fā)的新內(nèi)容。

[1] Leskovec J,Huttenlocher D,Kleinberg J.Signed networks in social media[C]//Proceedings of the SIGCHI Conference on Human Factors in Computing Systems.ACM,2010:1361-1370.

[2] Kitsak M,Gallos L K,Havlin S,et al.Identification of influential spreaders in complex networks[J].Nature Physic,2010,6(11):893-898.

[3] 岳國偉,永全,陳玉娥.ASP.NET中數(shù)據(jù)分頁技術(shù)的研究[J].計(jì)算機(jī)應(yīng)用研究,2007,24(9):159-161.

[4] 洪宇,張宇,范基禮,等.基于話題分治匹配的蜥事件檢測[J].計(jì)算機(jī)學(xué)報,2008,31(4):687-695.

[5] Makkonen J,Ahonen-Myka H,Salmenkivi M.Simple semantics in topic detection and tracking[J].Information Retrieval,2004,7(3-4):347-368. ■

猜你喜歡
評價檢測信息
“不等式”檢測題
“一元一次不等式”檢測題
“一元一次不等式組”檢測題
SBR改性瀝青的穩(wěn)定性評價
石油瀝青(2021年4期)2021-10-14 08:50:44
訂閱信息
中華手工(2017年2期)2017-06-06 23:00:31
小波變換在PCB缺陷檢測中的應(yīng)用
基于Moodle的學(xué)習(xí)評價
展會信息
中外會展(2014年4期)2014-11-27 07:46:46
保加利亞轉(zhuǎn)軌20年評價
多維度巧設(shè)聽課評價表 促進(jìn)聽評課的務(wù)實(shí)有效
體育師友(2012年4期)2012-03-20 15:30:10
主站蜘蛛池模板: 欧美视频免费一区二区三区| 国内精品自在欧美一区| 亚洲精品视频免费观看| 成人免费视频一区二区三区 | 欧美日韩一区二区在线免费观看| 亚洲国产日韩在线成人蜜芽| 美女视频黄频a免费高清不卡| 91在线精品麻豆欧美在线| 97超爽成人免费视频在线播放| 亚洲综合在线网| 久久男人视频| 亚洲综合狠狠| 毛片久久网站小视频| 成年A级毛片| 精品久久人人爽人人玩人人妻| 激情無極限的亚洲一区免费| 人人爽人人爽人人片| 四虎在线高清无码| 亚洲欧洲日韩久久狠狠爱 | 久久精品人人做人人爽电影蜜月| 无码免费的亚洲视频| 久久综合九色综合97网| 国产在线观看第二页| 国产欧美亚洲精品第3页在线| 亚洲欧美日韩精品专区| 久久性妇女精品免费| 91在线高清视频| 精品视频一区二区三区在线播| 欧美精品导航| 国产v精品成人免费视频71pao| 中文字幕在线永久在线视频2020| 亚洲色图欧美视频| 亚洲精品成人片在线观看| 日韩欧美91| 日韩无码黄色| 国产在线拍偷自揄观看视频网站| 日韩欧美国产三级| 国产精品久久久久久久久久98| 日本亚洲欧美在线| 欧美另类图片视频无弹跳第一页| 亚洲天堂网在线观看视频| 成人国产精品2021| 中国一级特黄大片在线观看| 亚洲精品午夜无码电影网| 国产激情在线视频| 国产91久久久久久| 亚洲无码高清视频在线观看 | 欧美精品综合视频一区二区| 九九久久精品免费观看| 亚洲第一黄片大全| 极品av一区二区| 在线色综合| 精品国产免费观看一区| 国产一区免费在线观看| 亚洲一区国色天香| 18禁黄无遮挡免费动漫网站| 色综合久久88色综合天天提莫| 国产欧美日韩另类精彩视频| 色呦呦手机在线精品| 亚洲AV色香蕉一区二区| 成人中文在线| 伊人久久久久久久久久| 欧美亚洲国产精品久久蜜芽| 无码有码中文字幕| 免费无遮挡AV| 精品国产美女福到在线直播| 又污又黄又无遮挡网站| 伊人中文网| 日韩中文无码av超清| 国内精品免费| 亚洲欧美日韩天堂| 日韩欧美高清视频| 五月天综合婷婷| 老色鬼欧美精品| 在线观看国产一区二区三区99| 欧美日韩91| 午夜影院a级片| 综合久久五月天| 强奷白丝美女在线观看 | 综合亚洲网| 久久精品亚洲专区| 欧美激情视频二区|