999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

公共網(wǎng)絡(luò)輿情監(jiān)測與信息處理平臺開發(fā)探討

2019-03-30 06:15:44李成
科學(xué)與技術(shù) 2019年4期

李成

摘要:由于各種事件的刺激而產(chǎn)生,并且通過互聯(lián)網(wǎng)傳播的人們對于各種事件的所有認(rèn)知、態(tài)度、情感和行為傾向的合集,稱為網(wǎng)絡(luò)輿情。隨著信息和網(wǎng)絡(luò)技術(shù)的發(fā)展,人們可以自由地在網(wǎng)絡(luò)新媒體中發(fā)表關(guān)于社會中各種現(xiàn)象和問題的態(tài)度與意見等,以論壇、微博、博客等為載體的網(wǎng)絡(luò)新媒體已日益成為輿論傳播和熱點(diǎn)聚集的重要源頭,輿論熱點(diǎn)的多發(fā)、突發(fā)、頻發(fā)也已成為常態(tài)。為了加強(qiáng)公共部門網(wǎng)絡(luò)的管理,開展公共部門輿情信息的監(jiān)測與分析,已經(jīng)成為目前亟需解決的現(xiàn)實(shí)問題。公共部門輿情監(jiān)測分析系統(tǒng)可以實(shí)現(xiàn)針對公共部門網(wǎng)絡(luò)海量輿情的實(shí)時(shí)監(jiān)測分析,有效地解決以傳統(tǒng)的人工方式進(jìn)行輿情監(jiān)測的很多難題。

關(guān)鍵詞:公共部門網(wǎng)絡(luò);輿情監(jiān)測;分布式;網(wǎng)絡(luò)爬蟲

1.引言

公共部門網(wǎng)絡(luò)上,網(wǎng)絡(luò)輿論主要是從新聞回帖、網(wǎng)絡(luò)論壇、博客、網(wǎng)民聊天室等反映來的。網(wǎng)絡(luò)論壇是這其中最主要的平臺,公共部門網(wǎng)絡(luò)中也已經(jīng)形成了一批著名論壇。論壇議題涉及到政府建設(shè)建設(shè)的各個(gè)方面,其中既有一些合理化的積極建議,還有是對公共部門不正常現(xiàn)象的披露,另有一小部分是發(fā)泄對現(xiàn)狀的不滿情緒。研發(fā)從海量公共部門網(wǎng)絡(luò)信息中及時(shí)準(zhǔn)確地發(fā)現(xiàn)和搜集到工作需要的輿情信息的監(jiān)測系統(tǒng),可為政府部門提供了解百姓訴求的便捷渠道,可有效化解公共部門“網(wǎng)絡(luò)暴力”,有利于社會穩(wěn)定。

2.網(wǎng)絡(luò)輿情采集技術(shù)研究與實(shí)現(xiàn)

利用搜索技術(shù)自動地在網(wǎng)絡(luò)上采集信息,將節(jié)約大量的人力物力成文,大大提高輿情監(jiān)測的工作效率和時(shí)效。搜索引擎(search engine)是指根據(jù)一定策略、運(yùn)用特定計(jì)算機(jī)程序從互聯(lián)網(wǎng)搜集信息,在對信息組織、處理后,為用戶提供檢索服務(wù),將用戶檢索相關(guān)的信息展現(xiàn)給用戶的系統(tǒng)。

搜索引擎一般由索引器、檢索器、搜索器和用戶接口組成。搜索器的功能是在網(wǎng)絡(luò)中漫游,搜集和發(fā)現(xiàn)信息;檢索器的作用是根據(jù)用戶的查詢在索引庫中快速檢索,對將要輸出的結(jié)果排序,進(jìn)行相關(guān)度評價(jià),并能按用戶的需求反饋合理信息;索引器的功能是根據(jù)搜索器搜到的信息結(jié)果,從中抽出索引項(xiàng),用于生成文檔庫的索引表以及表示文檔;用戶接口的功能是接納用戶查詢、提供所需要的查詢項(xiàng)、顯示查詢結(jié)果等。

搜索引擎工作流程可分為三部分:爬取網(wǎng)頁、處理爬取的網(wǎng)頁、提供檢索服務(wù)。

(1)爬取網(wǎng)頁:每個(gè)獨(dú)立搜索引擎都有自己爬取網(wǎng)頁的程序(網(wǎng)絡(luò)爬蟲)。網(wǎng)絡(luò)爬蟲根據(jù)網(wǎng)頁中的超鏈接地址,不斷地抓取網(wǎng)頁。被抓取的網(wǎng)頁被稱之為網(wǎng)頁快照。因?yàn)榛ヂ?lián)網(wǎng)中應(yīng)用超鏈接非常廣泛,理論上,給爬蟲一定范圍網(wǎng)頁,就能搜集到大部分的網(wǎng)頁。

(2)處理網(wǎng)頁:搜索引擎抓取到網(wǎng)頁后,還要做大量預(yù)處理工作,才能去提供檢索服務(wù)。其中最重要的就是建立索引文件,提取關(guān)鍵詞。其他還包括去除重復(fù)網(wǎng)頁、判別網(wǎng)頁類型、中文分詞、計(jì)算網(wǎng)頁的重要度、分析超鏈接。

(3)提供檢索服務(wù):戶輸入關(guān)鍵字進(jìn)行檢索,搜索引擎從索引數(shù)據(jù)庫中找出匹配該關(guān)鍵字的網(wǎng)頁;為了用戶便于判斷,除了網(wǎng)頁地址和網(wǎng)頁標(biāo)題外,還會提供一段來自網(wǎng)頁的摘要及其他信息。

通用搜索引擎采用的方式是語義上的搜索,是通過關(guān)鍵字的方式實(shí)現(xiàn)的,返回的結(jié)果傾向于知識成果,比如新聞,論文,文章等等。大家經(jīng)常使用的搜索引擎如:谷歌、百度、雅虎等都是通用搜索引擎如今的杰出代表,他們?yōu)榛ヂ?lián)網(wǎng)的發(fā)展做出了重大貢獻(xiàn)。搜索引擎所提供的網(wǎng)絡(luò)搜索服務(wù)目前是互聯(lián)網(wǎng)上最重要的網(wǎng)絡(luò)服務(wù)之一,搜索引擎也早已成為人們在網(wǎng)絡(luò)中的“導(dǎo)游”[5]。

3.話題追蹤技術(shù)

話題追蹤的目的就是,事先給出一個(gè)或幾個(gè)關(guān)于某話題的新聞報(bào)道,找出關(guān)于該話題相關(guān)的后續(xù)報(bào)道。它是TDT(話題檢測與追蹤)技術(shù)的重要子任務(wù)。它能夠在眾多的信息資源中,幫助人們節(jié)約查閱和瀏覽新聞的時(shí)間,掌握一個(gè)話題的來龍去脈。話題追蹤的定義是:根據(jù)文本的內(nèi)容,在給定的追蹤體系下,自動確定文本關(guān)聯(lián)的主題。用數(shù)學(xué)方法看,話題追蹤將未標(biāo)明主題的文本映射到已有主題中,是一個(gè)映射的過程,因?yàn)橐黄谋究梢酝鄠€(gè)主題相關(guān)聯(lián),該映射可以一一映射,亦可是一對多映射。

3.1 文本分類技術(shù)

話題追蹤的基本思想是,把人工給定的幾篇報(bào)道作為訓(xùn)練樣本,采用一定的追蹤公式對訓(xùn)練樣本進(jìn)行計(jì)算和學(xué)習(xí);當(dāng)有新報(bào)道時(shí),按公式計(jì)算報(bào)道的分?jǐn)?shù),根據(jù)指定的閾值,當(dāng)分?jǐn)?shù)大于閾值時(shí),判定新報(bào)道屬于主題,否則判定報(bào)道不屬于原主題。我們可以把話題追蹤技術(shù)看為,加上以下三個(gè)約束條件的文本分類技術(shù):

1、把事先給定的某一主題的相關(guān)報(bào)道當(dāng)作訓(xùn)練樣本。

2、當(dāng)有新的新聞文本產(chǎn)生,對于給定的主題,系統(tǒng)將立即給出一個(gè)值(是/否)追蹤判定。

3、在系統(tǒng)假設(shè)對其它事件主題不知道的前提下,對某個(gè)事件主題進(jìn)行訓(xùn)練學(xué)習(xí)。

文本分類包括了文本表達(dá)、選擇與訓(xùn)練分類器、分類結(jié)果的評價(jià)等過程,當(dāng)中的文本表達(dá)又可劃分為文本預(yù)處理、特征抽取、統(tǒng)計(jì)和索引等步驟。

3.2 常用文本分類算法簡介

文本分類的算法多種多樣,下面我們簡單介紹幾種常見算法:

Rocchio(中心向量)算法,是出現(xiàn)較早的一種基于統(tǒng)計(jì)的文本分類方法,是經(jīng)典的向量空間模型中反饋學(xué)習(xí)算法。中心向量算法,首先為每個(gè)類建立一個(gè)原型向量(類所有樣本的平均向量),然后通過計(jì)算每一個(gè)原型向量與待分類文本向量的距離進(jìn)行分類。距離可以通過余弦距離、歐氏距離或內(nèi)積來計(jì)算。Rocchio算法的突出優(yōu)點(diǎn)是學(xué)習(xí)速度快,計(jì)算簡單,但效果比較差,因此分類系統(tǒng)采用這種算法較少,Rocchio算法更多的是作為衡量分類系統(tǒng)性能的基準(zhǔn)。

樸素貝葉斯(Naive Bayes)算法[19]是一種基于特征獨(dú)立性假設(shè)建立起來的,簡單有效的分類方法;其實(shí)質(zhì)是首先利用貝葉斯條件概率公式,計(jì)算在已經(jīng)知道文本文檔特征向量的條件下,該文檔屬于不同文本類別的后驗(yàn)(條件)概率;最后,依據(jù)最大似然原理將該文檔歸結(jié)為具有最大條件概率的那一類;由于該算法假設(shè)構(gòu)成特征向量的各特征相互獨(dú)立,所以稱其為樸素的。

決策樹(DT)是一種數(shù)據(jù)分類技術(shù),它類似流程圖的樹結(jié)構(gòu)。決策樹每個(gè)內(nèi)部節(jié)點(diǎn)代表一個(gè)屬性測試,分枝代表一個(gè)測試輸出,每個(gè)樹葉存放一個(gè)類標(biāo),它的最頂層節(jié)點(diǎn)是根節(jié)點(diǎn)。在建立決策樹時(shí),選擇樣本劃分成不同的類的屬性采用屬性選擇度量方法,一些分枝還能反映訓(xùn)練數(shù)據(jù)中的離群點(diǎn)或噪聲。采用樹剪枝可剪去這類分枝,從而提高未知數(shù)據(jù)分類的準(zhǔn)確率。

4.公共部門網(wǎng)絡(luò)輿情監(jiān)測與信息處理平臺總體結(jié)構(gòu)

4.1 分布式結(jié)構(gòu)介紹

分布式技術(shù)是一種基于網(wǎng)絡(luò)的,與集中式相對應(yīng)的計(jì)算機(jī)處理技術(shù)[25]。分布式結(jié)構(gòu),就是將各種應(yīng)用部署在不同的平臺和機(jī)器上,這些機(jī)器和平臺共同工作,相互之間通過網(wǎng)絡(luò)連在一起,并運(yùn)行一系列相關(guān)功能的結(jié)構(gòu)[26]。采用分布式結(jié)構(gòu)的系統(tǒng),模糊了服務(wù)器和客戶端的概念,所有的應(yīng)用都被轉(zhuǎn)化成對象的概念,任一對象都可通過指定接口去調(diào)用其它對象所提供的服務(wù)[27];分布式結(jié)構(gòu)可以被看作是一種多層的C/S(客戶端/服務(wù)器)結(jié)構(gòu)。

在分布式系統(tǒng)中,對開發(fā)和使用者來說,網(wǎng)絡(luò)和傳輸?shù)募?xì)節(jié)是透明的,網(wǎng)絡(luò)資源可以被看作是龐大、統(tǒng)一的平臺;在這種環(huán)境下,對其它計(jì)算機(jī)資源的訪問與訪問本機(jī)上的資源沒有差別。由于分布式系統(tǒng)這種在位置、平臺和編程語言選擇等方面的獨(dú)立性,所以與集中式系統(tǒng)相比,它在可靠性、可擴(kuò)展性、經(jīng)濟(jì)型、速度等方面都有著顯著的優(yōu)點(diǎn)[28]。

4.2 分布式結(jié)構(gòu)層次劃分

分布式系統(tǒng)根據(jù)不同功能組件形成的層次,可劃分為三種模式:

C/S(客戶端/服務(wù)器)結(jié)構(gòu)。在這種模式下,客戶端是網(wǎng)絡(luò)的基礎(chǔ),服務(wù)器是網(wǎng)絡(luò)的核心。服務(wù)器為客戶機(jī)提供網(wǎng)絡(luò)必須的資源,而客戶機(jī)依靠服務(wù)器獲得所需要的網(wǎng)絡(luò)資源。隨著互聯(lián)網(wǎng)的飛速發(fā)展,C/S結(jié)構(gòu)也暴露出它的缺點(diǎn):可擴(kuò)展性差、對客戶端操作系統(tǒng)要求比較嚴(yán)格以及高昂的投資和維護(hù)成本。

2、三層結(jié)構(gòu)。這種結(jié)構(gòu)下,分布式系統(tǒng)被劃分成三個(gè)邏輯層次:用戶界面層、業(yè)務(wù)邏輯層和數(shù)據(jù)訪問層[29]。

在這種三層結(jié)構(gòu)下:用戶界面層和業(yè)務(wù)邏輯層之間可以相互訪問,業(yè)務(wù)邏輯層和數(shù)據(jù)訪問層也能相互訪問,但用戶界面層和數(shù)據(jù)訪問層不能直接訪問;表明這種模式各個(gè)層次之間的隔離做得更出色。所以三層結(jié)構(gòu)模式在可擴(kuò)展性、靈活性、健壯性等方面都有很大的提高。

多層結(jié)構(gòu)分布式系統(tǒng)。就是在三層結(jié)構(gòu)基礎(chǔ)上,根據(jù)用戶需要,再設(shè)計(jì)出用于指定組件的層次。

4.3 常用分布式結(jié)構(gòu)

公共部門網(wǎng)絡(luò)輿情監(jiān)測與信息處理平臺結(jié)構(gòu)整體包括四個(gè)子系統(tǒng),即網(wǎng)絡(luò)爬蟲子系統(tǒng)(綠色部分)、網(wǎng)頁檢索子系統(tǒng)(紅色部分)、信息處理子系統(tǒng)(藍(lán)色部分)和實(shí)時(shí)顯示子系統(tǒng)(灰色部分)。四個(gè)子系統(tǒng)相互關(guān)聯(lián),形成有機(jī)整體。

網(wǎng)絡(luò)爬蟲根據(jù)配置信息捕獲指定網(wǎng)站網(wǎng)頁信息,將數(shù)據(jù)存儲于數(shù)據(jù)服務(wù)器。數(shù)據(jù)檢索程序?qū)?shù)據(jù)服務(wù)器信息進(jìn)行實(shí)時(shí)檢索,獲取當(dāng)前最新捕獲網(wǎng)頁,將網(wǎng)頁URL、本地存儲路徑、更新時(shí)間等信息發(fā)送到數(shù)據(jù)檢索程序服務(wù)端。服務(wù)端接收數(shù)據(jù)檢索信息,對其URL等進(jìn)行判斷,如果為用戶所需網(wǎng)頁,則將數(shù)據(jù)檢索信息存儲于指定文件。信息處理子系統(tǒng)對數(shù)據(jù)檢索信息進(jìn)行實(shí)時(shí)掃描,提取網(wǎng)頁標(biāo)題正文,進(jìn)行編碼轉(zhuǎn)換,并進(jìn)行標(biāo)題和正文進(jìn)行分詞,將處理結(jié)果寫入到數(shù)據(jù)庫。實(shí)時(shí)顯示子系統(tǒng)對數(shù)據(jù)庫信息進(jìn)行統(tǒng)計(jì),并實(shí)時(shí)顯示。

參考文獻(xiàn)

[1]殷風(fēng)景.面向網(wǎng)絡(luò)輿情監(jiān)控的熱點(diǎn)話題發(fā)現(xiàn)技術(shù)研究[D].長沙:國防科學(xué)技術(shù)大學(xué).2010

[2]齊海鳳.輿情熱點(diǎn)發(fā)現(xiàn)與事件跟蹤技術(shù)研究.哈爾濱[D]:哈爾濱工程大學(xué).2008

[3]李恒訓(xùn),張華平.基于主題詞的網(wǎng)絡(luò)熱點(diǎn)話題發(fā)現(xiàn)[J].第五屆全國信息檢索學(xué)術(shù)會議(CCIR2009).上海.2009-11

(作者單位:鄭州市公安局公共信息網(wǎng)絡(luò)安全監(jiān)察支隊(duì))

主站蜘蛛池模板: 国产亚洲视频免费播放| 亚洲第七页| 欧美日韩成人在线观看| 国产成人无码AV在线播放动漫| 秋霞一区二区三区| 热久久综合这里只有精品电影| 亚洲欧美一区在线| 麻豆精品在线| 国产网站黄| 国产一级毛片网站| 亚洲无码视频喷水| 国产成人一二三| 亚洲av无码人妻| 暴力调教一区二区三区| 国产爽歪歪免费视频在线观看| 午夜视频在线观看免费网站 | 日日碰狠狠添天天爽| 无码视频国产精品一区二区| 久久精品国产亚洲麻豆| 人妻中文久热无码丝袜| 亚洲熟女中文字幕男人总站| 十八禁美女裸体网站| 日本久久免费| 91福利国产成人精品导航| 欧美福利在线| 欧美a级完整在线观看| 久久久久夜色精品波多野结衣| 一级毛片基地| 色婷婷电影网| 欧美综合激情| 狠狠色狠狠色综合久久第一次 | 国产精品自在拍首页视频8 | 色婷婷亚洲十月十月色天| 国产白浆一区二区三区视频在线| 欧美成人综合在线| 在线国产欧美| 67194成是人免费无码| 亚洲男人的天堂久久香蕉| 国产黄视频网站| 国产成人精品一区二区不卡| 国产成人高精品免费视频| 国产综合色在线视频播放线视| 国产亚洲精品97在线观看| 91无码人妻精品一区| 茄子视频毛片免费观看| 免费播放毛片| 欧美日韩国产系列在线观看| 亚洲一区二区三区香蕉| 亚洲国产成人久久精品软件| 国产成人区在线观看视频| 日韩一区二区三免费高清| 日韩欧美成人高清在线观看| 人与鲁专区| 欧美日本在线观看| 国产成人1024精品下载| 99热国产这里只有精品9九| 四虎成人精品| 国产精品亚洲一区二区在线观看| 91亚洲精选| 福利在线不卡| 免费无码AV片在线观看国产| 精品色综合| 国产草草影院18成年视频| 亚洲香蕉在线| 国产成人精品高清不卡在线| 五月天综合婷婷| 国产成人精品一区二区免费看京| 在线永久免费观看的毛片| 亚洲精品第1页| 国产精品9| 无码福利视频| 一区二区偷拍美女撒尿视频| 一级片一区| 国产成人AV大片大片在线播放 | 欧美在线天堂| 制服丝袜国产精品| 午夜人性色福利无码视频在线观看| 国产高潮视频在线观看| 色偷偷男人的天堂亚洲av| 国产一二三区视频| 亚洲欧洲自拍拍偷午夜色| 天堂网亚洲综合在线|