999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

互聯網時代輿情信息的搜集與分類管理研究

2020-12-08 09:30:18劉羽
魅力中國 2020年21期
關鍵詞:搜索引擎檔案管理文本

劉羽

(鄭州升達經貿管理學院,河南 鄭州 450000)

一、輿情數據收集是檔案信息收集的基礎

當前,互聯網輿情數據收集系統主要包含三種數據收集技術:人工收集、搜索引擎收集和第三方互聯網機構定向收集。人工收集是指通過人工瀏覽網絡平臺,通過人工監測獲取有價值的數據和信息,經匯總、分析后觀察社會輿論走勢。人工收集是當前檔案管理人員較常用的輿情數據檔案信息收集方式之一。

搜索引擎收集按其工作方式主要可分為三種,分別是全文搜索引擎收集、目錄索引類搜索引擎收集和元搜索引擎收集。搜索引擎收集的代表是360 搜索、谷歌搜索和百度搜索。以百度搜索為例,據CNNIC 發布的《2018 年中國網民搜索行為研究報告》顯示:百度日均搜索量超過50 億人次,截至2018 年12 月,搜索引擎是中國網民的最基礎應用,百度搜索滲透率為97.4%,使用率略遜于即時通信。人工收集和搜索引擎收集是當前比較常用的互聯網輿情收集技術,但是這兩種收集方式的缺點是可提取關鍵信息的文本內容都比較短,容易因為數據稀疏導致在做相關運算時出現準確率和推薦召回率不高的狀況。克服這一技術難題的方法借助第三方互聯網輿情機構定向采集,通過對核心詞的外拓實現了準確率和推薦召回率的同步提升。

二、輿情數據預處理是檔案信息收集的前提。

第一,對文本進行預處理。文本預處理是對通過輿情采集器收集的未加工的Web 網頁進行初步處理,再對經初步處理過的網頁文本進行發現話題和數字建模,文本預處理最重要的環節是進行特征選擇和中文分詞。中文分詞對命名實體進行識別,采用 ICTCLAS 系統對所獲語料標注詞性和進行中文分詞,基于詞頻提煉出web模型的特征向量對中文分詞后的文本語料庫進行向量化分析。分詞技術是針對提交查詢的關鍵詞串進行處理,將收集到的網頁文本內容轉化為結構化向量。

第二,對話題進行檢測。對文本經過預處理后的文本語料庫形成了擴展空間向量模型VSM 向量集。利用 VSM 各向量間的相似度,對文本進行話題檢測和聚類,對文本內容分析的深度決定了聚類技術的效果,聚類技術的功能在于挖掘熱點話題。一般情況下,可提取關鍵信息的文本內容都比較短,容易因為數據稀疏導致在做相關運算時出現準確率和推薦召回率難以權衡的狀況。克服這一技術難題的方法就是引入詞擴展技術,通過對核心詞的外拓實現了準確率和推薦召回率的同步提升。詞擴展技術是指利用特定算法對原始文本向量進行處理,使原始數據中的鄰近對象形成核心明確、分布較為離散且粒度小的話題集合,將話題集合進一步劃分為多個“微簇”,利用特定算法,對“微簇”進行二次聚類,用滿足一定的閾值要求、質量較高的核心對象代表“微簇”。

第三,利用話題綜合評價標準對話題進行過濾。運用語義識別技術,對之前采集的數據信息進行更深一步的過濾識別,通過對數據信息中句子的結構、語法及部分關鍵詞的詞義進行過濾處理,從而將信息轉化為人們常用的語言,將大量復雜的信息簡單化。從進行過聚類、過濾處理后的文本中提取中心詞,將分析后的中心詞進行組合,通過結構化分析獲取中心詞組,計算中心詞組所涉及的文本數量,運算模塊根據文本參數進行加權計算,統計熱門關鍵詞組的文本數量,獲取熱門關鍵詞組的熱度值。

三、加強互聯網輿情數據檔案信息跨維度動態管理

(一)構建互聯網輿情數據檔案信息管理跨維度互動模式。

“趨勢與定向判斷是網絡輿情分析與分類的核心,是應對與引導的依據,根據匯總到的輿情信息,通過系統的分析,做出關于輿情發展趨勢與走向的基本判斷,這一判斷主要是在定量基礎上得出的定向判斷。”檔案管理人員應將互聯網輿情大數據檔案管理與互聯網內容治理相結合,讓數據流顯現關聯;將互聯網輿情大數據檔案管理與政府科學決策相結合,讓信息流暢通無阻;將互聯網輿情大數據檔案管理和輿情日常管理相結合,讓輿情流和諧運轉。

(二)構建互聯網輿情數據檔案信息多元管理模式

傳統檔案管理結構模式中公眾的參與度比較低。大數據時代為輿論的快速形成和公眾對公共事務話語權的表達提供了討論空間,由單一主體治理變為多元主體治理,多元主體治理的基本結構體現了混合的特點,多元主體治理的邊界與范圍不是簡單的信息關聯和多元混合。互聯網和大數據技術拓寬了檔案管理的內容,改變了檔案管理人員和民眾的連接與互動方式,因此需要尋求一種新的檔案管理模型和良性互動的連接機制來消解傳統檔案管理成長的困境。

(三)構建互聯網輿情數據檔案信息管理回應指標體系

警惕輿情動態在復雜的演進過程中出現的不和諧因素,準確界定輿情等級,通過級別劃分、輿情聚類、有效處置和事后評估構建輿情回應的指標體系,通過行為干預及早進行有效處置,匯編典型事件檔案庫。檔案管理人員應從追問事實到反思制度,從線上輿論和線下互動的有效對接到挖掘方法和社會洞察的有效結合,構建互聯網輿情檔案管理回應指標體系,改進和完善檔案管理中的制度性、結構性問題。

猜你喜歡
搜索引擎檔案管理文本
在808DA上文本顯示的改善
檔案管理中的電子檔案管理
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
檔案管理與企業內部控制關系的思考
消費導刊(2017年24期)2018-01-31 01:29:20
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學隱喻
網絡搜索引擎亟待規范
中國衛生(2015年12期)2015-11-10 05:13:38
健康檔案管理的“云”前景
中國衛生(2014年11期)2014-11-12 13:11:34
基于Nutch的醫療搜索引擎的研究與開發
廣告主與搜索引擎的雙向博弈分析
如何快速走進文本
語文知識(2014年1期)2014-02-28 21:59:13
主站蜘蛛池模板: 青青青草国产| 中文字幕2区| www亚洲天堂| 亚洲国产看片基地久久1024 | 激情亚洲天堂| 无码电影在线观看| 亚洲欧洲日韩综合色天使| 国产你懂得| 日韩无码精品人妻| 欧美国产另类| 一级看片免费视频| 精品1区2区3区| 91青青草视频| 真实国产乱子伦视频| 国产成人8x视频一区二区| 国产精品一区在线观看你懂的| 一级黄色片网| 欧美一区二区啪啪| 国产精品jizz在线观看软件| 精品视频福利| 在线亚洲天堂| 在线无码九区| 国产精品私拍在线爆乳| 日韩亚洲综合在线| 亚洲精品无码在线播放网站| 四虎精品国产AV二区| 国产极品嫩模在线观看91| 亚洲精品777| 日韩区欧美区| 99re免费视频| 欧洲成人在线观看| 亚洲不卡av中文在线| a级毛片免费播放| 99热这里只有精品免费国产| 四虎成人精品| 久久熟女AV| 国产熟睡乱子伦视频网站| 亚洲欧洲天堂色AV| 色婷婷久久| 91亚洲精选| AV天堂资源福利在线观看| 激情网址在线观看| 久久亚洲天堂| 国产麻豆永久视频| 国产第三区| 波多野衣结在线精品二区| 日韩人妻精品一区| 国产91熟女高潮一区二区| 国产精品久久自在自线观看| 97色伦色在线综合视频| 99这里只有精品免费视频| 青青草原偷拍视频| 中文字幕调教一区二区视频| 在线观看91精品国产剧情免费| 中文字幕66页| 黄网站欧美内射| a级免费视频| 午夜性刺激在线观看免费| 亚洲,国产,日韩,综合一区 | 中美日韩在线网免费毛片视频| 999精品免费视频| 四虎影视库国产精品一区| 久久精品国产一区二区小说| 亚洲中文久久精品无玛| 国产在线第二页| 中国精品久久| 无码人中文字幕| 欧洲在线免费视频| 国产精品久久自在自线观看| 亚洲国产一成久久精品国产成人综合| 国产人人射| 亚洲午夜久久久精品电影院| 久久伊人色| 在线观看网站国产| 国产精品理论片| 香港一级毛片免费看| 在线观看91香蕉国产免费| 538精品在线观看| 91视频免费观看网站| 人妻精品全国免费视频| 中文字幕在线看视频一区二区三区| 亚洲综合二区|