999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于語義內容識別的網絡輿論監測分析系統框架

2024-05-19 13:47:28周展利郭治豪
電腦知識與技術 2024年9期
關鍵詞:語義文本分析

周展利 郭治豪

摘要:網絡已成為公眾表達意見,討論公共事務,參與經濟、社會和政治生活的重要公共平臺。隨著信息的傳播,網絡輿論呈幾何級數增長,有必要對網絡輿論進行監測和分析,以便政府管理輿論信息,及時發現熱點,正確引導輿論走向。因此,網絡輿情監測與分析成為近年來的熱點問題。目前主要成熟的技術是基于關鍵詞的統計分析。然而,在提高其有效性方面仍有很大的空間。文章描述了一個基于語義內容識別的網絡輿情監測與分析系統框架,以解決輿情的一些關鍵問題。

關鍵詞:語義內容識別;網絡輿論監測;系統框架

中圖分類號:G642? ? ? 文獻標識碼:A

文章編號:1009-3044(2024)09-0035-04

開放科學(資源服務)標識碼(OSID)

0 引言

隨著互聯網的普及和發展,人們可以更加方便地獲取和傳播信息。但是,一些不良信息也借助互聯網的便利性得以迅速傳播,可能會對社會穩定和人民生命財產安全構成威脅。因此,需要采取措施保護公眾的利益和安全。在國家層面,立法的法規應更加重視網絡輿論焦點和公眾關注的問題。制定合理的法律法規可以規范網絡行為,保護公眾免受不良信息的侵害。此外,政府應承擔重要責任,特別是加強對網絡輿論的監測和引導,積極引導公眾正確看待敏感信息,避免對社會穩定和人民生命財產安全構成威脅。

1 網絡輿論的特點與研究目的

根據共研產業研究院統計,2021年中國輿情大數據市場規模達134.38億元,同比增長13.26%,如圖1所示。由近年來我國輿情大數據市場規模的增長趨勢可知,網絡輿論監測與分析已成為迫切的市場需求。網絡輿情分析最重要的技術包括文本過濾、文本分類、觀點傾向性識別、話題跟蹤、自動總結等,這些技術一直受到國內外工作者的關注[1]。網絡輿論信息具有多樣性、數量大和突然性等特點,這也使得對網絡輿論信息的監測和分析變得更加困難和復雜。以下是對網絡輿論信息特點的進一步闡述:

首先,網絡輿論信息具有多樣性,來源渠道多樣化。與傳統媒體相比,網絡輿論信息的來源更為廣泛,包括門戶網站、博客、微博、貼吧等多種形式。這些來源渠道的多樣性使得輿論信息的監測和分析更加困難,需要采用多種手段和方法進行分析。

其次,網絡輿論信息數量龐大。隨著互聯網的普及,網絡輿論信息呈現出爆炸式增長的趨勢。要想對這些信息進行監測和分析,需要投入大量的人力和物力,采用先進的技術手段和分析方法。否則,就很難從這些信息中提取出有用的信息。

最后,網絡輿論信息具有突然性。網絡輿論信息的產生往往與突發事件有關,例如突發公共事件或網絡熱點事件。在這種情況下,需要迅速采取措施,對事件的信息進行監測和分析,以便更好地了解事件的發展趨勢和公眾的態度,為政府決策提供參考。這也使得對網絡輿論信息的監測和分析變得更加困難和復雜。政府和企業需要投入更多的人力和物力,采用先進的技術手段和分析方法,才能更好地了解公眾的態度和需求。

輿論信息的相關性。突發事件引發的輿論信息相互關聯,這意味著在分析事件時,需要考慮其在時間和空間上的相關性。具體來說,從時間和空間兩個維度去發現事件的相關性可以有助于更好地了解事件的發展規律和趨勢,理解事件發生的總體視角,以及預測事件的發展趨勢。為了更有效地控制信息,本文描述了一個基于語義內容識別的網絡輿情監測與分析系統框架。

2 關于網絡輿論監測系統的研究現狀

來自DARPA、CMU、馬薩諸塞大學和Inc的研究人員已經開始定義主題檢測和跟蹤研究,并開發了TDT。該項目的重要技術是信息的內容分類,解決了實時監控的處理速度和安全監控之間的矛盾,使其可行。國外對其進行了一些研究,如W3C的PICS已成為WWW的分類標準。有兩個國際通用分類標準:SACi和Safesurf,它們都符合PICS。一方面,分類技術用于網頁的分類和過濾;另一方面,由于各種原因,國外政策和標準不完全適合中國的國情。

在我國,方正研究院設計的方正智思輿論預警DSS是成功的。該系統成功實現了對海量輿情的自動實時監控和分析。政府對公共選項的監控比傳統的手動模式更有效。DSS提供了對互聯網信息的監管,尤其對網絡突發事件的管理起到了重要作用。該系統具備全文檢索、自動排序、自動分類、主題檢查/追蹤等功能,并提供相關推薦和趨勢分析、自動摘要和關鍵詞提取、內容分析、生成統計數據等特點[2]。

谷歌網絡民意和信息監控系統結合了互聯網搜索技術;信息智能化處理技術和知識管理方法。通過自動采集、自動分類組合、主題采集、焦點專題,實現了網絡輿論監測和專題新聞對簡報、報道等的跟蹤。因此,谷歌可以掌握民意,達成適當的共識,并提供報告分析。

還有基于人機結合設計了一個內容安全監控系統的框架。該框架是一個層次結構,分成3個層次:數據采集層、內容分析層、輸出層。DSS的主要功能是通過內容分析檢查基于內容的信息,識別不良信息。同時,該系統還可以記錄信息的來源和內容,并通過有效的審計分析進行跟蹤,為信息的不良使用提供電子證據[3]。

雖然國內有很多單位致力于研究互聯網內容過濾方向,試圖達到凈化網絡環境的目的,但仍存在很多挑戰和難點。但這些技術還處于萌芽狀態,在“語義信息過濾”方面還存在一些不足。

3 基于語義內容識別的網絡輿論監測系統框架

該系統的目的是通過測試、獲取主題、熱點話題和事件跟蹤、實驗監測等方式,實現對網絡輿情的監測和分析,可以形成簡報、報告、圖表等多種分析結果的表示模式,達成適當的共識并提供報告分析[4]。網絡輿情監測系統模塊功能框圖如圖2所示。分為5個階段,包括資源發現、信息選擇、信息整理、信息提取、輿情處理[5]。

系統工作流程系統包括以下5個數據庫:

1) 輿論策劃信息庫:收集網絡新聞、社交門戶網站、社交軟件、博客、聚合新聞等輿論需求信息。2) 建立民意分析信息數據庫:通過分類聚類、關鍵詞提取、去重過濾、命名實體識別、語義計算等方式收集存儲數據,構建信息數據庫。3) 民意數據庫:對公眾的觀點和態度進行分析的重要工具,可以幫助決策者更好地了解公眾對政策、事件和產品等方面的看法,從而制定更加符合公眾需求的決策。4) 語義詞典:本體知識等。5) HNC知識:百度學問等。

在該系統中,各個模塊之間的交互方式不同。數據交互主要是基于資源發現模塊和選擇信息模塊之間的文件傳輸。選擇信息模塊則負責處理從文本到向量或本體的信息。在模式發現模塊中,使用GATE進行命名實體識別,并確定實體之間的關系,然后發現事件模式或主題模式[6]。信息提取模塊主要進行語義計算,將模式轉換為模板,將非結構化信息轉換為結構化信息。民意處理模塊需要根據用戶的查詢進行處理,并將結果以合適的表現形式提供給用戶。同時,該系統可以擁有多個用戶,每個用戶都可以連接到服務器。服務器可以通過網絡相互共享數據和交換信息,網絡連接場景可以是P2P或客戶端服務器,未來也將不斷修改和優化。

4 基于語義內容識別的網絡輿論監測系統的工作流程

首先基于潛在語義分析的資源發現,然后進行信息選擇,基于選擇信息模塊的數據,通過數據挖掘和語義計算,實現對熱點話題的檢測和對事件跟蹤和方向分析的關注,從而進行信息提取,最后對大眾信息進行處理。

4.1 基于潛在語義分析的資源發現

資源發現模塊通過整合和映射不同的網絡信息模式,實現對數據的自動收集和處理,是檢索必要的網絡資源。資源之間有不同的檢索工具和檢索策略。

社交門戶網站、社交軟件及電子郵件等渠道通常承載著大量簡短且非正式的信息交流。此過程首先通過DTS向導實現數據文檔的導入與導出操作,接著運用基于潛在語義分析(Latent Semantic Analysis, LSA) 的算法來有效解決環境因素導致的誤解及同義詞誤判問題,同時采用奇異值分解(Singular Value Decomposition, SVD) 技術進行信息過濾與噪聲消除處理[7]。依據文檔相似度計算與聚類分析的內容,我們能夠高效、及時地探測到主題漂移現象,從而更好地滿足公共監控的需求[8]。

4.2 選擇信息

選擇信息模塊會自動篩選和預處理網絡中的專業信息。首先,它會過濾無效的信息,識別命名實體,提取主題和事件。接下來,它會根據主題或事件對文本進行分類、著色、過濾;最后,區分文本。

1) 基于半監督學習的文本分類。傳統文本分類算法是一種監督學習,因為短文本攜帶大量信息數據,通過確定的類別標簽來學習校準樣本,并根據文本語義內容確定其類別。它需要一個大的標簽樣本訓練成一個好的分類器。訪問大量未標記的數據很容易,但對標記的數據來說成本高且不切實際,這將在傳統文本分類處理大量數據時造成瓶頸。我們使用基于半監督學習的文本分類來克服短文本的稀疏性,提高短文本分類算法的準確性,并且為了增加算法的魯棒性,更好地避免陷入局部最優解,Bagging算法集成到半監督學習中。

2) 不良信息檢測。網站內容監控系統中,不良信息檢測是關鍵因素之一。傳統的網絡檢測系統僅依靠關鍵詞來識別和過濾網絡信息。但這種方法容易被鉆空子,比如把邪教網站隱藏在其他類型的網站中,那些批評邪教的人會被過濾掉。因此,我們提出了一種基于HNC的方法來測試較差的信息內容,而不是通過匹配關鍵詞的方式,并根據句子的含義來判斷文本信息過濾需要什么。

4.3 模式發現

模式發現將基于選擇信息模塊的數據,通過數據挖掘和語義計算,實現對熱點話題的檢測和對事件跟蹤和方向分析的關注。該模塊是系統的核心,模式發現如下所示。

1) 數據標注。使用中國科學院計算機軟件研究的ICTCLAS獲得4個表,以實現分詞和詞性標注。

①主題表(ID、標題、文本、作者、時間、原文鏈接、涉及詞、文本向量)

②評論表(ID、標題、話題ID、文本、作者、時間、傾向性值、轉發數)

③話題表(ID,關鍵詞,參與人數,時間,極性,觀點對立,注釋)

④話題-主題映射表(話題ID,主題ID)

在插入數據庫時,主題ID將是漸進分布的,第四個表保存了所包含的每個集群的主題,該集群是主題的核心。

2) 趨勢分析。首先為趨勢詞典做好準備,在How-Net中實現第一個基于標記極性的詞典,并通過人工標記方法進行增強,然后手動添加一些常見單詞。我們應該使用Java語言提供的哈希表來建立一個良好的趨勢字典,因為需要快速檢查傾向。接下來,閱讀文本,逐句處理,去除每個句子的無效詞,逐詞查詢趨勢詞典,計算其上下文極性和單詞極性的強度。然后,將所有極性成分相加,接收句子密度情況除以評論數量的平方根。最后,根據分布態勢劃分,用趨勢值表示評論趨勢和排名。

3) 熱門關鍵點分析。基于時間單位(例如:天)上的基本累積單位選擇初始點,然后通過只計算時間點之前的評論、后者的反對意見來計算主題視圖的時間點,通過將某一時間點的值減去前一時間值,可以得出與這次增加值相反的意見以及事件的趨勢。

4.4 信息提取

該模塊的主要功能是獲取結構化數據,并從多個數據庫中進行分析,以確認或展示挖掘出的模式。GATE可以用于實體識別、實體關系識別、事件識別、摘要生成等任務[9]。

4.5 大眾信息處理

1) 警告。輿情預警模塊通過收集網絡信息、發現問題和反饋等手段實現對輿情的預警。一旦觸發預設的閾值或條件,警報便會在指定時間段內被激活,顯示與主題相關的事件,即趨勢的主題。

2) 過濾。過濾大量沒有營養的信息。網絡管理模塊通過實時監控來清除負面新聞。它會收集敏感短語的不同領域,為每個短語設置權重值,并使用智能軟件來匹配權重,找到匹配的敏感短語。超過一定的閾值時,信息將被屏蔽。

3) 計數器。首先獲取其IP,然后鎖定。我們可以使用各種有效的攻擊方法對Hub網站的不安全信息進行定點攻擊傳播(如信息滲透技術、病毒技術、先進的黑客攻擊技術等)。

4) 監測。監測和預警不同,前者是被動監測,預警是主動監測。

5) 決策。一個完整的決策往往是不可能的,而是一個迭代的過程。在此過程中,政策制定者可以在不同選項和替代方案的參數中使用人機交互。

5 結束語

隨著互聯網和信息化建設的快速發展,政府在輿論引導方面也提出了更高的要求。政府在掌握網絡輿論趨勢并引導其朝著積極方向發展方面承擔著至關重要的責任。正如我們所知,互聯網上信息的大量涌現使得信息管理成為一個巨大的挑戰。傳統基于人工和搜索引擎的方法往往存在搜索結果不準確、相關敏感信息無法優化等問題,無法滿足政府對于輿論應對的需求。此外,繁重的重復工作大大消耗了管理層的效率和人力資源,而傳統方法難以應對互聯網信息快速發展的變化。為解決這些問題,建立一個集收集、監測和預警于一體的互聯網輿論系統是最佳選擇。該系統利用技術和專門的搜索引擎,在最短時間內獲取相關網絡服務信息,建立統一的信息索引數據庫,并對網絡媒體反映的輿論進行自動分類、排名和聚類[10]。系統在可視化界面中展示熱點新聞和專題,監控網絡敏感信息等,形成預警,從而實現對網絡信息的有效管理。該系統能夠使當局快速掌握和了解民意,并對相關的民意趨勢提出適當的解決方案,以滿足國家各部門的需求。傳統的機器學習方法工作量很大,需要手動標記與分類網民。本文應用基于語義的內容識別技術,針對評論中相對簡短和寬泛的情感詞匯,設計了一個分析和監控網絡輿論系統的框架。

參考文獻:

[1] 許鵬,耿藤森,郭鑫濤,等.基于非結構數據搜索處理的網絡輿情調控研究[J].中阿科技論壇(中英文),2022(4):128-131.

[2] 劉德鵬.互聯網輿情監控分析系統的研究與實現[D].成都:電子科技大學,2011.

[3] 成睿,唐超.基于語義分析的官方網絡輿論風險監測系統的構建研究[J].貴州警官職業學院學報,2018,30(2):74-79,85.

[4] 鄭軍.網絡輿情監控的熱點發現算法研究[D].哈爾濱:哈爾濱工程大學,2007.

[5] 郝宇飛.網絡輿情監測分析系統的研究[J].通訊世界,2015(12):272.

[6] 茍元琴.基于Web挖掘的網絡輿情監測系統設計[J].信息技術與信息化,2022(1):64-67.

[7] 茍元琴.基于Web挖掘的網絡輿情監測系統設計[J].信息技術與信息化,2022(1):64-67.

[8] 袁健聰.互聯網輿情發展與監控分析[J].廣西師范學院學報(哲學社會科學版),2010,31(S2):71-73.

[9] 茍元琴.基于Web挖掘的網絡輿情監測系統設計[J].信息技術與信息化,2022(1):64-67.

[10] 劉德鵬.互聯網輿情監控分析系統的研究與實現[D].成都:電子科技大學,2011.

【通聯編輯:王 力】

猜你喜歡
語義文本分析
隱蔽失效適航要求符合性驗證分析
語言與語義
在808DA上文本顯示的改善
電力系統不平衡分析
電子制作(2018年18期)2018-11-14 01:48:24
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
電力系統及其自動化發展趨勢分析
“上”與“下”語義的不對稱性及其認知闡釋
現代語文(2016年21期)2016-05-25 13:13:44
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學隱喻
認知范疇模糊與語義模糊
如何快速走進文本
語文知識(2014年1期)2014-02-28 21:59:13
主站蜘蛛池模板: www.日韩三级| 在线色国产| 91毛片网| 91在线丝袜| 72种姿势欧美久久久久大黄蕉| 久久精品欧美一区二区| 黄色片中文字幕| 国产成人调教在线视频| 国产杨幂丝袜av在线播放| 视频二区国产精品职场同事| 国产成人精品第一区二区| 激情无码字幕综合| 亚洲综合激情另类专区| 亚洲中文字幕av无码区| 国产精品jizz在线观看软件| 国产一二三区在线| 久久频这里精品99香蕉久网址| 99re热精品视频中文字幕不卡| 91丝袜美腿高跟国产极品老师| 1024国产在线| 国产专区综合另类日韩一区| 国产精品3p视频| 乱色熟女综合一区二区| 一区二区三区精品视频在线观看| 国产大全韩国亚洲一区二区三区| 国产手机在线观看| 欧洲欧美人成免费全部视频| 国产精品久久久久无码网站| 成人精品区| 欧美日韩一区二区三区在线视频| 国产va在线观看| 日本午夜影院| 欧美综合中文字幕久久| 国产又大又粗又猛又爽的视频| 男女猛烈无遮挡午夜视频| 亚洲无码电影| 午夜视频在线观看免费网站| 国产美女在线观看| 亚洲男女天堂| 亚洲国产日韩一区| 免费视频在线2021入口| 国产精品99久久久久久董美香| 成人永久免费A∨一级在线播放| 五月激情婷婷综合| 天天激情综合| 午夜小视频在线| 国产美女无遮挡免费视频网站| 国产91精选在线观看| 国产成人啪视频一区二区三区| 国产精品xxx| 日本精品αv中文字幕| 成人福利一区二区视频在线| 亚洲精品视频免费| 国产精品综合久久久| 亚洲一区免费看| 动漫精品中文字幕无码| a级毛片毛片免费观看久潮| 欧美日韩91| 一级片一区| 亚洲精品成人福利在线电影| 久久国产精品影院| 国内精品九九久久久精品| 激情成人综合网| 精品国产黑色丝袜高跟鞋| 无码一区二区三区视频在线播放| 成人在线观看不卡| 亚洲AV无码久久精品色欲| 欧美五月婷婷| 美女裸体18禁网站| 九九九久久国产精品| 久久婷婷综合色一区二区| 极品av一区二区| 欧美日本激情| 欧美a在线| 欧美精品亚洲精品日韩专区| 亚洲色大成网站www国产| 人人看人人鲁狠狠高清| 九九久久99精品| 国产成人精品一区二区三区| 亚洲一区二区精品无码久久久| 一级黄色欧美| 制服丝袜在线视频香蕉|