999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

互聯網輿情音視聽節目監測技術研究

2020-01-01 09:14:54
數字通信世界 2020年8期
關鍵詞:語義文本分析

李 峰

(山西省廣播電視局監管中心,山西 太原 030001)

互聯網輿情音視聽節目監測系統是面向全國主流網站,利用互聯網搜索引擎技術、挖掘技術、語音識別和視頻分析技術等,針對互聯網海量信息,采取自動獲取、自動聚類、專題聚焦,敏感詞匯過濾、主題檢測、關鍵幀智能分析[1]等,進而能夠主動發現與推送互聯網輿情熱點,全面掌握輿情動態,提供充分詳實的分析依據,進而作出正確的輿論引導。

1 互聯網輿情關鍵技術

知識庫的建立,必須對原來的信息進行一次大規模的收集和重整,需要提取一些重要的特征,但是這些特征往往隱藏于眾多雜亂無章的信息中,因此需要借助信息過濾、文本處理以及人物組織抽取等技術從眾多的信息中找到有用的、有特征的信息,從而建立所需的知識庫。

1.1 垃圾文本信息過濾

垃圾數據清理屬于信息過濾的范疇之一,綜合了知識論、人工智能、自然語言理解等領域的原理和技術,在信息服務與管理中起著很大的作用,指依據用戶的需求,利用一定的工具從巨量的動態信息流中屏蔽無用信息的過程。垃圾信息過濾實質是對信息進行垃圾信息(Spam)或者合法信息(Ham)進行二值判別,并依據判別結果去掉垃圾信息。它所面臨的難題是二值分類問題,傳統的二值分類問題目前有兩種解決辦法:第一種基于規則,這個方法要求相關專家制定分類規則;第二種基于統計,不要求專家制定分類規則,但是要求一定數量樣本(標注類別),用機器學習算法從標注了類別的領域樣本中自動學習出分類知識。

本項目所應用的多源垃圾信息遷移過濾,它的原理是建立一個多源垃圾信息過濾的整體框架,應用統一的表示模型以及統一的過濾模型實現對多源問題的抽象建模。該框架中的統一模型有統一表示模型、統一過濾模型,這些都是在多源信息的共同特性之上構建的。該框架中包含了文本分析模塊、遷移過濾模塊、模型學習模塊。文本分析抽取多源文本信息,依據統一的表示模型針對文本進行抽象表示;模型學習針對已標注語料采取機器學習,生成過濾模型;遷移過濾主要負責在不同的信息來源間執行模型和文本的匹配。

1.2 大規模文本排重

在輿情分析中,重復信息及其背后隱含的內容是被關注的重點。利用好這些信息,對于輿情的分析研判,以及最終的決策都能夠提供很大幫助。因此,如何能夠準確地發現重復信息,挖掘出其中的豐富語義,并用盡可能少的資源儲存這些信息,盡可能直觀地表達這些信息,是面向輿情分析的數據預處理的關鍵步驟。

本項目考慮文本巨量性、簡短性的基礎上,同時兼顧中英文間的差別,以特征碼提取為基本算法,用BloomFilterz和改良的Trie樹開展中文短文本查重的算法設計,同時在時間復雜度、精確度,還有內存分配取得了最優解。同時,引入了SimHash算法,解決了數據集中仍然存在少部分的相似文本去重的問題。總體思路為:一是建立中文短文本數據集,進行數據預處理。二是采用BloomFilter或者Trie樹對數據集進行完全重復查重。三是使用SimHash算法進行相似重復查重。四是得到查重后結果集。

1.3 人物、組織抽取技術

實體提取是識別語料中地名、人名以及組織機構名等命名實體。命名實體數量會持續增加,所以,很難在詞典中窮盡列出,依據構成方法的規律,可以把對這些詞的識別從詞匯形態處理任務單列出來,叫做實體提取。命名實體為未登錄詞里數量最多、對分詞效果影響最大、識別難度最大的問題。

漢語實體提取作為漢語切分任務的延續,是中文信息處理領域的一個基礎任務,被廣泛運用于信息抽取、信息推薦、信息檢索和機器翻譯等。

本項目應用最廣泛的是基于條件隨機場(CRF)的命名實體識別方法。該方法簡單易執行,能夠獲得不錯的性能,所以被廣泛地應用于地名、人名以及組織機構等各類型命名實體識別中,加上后期具體應用中不斷改進,能算得上命名實體識別中最成功的方法。

1.4 領域知識庫自動構建

系統能夠根據業務工作的需求,構建業務關注的重點網站、意見領袖、重點網絡虛擬身份、重點組織等領域知識庫[2],支持數據采集,并構建人物網絡行為言論庫支持特定用戶數據分析。領域知識的主要來源是領域專家、有關的專業技術文獻和豐富的互聯網領域資源。領域知識庫的構建,依賴于專家知識和領域資源的獲取。基于ASKE(面向應用領域的知識庫構建與應用的有效機制)機制,通過配置網絡領域知識文件將領域專家和互聯網領域資源有機結合,準確獲取領域資源,應用機器學習、文本挖掘和模式識別技術,抽取領域知識概念,學習概念關聯關系,構建領域知識的層次結構和基于本體建模方法的概念網絡,形成領域知識庫。

首先在有監督學習機制下,從大量的多媒體文本文件中提取語義特征知識向量;應用自動向量識別技術進行語義特征向量分類,在人機結合的少量干預下形成分類的語義特征向量列表;然后應用機器學習和有監督的統計學習方法學習語義特征向量之間的關聯關系,經過自動的語義特征向量的語義總結,形成以加權有向屬性圖表示的語義特征知識庫。垃圾文本信息過濾技術、大規模文本排重技術、人物組織抽取技術以及領域知識庫自動構建等,只是互聯網音視聽節目監測的前期準備,還需要借助云計算、大數據、人工智能等新一代高新技術的深度融合應用,才能實現更快、更準確找到輿論的焦點,進而能夠對輿論進行正確的引導。

1.5 鍵入信息記錄技術

大數據技術的使用,為鍵入信息的記錄技術實現和創造提供了可能,在該項技術的使用過程,可以對于一些重點監測的賬號,在信息的輸入方面進行全面性的記錄,從而分析該賬號在一段時間之內,對已經發布的信息內容進行全面的分析。另外,在當前自媒體大行其道的情況下,其發布的各類信息雖然從表面上來看可以覆蓋多個領域,但是其實質的內容性上,基本上都會呈現一定的套路化特點,則在鍵入信息的監管過程,要通過對這類信息的全面調查和分析,為后續的監管賬號確定過程和信息的收集過程提供幫助。在該方法的具體使用過程中,對原有的垃圾文本監管技術、關鍵詞的提取和識別技術來說,由于這類文章通常情況下具有一定的可閱讀性,所以只單純采用這兩種方法,實際上難以全面分析這類文章中所涵蓋的信息內容,所以可以采用人工排除方法,當發現某一篇文章中含有惡意引導網民思維的信息時,要對其進行處理,同時將該賬號納入到輿論監管范圍內,而之后,將該賬號所發布的各類信息,都需要經過專門人員的管理和審查,并對相關結果進行處理。

1.6 轉發信息排查技術

在轉發信息的排查技術中,可以使用的方法是通過對當前各類傳媒渠道相關全部節點的分析,了解在目前的網絡平臺運行過程中,相關信息的實際轉發情況,尤其是對于一些具有較大影響范圍的賬號。該過程中要合理使用相關的軟件,對關鍵詞進行提取,但是在關鍵詞的數量方面不可采用原有的詞匯收集方式,而是要使用其中的某一個特定語句,或者整篇文章為分析對象,研究當前相關不實信息或者具有煽動性言論的實際轉發量。同時在信息的取得過程,要做好證據的收集工作,可以直接以形成檔案或者固定格式文檔的方式,對所有取得的信息都記錄到相關的表格內,尤其是對于轉發量信息以及實際造成的影響信息。

1.7 信息渠道優化技術

信息渠道的優化技術是指,要能夠加強對于各類信息的審查質量,同時在其后續的轉發、評論以及傳遞過程進行全面性的分析,從而讓最終建立的信息傳遞渠道,具有主動刪除不實信息的甄別能力和消除能力。在具體使用過程中,可以根據對于評論關鍵詞的設置,分析這類關鍵詞的出現頻率,當發現認為該信息中關于不實類的評論占比超過70%到80%時,則可確定該信息基本屬于不實信息,則平臺方可以對其進行刪除處理。需要注意的是,該過程要能夠防范大批量惡意評論現象,這就要求在渠道的建筑中,要能夠分析所有賬號的活躍狀態、賬號日常的信息發布情況、該賬號的來源等,從而提高對信息的處理科學程度。

2 結束語

隨著互聯網的快速發展,網絡媒體已經是普遍存在的信息傳播形式,網友言論非常活躍,國內外重大事件,都能夠在網上迅速傳播,形成網上熱點,進而對相關單位和部門產生較大的輿論壓力。作為高度重視意識形態責任制的單位,對于作為思想文化信息的集散地和社會輿論放大器的互聯網,要加大人工智能[3]、大數據的深入融合,從而加強監測監管。

猜你喜歡
語義文本分析
隱蔽失效適航要求符合性驗證分析
語言與語義
在808DA上文本顯示的改善
電力系統不平衡分析
電子制作(2018年18期)2018-11-14 01:48:24
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
電力系統及其自動化發展趨勢分析
“上”與“下”語義的不對稱性及其認知闡釋
現代語文(2016年21期)2016-05-25 13:13:44
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學隱喻
認知范疇模糊與語義模糊
如何快速走進文本
語文知識(2014年1期)2014-02-28 21:59:13
主站蜘蛛池模板: 国产在线视频福利资源站| 无码高清专区| 国产成人精品18| 国产在线麻豆波多野结衣| 九九免费观看全部免费视频| 亚洲永久精品ww47国产| h视频在线观看网站| 熟女日韩精品2区| 国内精自线i品一区202| 精品久久久久久久久久久| 久久久久国产一区二区| 国产超薄肉色丝袜网站| 国产大全韩国亚洲一区二区三区| 日韩欧美国产成人| 韩国自拍偷自拍亚洲精品| 亚洲综合色区在线播放2019| 亚洲av综合网| 婷婷丁香在线观看| 亚洲综合专区| 国产后式a一视频| 国产成年女人特黄特色大片免费| 国产成人亚洲毛片| 婷婷亚洲最大| 国产精品思思热在线| 大香网伊人久久综合网2020| 91外围女在线观看| 欧美伦理一区| 福利视频久久| 国产产在线精品亚洲aavv| 日韩欧美视频第一区在线观看| 九色91在线视频| a网站在线观看| 亚洲一区二区成人| 国产成人精品亚洲日本对白优播| 91po国产在线精品免费观看| 亚洲精品va| 91视频精品| 毛片免费观看视频| 成人在线亚洲| 国产精品内射视频| 伊人久久大香线蕉影院| 在线观看国产小视频| 青青青伊人色综合久久| 午夜视频日本| 国产成人精品综合| 天堂网国产| 亚洲二区视频| 首页亚洲国产丝袜长腿综合| 亚洲天堂日本| av在线5g无码天天| 国产好痛疼轻点好爽的视频| 无遮挡一级毛片呦女视频| 99精品这里只有精品高清视频| 久草性视频| 亚洲一区二区三区香蕉| 在线欧美日韩| 色婷婷综合激情视频免费看| 日韩欧美中文| 欧美日一级片| 欧美一区二区三区不卡免费| 欧美福利在线观看| 色悠久久综合| 免费毛片全部不收费的| 欧美黄网在线| 亚洲欧美日本国产综合在线| 国产精品第一区| 日本不卡在线播放| 91精品综合| 99精品福利视频| 国产又粗又猛又爽| 毛片基地视频| 日韩二区三区无| 青青操国产| 日韩欧美色综合| 亚洲天堂成人在线观看| WWW丫丫国产成人精品| 久久人搡人人玩人妻精品| 国产成人精品高清不卡在线| 精品亚洲麻豆1区2区3区| 亚洲欧美成人在线视频| 播五月综合| 视频一区视频二区中文精品|