999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于本體的互聯網輿情分析預警系統關鍵技術研究

2018-07-12 01:08:08張慎武鄭州大學西亞斯國際學院
數碼世界 2018年6期
關鍵詞:語義概念文本

張慎武 鄭州大學西亞斯國際學院

1 引言

互聯網改變著中國人的生活方式。2017年8月,中國互聯網絡信息中心(CNNIC)發布了第40次《中國互聯網絡發展狀況統計報告》。《報告》顯示,截至2017年6月, 我國網民規模達7.51億,普及率達到54.3%,其中微博用戶2.9億,網民使用率38.7%,使用網絡新聞和論壇/貼吧的用戶分別為83.1%和17.6%[1]。超過70%的網民在互聯網上發表言論并進行話題討論,充分表達思想觀點和利益訴求。因為自身的開放性、互動性、便捷性、及時性和影響范圍廣等特點,互聯網已成為思想文化信息的集散地和社會輿論的放大器[2]。在互聯網輿情中,有一些熱點問題容易引起廣泛的影響,特別是負面的影響。如果不能及時地發現、有效地引導,負面的互聯網輿情將對社會秩序和公共安全造成較大威脅。因此,對互聯網輿情進行高效快速分析預警的技術是保證良好、穩定的社會秩序的重要保障手段,對此類技術的研究迫在眉睫。互聯網輿情分析與導控系統一般包括熱點、敏感話題識別、輿情主題跟蹤、自動摘要、輿情趨勢分析、突發事件分析和輿情報警等功能。目前國內大多數網絡輿情分析系統都采用基于語法的輿情分析技術,不能從語義層面對網絡輿情進行分析預警,可能會忽略一些熱點/敏感事件,影響了系統對于輿情的發現率。本文主要闡述基于本體的互聯網輿情分析預警系統的模型框架和關鍵技術。

2 系統模型框架

系統模型主要包含輿情規劃、信息采集、輿情分析、輿情報警和本題庫構建等模塊,如圖1所示。

a.輿情規劃模塊:操作員根據需要設置輿情主題和種子URL,形成定制化的輿情方案。

b.信息采集模塊:負責利用爬蟲技術從新聞網頁、論壇、微博、貼吧等互聯網社交媒體中采集信息,將采集到的文本進行格式化、預處理以及向量化,用云存儲技術保存在分布式集群中,并隨時提供信息檢索服務。

c.輿情分析模塊:以一系列最新理論技術研究成果為基礎,涵蓋系統的三個核心模塊(自然語言處理、情感分析和語義分析),利用輿情分析產生的文本分類和情感傾向性結果產生輿情,為輿情服務提供基礎性數據分析支撐。

d.輿情服務模塊:利用輿情分析模塊的處理結果,根據系統的配置提供輿情服務,進行輿情可視化分析并提供輿情預警和展示。

圖1.系統模型框架

3 互聯網輿情領域本體庫的構建

領域專家在本體構建方法學的指導下,構建網絡輿情領域本體庫。Tom Gruber給出了設計本體的基本準則: (1) 明確性和客觀性,本體應該有效地傳達所定義的術語內涵; (2) 一致性,即由本體推斷出來的概念定義應該與本體中的概念定義一致; (3)可擴展性,指本體提供的共享詞匯集,應該在不改變原義的前提下能夠單調地進行擴展; (4) 最小編碼偏差,本體應該處于知識的層次,而與特定的符號級編碼無關; (5)最小本體承諾,一個本體在提供必須的共享知識條件下,要求有最小的本體承諾[3]。本體建立的方法目前沒有統一的標準,一般都是參考軟件工程的方法。

參考常用的本體開發方法后,在本系統中采用的本體建立方法如下: (1) 確定輿情分析本體應用的目的和范圍; (2) 進行本體概念和關系的初步選取; (3) 形式化表示及評價; (4)建立本體。

由于領域知識龐大而復雜,不可能對其進行全面建模,在實際系統中應緊貼特定主題輿情分析的需要,選擇相關的領域建立領域本體庫。

構造本體時是以OWL來進行描述的,在對Web內容進行語義標注和基于語義的輿情分析過程中會頻繁地訪問本體中的概念、實例、屬性及各種關系,所以需要將本體存入數據庫,以實現對本體的快速訪問。

4 輿情內容文本語義標注

語義標注的目的是通過本體為輿情內容文本增加計算機可以理解的語義信息,也就是為本體中的概念尋找文本中的實例或者為本體中的實例尋找相匹配實例的過程。在輿情分析系統中可以采用如下方案來實現網絡文本內容的語義標注:

(1) 網絡文檔特征詞提取。在傳統的空間向量模型文本表示方法中,特征選擇和權值計算忽略了文本的語義信息,所以在本系統中通過遍歷輿情分析本體庫進行文檔特征詞選擇,形成特征詞集合。

(2) 基于輿情分析本體庫進行特征詞權值計算,形成文檔與領域本體的映射關系。文檔 dj表示成特征向量:

dj= { ( t1,w1j) ,…,( ts,wsj) } ,其中t1…ts表示經過本體進行匹配后特征詞,w1j…wsj表示經過在本體計算后得到的概念權值。

采用這種方案不僅可以揭示文檔的隱含語義信息,而且能較準確地劃分文檔與所屬類別,為輿情分析中的熱點話題發現提供基礎。

5 基于語義相似度的輿情熱點/主題/話題分析

Web 文本挖掘的目的是對文本內容進行分析,發現有價值的模式和規則,并進行預測。而現有的文本挖掘都是基于語法層面,極少進行語義層面的挖掘,準確率不高。在輿情分析系統中,熱點、敏感話題發現主要是采用文本挖掘的聚類來實現,在本系統中提出基于語義的熱點、敏感話題發現,實現流程如下:(1) 在上述語義標注的結果上進行基于本體庫的文檔與文檔之間的語義相似度和相關度計算; (2) 按照預設的閾值進行聚類處理,形成相應的簇; (3) 形成文檔集合的劃分后,再次利用上述基于本體的語義特征詞概念權值計算方法進行文檔集合的特征提取,從而形成輿情分析中的熱點、敏感話題,在本體庫的支持下進行情感傾向性分析。

在該過程中多次涉及到語義概念特征的相似度與相關度計算,對于概念的語義相似度

其中:α(x)是以x為起點向上可達的結點集合;α(x)∩α(y) 是以x和y為起點,向上可達的結點集合的交集;ρ∈[0,1]是可調參數。式(1) 充分考慮

了概念間的語義重合度、概念層次深度和相似度的不對稱性。

在領域本體中任意2個概念特征相關度

其中,ShortPath(x, y)表示從x到y的最短路徑距離,當x和y不相通時該值為∞,λ為可調參數。

6 結束語

本文闡述了互聯網輿情分析預警系統的模型框架和系統中使用的三個關鍵技術:互聯網輿情領域本體庫的構建、輿情內容文本語義標注和基于語義相似度的輿情熱點/主題/話題分析,如何將這些關鍵技術和其他技術在模型框架內整合成一套自動化的互聯網輿情分析預警系統,為相關管理者、監管部門提供一個基礎性平臺,是本文下一步的工作重點。

猜你喜歡
語義概念文本
Birdie Cup Coffee豐盛里概念店
現代裝飾(2022年1期)2022-04-19 13:47:32
語言與語義
幾樣概念店
現代裝飾(2020年2期)2020-03-03 13:37:44
在808DA上文本顯示的改善
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
學習集合概念『四步走』
聚焦集合的概念及應用
“上”與“下”語義的不對稱性及其認知闡釋
現代語文(2016年21期)2016-05-25 13:13:44
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學隱喻
認知范疇模糊與語義模糊
主站蜘蛛池模板: 国产拍在线| 国产在线视频欧美亚综合| 国产精品手机视频| 欧美精品v欧洲精品| 成人国产免费| 青青热久麻豆精品视频在线观看| h网址在线观看| 国产精品视频久| 国产亚洲高清视频| 欧美日韩中文国产va另类| 日韩精品专区免费无码aⅴ | 亚洲综合国产一区二区三区| 在线看片中文字幕| 国产精品无码影视久久久久久久| 四虎影视库国产精品一区| V一区无码内射国产| 中文字幕亚洲乱码熟女1区2区| 色老二精品视频在线观看| 幺女国产一级毛片| 伊人久久婷婷| 精品国产亚洲人成在线| 在线观看国产精品第一区免费| 日韩中文欧美| 国产JIZzJIzz视频全部免费| 无码精品国产dvd在线观看9久| 日韩成人高清无码| 国产高清在线观看91精品| 无码中文字幕乱码免费2| 色香蕉网站| 97无码免费人妻超级碰碰碰| 国产91麻豆视频| jizz国产视频| 欧美精品亚洲二区| 欧美一区二区人人喊爽| 亚洲无码四虎黄色网站| 国产精品视频猛进猛出| 国产亚洲美日韩AV中文字幕无码成人| 91久久精品国产| 亚洲天堂网在线播放| 99热这里只有精品免费国产| 97在线观看视频免费| 日本a级免费| 国产精品一线天| 香蕉综合在线视频91| 日本91视频| 国产99精品久久| 国产精品亚洲αv天堂无码| 亚洲国产亚综合在线区| 亚洲色图另类| 激情综合婷婷丁香五月尤物 | WWW丫丫国产成人精品| 国产剧情国内精品原创| 国产精品lululu在线观看 | 亚洲欧美另类中文字幕| 欧美区国产区| 欧美专区日韩专区| 香蕉久久永久视频| 国产激情无码一区二区APP| 国产丰满大乳无码免费播放| 福利在线一区| 欧美日韩精品综合在线一区| 2021无码专区人妻系列日韩| 91午夜福利在线观看精品| 色久综合在线| 偷拍久久网| 在线a视频免费观看| 青青极品在线| 国产va免费精品观看| 在线观看91香蕉国产免费| 美女啪啪无遮挡| 欧美性久久久久| 55夜色66夜色国产精品视频| 亚洲福利视频一区二区| 青青热久麻豆精品视频在线观看| 91外围女在线观看| 国产成人亚洲毛片| 热伊人99re久久精品最新地| 综合五月天网| 国产大片喷水在线在线视频| 国产成人免费| 无码免费试看| 亚洲丝袜第一页|