999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

自然資源社會大數據監測與分析系統設計與實現

2022-02-14 08:05:00劉文超曾建鷹張玉韓王娜萍
自然資源信息化 2022年5期
關鍵詞:語義文本分析

肖 飛,劉文超,曾建鷹,張玉韓,王娜萍

(1.自然資源部國土空間大數據工程技術創新中心,北京 100812;2.自然資源部信息中心,北京 100812)

0 引言

全球范圍內,運用大數據推動經濟發展[1-2]、完善社會治理[3-4]、提升政府服務和監管能力[5-6]正成為趨勢。社會大數據從概念上可以分為廣義和狹義兩類,廣義的社會大數據是指在互聯網環境下可公開獲取的各類結構化、非結構化數據的統稱,而狹義的社會大數據一般是指互聯網輿情數據。社會大數據①本文使用狹義的社會大數據概念。作為一種新型戰略資源,是國家大數據戰略的重要組成部分,其開發應用水平彰顯了信息時代社會的整體發展水平和運轉效率。國家在《促進大數據發展行動綱要》中要求,運用大數據支持宏觀調控科學化,強化互聯網數據資源利用,加強與政務數據資源的關聯分析和融合利用,為政府開展重點行業領域運行動態監測、產業安全預測預警及轉變發展方式分析決策提供信息支持,提高宏觀調控的科學性、預見性和有效性。

互聯網是媒體報道、專家意見、民眾輿情表達的網絡空間[7],存儲和聚集了海量的輿情內容。這些內容是社會大數據獲取、監測和分析的主要對象,其數量、時序、來源、地域等要素分析及蘊含的觀點、態度、意愿、情緒等信息挖掘,有助于政府實時感知社會動態變化、充分掌握社會關注熱點、全面把握市場發展趨勢、制定更有針對性的政策、提升行政效率和執政水平。

目前,社會大數據已在多個政府和行業得到應用,如食品安全[8]、公共衛生[9]、應急管理[10]、公益訴訟[11]、文化旅游[12]、警務管理[13]、宏觀經濟[14]等。但社會大數據在自然資源管理中的應用較少,主要集中在國土空間規劃[15]、新聞宣傳[16]等方面,缺少自然資源管理領域全面系統的研究和應用。本研究提出了一種自然資源社會大數據監測與分析系統的設計思路,并詳細介紹了系統實現的關鍵技術和應用效果。

1 系統設計

1.1 業務需求

自然資源部承擔統一行使全民所有自然資源資產所有者職責、統一行使所有國土空間用途管制和生態保護修復職責(以下簡稱“兩統一”職責)。自然資源部根據“兩統一”職責,在自然資源資產所有者職責方面設計了自然資源調查監測、自然資源確權登記、自然資源所有者權益和自然資源開發利用4 個關鍵環節;在國土空間用途管制和生態保護修復職責方面設計了國土空間規劃、國土空間用途管制和國土空間生態修復3 個關鍵環節;另外,還承擔耕地保護、地質礦產、海洋、測繪等管理職責。

社會大數據的采集、處理和分析,全面支撐自然資源部各項職責,目前仍面臨一些問題和挑戰。

(1)社會大數據來源極度分散、實時性強,難以全面系統地獲取全量的完整信息,需要著重提高數據采集和處理的實時性。

(2)社會大數據主要是文本數據,具有抽象性、語義組合性、歧義性和進化性等特點,同時理解語言通常需要背景知識和推理能力,這為自動處理和分析其中蘊含的語義信息帶來了困難[17]。

(3)自然資源社會大數據具有鮮明的行業特點,詞語、概念和上下文語境具有較強的專業性。通過通用語料庫訓練得到的語言模型不一定適用于自然資源社會大數據,需要用于模型訓練的專門語料庫資源。

面對以上自然資源社會大數據獲取和處理中的問題與挑戰,自然資源部門需要充分考慮自然資源管理職責領域和相應的語義特征,運用大數據處理、自然語言處理和知識圖譜等技術,構建“實時采集獲取、統一加工處理、智能分析決策”一體化的自然資源社會大數據監測與分析應用技術體系,深入分析互聯網海量輿情信息,理解和挖掘社會大數據蘊含的語義內容,探索基于社會大數據的自然資源管理和輔助決策模式,充分發揮社會大數據在支撐自然資源管理和決策中的作用。

1.2 設計思路

自然資源社會大數據監測與分析系統面向互聯網海量文本數據資源,以社會大數據實時在線獲取為基礎,建立覆蓋多類型數據源的數據采集管理機制。以自然語言處理技術為核心,從數據清洗、語義處理、文本挖掘等方面深化社會大數據的處理能力。為支撐實時處理及離線、在線分析對系統計算和存儲方面的需求,集成多種大數據計算和存儲技術,并建立社會大數據知識圖譜。面向14 類自然資源業務領域,建立社會大數據分類分析體系,開展通用及專題分析,提供自然資源管理部門輿情監測、熱點發現、在線分析、專題定制、輿情報告等各類分析功能和產品。

1.3 系統架構

自然資源社會大數據監測與分析系統架構從下到上分為數據采集層、分析處理層、分布式存儲層、系統應用層,如圖1 所示。

圖1 系統架構

1.3.1 數據采集層

數據采集層運用分布式爬蟲技術,實現對網站、微博、微信、論壇、博客、APP、電子報等多類型上游數據源的實時自動采集。通過對采集目標網站及相關統一資源定位器(uniform resource locator,URL)的集中管理,采用多節點采集任務并行調度技術,實現集群化部署和目標站點全量通用內容的高效采集。同時也支持用戶通過自定義的采集任務,對定向采集目標的結構化數據進行定制化采集。

1.3.2 分析處理層

分析處理層對采集的數據進行數據清洗、基礎語義處理和文本語義挖掘。

(1)對采集的原始頁面數據根據URL 和內容進行去重,對頁面進行標簽過濾和清洗,去除其中的超文本鏈接置標語言(hypertext markup language,HTML)標簽和異常字符。應用基于行塊分布函數的網頁正文抽取技術[18],從原始網頁提取核心的正文內容。

(2)建立用戶自定義的自然資源專題詞庫,對采集的文本數據進行中文分詞、分句、詞性標注、相似度計算等基礎語義處理操作,應用基于注意力機制的預訓練語言模型對文本進行嵌入表示,將高維空間的文本數據編碼成低維度的文本向量。

(3)建立一系列基于自然語言處理技術的文本語義挖掘算法和分析模型,從正文內容識別命名實體,提取關鍵詞、實體關系和事件要素信息,對文章進行分類標引,自動生成文章摘要,評估文本中表達的正負向情感傾向,基于原始數據和提取信息對文章進行聚類分析,生成熱點話題。

1.3.3 分布式存儲層

為了支撐數據采集和分析處理對TB/PB 級別海量存儲系統高并發、低延時訪問的性能要求,同時考慮采集數據實時寫入、語義處理、聚合分析,以及歷史數據批量導入和處理、全量數據全文搜索、知識圖譜存儲和推理等不同數據應用場景的需求,分布式存儲層集成了消息中間件、文檔型數據庫、搜索引擎、圖數據庫等多種分布式數據庫,實現非結構化大數據的統一存儲、實時處理、傳輸和增量更新及高效的檢索和語義關聯。

1.3.4 系統應用層

面向自然資源部管理人員和分析研究人員,提供社會大數據的監測與分析決策功能。

(1)自然資源輿情分析專題。提供法律法規、調查監測、確權登記、所有者權益、開發利用、國土空間規劃、用途管制、生態修復、耕地保護、地質礦產、海洋、測繪、執法督察、科技與國際合作14 項自然資源業務領域輿情的自動分類和熱度排名,并且對每類業務進行輿情趨勢、信息來源、媒體占比、熱點話題、專家觀點、情感傾向、空間區域、最新最熱新聞排行等分析。

(2)自然資源政策分析專題。定向采集自然資源部公開發布的法律法規和相關文件,實現發布的政策法規相關聯輿情的聚合展現。

(3)在線分析專題。根據用戶自定義的多關鍵詞和時間、地點、業務領域、情感傾向等信息,實時檢索并聚合分析內容,從而實現用戶按需對輿情數據進行定制化分析和監測。

(4)房地產調控輿情分析專題。提供土地情報、房地產市場、房地產金融、房地產數據、房企動態、地方動態、宏觀政策7 個方面的房地產調控和土地市場輿情專題分析,既包括輿情、來源、情感等通用內容分析,又對輿情中提取的房地產企業、出讓地塊、房地產機構和專家觀點等方面進行專題分析。定向采集國務院、各部委、各地方發布的房地產相關法律法規和調控政策,實現政策數量、政策內容、發布地區、政策相關輿情的查詢展示,并提供政策類型、發布趨勢、效力等級、發布機構等方面分析。

(5)“亂占耕地建房”問題整治工作專題。檢索并聚合全國各地公開發布的有關“亂占耕地建房”問題整治工作開展情況的輿情信息,從中抽取召開會議、工作部署、調研巡查、獎勵表彰、處罰懲戒等事件類型、事件論元和角色,以及工作內容、創新做法等相關信息,提供國家、省、市、縣四級部署開展工作的全景式、實時性分析。

(6)智能搜索模塊。依據對文章進行語義處理和信息提取的結果,根據預先定義的輿情分析概念圖譜,生成以輿情文章為中心的知識圖譜,包括文章、業務領域、關鍵詞、地區、情感傾向、數據指標、機構、專家等內容及相互的關聯關系。知識圖譜既能夠為用戶提供輿情要素信息的語義級查詢,也能夠通過檢索圖譜中的實體與關系,為用戶提供耦合語義信息的搜索結果內容聚合和智能推薦。

基于上述功能模塊,系統實現了社會大數據實時監測、熱點發現、在線分析、專題定制、輿情報告生成5 個方面的分析決策能力。

2 關鍵技術

2.1 分布式爬蟲技術

分布式爬蟲技術是解決海量社會大數據實時獲取的關鍵,由調度器、解析器、分布式采集集群和采集數據庫構成,如圖2 所示。

圖2 分布式爬蟲采集過程

(1)調度器從采集庫中獲取一條待采集的鏈接,并將任務分配給采集集群。

(2)分布式采集集群根據目前負載情況,將任務分配給某一采集器。

(3)采集器將頁面請求發送至目標站點。

(4)目標站點將發送響應返回采集器。

(5)解析器解析返回的頁面內容,將數據存儲至原始網頁庫,并更新URL 庫,同時將此任務狀態同步至調度器。

爬蟲架構在實現上由一個調度器主節點和多個采集器工作節點及負責通信和數據儲存的Redis和MongoDB 數據庫構成。調度器負責爬蟲任務調度、采集器節點管理和通信、爬蟲部署和執行任務。采集器節點根據調度器分配的任務,負責執行爬蟲任務和儲存抓取數據與日志,并且通過Redis 的發布和訂閱功能與主節點通信。通過增加采集器節點數量,系統可以實現橫向擴展,不同的爬蟲任務被分配到不同的節點并得到執行。

2.2 海量文本數據集成存儲技術

面向文本數據實時采集、語義處理和處理結果高效查詢等多種應用場景,社會大數據監測與分析系統構建了海量文本數據湖架構,集成傳統關系型數據庫及MongoDB、彈性搜索(elastic search)、OrientDB 等多種NoSQL 數據庫,提供多類型一體化的數據存儲方案。同時,建立了流、批混合的數據處理管道,實現同一文本數據在采集庫、處理結果庫和知識圖譜庫中的實時同步更新,保證采集過程高吞吐量、處理過程高并發量、檢索過程高速響應。

2.3 預訓練語言模型

語言概率建模是自然語言處理中的一個基本問題。文本由于具有先天的上下文序列化特征,可以使用序列化模型方法。對于長度為T的文本序列x1:T=[x1,x2,…,xT],語言模型的目標是估計聯合概率p(x1:T)。鏈式法則如公式(1)。

式中,x0為文本序列開始標記。

基于注意力機制的模型技術棄用了循環神經網絡結構,直接建立輸入序列單元之間的依賴,解決了以上問題。假設查詢向量個“鍵-值”對(k1,v1),…,(km,vm),其中,注意力匯聚函數f可以表示為值的加權和,計算方式如公式(2)~(3)。

式中,α(q,ki)為查詢向量q與ki的注意力權重系數。

通過注意力評分函數a(q,ki)(一般為縮放點積注意力)計算兩者相似度,再經過softmax 函數進行歸一化計算。一方面,注意力機制可以通過計算輸入序列之間的注意力權重,表達兩個距離較遠時刻的關系,從而徹底解決長距離依賴的問題。另一方面,每一步計算不依賴上一步的計算結果,所以模型具有較高的計算并行度,從而加速訓練。

文本的有序性及詞與詞之間的共現信息為自然語言處理提供了天然的自監督學習信號[20],可以通過遮罩處理等生成高質量的學習語料,并根據預訓練得到的語言模型,生成具體任務文本對應的語義向量,參與下游任務訓練。在下游任務學習中,對預訓練參數進行更新。以生成式預訓練(generative pre-training,GPT)模型、雙向編碼器表示(bidirectional encoder representations,BERT)模型[20]為代表的深層Transformer 表示模型,依靠其億級的參數量、動態語義表達、明顯優于傳統方法的實際效果,使得預訓練語言模型被廣泛熟知,進而成為目前主流的語言模型。

本系統以谷歌開放的中文BERT-Base 模型為基礎,構建了文本主題分類、住宅用地交易事件抽取的語義挖掘模型。BERT-Base 模型擁有12 層網絡,隱藏層維度為768,頭數為12,模型參數約1.1 億個。

3 自然資源語義挖掘

3.1 文本主題分類

系統建立了14 類自然資源業務領域的文本分類模型,如表1 所示,對爬蟲采集的網頁內容主題進行識別分類。模型以BERT-Base 為基礎,在BERT輸出層上面增加了一個全連接層,通過softmax 函數輸出各類別的概率,對文本進行識別預測。

表1 自然資源業務領域分類及關鍵詞

3.2 住宅用地交易事件抽取

事件是指在某一特定時間、特定地點發生的涉及一個或多個參與者的特定事實,通常可以被描述為狀態的變化[21]。事件抽取的目的是檢測文本中的事件實例是否存在,若存在,則識別事件類型及其參與者和屬性。自然資源部負責土地資源的合理開發利用,承擔建立土地資源市場交易規則和交易平臺、組織開展土地市場調控、負責自然資源市場監督管理和動態監測等職責。本系統利用社會大數據監測數據,自動抽取住宅用地交易事件及地塊編號、所在城市、位置、出讓面積、建筑面積、受讓人、成交價款、溢價率等信息,如圖3 所示,構建了基于社會大數據的住宅用地交易事件在線監測網絡,為及時準確掌握全國土地市場動態信息、開展土地市場宏觀調控提供新的技術手段。

圖3 住宅用地交易事件及事件元素

系統通過基于BERT 的預訓練語言模型,構建了篇章級的住宅用地交易事件抽取模型,如圖4所示。模型由輸入層、BERT 語義提取層、條件隨機場(conditional random field,CRF)層、輸出標簽層構成。通過預訓練的BERT 對文本字符進行動態語義編碼,從輸入層抽取豐富的上下文語義關系,并輸出每個字符對應的一組事件元素標簽概率。這組概率被接著輸入CRF 層,并最終輸出每個字符的預測標簽。由于CRF 層引入了標簽之間的互相依賴關系,可以排除類似(B-受讓人、B-成交價款)等錯誤情況,提高預測的整體準確率。

圖4 住宅用地交易事件抽取模型

4 應用情況

自然資源社會大數據監測與分析系統依托“自然資源云”基礎設施進行部署并業務化運行,對全國520 家電子報刊、100 余家新聞網站、微博微信等新媒體的自然資源領域輿情進行常態化監測,提供6 個方面、66 個功能模塊的輿情分析應用服務。系統依托強大的數據采集、處理能力和分析功能,支撐管理人員和信息研究人員精準跟蹤自然資源管理熱點,及時獲取社會對自然資源管理政策的輿論反饋,快速掌握地方自然資源管理工作情況,并形成專題工作輿情分析報告。

面向房地產調控長效機制建立運行和住宅用地“兩集中”政策實施,系統開展了全國重點城市住宅用地供應與交易信息和房地產輿情的大數據監測分析。定向采集重點城市住宅用地供應和成交公告,從房地產輿情中智能提取全國地級城市住宅用地高總價、高單價、高溢價和流拍等異常交易情況,形成重點城市住宅用地監測日報、周報和房地產每日輿情信息共400 余份,為自然資源部及時、精準掌握房地產市場、供求關系、房企動態、專家觀點等信息,分析研判房地產市場形勢提供技術支撐。

5 結語

自然資源社會大數據監測與分析系統的建立運行,是對社會大數據支持下的自然資源管理和輔助決策模式的初步探索和應用嘗試,為開拓自然資源管理專業領域下的文本語義分析挖掘和工程化應用提供了經驗。隨著互聯網進入語義互聯的Web3.0 時代,未來系統需要進一步擴展社會大數據采集和監測能力,增加國際多語種輿情采集和處理功能,擴展深化自然資源語義挖掘和信息抽取技術,面向全國自然資源統一大市場監測監管、全球戰略性礦產資源開發利用監測預警等領域,提供更加精準有效的開源情報信息,滿足不斷發展變化的自然資源管理工作需求。

猜你喜歡
語義文本分析
隱蔽失效適航要求符合性驗證分析
語言與語義
在808DA上文本顯示的改善
電力系統不平衡分析
電子制作(2018年18期)2018-11-14 01:48:24
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
電力系統及其自動化發展趨勢分析
“上”與“下”語義的不對稱性及其認知闡釋
現代語文(2016年21期)2016-05-25 13:13:44
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學隱喻
認知范疇模糊與語義模糊
如何快速走進文本
語文知識(2014年1期)2014-02-28 21:59:13
主站蜘蛛池模板: 日韩天堂视频| 国产拍在线| 四虎影视国产精品| 色成人亚洲| 成人午夜久久| 亚洲精品无码成人片在线观看| 日韩无码视频专区| 国产91在线免费视频| 无码区日韩专区免费系列| 日韩国产综合精选| 日韩专区欧美| 99re在线视频观看| 无码乱人伦一区二区亚洲一| 欧美国产成人在线| 亚洲自偷自拍另类小说| 国产幂在线无码精品| 色吊丝av中文字幕| 国产精品人莉莉成在线播放| 四虎在线观看视频高清无码| 国产精品jizz在线观看软件| 国产成人做受免费视频| 色综合色国产热无码一| 一区二区日韩国产精久久| 久久综合一个色综合网| 青青操国产视频| 国产91九色在线播放| 国产精品3p视频| 一级片一区| 狠狠久久综合伊人不卡| 国产91丝袜| 999在线免费视频| 欧美午夜视频| 国产激爽爽爽大片在线观看| 国产sm重味一区二区三区| 一级毛片a女人刺激视频免费| 国产后式a一视频| 欧美日韩久久综合| 国产无码性爱一区二区三区| 亚洲天堂自拍| 久996视频精品免费观看| 日本人又色又爽的视频| 亚洲无码熟妇人妻AV在线| 日韩福利视频导航| 國產尤物AV尤物在線觀看| 67194在线午夜亚洲| 黄色网址免费在线| 72种姿势欧美久久久久大黄蕉| 国产福利大秀91| 国产你懂得| 精品无码国产自产野外拍在线| 婷婷六月综合| 亚洲天堂久久| 欧美国产菊爆免费观看| 国产一级α片| 中文字幕人成人乱码亚洲电影| 免费观看无遮挡www的小视频| 日本黄色a视频| 国产精品网曝门免费视频| 久久久久人妻精品一区三寸蜜桃| 国产日韩欧美精品区性色| 九九精品在线观看| 亚洲无码免费黄色网址| 亚洲AV成人一区国产精品| 亚洲a级在线观看| 丁香六月激情婷婷| 在线另类稀缺国产呦| 国内精品久久久久鸭| 一级一级一片免费| 国产门事件在线| 国产欧美精品一区二区| 一级毛片在线免费视频| 久青草免费在线视频| 91探花在线观看国产最新| 久久人体视频| 国产成人福利在线| 国产a v无码专区亚洲av| 亚洲国产一区在线观看| 欧美成a人片在线观看| 免费看a级毛片| 亚洲码在线中文在线观看| 精品久久777| 欧美日韩国产综合视频在线观看|