999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于大數據分析的互聯網公開情報發現技術及系統研究

2020-04-09 04:54:20張四平王梅
計算機時代 2020年3期

張四平 王梅

摘 ?要: 從網絡空間的海量信息中發現公開情報信息,對于維護國家安全和社會穩定具有重要意義。文章通過開發的“大數據網絡公開情報發現系統”,研究多源異構數據的采集、融合、分析及展示;通過設計網絡空間對象關聯分析系統來分析處理海量信息,從而能夠支持不良信息的溯源、重點關注用戶賬號的關聯、網絡嫌疑人身份信息的協同搜索等。

關鍵詞: 大數據分析; 互聯網公開情報; 網絡空間對象; 關聯分析系統

中圖分類號:TP393 ? ? ? ? ?文獻標識碼:A ? ? 文章編號:1006-8228(2020)03-09-04

Research on big data analysis based Internet open information discovery technology and system

Zhang Siping, Wang Mei

(School of software Hunan College of Information, Changsha, Hunan 410200, China)

Abstract: It is of great significance for maintaining national security and social stability to find open information from the massive information in cyberspace. This paper studies the collection, fusion, analysis and display of multi-source heterogeneous data by the developed "big data Internet open information discovery system"; through the design of network space object association analysis system to analyze and process massive information, so as to support the traceability of bad information, the association of the focused user accounts, and collaborative search of identity information of network suspects, etc.

Key words: big data analysis; Internet open information; network space object; association analysis system

0 引言

社會信息化程度不斷加深,這對傳統的社會形態有著深遠的影響,傳統的社會形態面臨巨大的挑戰。以新聞門戶網站(新浪、網易)、論壇類媒體(BBS和博客)為代表的傳統網絡媒體,以微博媒體和社交網站為代表的網絡新媒體,產生海量互聯網信息,此類網絡空間信息大數據具有模式多態、動態交互、碎片化、變化演繹等特點,其中蘊含著大量有價值的情報信息。如何針對用戶的實際需求和真實搜索意圖,發現互聯網的公開情報信息,這項研究對于涉恐辦案情報分析、經濟情報分析、輿論情報分析等,以及對于維護國家安全和社會穩定具有重要意義。

1 研究現狀

現代情報大數據具有數據規模大、高速生成、異構、多源、細粒度語義單元分析的特點,這些特點對計算平臺、數據收集、數據組織和數據分析等提出了新的挑戰,促使在這些領域形成了新的技術體系。

⑴ 大數據計算平臺。大規模分布式計算平臺是解決大數據的規模問題基本的思路,遵循Map/Reduce計算模型[1]的Hadoop[2]系統是其中的代表產品。在Apache等開源社區的推動下,針對不同數據計算模式的特點,分布式計算平臺呈現不同方向發展:面向大數據高時變性的特點,出現了以Storm、Spark Stream、S4為代表的流計算平臺[3];大數據中數據高度關聯的特點推動了面向大圖數據管理和計算的平臺,包括Pregal(以分布式矩陣計算為基礎)、Trinity(基于分布式共享內存)、Power Graph(基于GAP模型)和Distributed graphlab為代表的大圖數據計算平臺[4];針對大內存計算的需求,出現了以Hana、Spark、GemFire為代表的內存計算系統[5]。

⑵ 網絡信息獲取與提取技術。從各種公開或非公開數據源中獲取數據是情報大數據系統的重要組成部分,其中主要包括數據獲取和信息抽取兩個關鍵技術。網絡爬蟲系統是當前主要的數據獲取手段,Anthelion、Scrapy等系統可以自動地實現對互聯網上網頁或數據庫數據的爬取[6]。在信息抽取方面,在互聯網數據分析、醫療數據分析等領域均出現從網頁等文本數據抽取各種語義信息的方法,主要包括通過網頁結構進行分析獲取其中的數據抽取目標的技術。

⑶ 多源異構數據建模與集成。多源異構數據集成的研究一直是信息集成領域的主要研究內容。在第一代的信息集成系統中主要實現對異構的半結構化文本和數據庫的集成,主要以解決模式上的異構問題為主。

⑷ 情報大數據分析技術。情報分析領域業務部門、工業界和學術界多年來已在數據挖掘、互聯網搜索、自然語言處理、在線社交網絡分析等傳統方向上有成熟技術和產品基礎。

2 本研究采用的關鍵技術

本文研究的技術路線如圖1所示,主要包括互聯網情報獲取與融合、情報知識倉庫構建和管理、用戶真實搜索意圖理解、用戶搜索意圖的搜索與匹配等部分。

2.1 網絡空間情報獲取與融合

支持網絡空間數據獲取和推理,包括公開互聯網、微博、博客、論壇、維基、共享網站等空間中采集文本、圖片、語音、視頻等各種類型的多模態數據,以及各類已存在的實體對象情報和關系情報。數據獲取與采集過程不間斷進行,采集后的數據和知識是后續推理和搜索的基礎。

2.2 情報知識倉庫構建和管理

面向公開互聯網的海量實體對象情報及關系情報知識進行建模;在此模型實例化的基礎上通過情報知識聚合,構建情報知識庫空間,并通過索引、關聯和演算等聚合操作預先形成情報聚合體。知識倉庫中的情報知識是不斷經過二次加工的,經過用戶的查詢、修改、反饋和自演化的過程,逐步完善,根據應用建立各類索引,同時滿足用戶搜索時的準確性需求和實時性需求。

2.3 用戶真實搜索意圖理解

真實情報意圖理解的準確性和歧義消除是用戶的基本需求。結合用戶的上下文和語義知識等方法,迅速、準確地理解用戶的真實意圖,并轉變成與知識倉庫可匹配推演的表示方式。

2.4 用戶搜索意圖的搜索與匹配

基于意圖理解表示和知識倉庫,經過匹配、推理、計算乃至眾包等技術和方法的處理,形成若干個滿足用戶真正意圖的綜合情報解決方案,并通過結果評價排序方式給出其優先級,為用戶提供智能的情報解答方案。

3 系統整體架構

本文中“大數據網絡公開情報發現系統”(簡稱BDID系統)的整體架構如圖2所示,包括“大數據采集”、“大數據計算”、“可擴展分析工具與關聯情報庫”,以及“情報搜索與展示”四個子系統。

3.1 基于關聯的多源異構情報大數據建模和高效計算

在開源流數據處理平臺的基礎上,融合大圖計算平臺,開發面向動態異構圖數據的分布式計算平臺;應用基于圖的多版本管理、以代表點為核心的預計算等方法,提高動態圖數據上基本算子的執行效率;利用實體關聯網絡的思想和資源描述框架(簡稱RDF)數據描述形式進行異構數據的建模;結合異構網絡的分析技術和RDF數據查詢技術,實現針對海量關聯數據的管理和查詢。

3.2 多源異構網絡大數據智能采集與提取模型

首先采用可擴展分布式采集模型實現服務器無感采集,在分析、仿真真實網絡用戶群上網行為的基礎上,實現對大規模分布式采集點的智能調度。然后,采用熱點信息動態感知模型實現對社會網絡的深度采集。再研究高智能內容協商采集模型,包括個性化可配置自動提取和互動式社會網絡信息智能提取技術。

3.3 全媒體大數據可用性評估理論模型

首先應用一階邏輯、時序邏輯和隨機過程等不同數學方法,建立特定事件大數據的全面性、準確性、時效性和實體同一性理論模型,然后在統一的邏輯框架下把用不同數學方法建立的理論模型融合成為一個完整的特定事件大數據可用性理論模型。在此基礎上,重點解決最大滿足子集求解難題和應用需求可滿足性判定問題,并進一步設計高效的特定事件大數據可用性的定量評估模型求解算法。

3.4 基于語義網的全媒體特定主題事件大數據分布式存儲

由于數據源是全面涵蓋傳統網絡媒體、網絡新媒體和移動互聯網媒體的網絡全媒體,因此在進行特定事件大數據分布式結構存儲前,首先通過對特定事件數據進行關聯分析,發現其中隱含的相似模式,并為其自動生成RDF 描述的模型框架后,再進行基于語義網的分布式結構存儲。在此基礎上,項目進一步研究大規模分布式結構存儲系統中基于文件的RDF圖的存儲優化技術,以及大規模語義網數據訪問控制方法。

3.5 基于屬性關聯與圖匹配的重點人物關聯分析

首先研究重點人物、群體等實體的可關聯信息建模方法,通過屬性模板描述不同類型實體的可能關聯屬性,通過圖模型描述組成群體的不同個體關聯關系類型;在此基礎上,在RDF語義網的支持下,分別由語義索引匹配和圖索引匹配方法,對可能匹配的實體屬性進行輪詢計算,采用分布式處理架構與內存處理相結合的方式支持千級屬性維度的并行計算,評估重點人物和群體的信息關聯度;進而對“可信”匹配特征進行拼接,自動發現、評估和建立重點人物、群體之間的各類關聯。

3.6 基于網絡痕跡鑒別的特殊事件的溯源追蹤分析

基于全媒體特定主題事件的大數據模型,首先根據特定事件的特征(或從樣本數據中提取的特征),從事件庫中檢索得到特定事件關聯的各種“網絡痕跡”數據,包括全媒體的內容帖、轉發評論及交互、上網的行為數據、其他相關數據等;根據數據的時間戳信息和時序模型,計算痕跡數據時間線;在此基礎上,將與事件相關聯的人、群體、組織等實體檢索后按照時序關系組織成溯源圖和追蹤圖;基于概率貝葉斯模型等分類方法對人、群體、組織的虛擬身份進行立場分類,篩選并發現新的重點人員及其軌跡。

3.7 結合深度學習與巨圖匹配的時空敏感數據智能分析

針對RDF語義網中的人物、事件相關快速匹配需求,基于循環神經網絡(RNN)、LSTM神經網絡等深度學習方法提取人物、事件相關的各種數據的時間特征、空間特征提取方法,以及不同關鍵詞間的深度語義關聯,并在語義空間中研究基于時空相似的快速匹配算法;針對RDF語義網中的關系類知識的快速匹配算法,基于圖的分布式處理方法,解決億級節點規模、十億級邊規模的大圖和巨圖的并行匹配的分解算法及優化方法,通過圖索引確保秒級查詢相應;針對多尺度混合屬性查詢請求,以多時間尺度間的自動轉換方法自動計算新的時空特征及其快速匹配算法。

4 結束語

本文結合公安等部門的互聯網管理業務,展開了互聯網上實體/關系的關聯分析研究和開發,在大數據存儲管理的基礎上,“大數據網絡公開情報發現系統”(簡稱BDID系統)。該系統能夠對互聯網上的特定信息進行不間斷采集融合、關聯分析和查詢展示,系統按照人物、時間、地點、事件等維度將信息關聯起來,為用戶提供多種服務。

參考文獻(References):

[1] 李超,周瑛,周煥,潘瑋.大數據環境下情報分析方法與情報分析軟件探討[J].現代情報,2017.37(7):151-158,165

[2] 謝新洲.發展情報方法研究,應對大數據挑戰[J].圖書情報工作,2014.58(14):5

[3] KIM J, HASTAK M. Social network analysis: Characteris-tics of online social networks after adisaster[J]. International Journal of Information Management,2018.38(1):86-96

[4] 陳云偉.社會網絡分析方法在情報分析中的應用研究[J].情報學報,2019.38(1):21-28

[5] 馬續補,呂肖娟,秦春秀,劉瑋,劉懷亮,李洋.政策工具視角下我國公共信息資源開放政策量化分析[J].情報理論與實踐,2019.42(5):46-50

[6] ZHAO M, YAN E, LI K. Data set mentions and citations: Acontent analysis of full-textpublications[J]. Journal of the Association for Information Science and Technology,2018.69(1):32-46

[7] 王超,許海云,董坤,方曙.基于創新鏈的產業競爭情報分析框架與應用研究——以國內基因工程疫苗產業為例[J].情報理論與實踐,2018.41(1):87-93

主站蜘蛛池模板: 美女免费黄网站| 国产精品亚洲五月天高清| 天天色综网| 国产AV无码专区亚洲A∨毛片| 亚洲中文无码h在线观看| 成人日韩精品| 欧美一区中文字幕| 国产激爽大片高清在线观看| 日韩天堂网| 日韩欧美色综合| 亚洲成人动漫在线| 99久久精品免费观看国产| 国产一在线观看| 日本影院一区| 自拍偷拍欧美| 国产91麻豆视频| 国产一区二区精品高清在线观看 | 日本人妻一区二区三区不卡影院| 视频一本大道香蕉久在线播放| 免费在线国产一区二区三区精品| 日韩精品中文字幕一区三区| 亚洲婷婷丁香| 国产嫩草在线观看| 国产99欧美精品久久精品久久| 久草热视频在线| 国产精品开放后亚洲| 激情综合五月网| 国产网站免费看| 91色在线观看| 国产亚洲成AⅤ人片在线观看| 国产一区二区三区免费| 婷婷午夜影院| 香蕉99国内自产自拍视频| 欧美午夜视频在线| 人人爽人人爽人人片| 国产真实乱子伦精品视手机观看| 久草美女视频| 激情亚洲天堂| 欧美视频免费一区二区三区| 26uuu国产精品视频| 日韩精品资源| 大香伊人久久| 国产精品美女自慰喷水| 国产欧美精品一区aⅴ影院| 国内精自视频品线一二区| 日韩在线第三页| 亚洲欧美成人网| 免费黄色国产视频| 久久国产V一级毛多内射| 欧美日本不卡| 最新日本中文字幕| 午夜日本永久乱码免费播放片| 欧美日韩91| 亚洲国模精品一区| 亚洲人网站| AⅤ色综合久久天堂AV色综合| 九色在线观看视频| 高清无码一本到东京热| 四虎永久在线精品影院| 成人一级黄色毛片| 久久婷婷综合色一区二区| 亚洲丝袜中文字幕| 香蕉视频在线精品| 国产无码性爱一区二区三区| 国产精品视频999| 真实国产乱子伦高清| a级毛片免费播放| 亚洲福利视频网址| 婷婷亚洲最大| 国产亚洲精品自在久久不卡| 亚洲第一黄色网址| 婷婷色在线视频| 亚洲大尺码专区影院| 欧美日本视频在线观看| 秘书高跟黑色丝袜国产91在线 | 在线一级毛片| 久久99蜜桃精品久久久久小说| 国产成+人+综合+亚洲欧美| 亚洲精品自拍区在线观看| 美女国产在线| 日韩第九页| a亚洲视频|