999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

支持內容智能治理的雙結構互聯網

2019-09-28 06:01:10楊鵬李幼平
通信學報 2019年9期
關鍵詞:語義內容結構

楊鵬,李幼平

(1.計算機網絡和信息集成教育部重點實驗室(東南大學),江蘇 南京 211189;2.東南大學計算機科學與工程學院,江蘇 南京 211189;3.東南大學網絡空間安全學院,江蘇 南京 211189)

1 引言

互聯網是網絡空間的主要載體,與人們生產生活、社會發展、國家安全休戚相關,已經對全球政治、經濟、文化等產生深遠影響。但是,由于互聯網的開放性和便捷性,今天的互聯網已經成為內容大數據的集散地,各種海量化、碎片化的內容不斷涌現,日益呈現出異構駁雜和混亂失序等特征。互聯網不是法外之地,它理應成為人類共同的精神家園,肩負著傳播人類優秀文化的重要使命。但是,在今天的互聯網中,因為內容不能得到有效治理而導致的安全問題正變得越來越突出。

內容治理是互聯網治理體系變革的核心目標和關鍵環節。但是,由于當前互聯網在體系結構和治理機制方面存在欠缺,因而難以對不斷涌現的海量化、異構化、碎片化和混亂失序的內容大數據進行有效治理,互聯網內容亂象愈演愈烈,因此如何通過變革現有互聯網體系結構使之支持互聯網內容大數據的高效治理,已成為當前互聯網體系結構研究的燃眉之急。

為此,本文提出了一種支持內容智能治理的雙結構互聯網,它以現有互聯網體系結構作為主結構,以基于輻射-復制范型的播存網絡作為次結構,在確保互聯網平滑演進的基礎上,以較小的網絡體系結構變革代價,實現互聯網內容治理能力的顯著提升。雙結構互聯網遵循新型互聯網體系結構3 條設計原則,從總體結構、核心基元、治理方法學3 個方面進行創新,以統一內容標簽(UCL,uniform content label)[1]內容驅動基元,對互聯網內容進行富語義矢量編碼,建立UCL 多標識維度語義關聯模型,引入數據與知識聯合驅動的安全能級模型,借助知識圖譜刻畫基于語義的內容關聯,建立內容大數據UCL 知識空間,按照錢學森先生提出的綜合集成方法構建內容匯聚研討廳,實現對互聯網內容大數據的智能治理,為消除互聯網內容混亂失序頑疾提供了網絡體系結構層面的創新解決思路。

2 互聯網體系結構面臨的內容治理挑戰

互聯網的設計初衷和基本運作理念是為了支持端到端通信,因此傳統互聯網采用的是基于對流傳輸模型的TCP/IP 結構,它雖然對端到端交互型應用存在優勢,但是現今互聯網的主流應用范型已經發生根本改變,從端到端通信轉變為向海量用戶提供海量內容的內容共享服務[2]。但是,由于網站、論壇、微博、微信、社交網絡以及各種自媒體渠道的便捷暢通,互聯網中的各種內容正在快速無序化增長,這些內容中包含大量虛假信息、片面信息、甚至惡意謠言,造成互聯網內容良莠不齊和混亂失序。網絡空間是億萬民眾共同的精神家園,只有網絡空間生態良好,才符合人民利益。因此,如何從根本上解決互聯網內容治理難題,成為當前互聯網體系結構研究領域亟待解決的重要課題之一。概括起來,當前互聯網體系結構研究所面臨的內容治理挑戰主要體現在內容大數據趨勢顯著、內容語義標識缺乏和內容安全態勢嚴峻3 個方面。

首先,以富媒體化和海量化等為特征的內容分發與共享,已經成為互聯網發展的主旋律,互聯網中的新聞資訊、音視頻、流媒體、自媒體等內容正呈現出爆炸性增長趨勢。根據最新的Cisco VNI 預測報告,全球固網和移動網絡的互聯網IP 流量中90%以上的流量與內容共享應用有關,預計2022 年這部分流量將高達4.8 ZB[3]。此外,按照互聯網數據中心(IDC,Internet data center)的報告[4],預計到2020 年全球的數據總量將達到44 ZB,遠遠超過人類有史以來所有印刷材料的數據總量(200 PB)。在大數據和泛媒體環境下,不斷涌現的互聯網內容大數據(content big data),由于治理機制的缺位,正表現出復雜異構、良莠不齊和混亂失序等特征。作為一類以內容為主體的特殊大數據[5],互聯網中內容大數據的特征同樣可以用描述一般大數據的多個“V”來進行刻畫,包括體量大(volume)、快速化(velocity)、類型雜(variety)、有價值(value)、待辨識(veracity)和強關聯(viscosity),如圖1 所示。治理互聯網中復雜異構、良莠不齊和混亂失序的內容大數據,比處理特定領域中的一般大數據更加復雜,必須在互聯網體系結構和關鍵治理機制等方面進行創新。

圖1 互聯網內容大數據的多“V”特征

其次,當前互聯網體系結構難以滿足內容大數據的治理需求,還體現在缺乏“以內容為中心”的內容語義標識。傳統互聯網本質上是以地址為中心的網絡,互聯網體系結構中的面向地址特征,不但體現在以IP 為代表的TCP/IP 中,而且體現在Web中廣泛采用的統一資源定位符(URL,uniform resource locator)中。Web 中所有內容均按照統一資源定位符URL 來進行組織,這雖然極大推動了互聯網主流應用范型向內容共享應用的躍遷,但正如URL 名字“Locator”所強調的那樣,它只能表示內容在Web 中的位置,無法描述內容資源的豐富語義,因此難以支持基于語義的內容大數據描述、關聯和管理等[6]。內容大數據的治理需求,本質上反映的是一種以內容為中心(而非以地址為中心)的需求。近年來,學術界注意到網絡體系結構關注重心向面向內容的轉變,提出了以結合廣播與基于內容的路由(CBCB,combined broadcast and content-based)、發布訂閱互聯網路由范型(PSIRP,publish subscribe Internet routing paradigm )、信息網絡(NetInf,network information)、內容中心網絡(CCN,content-centric networking)和命名數據網絡(NDN,named data networking)[7]等為代表的信息中心網絡(ICN,information-centric networking)[8-9]。在這些ICN研究方案中,體現以內容為中心設計理念的是各種內容標識[10],主要包括CBCB 所采用的基于屬性的標識、PSIRP/NetInf 所采用的扁平化內容標識、CCN 和NDN 所采用的層次化內容標識等,但總體來講,這些內容標識大多沒有擺脫“重路由、輕語義”的傳統設計思路,無法從體系結構層面提供對內容豐富語義的感知能力,因此難以從根本上解決網絡空間中內容混亂失序的頑疾。

最后,互聯網的功用本質上由它所承載的內容體現,互聯網的內容安全與國家安全休戚相關。當前,互聯網中不斷發生的各種網絡攻擊事件正在威脅社會穩定和國家安全。由于互聯網體系結構在安全方面(尤其內容安全與可信方面)的先天缺陷,互聯網的安全態勢變得越來越嚴峻[11],而且互聯網中日益頻發的安全事件都或多或少與內容安全有關。近年來,美國國家科學基金會(NSF,National Science Foundation)、美國國防高級研究計劃局(DARPA,Defense Advanced Research Projects Agency)、歐盟“地平線2020”計劃以及我國國家自然科學基金委員會等,都對網絡安全給予了重點資助[12]。一些重要的網絡安全研究方案包括美國的移動目標防御(MTD,moving target defense)[13]和定制可信賴空間(TTS,tailored trustworthy space)、信息工程大學鄔江興院士的擬態防御[14]、北京郵電大學方濱興院士的使命確保技術、中國科學院信息工程研究所的自重構可信賴,以及各種事件跟蹤和輿情監測研究等。這些研究方案或者并不針對內容治理這一難題而提出,或者難以突破傳統互聯網體系結構在內容安全與可信等方面的固有局限,因此未能改變當前互聯網內容安全態勢日益嚴峻的棘手現狀。

與此同時,學術界對互聯網中內容大數據及其影響的重視已現端倪。一方面,人們對Twitter、微博等社交媒體上事件(event)的關注由來已久,先后提出了Twitinfo、Twevent、MABED[15]等事件檢測方法。另一方面,近年來互聯網媒體領域正在發生深刻變革,Facebook 和Apple 緊跟媒體融合與轉型趨勢,相繼推出了Instant Articles 和Apple News,意在改變媒體內容的生產、組織和呈現形式;國際著名媒體紐約時報(New York Times)則創新性地提出了“新聞編碼(particles code)”[16],通過編碼標識支持對新聞以時間軸和知識點進行組織,從而把意義上相關的多個內容有機關聯。此外,W3C 還研發了基于標簽元數據的互聯網內容訪問管理系統(PICS,platform for Internet content selection)[17]。2019 年初,美國DARPA 宣布開展KAIROS(knowledge-directed artificial intelligence reasoning over schema)研究[18],凸顯了美國對內容大數據智能處理的高度重視。KAIROS項目的實現框架如圖2 所示,旨在通過人工智能、知識圖譜和機器學習技術,在日益復雜的全球環境中更好地追蹤、分析世界各地每天產生的無數事件和媒體片段,自動識別其中的關聯性或線索,理解和預測導致世界混亂與動蕩的因素。

綜上所述,以地址為中心的現行互聯網體系結構難以滿足內容治理需求,正在面臨內容大數據趨勢顯著、內容語義標識缺乏和內容安全態勢嚴峻等多方面挑戰。學術界圍繞Twitter、微博等社交媒體的分析研究,以及Facebook、Apple、紐約時報、W3C 等關于內容組織、管理與訪問的應用實踐,雖然并不直接針對互聯網內容治理,但從側面反映出人們對互聯網內容大數據的重視。DARPA 站在從混亂與動蕩中建立秩序的角度,高調資助KAIROS項目研究,表明美國已經開始直面這一問題。然而,現有各種解決思路(包括KAIROS)鮮有從網絡體系結構的全局高度著眼,從變革傳統互聯網體系結構的角度給出的創新方案。為此,本文提出一種支持內容智能治理的雙結構互聯網,它能在維持互聯網體系結構演進性的基礎上,以較小代價換取互聯網內容治理能力的顯著提升。

圖2 DARPA 資助的KAIROS 項目實現框架

3 新型互聯網體系結構設計原則與模型

網絡體系結構(network architecture)是設計和構造網絡系統的科學,是對網絡系統的總體結構規約。網絡體系結構設計原則是指針對網絡系統設計目標而提出的一系列具有指導意義的抽象設計原則。網絡體系結構設計原則是計算機網絡研究的“第一性問題”,有何種網絡體系結構設計原則,才會有與之對應的網絡體系結構。網絡體系結構設計原則決定了網絡系統的全局組織、總體結構和技術選擇標準,各種具體實現技術都是在網絡體系結構設計原則的指導下派生而得。針對當前互聯網所面臨的內容治理挑戰,借鑒信息中心網絡“以內容為中心”的合理研究思路,本文提出3 條新型互聯網體系結構設計原則。

1)雙驅動二元結構原則(P1)

基于“邊緣論(end-to-end argument,也稱端到端原則)”構建的互聯網體系結構,是一種地址驅動的、以數據傳輸可達性為目標的網絡體系結構。面向地址的設計理念貫穿整個互聯網體系結構,體現在鏈路層地址、IP 地址、URL 地址等實現技術中。純地址驅動的單一體系結構與“以內容為中心”主流應用泛型的不匹配,是互聯網面臨諸多挑戰(包括內容治理)的本質根源。破解互聯網發展困局的可行出路,是設計一種適配內容中心主流應用泛型的內容驅動次結構(secondary structure),用以輔助單一地址驅動的現行互聯網體系結構,形成同時包含地址驅動主結構(primary structure)與內容驅動次結構的雙驅動二元結構新型互聯網,即雙結構互聯網(dual-architecture Internet)。

2)富語義內容基元原則(P2)

網絡體系結構的基元(building-block)是最能代表網絡系統設計思想與核心理念的基礎性構件,它體現特定網絡系統的設計特色,又作為網絡體系結構的基本單元,支撐網絡系統的各種派生功能和上層應用。IP(或IP 分組)是傳統互聯網體系結構的地址驅動基元,它是互聯網面向地址設計理念的集中體現。應對傳統互聯網體系結構缺乏內容語義標識的挑戰,必須以內容大數據的規范標引、高效共享與依法治理為目標,引入“以內容為中心”的新型內容標識作為雙結構互聯網的內容驅動基元,確保為海量、無序的無結構或半結構模量化內容大數據提供統一格式富語義矢量化內容標識。這種內容基元既是雙結構互聯網實現內容智能治理的抓手,又是溝通主結構和次結構的橋梁。

3)定性定量綜合集成原則(P3)

互聯網海量內容大數據難以有效治理的主要原因,在于傳統互聯網信息處理領域一直缺乏有效的理論和方法。在系統工程領域,我國著名科學家錢學森先生提出從定性到定量的綜合集成(meta-synthesis)方法[19],利用現代信息理論、人工智能、知識工程等技術構建智能化綜合集成研討廳,實現定性的和定量的知識綜合集成與復雜系統深層認知。在大數據和泛媒體環境下,一方面各種媒體信息(包括自媒體)在快速無序化“野蠻生長”,另一方面網絡空間中充滿大量虛假信息、片面信息,甚至惡意謠言,這大大增加了互聯網內容治理的難度。因此,應該吸納綜合集成方法在開放復雜巨系統理論與實踐方面的成功經驗,采用定性定量綜合集成原則指導互聯網內容智能治理關鍵技術。

支持內容大數據智能治理的雙結構互聯網,完全遵循上述3 條網絡體系結構設計原則進行設計。雙驅動二元結構原則(P1)為變革互聯網體系結構提供了“設計原理(design philosophy)”創新,按照雙驅動二元結構原則設計的雙結構互聯網,完全摒棄“非此(互聯網)即彼(非互聯網)”的網絡體系結構一元論思維,在不改變現行地址驅動互聯網體系結構的主體地位的基礎上,借助多種網絡(互聯網、電信網和廣播網等)優勢互補的協同變革思路,采取“雙重驅動、結構共軛”的二元結構創意建立起具有雙體系結構的新型互聯網。

在此基礎上,按照富語義內容基元原則(P2)設計統一內容標簽UCL[1],充當雙結構互聯網的“以內容為中心”新型內容標識,為繁雜異構內容大數據提供格式統一、語義豐富的內容驅動基元,直接支撐并簡化了復雜的互聯網內容大數據治理需求。進一步遵循定性定量綜合集成原則(P3),設計內容大數據智能治理關鍵技術和實現機制,將常規技術難以解決的復雜巨系統問題(由無限用戶、無限內容構成的單一地址驅動網絡中的混亂無序內容大數據治理問題),轉換成錢學森先生的綜合集成方法可以求解的系統科學問題,運用人工智能、知識圖譜、網絡空間安全等技術,對異構、碎片化內容進行UCL 自動標引,建立UCL 多標識維度語義關聯模型,引入數據與知識聯合驅動的安全能級模型,借助基于知識圖譜的內容大數據UCL知識空間,構建綜合集成內容匯聚研討廳并智能治理互聯網內容大數據。

雙結構互聯網的體系結構參考模型如圖3 所示,它以地址驅動的互聯網TCP/IP 結構作為主結構,以內容驅動的“輻射-復制范型”播存網絡[20]作為次結構。這種雙驅共軛二元體系結構思路,顯著區別于單純的“打補丁”式演進路線或“推倒重建”式重構路線,既有利于繼續發揮互聯網TCP/IP主結構在端到端通信方面的既有優勢,又能將單一的地址驅動網絡迅速升級為“以內容為中心”的復合網絡,不但能顯著提升互聯網的內容共享能力[21-22],而且在應對互聯網內容治理這一全球性難題方面有突出優勢。

4 雙結構互聯網內容智能治理關鍵技術

4.1 UCL 國家標準與富語義矢量編碼

彌合“以地址為中心”的傳統互聯網體系結構與“以內容為中心”的內容大數據治理需求之間的巨大溝壑,必須對網絡體系結構的基元進行創新。互聯網中的內容資源普遍采用URL 進行組織,URL既描述內容資源的地址,又充當內容資源的標識。作為內容標識,URL 的內容語義描述功能非常弱,由此帶來互聯網內容資源難找、難管、失序等弊端。為此,Tim Berners-Lee提出了語義網(semantic web)概念[23],試圖使Web 變成能夠自動理解詞語和概念,以及它們之間邏輯關系的智能網絡,實現更加人性化和主動化的內容服務。但是,語義網要求機器能夠“讀懂自然語言”,實現起來非常困難。互聯網中的內容大數據來源廣泛且更新頻繁,并具有非結構化(或半結構化)和高度異構等特點,因此治理互聯網內容大數據的關鍵在于網絡體系結構語義基元創新。

雙結構互聯網按照富語義內容基元原則,從全方位支持互聯網內容大數據智能治理的角度,提出以統一內容標簽UCL 作為新型互聯網體系結構的內容驅動富語義基元。UCL 本質上是一種面向內容的元數據(Metadata),它從互聯網中海量內容資源難找、難管和失序等問題的根本癥結入手,兼顧內容的生產者、消費者和管理者3 個重要角色,能夠有效彌補URL 的語義缺失和管理缺失,成為雙結構互聯網中描述、引領和治理內容大數據的基石。圖4 是按照富語義內容基元原則(P2)進行全新設計后的UCL,已經發布成為中華人民共和國國家標準GB/T 35304-2017[1],從2018 年4 月起在全國正式實施。UCL 國家標準能夠有效支持內容大數據的高效聚合與泛在分發、個性化主動服務、語義分析與知識萃取、認證注冊物證鏈管理、依法治理與溯源追責等,為雙結構互聯網提供了標準化的富語義內容基元支持。

圖3 雙結構互聯網體系結構參考模型

圖4 國家標準GB/T 35304-2017 中的UCL 格式

互聯網中海量、繁雜、無序的內容大數據,本質上是一種模量形態的數據,治理互聯網內容大數據的關鍵在于對模量化數據進行矢量化。UCL 國家標準是一種單位矢量性質的內容元數據,它可以在多個語義抽象層次上全方位描述內容資源的豐富語義信息。UCL 中的標題、摘要、話題、關鍵詞和實體(Entity)等內容語義關鍵標識域,彼此關聯又各有側重(如圖5 所示),分別表征了內容的部分語義信息。如果把內容全文視為語義的零階表述,摘要(即“有關內容的內容”)是語義的一階表述,標題(即“摘要基礎上的內容抽象”)是語義的二階表述,而話題則是語義的高階表述。UCL基于五要素(5W)方法進行內容實體編碼,描述何時(when)、何地(where)、何人(who)、何事(what)、何因(why)5 個方面基本要素。進而從多個語義關鍵標識域之間的聯系出發,借助語義分析、知識庫和實體鏈接等技術,建立UCL 多關鍵標識維度間的語義關聯模型,實現基于UCL 國家標準的富語義矢量自動編碼。

圖5 UCL 多關鍵標識維度間的語義關聯

4.2 熱門內容匯聚與UCL 安全能級模型

進行互聯網內容治理的首要問題,是如何有效地獲取被治理的內容源,因為互聯網的內容浩如煙海、層出不窮,無一遺漏地采集所有內容顯然不太現實。所幸由復雜網絡的研究揭示,在今天的互聯網中,雖然一方面內容發布渠道的便捷性使碎片化內容大數據不斷涌現,但另一方面用戶對內容的訪問又表現出明顯的聚集性和無尺度(scale-free)性:全球有近20 億個網站[24],其中絕大多數乏人問津,只有少數熱門網站能吸引大多數訪客,而一些熱門內容更是被成千上萬次頻繁地訪問。根據互聯網內容訪問的無尺度與冪律特征,互聯網中的內容雖然浩如煙海,但往往其中起關鍵影響的只是少數熱門內容,因此只需在確保盡可能高的內容覆蓋度的同時,對熱門內容進行重點關注。基于這一理論,雙結構互聯網在主結構和次結構之間安置內容大數據匯聚中心,它實時采集互聯網中的熱門內容并進行UCL 矢量編碼。

按照定性定量綜合集成原則(P3),雙結構互聯網對熱門內容進行多視角、多維度的話題匯聚和分析,運用知識發現與數據聚焦搜索技術,快速采集、匯聚特定話題相關的網站和社會媒體內容,對海量熱門內容按照事件進行定性歸類和定量關聯。熱點事件是具有重大影響的高熱度事件[25],熱點事件及其關聯的評論具有很強的社會輿論導向性,需要盡早發現并進行跟蹤監測。雙結構互聯網對熱點事件的挖掘分析流程如圖6 所示。利用“詞袋模型”中詞共現理論和UCL 中的內容摘要和關鍵詞等屬性,通過大數據處理框架實現從定性到定量的迭代過程,通過動態調整關聯規則挖掘算法的參數,智能挖掘熱點事件并對關聯評論的情感導向[26]進行挖掘分類。再根據聯想型認知模式和知識圖譜相關理論,實現基于事件評論情感極性的熱點事件分類和聚類,跟蹤熱點事件的演化脈絡(發生、發展、高峰、回落、平息),為網絡輿情預警、輿情分析和應急響應等提供支持。

圖6 雙結構互聯網熱點事件挖掘分析流程

在第3 節提出的3 條網絡體系結構設計原則的指導下,雙結構互聯網對基于UCL 的內容治理方法以及網絡空間安全確保技術[11]進行了創新和突破。UCL 國家標準是支持內容大數據智能治理的利器,它采取內容驅動理念對雙結構互聯網面向內容的基元進行了全新設計,形成生產、消費和管理三位一體的內容大數據創新標識體系。并且在UCL國家標準中,對雙結構互聯網安全能級模型(SELM,security energy-level model)給予了內嵌(built-in)支持[1]。安全能級模型將主結構模量內容向次結構空間的匯聚,細化為多個分離的安全能級(類似電子繞核運動的軌道能級),如圖7 所示。安全能級不但含有對內容的安全等級進行定級的概念,同時還有對內容安全等級進行動態調整的“能級躍遷”概念。依據來源路徑的安全性、內容的質量和可信度等,設定內容的初始安全能級,然后借助知識萃取技術、深度學習神經網絡和UCL 知識空間等,對進入次結構的內容進行逐級趨嚴的智能化能級躍遷檢查。內容安全能級信息記錄在UCL 代碼部分和屬性部分,再結合基于UCL 的富語義矢量編碼技術、多維度語義關聯模型與UCL 知識空間等,形成一種“以疏代控”的內容“依法治理”體系,實現網絡空間安全從處理數據向治理內容的躍升,形成基于安全能級模型的數據與知識聯合驅動智能化治理體系。

4.3 UCL 知識空間與內容匯聚研討廳

圖7 雙結構互聯網UCL 安全能級模型

由于互聯網內容大數據具有碎片化和缺少關聯等特點,實現內容智能治理還必須將這些碎片化內容按照語義進行有機關聯。雙結構互聯網針對此問題的解決辦法是,基于實體鏈接技術構建UCL知識空間,如圖8 所示。構建UCL 知識空間首先需要一個基礎UCL 知識空間,然后將采集到的內容及其對應的UCL 不斷與該知識空間進行鏈接。基礎UCL 知識空間有多種構建方法,可基于維基百科(Wikipedia)、百度百科、ACE 中文語料庫和KBP 語料庫等多種語料源來進行構建。首先根據抽取的詞條信息,結合綜合詞頻和位置圖等實體語義權值計算方法,建立實體名稱映射詞典和關系映射詞典,得到基本知識實體的邏輯關聯知識圖譜[27]。然后對從互聯網采集到的每一份內容,抽取該內容對應UCL 中的命名實體及其語義權重信息,并通過基于語境相似的實體消歧進行實體鏈接[28]。最后根據對應UCL 實體之間的關聯關系鏈接生成UCL知識空間。UCL 知識空間是互聯網內容深度治理的基礎,既可以根據一個UCL 直接獲得對應內容(也包括話題、事件等)的實體以及實體間的關聯鏈接關系,又可以通過基于語義關聯度排序的查詢獲得與內容關聯的UCL 集合,還可以支持內容的實體消歧、隱含知識萃取和UCL 能級躍遷。

互聯網中各種海量化、異構化、碎片化內容正在快速無序增長,其中充滿大量虛假信息、片面信息,甚至惡意謠言,大大增加了互聯網內容治理的難度。治理內容大數據的目的是把大量有待辨識(veracity)的數據,轉換成有價值的、彼此關聯的“知識”[18]。雙結構互聯網遵循定性定量綜合集成原則(P3),在UCL 富語義矢量編碼技術、UCL多維度語義關聯模型、UCL 安全能級模型與UCL知識空間等的支持下,構建互聯網內容大數據匯聚研討廳(簡稱內容匯聚研討廳),如圖9 所示,通過內容匯聚研討廳實現對互聯網內容大數據的深度治理。內容匯聚研討廳的工作機理介紹如下。

圖9 基于綜合集成的內容大數據匯聚研討廳

1)從互聯網實時采集的內容大數據在數據與知識聯合驅動下進行UCL 初級編碼,并攜帶安全能級信息穿越UCL 安全能級模型。新的知識同時被記錄和關聯到系統的知識庫中。

2)在UCL 知識空間的支持下,進入內容匯聚研討廳的內容進一步從話題、事件線(含事件)、實體、觀點、知識等層面進一步解析和關聯。

3)碎片化內容不斷卷積聯合過往內容和知識,逐漸形成“各態歷經(ergodic)”的時間鏈和知識鏈,孤立內容被自動置于話題和事件的全貌中。

4)研討廳展示細節、曝露聯系、呈現全貌、跟蹤演化,觀點趨同的給予歸并,觀點趨反的則通過存儲給予尊重,信息不確定性(熵)得以消除,達到去偽存真、以疏代控、由亂入治的目的。

5 雙結構互聯網內容智能治理原型系統

雙結構互聯網的3 條網絡體系結構設計原則均以內容大數據智能治理作為核心目標。雙驅動二元結構原則(P1)強調用內容驅動的次結構播存網絡輔助和改造單一地址驅動的互聯網,形成兼含主、次二元結構的雙驅共軛新型互聯網,既維持互聯網主結構的/平滑演進路線,又為治理互聯網內容大數據提供網絡總體結構支持。富語義內容基元原則(P2)直接聚焦新型互聯網體系結構的基礎性構件,將雙驅動二元結構原則(P1)貫徹至新型互聯網體系結構支持內容治理的核心基元,指導形成格式統一的富語義矢量化內容標簽,并制定統一內容標簽UCL 國家標準。基于總體結構與核心基元的創新,定性定量綜合集成原則(P3)進一步對治理內容大數據的方法學(methodology)進行創新,運用錢學森先生的綜合集成方法的系統科學思維,求解異構、碎片化、混亂無序內容大數據的治理難題。在上述3 條網絡體系結構設計原則的指導下,本文研發了雙結構互聯網內容智能治理原型系統,對雙結構互聯網及其內容智能治理機制的可行性和有效性進行驗證,原型系統的實現框架如圖10所示。

雙結構互聯網內容智能治理原型系統主要包括熱門內容匯聚子系統、UCL 知識空間子系統和內容匯聚研討廳子系統。熱門內容匯聚子系統首先實時采集互聯網中的熱門內容,然后利用自然語言處理技術(分詞、去停用詞、自動摘要等)和UCL 多維語義關聯模型,生成內容對應的UCL富語義矢量編碼,并借助大數據處理平臺(Hadoop 和Spark)利用知識萃取技術和深度學習神經網絡,實現熱門內容聚類和熱點事件發掘,將這些信息與系統中的既有知識不斷卷積聯合,在UCL 安全能級模型與UCL 知識空間子系統支持下,對進入次結構的內容進行認證注冊與智能化能級躍遷檢查。UCL 知識空間子系統首先利用維基百科和百度百科等構建基礎UCL 知識空間,然后對熱門內容提取UCL 命名實體,經過實體消歧等處理后將UCL 鏈接到UCL 知識空間,實現內容之間基于語義的深度關聯,為UCL 安全能級躍遷與內容匯聚研討廳子系統奠定實現基礎。

圖10 雙結構互聯網內容智能治理原型實現框架

通過內容匯聚研討廳支持海量信息的匯集聚類,它并不立即為用戶提供可信答案,而是提供一種信息匯聚場所,經歷長時間的信息累積和開放式研討,漸次獲得大眾信服的客觀認知。信息集成研討廳把信息按照話題進行定性歸納,“定性”指借助專業人士的智慧,把有爭議話題歸納為少數幾種觀點(例如正、中、反等)。“定量”指計算機對同類觀點進行時間與空間的定量關聯。隨著信息的匯聚累積,反映事物內在本質的內容將隨時間浮現出來(emergence),而反映事物表層的非本質內容將隨時間逐步湮滅,形成一種“以疏代控、和諧民主”的互聯網內容治理環境。

內容匯聚研討廳子系統集中體現雙結構互聯網的內容大數據智能治理效果,它遵循定性定量綜合集成原則(P3)進行設計,其目的在于提供一種以話題和事件作為線索來組織內容大數據的匯聚場所(研討廳),而不是立即為用戶提供可信答案。內容匯聚研討廳子系統中話題觀點聚類與觀點強度計算的實現框架如圖11 所示。用戶可以借助內容匯聚研討廳了解各方觀點,并通過瀏覽觀點語句及其來源了解每一個觀點類的論點、論據和論證過程,獲取最具有價值的支持觀點的材料。用戶通過以時間軸組織的內容匯聚研討廳,可以了解觀點的變化過程,進而在全面了解各方觀點的基礎上對內容是否可信做出理性判斷。

圖11 話題觀點聚類與觀點強度計算實現框架

隨著內容大數據的不斷匯聚累積,內容匯聚研討廳中反映事物內在本質的內容將隨時間浮現出來(emergence),而反映事物表層的非本質內容將隨時間逐步湮滅。借助內容匯聚研討廳,經過長時間信息累積和開放式研討之后,漸次逼近令大眾信服的客觀認知。內容匯聚研討廳子系統通過可視化界面展示內容出處、發布時間、熱門程度等基本屬性,并借助內容匯聚子系統和UCL 知識空間子系統提取內容的觀點和計算內容的可信度,展示熱點事件的挖掘結果和演化軌跡,全景呈現事件的各方觀點及觀點的可信度。

基于雙結構互聯網內容智能治理原型系統,本文以2019 年1 月1 日—2 月13 日這段時間為例,說明原型系統對互聯網新聞的治理效果。采取去重策略后,該時間段原型系統自動從國內主要新聞門戶網站共采集了99 581 條新聞,原型系統從這些新聞中自動提取出8 510 條事件線數和67 106 個事件。如果用戶關注其中的煙花爆竹安全燃放事件,則系統自動生成如圖12 所示的事件實體關聯圖,其中位于最內層的實心圓表示該事件線實體,其外第二層排布的實心圓表示命名實體,其外第三層排布的實心圓表示事件實體(用事件在系統中的存儲id 表示),最外層排布的實心圓表示新聞實體。并且,系統還能根據UCL 知識空間和內容匯聚研討廳中實時采集的新聞,展示煙花爆竹相關命名實體關系及與煙花爆竹安全燃放事件有關的命名實體詞云,如圖13 所示。

雙結構互聯網內容智能治理原型系統也能進一步展示熱點事件線的發展脈絡。在上面的測試場景中,系統自動進行事件線提取和對應熱度計算,并根據計算結果調用CanvasJS 插件繪制出的2019 年1 月1 日—2 月13 日最熱15 條事件線如圖14 所示。其中事件線上每一個點代表一個事件,該點的縱坐標表示涉及該事件的新聞篇數,如其中事件線5,在此期間的最熱事件共出現了19 篇報道,并在圖中對應方框給出了從中隨機選取的一篇來自環球網的新聞題目。

圖12 煙花爆竹安全燃放事件實體關聯圖

圖13 煙花爆竹命名實體關系和煙花爆竹安全燃放事件詞云

原型系統還提供了對單條事件線演化發展軌跡的細節展示功能,如針對圖14 中事件線5(特征詞為:爆竹/燃放煙花/禁放/區域),其演化發展軌跡細節展示如圖15 所示。需要說明的是,系統中的事件線、事件、話題、觀點等的提取及特征表示,以及它們之間的從屬關系和實體關聯等,均是由系統根據內容的語義(UCL 富語義矢量編碼、UCL 多維語義關聯、UCL 安全能級模型與UCL 知識空間等)自動處理得到,不需要人工干預。

圖14 最熱15 條事件線(2019 年1 月1 日—2 月13 日)

圖15 事件線5 的演化發展軌跡

雙結構互聯網內容智能治理原型系統不但驗證了主、次二元結構共軛協同的可行性和有效性,而且依據雙驅動二元結構原則(P1)、富語義內容基元原則(P2)、定性定量綜合集成原則(P3)研發的內容匯聚子系統、UCL 知識空間子系統和內容匯聚研討廳子系統,在基本功能和性能方面符合設計預期。對互聯網中不斷涌現的海量化、異構化、碎片化和混亂失序的內容大數據進行智能治理,是一項極具挑戰性的課題,目前原型系統尚在進一步完善中。原型系統較好地體現出本文關于互聯網內容治理的愿景:從總體結構、核心基元、治理方法學3 個方面,對互聯網進行網絡體系結構層面的創新,營造讓互聯網內容大數據自動自發地由片面到全面、由無序到有序的智能化環境,形成一種“以疏代控、和諧民主”的內容“有序組織、依法治理”智能治理綜合體系,借助格式統一、語義豐富的UCL 國家標準,彌平無結構或半結構內容大數據處理的淺層、冗余和低效,并能通過內容匯聚研討廳建立內容間深層語義關聯,洞悉和發掘看似無關內容或事件碎片之間的相關性,全景展示事件的演化趨勢和話題觀點的客觀可信度,實現網絡空間安全從處理模量化內容大數據向治理結構化富語義內容元數據的巨大躍升。

6 結束語

由于在網絡體系結構和治理方法等方面存在欠缺,互聯網已經成為海量化、異構化、碎片化和混亂失序內容大數據不斷涌現的集散地。然而,以地址為中心的現行互聯網體系結構難以滿足內容治理需求,正在面臨內容大數據趨勢顯著、內容語義標識缺乏和內容安全態勢嚴峻等諸方面挑戰,如何高效治理內容大數據已經成為當前互聯網體系結構研究的燃眉之急。

本文聚焦互聯網內容治理這一棘手難題,深入分析互聯網體系結構所面臨的挑戰,從總體結構、核心基元、治理方法學3 個方面入手,提出支持內容智能治理的新型互聯網體系結構的3 條設計原則,即雙驅動二元結構原則(P1)、富語義內容基元原則(P2)、定性定量綜合集成原則(P3)。遵循這些設計原則,本文介紹了雙結構互聯網的體系結構核心理念和內容智能治理實現機制,尤其對UCL 國家標準與富語義矢量編碼、熱門內容匯聚與UCL 安全能級模型、UCL 知識空間與內容匯聚研討廳等內容智能治理關鍵技術進行了詳細闡述。最后,通過研發雙結構互聯網內容智能治理原型系統,對雙結構互聯網及其內容智能治理能力進行了驗證。雙結構互聯網實現了網絡空間安全從處理數據向治理內容的巨大躍升,為破解互聯網內容大數據治理難題提供了網絡體系結構層面的創新解決思路。

猜你喜歡
語義內容結構
內容回顧溫故知新
科學大眾(2022年11期)2022-06-21 09:20:52
《形而上學》△卷的結構和位置
哲學評論(2021年2期)2021-08-22 01:53:34
語言與語義
論結構
中華詩詞(2019年7期)2019-11-25 01:43:04
論《日出》的結構
主要內容
臺聲(2016年2期)2016-09-16 01:06:53
“上”與“下”語義的不對稱性及其認知闡釋
現代語文(2016年21期)2016-05-25 13:13:44
創新治理結構促進中小企業持續成長
現代企業(2015年9期)2015-02-28 18:56:50
認知范疇模糊與語義模糊
語義分析與漢俄副名組合
外語學刊(2011年1期)2011-01-22 03:38:33
主站蜘蛛池模板: 试看120秒男女啪啪免费| 精品一区二区三区自慰喷水| 国产原创演绎剧情有字幕的| 毛片最新网址| 久久成人18免费| 国产女人在线| 嫩草影院在线观看精品视频| 亚洲高清资源| 91麻豆精品视频| 四虎永久在线精品国产免费| 国模私拍一区二区三区| 欧美无专区| 亚洲Av综合日韩精品久久久| 全部毛片免费看| 国产性生交xxxxx免费| 97国产在线观看| 欧美精品影院| 狂欢视频在线观看不卡| 伊人久久精品无码麻豆精品| 性激烈欧美三级在线播放| 欧美日韩国产在线观看一区二区三区| 精品小视频在线观看| 一级毛片中文字幕| 男人天堂亚洲天堂| 国产精品美女免费视频大全| 亚洲精选无码久久久| 综合色区亚洲熟妇在线| 视频二区中文无码| 1769国产精品视频免费观看| 国产日韩精品欧美一区喷| 韩国福利一区| 波多野结衣国产精品| 波多野结衣一二三| 國產尤物AV尤物在線觀看| 欧美福利在线观看| 精品久久久久无码| 色悠久久久| 亚洲系列中文字幕一区二区| 国产精品永久久久久| 欧美精品H在线播放| 最新日本中文字幕| 在线免费看黄的网站| 久久亚洲国产一区二区| 国产美女91视频| 亚洲欧美色中文字幕| 国产理论一区| 亚洲清纯自偷自拍另类专区| 99久久精品免费视频| a级高清毛片| 91亚洲影院| 99精品久久精品| 小13箩利洗澡无码视频免费网站| 美女被狂躁www在线观看| 爆操波多野结衣| 香蕉在线视频网站| 一本一道波多野结衣av黑人在线| 国产老女人精品免费视频| 日本在线国产| 大香网伊人久久综合网2020| 综合五月天网| 人与鲁专区| 无码区日韩专区免费系列| 午夜欧美理论2019理论| 日韩一级二级三级| 国产高清在线丝袜精品一区| 国产成人毛片| 国产成人一区| 欧美激情二区三区| 国产精品分类视频分类一区| 无码AV日韩一二三区| 国产男人的天堂| 欧美日本在线一区二区三区| 中文国产成人精品久久| 国产精品成人免费综合| 国产微拍一区二区三区四区| 亚洲AV无码乱码在线观看裸奔 | 欧美日韩一区二区三区四区在线观看| 日本国产一区在线观看| 91一级片| 亚洲人成网站在线观看播放不卡| 中文字幕在线日韩91| 最新国产成人剧情在线播放|