999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于圖譜的領域技術體系構建研究

2022-11-16 06:34:40許文文徐霄驥
電視技術 2022年10期
關鍵詞:關聯體系分析

許文文,馬 勛,徐霄驥,張 峰

(中國電子科技集團公司信息科學研究院 認知與智能技術重點實驗室,北京 100086)

1 領域技術體系概述

領域技術體系是通過分析領域技術、技術之間的關系以及技術發展特性等數據,以技術概念為節點、以技術概念間關系為邊,繪制而成的具有層次、邏輯關系的數據結構。利用技術體系,能夠分析領域技術發展脈絡,揭示技術之間的耦合關系,形成技術全景畫像,洞察技術發展方向。

傳統領域技術體系主要依托專家已有的知識,人工進行構建,存在認識、經驗等局限性,無法保障全面性和準確性,無法洞察技術發展的全貌。論文、專利等科研成果數據是科研活動和科技發展的客觀反映。隨著科學技術迅猛發展,科研機構的科研活動范圍越來越廣泛,科研成果呈多源化、海量化的速度增長。基于這些數據,利用數據科學的方法,可以實現從數據到信息、信息到知識的提升[1]。基于此,本文提出一種基于圖譜的領域技術體系構建方法。該方法通過采集領域相關科技信息資源,結合數據挖掘、知識圖譜、復雜網絡分析等技術,對數據進行整合和提煉,構建領域技術體系,可以從相對客觀的角度反映技術的發展狀況和未來趨勢,為認識技術發展全貌提供輔助支撐。

2 領域技術關聯圖譜構建

在領域技術關聯圖譜構建方面,通過領域科技數據的感知與匯聚,實現領域科技數據的獲取;通過基于雙向編碼器表征量(Bidirectional Encoder Representations from Transformers,BERT)的知識抽取,實現對隱藏在海量科技信息中的實體和實體關系的識別和抽取;通過基于潛在語義分析的知識融合,將多個來源的、關于同一個實體或概念的描述信息進行融合;通過混合數據存儲體系、多維度數據索引等技術,實現圖譜的管理和更新。

2.1 領域科技數據的感知與匯聚

針對全面、及時地感知和獲取領域科技數據的問題,開展多源數據采集模型構建研究,覆蓋專業文獻庫、相關專利庫等渠道,實現領域科技數據的自動感知與獲取。具體地,采用定源跟蹤與開放式獲取相結合的多源數據采集方法,獲取數據,并且建立多源信息監測、長期跟蹤機制,實現數據的定期更新。

針對獲取的領域科技數據格式多樣、質量難以保障的問題,開展領域科技數據預處理,完成數據解析、數據清洗、數據變換等規范化操作,形成格式統一、結構完整、形式規范的領域科技數據集。構建非結構化數據解析工具,實現論文、專利等數據中標題、作者、機構、摘要、關鍵詞、正文、發表時間等基本信息的提取。在數據變換方面,構建數據轉換工具,以支持數據不同存儲格式與標準格式間的相互轉換,方便數據整合、聯合分析。

2.2 基于BERT的知識抽取

知識抽取是從多種數據源中提取知識并存入知識圖譜,是構建大規模知識圖譜的基礎[2]。知識抽取的目的是增強信息的可使用性和可重用性,這個過程同時又可以看作對現有的非結構化信息的語義標注過程,主要包括實體抽取和實體間關系抽取。

針對領域專業性強、技術詞匯多樣所導致的領域文檔識別與要素提取困難問題,開展領域詞庫構建研究。領域詞庫構建的正確性影響領域數據識別的準確率[3]。對此,首先收集領域的技術種子詞匯,基于種子詞匯,結合語義空間模型、文本上下文場景分析等技術,對文檔中的技術概念進行提取,并對相關概念間的關系進行梳理,以滾雪球方式不斷完善領域基礎詞庫,為領域技術關聯圖譜的構建提供支撐。

采用基于BERT深層語義表示的BILSTM-CRF模型[4]進行實體抽取。基于預先獲得的BERT模型和CRF模型,構建實體抽取模型;將預處理后的文本段落數據輸入實體抽取模型,得到抽取結果。在實體關系抽取方面,采用融合多特征的BERT預訓練模型進行實體關系抽取。融合技術等實體信息、實體對信息和實體類型等特征,強化BERT模型的語義學習能力,減少語義信息特征的丟失,最后通過分類器進行關系分類和提取。

2.3 基于語義分析的知識融合

知識融合研究的是如何將來自多個來源的關于同一個實體或概念的描述信息融合起來,主要包括實體對齊、沖突檢測與消解等。

通過采用基于語義分析的概率模型實現實體對齊。首先,通過局部敏感哈希算法確定每個實體匹配候選集,降低計算復雜度,其次利用文本相似性函數計算屬性的相似度進行成對匹配。通過將基于屬性相似性評分的實體匹配問題轉化為分類問題(分為匹配、可能匹配和不匹配)建立該問題的概率模型。在沖突檢測與消解方面,綜合使用基于投票的方法和基于質量估計的方法。基于投票的方法比較直接,例如根據實體出現的頻率進行多數投票。基于質量的方法不考慮知識來源的可信度,最終選擇較高質量的結果。

2.4 技術關聯圖譜的存儲與更新

由于領域技術處在不斷的變化之中,其所包含的技術概念節點和關聯關系可能會消失,同時新的節點和關系也會不斷出現,因此,就需要對技術關聯圖譜進行存儲和定期更新。通過采用基于關系數據庫、圖數據庫的混合數據存儲體系,支撐技術關聯圖譜存儲,并構建多維度數據索引,實現領域技術數據的管理和查詢檢索。關系數據庫易于維護,便于多表之間的復雜查詢。圖數據庫可以提供完善的查詢語言,實現圖上的查詢和搜索,更容易表達現實的業務場景[5]。針對技術關聯圖譜的更新問題,綜合多源置信度評估技術、基于圖數據庫的自動更新與備份,以及人工更新維護等手段,實現技術關聯圖譜的更新與維護。

3 領域技術體系構建

在領域技術體系構建方面,通過標簽傳播算法,實現領域技術群發現;通過分析技術節點間的時序鏈接變化,深化對技術的關聯關系的認識;通過對技術關聯圖譜的分析,構建領域技術體系。

3.1 基于標簽傳播的技術群發現

技術群發現的目的是挖掘技術關聯圖譜中關系緊密的技術實體對[6]。采用基于標簽傳播的社區檢測算法實現技術群的發現。標簽傳播算法通過傳播標簽的方式使得網絡中的節點獲取其所屬簇的標簽。將具有相同標簽的節點劃分到一個社區中,在每次迭代傳播時,每個節點的標簽都更新為最多數量的鄰居節點擁有的標簽。通過標簽傳播,將整個網絡中的技術節點劃分為若干個群體,發現潛藏在技術關聯圖譜中的技術群,群內技術節點聯系緊密,群間節點聯系稀疏。

3.2 基于時序鏈接變化的技術演化分析

技術演化路徑分析,可以梳理技術發展脈絡,為探究、回溯技術起源和發展提供幫助[7]。結合文本挖掘、引文分析等技術,分析技術關聯網絡中技術節點和連接關系隨時間的變化情況,通過節點和連接的增長過程分析、圖譜關鍵節點和連接的產生及變化情況描述與刻畫,形成領域相關技術隨時間變化的演化機制。文本發掘方法,分析網絡演化過程,從而識別某技術的演化模式、內在聯系、發展趨勢等。引文分析方法,對文獻之間的引用關系進行分析,發現技術動態發展聯系等。

3.3 基于圖譜的領域技術體系構建

基于對領域技術群和技術演化的認知,采用知識牽引與數據驅動相結合的方法構建技術體系。首先對技術群結構進行分析,識別出領域技術關聯關系中強關聯節點;再通過節點影響力分析等方法,結合人工輔助矯正技術,從各技術群中心節點出發逐層遍歷網絡節點,并將其加到技術體系輸出列表中,輸出具有多個層級的列表,形成技術體系。結合領域專家經驗知識,對技術體系進行迭代修正。

4 實例分析

中央企業在國民經濟中占主導地位,也是國家科技創新的主力軍。本文以中央企業為研究對象,對其研究領域進行分析。通過開源數據獲取,共收集中央企業近5年相關技術論文16 939篇。通過篩選工業期刊、技術術語識別、關聯關系建立、清洗雜質詞等處理,構建技術關聯圖譜。該技術關聯圖譜共包含節點數6 081個,關聯關系數7 288條。通過對技術關聯圖譜進行技術群發現,該網絡可分為6大模塊,在圖1中已用不同顏色進行標出。各模塊中的中心節點分別為通信技術、大數據、航空發動機、圖像處理、運載火箭技術、雷達。這些節點具有較多連接,即在相關機構的論文中出現次數較多。該結果可反映出,近5年,中央企業相關機構研究的熱點技術為通信技術、大數據技術、航空發動機技術、圖像處理技術、運載火箭技術以及雷達技術等。

鑒于通信領域為中央企業相關機構研究的熱點領域之一,且通信技術對今后社會發展有著舉足輕重的作用[8-10],本文以通信領域為例,對相關領域技術文獻進行分析,構建其技術體系。通過定向開源數據獲取,共收集《光通信技術》《通信技術》《無線電通信技術》三本期刊近5年的1 881篇論文數據。通過技術術語識別、關聯關系建立等處理,構建通信領域技術關聯圖譜。結合復雜網絡分析、數據挖掘等技術,對通信領域技術關聯圖譜進行技術群發現、技術演化分析等處理,構建通信領域技術體系,主要結果如圖2所示。從該結果可以看出,通信領域近5年來研究的技術點包括衛星通信[11]、網絡安全[12]、認知無線電等[13-14]。衛星通信相關技術包括高階調制、跳頻通信、無線通信、故障診斷以及極化調制等。網絡安全相關技術包括身份認證、安全隔離以及網絡防御等。認知無線電相關技術包括調制識別、頻譜感知以及信號檢測等。

圖2 通信領域技術體系

5 結 語

領域技術體系能夠分析領域技術發展脈絡,揭示技術之間的耦合關系,形成技術全景畫像,輔助研究人員了解和掌握領域通用技術、關鍵技術等內容,助力前沿技術的超前部署和提前謀劃。本文提出一種基于圖譜的領域技術體系構建方法,并對方法的實際效果進行了實例分析。該方法能夠對領域科技數據進行專業化處理,提高對數據的加工能力,實現科技信息數據的增值。下一步將采用學術論文、專利等為數據源,采用多源數據進行領域技術體系構建,從而使分析結果更加全面、客觀。

猜你喜歡
關聯體系分析
“苦”的關聯
當代陜西(2021年17期)2021-11-06 03:21:36
隱蔽失效適航要求符合性驗證分析
構建體系,舉一反三
電力系統不平衡分析
電子制作(2018年18期)2018-11-14 01:48:24
奇趣搭配
智趣
讀者(2017年5期)2017-02-15 18:04:18
電力系統及其自動化發展趨勢分析
“曲線運動”知識體系和方法指導
語言學與修辭學:關聯與互動
當代修辭學(2011年2期)2011-01-23 06:39:12
“三位一體”德育教育體系評說
中國火炬(2010年7期)2010-07-25 10:26:09
主站蜘蛛池模板: 亚洲国产一成久久精品国产成人综合| 欧美成人午夜在线全部免费| 2020极品精品国产| 91久久精品国产| 丁香婷婷久久| 午夜福利无码一区二区| 美女啪啪无遮挡| 免费看美女自慰的网站| 久草网视频在线| 日本三区视频| 99精品视频播放| 久久中文无码精品| 亚洲成人网在线播放| 99re热精品视频国产免费| 久久久久人妻精品一区三寸蜜桃| 国产9191精品免费观看| 欧美无专区| 国产浮力第一页永久地址| 蝌蚪国产精品视频第一页| 国产自在线播放| 国产性生交xxxxx免费| 亚洲h视频在线| 亚洲av日韩综合一区尤物| 中文字幕色在线| 婷婷五月在线| 欧美性猛交一区二区三区| 精品国产美女福到在线不卡f| 国产伦精品一区二区三区视频优播 | 中文字幕亚洲精品2页| 国产精品夜夜嗨视频免费视频| 暴力调教一区二区三区| 亚洲国产综合精品中文第一| 欧美中文字幕在线二区| 91视频国产高清| 日日摸夜夜爽无码| 亚洲系列中文字幕一区二区| 成人在线视频一区| 草草影院国产第一页| 毛片网站在线播放| 国产国产人成免费视频77777| 欧美日韩午夜| 原味小视频在线www国产| 精品一区二区三区自慰喷水| 黄色网在线免费观看| 国内精品视频在线| 色噜噜狠狠狠综合曰曰曰| 欧美特级AAAAAA视频免费观看| 久久精品无码专区免费| 毛片免费视频| 国语少妇高潮| 综合亚洲网| 亚洲一级毛片在线观播放| 97超级碰碰碰碰精品| 欧美国产日韩另类| 成人a免费α片在线视频网站| 欧美激情第一区| 一级毛片不卡片免费观看| 国产成人亚洲精品色欲AV| 99精品热视频这里只有精品7 | aaa国产一级毛片| 成年网址网站在线观看| 9999在线视频| 无套av在线| 国产亚卅精品无码| 一本一本大道香蕉久在线播放| 亚洲精品片911| 99re在线视频观看| 婷婷久久综合九色综合88| 尤物成AV人片在线观看| 亚洲精品你懂的| 欧美另类第一页| 欧美另类一区| 国产主播一区二区三区| 亚洲色精品国产一区二区三区| 国产精品国产三级国产专业不| 欧美日韩一区二区在线免费观看| 亚洲一区免费看| 国产精品主播| 刘亦菲一区二区在线观看| 久久国产精品影院| 日韩欧美国产另类| 999国内精品久久免费视频|