999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

煙草科技知識圖譜服務平臺的設計與實現

2023-06-07 09:42:46王永勝馮偉華鄭新章劉亞麗宗國浩
計算機應用與軟件 2023年5期
關鍵詞:煙草可視化科技

王永勝 馮偉華 鄭新章 劉亞麗 賈 楠 王 銳 宗國浩 王 迪 杜 一

1(中國煙草總公司鄭州煙草研究院 河南 鄭州 450001) 2(中國科學院計算機網絡信息中心 北京 100190) 3(中國科學院大學 北京 100049)

0 引 言

一直以來,煙草行業都非常重視對科技創新工作的投入,近些年其在科學研究、技術開發和生產經營等活動中,積累了海量的科技信息資源,如煙草類科技文獻、煙草專利、煙草標準、煙草科技成果等數據,數據量已達到了百萬條。這些科技信息資源數據蘊含著豐富的知識,不僅包含了人員、機構、產出成果等基礎信息,還包括了科研工作的學術結構、科研熱點、合作關系等潛在的知識。但目前煙草行業還沒有一個整合煙草行業所有科技信息資源的知識服務系統,分布在各個業務系統的科技信息資源也缺乏高效的組織與管理,科研數據的寶貴價值還未充分發揮出來,無法幫助人們高效、精準地從這些科技信息資源中獲取所需要的知識,也無法幫助煙草科研人員在宏觀層面掌握行業科研工作的發展態勢及科研合作的模式。

知識圖譜是一種用圖模型來描述知識和構建世界萬物之間的關聯關系的技術方法[1]。從本質而言,知識圖譜旨在從數據中識別、發現和推理事物之間的復雜關系,是事物關系的可計算模型[2-3]。采用知識圖譜技術可以為數據的共享、獲取、重用及應用創新提供自動化的知識分析服務。自2012年Google正式提出“知識圖譜”的概念以來,知識圖譜就一直是學術研究的重要方向。近幾年來,知識圖譜在搜索引擎、智能問答、語言理解、推薦系統和大數據決策分析等眾多領域得到廣泛的實際應用[4-6]。2017年7月,國家《新一代人工智能發展規劃》中提出“重點突破知識加工、深度搜索和可視交互核心技術,實現對知識持續增量的自動獲取,具備概念識別、實體發現、屬性預測、知識演化建模和關系挖掘能力,形成涵蓋數十億實體規模的多源、多學科和多數據類型的跨媒體知識圖譜[7]”。針對煙草科研工作存在的上述問題,基于知識圖譜技術,構建一個面向煙草科研人員的煙草科技知識圖譜服務平臺,實現煙草科技信息資源的整理、融合與深度挖掘,已是提升煙草科研工作效率和質量,助力煙草科技創新驅動發展戰略的必由之路。

1 系統分析

煙草科技知識圖譜服務平臺是面向煙草科研人員開發的煙草科技領域知識服務系統。平臺基于煙草科研領域的項目、成果、論文、專利、標準、科研人員、科研單位等構建網絡實體,以“科研人員產出成果”“科研人員依托單位”等構建網絡關系,最終形成煙草科技信息資源知識網絡。在煙草科技信息資源知識網絡的基礎上,實現了煙草科技信息資源的多角度、全方位的知識檢索功能。針對所構建的知識網絡,平臺使用關聯分析等數據挖掘算法實現了科研人員之間和科研機構之間的合作網絡分析和關聯路徑分析;使用基于模塊度的社區發現算法等實現了科研合作社區和學術相似社區的智能發現。此外,平臺基于關鍵詞詞頻統計和大數據網絡的共詞聚類分析,實現了煙草科學研究熱點的圖譜化分析和國內外研究熱點走勢分析。

2 系統設計

2.1 體系架構設計

煙草科技知識圖譜服務平臺基于B/S架構,采用SOA的設計思想,遵循J2EE開發標準規范構建系統,通過組件式開發模式,保證各功能模塊間是高內聚、低耦合模式。平臺采用基于Restful的Web Service服務,以保證架構的先進性、穩定性和可擴展性。在前端展示方面平臺主要采用Echarts、D3.js等可視化開發庫,利用基于“Overview+Detail”和“Focus+Context”的分析模式,將煙草科技知識圖譜中抽取的實體和關聯關系以可視化的形式進行呈現。煙草科技知識圖譜服務平臺的體系結構如圖1所示。

圖1 煙草科技知識圖譜服務平臺體系結構圖

煙草科技知識圖譜服務平臺的體系結構主要分為數據層、服務層和應用層。數據層主要是為構建煙草科技知識圖譜上層應用提供數據支撐的科研機構數據、科研人員數據、科研文獻資源(主要包括中文和外文科技論文數據、煙草技術專利數據、科研項目數據、煙草技術標準數據、煙草圖書專著數據、煙草科技成果數據)等。服務層主要包括數據處理和知識服務兩部分,通過對煙草科技信息資源數據的匯聚、清洗、整合、加工以及構建RDF元數據資源模型等,完成煙草科技資源元數據的深度處理和煙草科技資源知識網絡的構建。針對構建的煙草科技資源知識網絡,通過封裝多維統計、關聯分析、知識挖掘等技術,基于Restful方式為應用層提供API接口服務。應用層基于煙草科技資源知識網絡實現了煙草行業科技資源查詢、科研人員和科研機構畫像、合作網絡分析、關聯路徑發現、科研社區發現和研究熱點分析等功能。

2.2 功能模塊設計

煙草科技知識圖譜服務平臺是面向煙草科研人員開發的知識服務系統,旨在通過梳理整合分布在行業不同科研系統中的科技信息資源,基于知識圖譜技術,構建包含煙草科研論文、技術專利、科研項目、技術標準、圖書專著、科技成果等煙草科技信息資源的知識網絡,實現對煙草科技信息資源的整理、融合與深度挖掘,為煙草科研人員準確把握研究方向、尋找潛在合作伙伴、提高科研活動效率提供支持。煙草科技知識圖譜服務平臺的功能模塊如圖2所示。

圖2 煙草科技知識圖譜服務平臺功能模塊

(1) 基礎知識查詢模塊:該模塊通過對煙草行業的科研機構、科研人員、科研項目、論文、專利等科技信息資源的檢索,實現煙草科技基礎知識查詢的功能。例如,在科研人員檢索子模塊中,構建了科研人員畫像,不僅展示了科研人員的學歷、職稱、研究領域、個人簡介等基本情況,還借助可視化技術展示了科研人員的研究興趣圖譜、學術成果圖譜、個人影響力雷達圖、科研人員合作網絡關系、個人學術關鍵詞詞云等,圍繞科研人員科研信息以更直觀生動的方式多維度、全方位地展示其科研知識圖譜。在科研論文檢索子模塊中,除了介紹了論文的摘要、作者、關鍵詞、被引次數等基本信息外,還根據論文的參考文獻和引證文獻構建了參考引證圖譜和關鍵詞詞云,并統計分析了論文每年的引用次數,構建了年度被引用趨勢圖。

(2) 合作網絡分析模塊:該模塊包括人員網絡分析和機構網絡分析兩部分功能。基于項目、成果(成果論文、成果專利、成果標準、成果圖書等)構建了需要分析的科研人員或科研機構的合作網絡圖,合作網絡圖中展示了合作者之間的關系和合作次數,并通過權重計算篩選出了關系最為緊密的合作者。

(3) 關聯路徑發現模塊:該模塊包括科研人員關聯路徑分析和科研機構網絡分析兩部分功能。通過限定關聯關系深度值,以可視化的形式構建科研關聯路徑網絡圖,實現了被查詢的兩個科研人員或兩個科研機構之間關聯路徑的分析。該模塊可以幫助用戶以更直觀的方式了解兩個被查詢主體的關聯路徑。

(4) 科研社區發現模塊:該模塊包括科研合作社區發現和學術相似社區發現兩部分功能?;跓煵菘萍贾R圖譜的圖數據,通過分析挖掘科研人員基于項目及成果的合作關系,將科研人員關系網絡圖分成關系比較緊密的不同子網絡圖,從而實現科研合作社區發現的功能。通過對煙草科研人員的論文共被引關系進行深度挖掘,通過聚類分析,實現相似學術方向的學術相似社區發現功能。

(5) 研究熱點分析模塊:該模塊包括國內外熱點圖譜、研究熱點搜索、國內外熱點走勢三部分功能。煙草科技文獻中關鍵詞之間的相關性在一定程度上可以揭示煙草領域不同研究方向或視角的內在聯系。煙草研究熱點分析是通過對中外論文、專利進行關鍵詞的提取解析、詞頻統計、共現分析,獲得了高頻度出現的主題詞共詞網絡,從而實現煙草科學研究熱點圖譜分析、研究熱點搜索以及熱點走勢展示。

2.3 業務流程設計

目前,知識圖譜的構建方式主要有自頂向下與自底向上兩種構建方式,結合煙草科研數據的實際情況,煙草科技知識圖譜服務平臺以現有的結構化知識庫為基礎知識庫,采用自頂向下的方式設計煙草科研數據的本體及數據模式。煙草科技知識圖譜服務平臺的業務構建流程包括了知識抽取、知識融合和知識應用三個方面,結合煙草科技信息資源的特點,設計了煙草科技知識圖譜服務平臺。其業務構建流程如圖3所示。

圖3 煙草科技知識圖譜服務平臺業務構建流程

(1) 知識抽取:首先抽取多源異構系統中數據,并進行初步數據清洗。整理出煙草科技信息資源中的論文、專利、標準、科研項目、成果所屬單位或機構、關鍵詞等各種實體類型以及各實體類型之間的關系,構建煙草科研知識圖譜的Schema模型,從本體構建上描述煙草領域相關概念與概念之間的關系及屬性表示。

(2) 知識融合:煙草科技信息資源來源于不同的系統,知識圖譜中的實體以及知識體系不可避免地存在重復、缺失、沖突等問題,平臺設計過程中通過對抽取的數據進行數據整合、知識加工、本體構建、質量評估等,以提升數據的質量并達到知識的更新。

(3) 知識應用:基于RDF三元組的知識表示和本體描述的基礎上,煙草科技信息資源采取知識圖譜的方式進行表示,平臺采用基于圖深度優先遍歷算法、社區發現算法、關聯挖掘算法以及可視化技術等實現煙草知識檢索、機構(人員)合作網絡分析、關聯路徑發現、科研社區發現、研究熱點分析等知識應用服務。

2.4 煙草科技知識網絡構建

通過梳理整合分布在煙草行業內不同科研系統中的論文、專利、成果、標準、圖書等科技信息資源,結合行業的科研機構和科研人員信息,借助大數據流水線系統PiFlow平臺,完成數據清洗、概念識別、實體發現、實體融合、關系構建。目前,煙草科技知識圖譜服務平臺根據科技信息資源的特點抽取了19類數據實體并建立了33類實體關系。平臺從各類實體以及實體之間的關系、屬性出發,構建了煙草科技知識網絡如圖4所示。

圖4 煙草科技知識網絡

3 系統實現

3.1 基礎知識查詢

基礎知識查詢模塊可以實現煙草行業的科研機構、科研人員、科研項目、論文、專利等科技信息資源的檢索。當用戶輸入相關檢索條件進行檢索時,系統會返回相應的檢索結果列表,列表中每項檢索結果都有獨立的詳細知識主頁面?;A知識查詢模塊中的科技論文檢索如圖5、圖6所示。

圖5 煙草科研論文檢索結果展示

圖6 煙草科研論文詳情展示

3.2 科研人員畫像

平臺基于煙草科技信息資源,進行科研數據實體融合、關聯關系抽取等構建煙草科研人員畫像。該模塊采用多標簽構建技術和精準畫像技術,從多層級、多維度的應用分析出發,全方位、立體化地展示煙草科研人員的學術成果信息。科研人員畫像功能模塊主要展示科研人員個人影響力分析、研究興趣圖譜、學術成果圖譜、個人學術關鍵詞等幾方面,如圖7所示。其中,個人影響力分析是根據領域專家研討的評分體系,通過計算各項指標得分,借助雷達圖進行展示,雷達圖面積大小代表各項指標總得分情況,雷達圖中每個頂點表示影響力的一級指標,指標數值代表該項指標的具體分值。

通過對當前科研人員發表的學術論文進行文本分析,統計分析其論文中高頻關鍵詞,采用輪播滾動的可視化方式展示其近十年來的學術關鍵詞,結合學術關鍵詞,構建科研人員的研究興趣圖譜,揭示科研人員研究方向變化,如圖8所示??蒲腥藛T學術成果圖譜展示了當前科研人員按不同年度所產出的不同成果的數量和類型,如圖9所示。圖中不同顏色代表科研人員不同的成果類型,結合時間軸和數據說明,可以更加直觀地顯示科研人員的學術成果。

圖8 煙草科研人員研究興趣圖譜

圖9 科研人員學術成果圖譜

3.3 科研人員合作社區發現

科研人員合作社區發現是基于梳理整合的煙草科技信息資源,通過分析挖掘科研人員間項目及成果的合作關系,發現并識別合作緊密的科研人員團體。當通過導航進入科研人員合作社區發現頁面后,頁面自動分析加載默認的全部合作類型的社區發現。社區網絡圖譜由不同簇區分不同的合作社區,網絡圖譜中節點大小和連線邊的粗細具有實際意義,節點大小代表科研人員影響力的大小、連線的粗細表示兩個科研人員合作關系的強弱,合作關系越強的科研人員在圖譜中的位置越靠近,子網絡圖中核心人員為科研學術高活躍度的科研人員,網絡圖右側表示總共發現的社區數量及各個社區人數。煙草科研人員合作社區如圖10所示。

圖10 煙草科研人員合作社區

3.4 研究熱點分析

學術關鍵詞之間的相關性往往揭示不同研究方向或視角的內在聯系。研究熱點知識發現圖譜通過關鍵詞共現關系來分析和判斷煙草科研熱點的發展變化。在平臺系統中,國內煙草科研熱點圖譜是基于對國內發表煙草科技文獻的關鍵詞頻次及共現關系進行分析挖掘。圖譜中所有節點的大小表示當前關鍵詞共現頻次的多少。圖譜中的連線表示兩個關鍵詞間有共現關系,連線的粗細位置表示兩個關鍵詞間關聯度的強弱,關聯度越強的關鍵詞在圖譜中聚合得越緊密。國內煙草科研熱點圖譜如圖11所示。

圖11 國內煙草科研熱點圖譜

在煙草科研熱點搜索功能模塊中,用戶輸入需要查詢的煙草領域熱點詞匯,即可獲得該熱點詞匯的詳細信息并借助可視化圖形展示。主要包括四類信息:該熱點關鍵詞年度出現次數統計圖、關鍵詞共現關系網絡圖、關鍵詞研究貢獻的top10機構和top10科研人員。煙草科研熱點搜索如圖12所示。

圖12 煙草科研熱點搜索

4 關鍵技術

4.1 Neo4j圖數據庫

知識圖譜用來描述現實中的概念、實體與關系,它是一種基于圖的數據結構,由節點和邊組成。其中節點即實體,由一個全局唯一的ID標示,關系(也稱屬性)用于連接兩個節點。通俗地講,知識圖譜就是把所有不同種類的信息連接在一起而得到一個關系網絡,提供了從“關系”的角度去分析問題的能力。

本平臺采用Neo4j作為圖模型的存儲方式,Neo4j是高性能的NoSQL圖數據庫,是目前知識圖譜系統中使用率最高的圖數據庫[8]。Neo4j的數據存儲形式主要是節點(node)和邊(edge)來組織數據。node可以代表知識圖譜中的實體,edge可以用來代表實體間的關系,關系可以有方向,兩端對應開始節點和結束節點。

4.2 交互式可視化方法

為了更好地呈現基于煙草科技信息資源構建的煙草科技知識圖譜平臺,使用D3.JS等底層可視化開發庫,設計基于網絡查詢、挖掘分析結果的交互式可視化方法。平臺采用“Overview+Detail”和“Focus+Context”相結合的交互式可視化分析模式。“Overview+Detail”的交互式可視化分析模式首先考慮使用可視化方法進行整體的探查,在發現感興趣的內容之后,通過過濾、縮放等交互技術進一步探查細節,從而發現數據的詳細情況;“Focus+Context”的交互式可視化分析模式則強調在關注某個特定的可視化區域的同時,對區域的上下文信息也要給予關注。在煙草科技知識圖譜平臺構建過程中,結合交互式技術對圖譜的形狀、大小、顏色等進行可視化展示,為煙草科研人員提供直觀生動的用戶體驗。

4.3 文本關鍵詞提取算法

關鍵詞是代表文本重要內容的一組詞,關鍵詞抽取是指抽取目標文本中的主要信息,涉及實體識別、屬性抽取、因果關系抽取等多項關鍵技術[9-10]。關鍵詞提取是知識圖譜領域的一個重要任務,在信息檢索中,準確的關鍵詞提取可以大幅提升檢索效率;在智能問答中,機器可以通過關鍵詞來理解用戶意圖;在知識推薦中,關鍵詞的發現有助于獲取主題思想。

在對煙草領域的科技信息資源進行文本預處理階段,本平臺采用TextRank、LDA等關鍵詞提取算法通過抽取實體對象、屬性關系、主題詞等構建了領域知識網絡,為科研人員學術關鍵詞提取及研究熱點相關詞分析提供技術保障。

4.4 社區發現算法

融合各類煙草科技知識實體的人員合作關系網絡同其他實際網絡具有相同特性及社區結構,即整個網絡由若干個社區構成,每個社區內部的節點之間聯系相對緊密,各個社區之間的連接相對稀疏。在煙草科技知識圖譜服務平臺中,合作社區發現主要實現從科研人員出發,基于煙草知識圖譜的圖數據,通過分析挖掘科研人員基于項目及成果的合作關系,從而實現發現合作緊密的科研人員社區團體。

本平臺采用Louvain算法作為實際的社區發現算法,實現了控制網絡規模及邊界情況下的合作社區發現,并在最終的可視化展示中取得了很好的可視化效果。Louvain算法是基于模塊度的社區發現算法,該算法在執行效率和效果上都表現較好,且能夠發現層次性的社區結構,實現最大化整個社區網絡的模塊度的目標[11]。

4.5 共詞分析法

共詞分析法是內容分析法的一種,通過對文獻中共現的詞對(主題詞或關鍵詞)的關聯性進行運算,將關系密切的詞聚集歸類,進而分析這些詞所代表的學科和主題的結構變化趨勢[12]。針對文獻主題詞來說,文獻主題詞共現次數越多則代表兩主題關系越緊密,采用聚類分析等多元統計方法,將眾多分析對象之間錯綜復雜的共詞網狀關系簡化為若干群之間的關系并直觀地表達出來,可以準確地歸納出該學科的研究熱點[13]。

在本平臺中,從煙草領域學術文獻中提取出關鍵詞或主題詞,設定閾值高于一定頻率的關鍵詞或主題詞作為代表某一學科或研究方向的高頻詞,通過統計高頻詞同時出現在同一篇學術文獻中的次數,構建共詞矩陣,進而圍繞共詞矩陣進行相關分析。

5 結 語

知識圖譜是提高知識獲取能力的有效服務手段,針對煙草領域科技信息資源的數據特點以及煙草科研工作知識獲取的工作需求,設計并實現了煙草科技知識圖譜服務平臺。該平臺梳理整合了分布在煙草行業不同科研系統中的科技信息資源,基于知識圖譜技術構建了包含科技項目、科技成果、科技論文、技術專利、技術標準等煙草科技信息資源知識網絡,結合煙草科研大數據知識畫像、關聯挖掘、煙草科研知識圖譜分析等,完成了煙草科技信息資源的深入挖掘分析和多角度多層級的可視化展示。煙草科技知識圖譜服務平臺的建設應用可為煙草科研人員準確把握研究方向、尋找潛在合作伙伴、提高科研活動效率提供智力支持,對煙草科研領域的知識發現也具有十分重要的意義。

猜你喜歡
煙草可視化科技
煙草具有輻射性?
基于CiteSpace的足三里穴研究可視化分析
基于Power BI的油田注水運行動態分析與可視化展示
云南化工(2021年8期)2021-12-21 06:37:54
基于CGAL和OpenGL的海底地形三維可視化
“融評”:黨媒評論的可視化創新
傳媒評論(2019年4期)2019-07-13 05:49:14
科技助我來看云
科技在線
煙草依賴的診斷標準
科技在線
煙草中茄酮的富集和應用
主站蜘蛛池模板: 无码内射中文字幕岛国片| 免费中文字幕一级毛片| 国产精品美女免费视频大全| 国产精品嫩草影院av| 97久久精品人人| 在线中文字幕日韩| 欧美日韩国产精品综合 | 亚洲中文字幕久久精品无码一区 | 中文国产成人精品久久一| 欧美精品高清| 91系列在线观看| 欧美高清国产| 国产大片喷水在线在线视频| 毛片网站在线看| 国产精品一区二区久久精品无码| 在线免费观看a视频| 婷婷色中文| 波多野结衣在线一区二区| 天天视频在线91频| 亚洲午夜福利精品无码| 午夜丁香婷婷| 亚洲视频二| 国产爽爽视频| 999国产精品| 9久久伊人精品综合| 国产精品性| 欧美第二区| 欧美午夜视频在线| 免费在线播放毛片| 天天躁日日躁狠狠躁中文字幕| 国禁国产you女视频网站| 国产精品视频猛进猛出| 日本91在线| 国产精品偷伦在线观看| av手机版在线播放| 丝袜无码一区二区三区| 国产成人三级| 亚洲日韩高清在线亚洲专区| 日本不卡在线视频| 亚洲欧美日韩精品专区| 国产成人区在线观看视频| 精品国产免费观看一区| 丁香亚洲综合五月天婷婷| 国产三级视频网站| 国产福利不卡视频| 欧美激情第一欧美在线| 老司机精品久久| 欧美国产综合色视频| 666精品国产精品亚洲| 99福利视频导航| 国产精品亚洲五月天高清| 午夜老司机永久免费看片| 日本91视频| 99re这里只有国产中文精品国产精品| a级毛片毛片免费观看久潮| www.亚洲天堂| 激情午夜婷婷| 亚洲精品自拍区在线观看| 国产精品成人一区二区不卡| 深夜福利视频一区二区| 亚洲国产成人精品无码区性色| 亚洲水蜜桃久久综合网站| 99视频在线看| 亚洲一本大道在线| 女同国产精品一区二区| 91探花在线观看国产最新| 福利片91| 欧美三級片黃色三級片黃色1| 国产导航在线| 毛片免费高清免费| 久久精品这里只有精99品| 91精品aⅴ无码中文字字幕蜜桃 | 免费看a毛片| 午夜福利无码一区二区| 亚洲成人福利网站| 日韩色图区| 亚洲成人网在线播放| 日韩欧美国产精品| 日韩欧美国产三级| 亚洲综合久久一本伊一区| 麻豆AV网站免费进入| 91www在线观看|