999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

本體與關聯數據融合驅動的科技文獻細粒度知識挖掘研究

2023-05-30 10:48:04閆麗
河北科技圖苑 2023年1期

摘要:科技文獻的細粒度知識挖掘對于科學的發展起著至關重要的作用。文章在分析科技文獻知識挖掘的基礎上,構建出本體與關聯數據融合驅動的科技文獻知識挖掘模型,最后基于研究成果,以人工智能領域科技文獻為例進行案例分析,詮釋了本體與關聯數據融合驅動下科技文獻的細粒度知識挖掘所具有的特征。

關鍵詞:本體;關聯數據;科技文獻;知識挖掘

中圖分類號:G207.6?? 文獻標識碼:A

DOI:10.13897/j.cnki.hbkjty.2023.0006

近年來,隨著科技發展,作為知識主要載體的科技文獻成

為人們獲取知識的重要來源。在科技文獻不斷激增的同時,

文獻資源不斷的豐富與其利用率之間不可避免地會產生一定的矛盾,

知識挖掘是知識開發的重要工具,為知識服務創新提供新的方法與技術,大大提高了知識管理的效率,所以對于科技文獻進行知識挖掘至關重要。大數據環境下,為了更好地對海量的科技文獻進行利用,需要更細粒度的對其潛在的知識內容進行深入挖掘。基于此,本文在本體與關聯數據的融合驅動下,面向科技文獻進行細粒度知識挖掘研究。通過研究探求能夠挖掘出更具價值的信息,以助力科技文獻的開發利用。

1 相關研究概述

1.1 本體

本體的概念源自于哲學,由Neches等學者提出,其認為本體是術語、關系和規則的集合[1]。在不斷的研究中,其中Gruber學者認為本體是具有邏輯理論的陳述性描述,通過形式化的描述來對特定領域的術語、關系和規則進行解釋與使用,這也是本體的經典定義[2]。隨后,在計算機技術的不斷發展下,各大領域均逐漸引入本體,并對其進行了不同的詮釋,盡管目前并沒有對本體這一概念進行具體規范,但普遍認為本體具備形式化的特點,并對共享的概念體系具有明確且詳細的說明[3]。后期,一些國外學者便將本體與技術進行融合應用到信息資源的研究中,本體充分利用到元數據的思想與結構化的知識,對異構信息資源進行語義化的標注,建立起標準的元數據知識存儲庫,充分實現語義的檢索。知識組織工具是本體的本質,這便使數字資源的語義化標注

和互操具有可能性,并在一定的范圍內消除了數字資源語義異構等問題,但局限是一定與領域相關,針對某一個領域進行融合[4]。

1.2 關聯數據

關聯數據是指互聯網上進行發布、共享并連接各種不同類型的數據、信息以及知識的一種方式。

它不但克服了本體針對于某一領域的局限性,并且對于數據間開放性的無縫互聯進行了實現[5],其核心在于通過統一的資源描述框架(Resource Description Framework,RDF)對資源數據進行描述并對其中所蘊含的信息進行解析,利用超文本協議來對資源數據進行獲取并揭示關聯,有效減少了其孤島效應的產生。其本質是在數據標準化識別的基礎上,用以構建出能夠被所有機器理解的具有結構化的數據網絡,從而使本并不具備任何關聯的有關數據信息產生出相應的關聯關系,進而才能對更高層次上的智能檢索進行有關探索

[6]。這是一種簡化版的語義網模型對于不同領域、來源及系統間的知識資源進行關聯以實現多維關聯及開放獲取。

1.3 知識挖掘

從知識挖掘出現至今,不同領域的學者對其定義的詮釋也有所差異,現在廣泛使用的為:知識挖掘是從數據集當中對有效或具有潛在價值的信息進行識別,并最終轉化為可被大家所理解的一種模式的全過程[7]。當前,關于科技文獻的知識挖掘已經進入到了細粒度的層面,更強調了對知識單元以及知識關聯的識別與利用。其中,知識單元是具有特定意義的并且能夠進行獨立使用的知識單位,其對科技文獻的知識點進行抽取,是在信息抽取的基礎上的進一步深化應用

[8]。除此之外,在知識挖掘的過程中知識關聯對于完整知識體系的形成至關重要,其表示可以從任一維度出發與知識單元建立相應的關聯。

2 科技文獻細粒度知識挖掘的特征分析

2.1 知識提取準確性高

當對科技文獻進行細粒度知識挖掘時,通過對本體的引入可有效提高細粒度知識挖掘過程中的知識單元與知識關聯抽取的可靠性。與此同時,通過本體的特征能夠有效實現對科技文獻中同一語義而不同表述的知識提取,進而增加提取的準確性。此外,關聯數據也能夠通過對復雜關系進行掃描的資源描述框(RDN)對資源進行描述,使關聯數據能夠通過統一的標準進行語義關系的描述,經過語義描述的資源具備機器可讀以及高度的結構化等特點,這也使“資源孤島”之間不斷地產生語義關聯,將碎片化的資源充分連接成龐大的資源網絡以供用戶使用,這也大大提高了知識提取的準確性[9]。

2.2 知識重用率高

本體與關聯數據融合驅動下的科技文獻細粒度知識挖掘,能夠對知識間的語義信息進行清晰準確的描述,這成為系統中不可或缺的支持可重用并且能夠共享的組件之一。在進行系統升級或不同的系統間進行數據交換時知識整合平臺

對于不同系統之間的交叉與融合不會受到影響,并緩解了系統集成時開發周期長的相關問題,使知識重用率顯著提高。

2.3 知識共享無障礙

在本體與關聯數據的融合下,通過共同的關聯描述,能夠對同一語義間的知識表達的差異性進行消除,對統一資源標識符(Uniform Resource Identifier,URI)進行充分運用,使互聯網中的任一資源都能夠得到充分描述,包括圖片、聲音以及文檔等,相同的標準化描述對資源的異構性顯著降低,而使用本體與關聯數據相融合的方式可以顯著提高其信息資源數據的傳播、分享以及發布等。通過本體與關聯數據融合驅動下所發布的資源不但能夠在不同的數據集之間產生互聯互通,并且搜索相應信息時,也能夠發現其搜索的相關內容,從而對知識的認識性與理解性進行增強,實現知識的無障礙交流。

3 本體與關聯數據融合驅動的科技文獻細粒度知識挖掘模型構建

本研究提出了一個基于本體與關聯數據融合驅動的科技文獻細粒度知識挖掘模型,該模型具有3個層級架構,分別是基于本體、關聯數據以及本體與關聯數據融合驅動的模型架構。

3.1 基于本體的細粒度知識挖掘

該架構囊括目標決策、規則抽取、知識挖掘以及服務反饋四個層面。在目標決策階段,進行挖掘對象的指定和挖掘范圍的確定,其中,挖掘對象需要繁多的分析文檔及反饋信息,并在本體所具備的強大的邏輯推理的基礎上將其顯性化,而挖掘范圍還包括目標區域與挖掘權重的確定,例如,在本體所在領域內具有典型代表性的特定數據庫等。在挖掘約束中,其借助于本體的概念與實例,對于相同概念卻不同實例的情況,也可依據屬性值進行描述,也就是其檢索中所查找到的關鍵字,這便能夠發現關鍵詞頻次高的區域從而進行深度挖掘,提升效率。在知識存儲中,其格式與內容都有明確的規定,包括字段、標注以及邏輯推理等。而知識清理相當于一種基于本體邏輯的合法性檢驗,消除錯誤,并排序屬性值。知識提煉同樣基于本體邏輯進行推理,從而對實際問題進行解決。在知識服務與反饋中,所獲取的數據呈現出了其潛在聯系與發展趨勢,但其仍不易閱讀,所以知識服務中便能依據不同需求進行知識的深加工。在反饋分析中,可以進行最終結果與最初目標偏離程度的衡量,從而進行及時的優化和更新,提高細粒度知識挖掘的效率。

3.2 基于關聯數據的細粒度知識挖掘

基于關聯數據的架構是在上述本體架構基礎上形成的,包括本體知識庫、關聯數據、半結構化數據以及實體屬性選擇等。在實體屬性選擇中,在確認目標后,需要結合科技文獻相關專家們的建議,并針對不同領域的不同屬性對實體產生關聯,例如,數據與對象屬性,其中對象屬性是在本體構建中所產生的關系屬性等。在關聯數據中,主要包括類及屬性的構建、實例的創建、關系構建圖以及一致性檢驗等步驟,其中需要使用到Protégé等構建工具,將所選實體以及屬性分別進行構建,其產生的數據可以直接作為實例進行構建,并通過各類關聯關系建立起關聯數據,在進行一致性檢驗后將構建出的關聯數據用OWL格式進行本體知識庫存儲。

3.3 本體與關聯數據融合驅動的細粒度知識挖掘

在科技文獻的細粒度知識挖掘中,針對于不同類型與來源的更細化的文獻資源,所采用的元數據描述規范也不盡相同,致使同一科技文獻內部常常存在著多種不同的元數據規范,而不同科技文獻間其元數據規范更是差異化顯著。元數據所提供的語義基礎并不能有效解決文獻資源異構性等問題,這種局限性則需要在元數據基礎上進行某種特定機制的構建,用以實現格式化不同以及類型不同的差異化元數據間的語義性互操,這也充分體現出本體所具備的特征。本文中所采用的是混合法,針對不同科技文獻,先構建出其知識挖掘的核心本體,此元數據本體并不包含任何規范性元素,而是以一種形式化的方式對其核心元素進行描述,針對特定的核心挖掘文獻,其相關屬性以及特定關系便能夠以動態的形式進行添加,從而形成定制化的拓展,以生成專門的挖掘本體。在上述基于本體的知識挖掘的研究中,雖然實現了科技文獻資源語義關系上描述分析的挖掘,但是由于本體所具有的局限性,這種挖掘僅局限于其整體與部分間的顯性關系間體現,而對于深層次隱形關系的挖掘卻無法實現,比如同一主題下的資源信息等,更沒辦法實現資源的延展挖掘。除此之外,對于不同資源集合的訪問則需要自有的Web API,而在不同本體域間建立起關聯關系可以使科技文獻資源統一成一個整體,使每一個資源數據都能通過HTTP協議進行訪問,并通過RDF鏈接訪問相關資源并實現自由切換,揭示了資源間的相互關系。同時,其關聯數據能夠與外界相關聯,進而成為數據云的一部分,以達到最大利用率。

4 本體與關聯數據融合驅動的科技文獻知識挖掘模型應用場景分析

本研究以人工智能領域的科技文獻的元數據為數據源,并構建出實驗模型,進而進行知識挖掘的可視化展現。

4.1 人工智能領域科技文獻元數據識別

人工智能領域的科技文獻,其摘要涵蓋了重點研究問題及實驗方法,是精華之所在。基于此,在實驗過程中,便以所研究的問題與實驗所用方法的實體抽取為人工智能領域科技文獻摘要的實際實驗對象。首先,有目的性地進行題錄數據的文章摘要及標點符號的抽取;其次,對實體中的識別任務進行考慮,部分不引注意的特征也可能對識別的結果產生較大影響,例如,詞向量和詞性等文本特征,故抽取特征至關重要;最后,對實驗研究對象的識別其實質也屬于監督學習的一種形式,需要人為的文本標注作為模型的語料。

4.2 基于本體與關聯數據融合驅動的實驗模型設計

在人工智能領域科技文獻的實驗模型中,分為知識挖掘管理、用戶查詢及推理等三個模塊,如圖1所示。其中,知識挖掘管理與推理是管理模塊,而查詢是操作模塊能夠對本體和關聯數據以及潛在知識的結果進行展示。有關本體與關聯數據,其對本體技術進行了充分有效地使用,并能夠建立起相應的語義關系,其關聯數據也能夠實現直接在相對應的數據庫當中進行存儲。同時,在知識挖掘前需要對本體數據庫與關聯數據庫中的相關信息進行相應的預處理,以方便分類科技文獻數據以及實現知識挖掘的目標。關聯數據查詢中能夠將人工智能領域科技文獻本體與關聯數據中有關顯性知識的部分進行顯示。并對推理機進行恰當的運用,實現實體與關聯數據的推理效果,得到相對應的目標結果。知識挖掘主要針對的是使用部分查詢解析器,進行關鍵字標注理解,并調動其后臺的RDF的連接進行分類算法的實現,挖掘出其深層次的潛在知識,同時在JDBC接口處與知識庫連接,通過挖掘引擎將人工智能領域科技文獻的細粒度知識挖掘結果得以實現。

4.3 人工智能領域科技文獻細粒度知識挖掘分析

基于上述實驗模型,在進行人工智能領域科技文獻細粒度知識挖掘時,選定人工智能領域的“computer vision”實體作為實例。本研究選取“computer vision”為主題的科技文獻作為文本的實驗數據集,在CNKI專業檢索搜索框中以“su=computer vision”為檢索式,對檢索結果進行分析。通過對CNKI中進行實體的抽取與定位,并將所抽取的文獻信息資源運用相關解析器進行語義以及語義關系的相應提取,能夠有效體現出本體與關聯數據融合下所具有的知識重用率高等特征,運用自然語言處理等技術進行分割,同時采用RDF進行描述并運用子挖掘算法將人工智能領域科技文獻中的隱形信息剖析出來,其結果具有可靠性和準確性,最后運用數據庫顯示其關聯關系(見圖2-3)。“computer vision”等人工智能領域的實體能夠反映出主題與主題間的相似度,以共現矩陣的形式將主題、知識單元以及它們之間的關聯構建科技文獻細粒度知識組織,進一步建立起語義知識庫以及推理知識庫,從而方便人們進行閱讀,同時也為科技文獻細粒度知識挖掘提供了保障。

5 結語

隨著科技文獻的不斷增多,其帶來豐富信息的同時也產生了一定的問題。通過分析科技文獻細粒度知識挖掘的準確性高、重用率高以及共享無障礙等特征,并構建出本體與關聯數據融合驅動的科技文獻知識挖掘模型,包括基于本體融合的架構、基于關聯數據融合的架構以及本體與關聯數據融合驅動的架構,最后基于上述研究成果,以人工智能領域科技文獻為例進行案例分析。科技文獻細粒度知識挖掘需要本體與關聯數據的融合驅動,方能提高知識挖掘效率。

參考文獻

[1]黎霞,張凌云.《資本論》漢英術語知識庫知識本體建設[J].圖書館工作與研究,2022(2):5-14.

[2]曾楨,趙浩宇.基于文獻的中國近代史知識圖譜構建與實證研究[J].數字圖書館論壇,2022(4):35-42.

[3]馬翠嫦,曹樹金.網絡學術文檔細粒度聚合本體構建研究[J].圖書情報工作,2019,63(24):107-118.

[4]張修文,張曉梅,付佳,等.基于本體和關聯數據的館藏資源融合模型[J].中華醫學圖書情報雜志,2015,24(8):50-54.

[5]趙龍文,羅力舒.基于關聯數據的政府數據開放:模式、方法與實現——以上海市政府開放數據為例[J].圖書情報工作,2017,61(19):102-112.

[6]楊選輝,龍帆.關聯數據與本體在圖書館資源服務模式中的應用研究[J].圖書館理論與實踐,2016(12):97-100.

[7]羅希瑩,王俊瑛,胡笳.基于知識挖掘的高校機構知識庫的信息服務研究[J].教育教學論壇,2019(39):66-67.

[8]秦春秀,劉杰,劉懷亮,等.基于知識元的科技文本內容描述框架研究[J].圖書情報工作,2017,61(10):116-124.

[9]陳氫,劉文梅.基于關聯數據的企業數據治理可視化框架研究[J].現代情報,2021,41(6):76-87.

作者簡介:閆麗(1975-),女,肥城市圖書館館員。研究方向:文獻學。

(收稿日期:2022-10-28 責任編輯:張曉霞)

Research on Fine-grained Knowledge Mining of Scientific and Technological

Documents Driven by Ontology and Association Data Fusion

Yan Li

Abstract:

The fine-grained knowledge mining of scientific and technological documents plays a vital role in the development of science. Based on the analysis of the knowledge mining of scientific and technological documents, this paper constructs a mode of scientific and technological documents knowledge mining driven by the fusion of ontology and associated data. Finally, based on the research results, taking the scientific and technological literature in the field of artificial intelligence as an example, the paper fully explains the characteristics of fine-grained knowledge mining of scientific and technological documents driven by ontology and association data fusion.

Keywords:

Ontology; Related Data;Scientific and Technological Documents; Knowledge Mining

主站蜘蛛池模板: 亚洲视频黄| 亚洲国产综合自在线另类| 国产在线八区| 精品久久777| 99视频在线精品免费观看6| 欧美精品高清| 波多野结衣一区二区三视频| 欧亚日韩Av| 二级特黄绝大片免费视频大片| AV网站中文| 欧美三级视频在线播放| 亚洲免费毛片| 亚洲AV成人一区二区三区AV| 国产午夜精品一区二区三区软件| 亚洲天堂日韩av电影| 婷婷色中文网| 欧美一级夜夜爽www| AV不卡在线永久免费观看| 毛片久久网站小视频| 激情爆乳一区二区| 午夜精品区| 欧美亚洲国产精品第一页| 亚洲欧美日韩色图| 九九久久99精品| 2021无码专区人妻系列日韩| 91免费片| 亚洲人成网站在线播放2019| 99视频精品全国免费品| 日本一区高清| 国产亚洲视频中文字幕视频| 久久香蕉国产线看观| 成人小视频网| 精品91在线| 亚洲精品无码不卡在线播放| 女人毛片a级大学毛片免费| 国产精品亚洲片在线va| 波多野结衣二区| 天天综合网站| 伊人久久大香线蕉aⅴ色| h视频在线播放| 欧美精品伊人久久| 亚洲最新在线| 欧美日韩成人在线观看| 日韩免费中文字幕| 国产成人永久免费视频| 欧美不卡二区| 日韩成人在线一区二区| 亚洲日韩精品欧美中文字幕| 久久99精品国产麻豆宅宅| 国产亚洲精久久久久久久91| 国产在线观看成人91| 特黄日韩免费一区二区三区| 亚洲中文字幕97久久精品少妇| 中字无码av在线电影| 欧美日韩资源| 国产精品久久久久久久伊一| 国产97视频在线| 国产国产人成免费视频77777| 久久中文字幕不卡一二区| 亚洲综合二区| 欧美另类第一页| 亚洲高清资源| 在线观看国产黄色| 国产在线拍偷自揄观看视频网站| 国产在线精品美女观看| 免费国产高清精品一区在线| 国产国语一级毛片在线视频| 一级做a爰片久久毛片毛片| 欧美成人午夜视频| 亚洲v日韩v欧美在线观看| 2021国产v亚洲v天堂无码| 福利视频一区| 精品福利一区二区免费视频| 国产专区综合另类日韩一区| 国产高清国内精品福利| 欧美一区福利| 亚洲国产91人成在线| 国产麻豆91网在线看| 毛片免费高清免费| 日韩 欧美 小说 综合网 另类| jizz国产视频| 伊人激情综合|