999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于知識圖譜的學術信息檢索系統研究

2023-08-29 20:46:15李維娜
中國科技縱橫 2023年4期
關鍵詞:信息檢索搜索引擎信息

李維娜

(中國軟件評測中心網絡空間安全測評工程技術中心, 北京 100048)

1.緒論

1.1 學科背景

知識圖譜[1]又稱為科學知識圖譜,是知識的可視化形式。它是利用信息處理、數據挖掘等手段提煉事物內部的實體結構關系,并用圖譜的形式展現出來。Google 搜索引擎自2012 年為搜索添加了智能化元素。智能化搜索應該是可以識別用戶的搜索意圖,達到精準搜索,并返回用戶搜索相關的信息實體及信息實體與其他實體間交叉關系,也即是信息知識圖譜,這樣用戶就可以執行一次搜索完成對一個事物的全方位了解。可見知識圖譜在智能搜索領域具有重要意義[2]。學術搜索[3]是用戶檢索科技論文及作者等一系列的信息,同樣知識圖譜在學術搜索領域也可以提高檢索效率,達到較好的用戶體驗。然而目前的學術檢索還是通過普通人工整理來明確數據本身的關聯關系,利用知識圖譜技術提高建立關聯關系的智能化程度是一個有意義的研究方向。

知識圖譜起源于語義網絡。1968 年,J.R.Quillian 提出了語義網絡的定義,是一種用圖來表示知識的結構形式。知識圖譜由Google 公司于2012 年正式提出,而后逐步應用于搜索引擎、智能問答、產品銷售、醫療等。Ashwini Jaya Kumar 等人[4]提出了一個基于知識圖譜的問答系統接口,解決自動化語音識別和語言處理問題。Haklae Kim為了解決消費者在購物時往往對商品缺少充分信息的問題,提出構建一種商品的知識圖譜來解決這個問題,給出了表達產品特征的功能和新方法。Tong Yu 闡述了一種中藥領域的知識采集、分析、管理、構建與應用,做到了知識的可視化、知識推薦、共享與利用。

搜索引擎是網頁個數及信息量爆炸式增長的產物。與搜索相關的產品在1990 年后相繼出現。蒙特利爾McGill的大學生AlanEmtage、PeterDeutsch、BillWheelan 研發的Archie 打開了搜索引擎思路的大門,雖然這個工具的目的為了快速查找FTP 文件。1993 年又產生了可以搜索網頁和文件的工具,這個來源于美國內達華System Computing Service 大學。而后出現了Yahoo 讓搜索引擎的便利深入人心。1998 年出現的Google 搜索、2000 年出現的百度公司、2002 年出現的中國搜索都成為目前搜索引擎領域的巨頭。知識圖譜的出現為發展智能搜索引擎帶來了美好的前景,同時知識圖譜在搜索引擎方面得到了很好的應用,知識圖譜在信息檢索等發揮著越來越重要的作用。

1.2 相關工作

學術搜索是專門為學術工作者提供科技論文、學者、期刊、學術機構檢索的搜索引擎,是提高科技工作者工作效率的重要途徑。現有的學術搜索機構目前還停留在數據庫檢索及關鍵詞匹配的初級搜索階段,智能化學術搜索有待發展。

知識圖譜作為智能搜索的重要技術組成部分,目前,在學術領域的應用主要有兩種方式。一種基于內容的,也就是繪制學術內容本身的知識圖譜,如研究近10 年有關機器學習方面的知識圖譜,陳瑜林[5]等人在2012 年就研究了學術群體的可視化知識圖譜構建,分析了學者與學者之間的關聯關系。薛芳[6]等人利用7093 篇文獻,研究了國內環境監測領域的學者、研究機構等。劉陽[7]等人通過共詞分析、聚類分析及多維尺度分析研究了2000 年到2009 年間的搜索引擎學術知識圖譜;一種是基于內容搜索的,也就是通過關鍵詞檢索獲取復雜的學術信息實體及實體關系,這方面的文獻及研究還十分薄弱。如何把現有的各學科內學術文獻研究的知識圖譜進行整合,提供搜索是十分有必要加以研究的內容。

本文從基于知識圖譜的學術搜索引擎的數據采集、分析、構建的角度進行了研究,給出了整體的框架及一種學術信息知識圖譜構建算法。

2.相關定義

實體是知識圖譜中最基本的組成元素。知識圖譜是一種用圖表達的實體及實體關系結構的知識庫,可以用三元組表示為KG={E,R,S}[8]。其中E={e1,e2,….,e|E|}表示知識庫中實體的集合,|E|表示為實體的總數。R={r1,r2,….,r|R|}表示知識庫中實體之間關系的集合,|R|表示為實體關系的總數。S ?E×R×E 表示知識庫中實體與實體之間的關系。

定義1:學術信息一般包含學術機構、論文、學者、期刊等,符號表示為AI={D,A,E,J,…,R},是一個多種實體及實體關系的集合。

其中D 代表學術機構及機構之間關系,D={d,Rd},其中d={d1,d2,….,dn},n ∈Z+,Rd={dm×du|dm∈d,du∈d,m ≠u};

A 代表論文及論文之間關系,A={a,Ra},其中a={a1,a2,….an},n ∈Z+,Ra={am×au|am∈a,au∈d,m ≠u};

E 代表學者及學者關系,E={e,Re},其中e={e1,e2,…,en},n ∈Z+,Re={em×eu|em∈e,eu∈e, m ≠u};

J 代表期刊及期刊之間關系,J={j,Rj},其中j={j1,j2,…,jn},n ∈Z+,Rj={jm×ju|jm∈j,ju∈j,m ≠u};

R 代表機構、論文、學者、期刊之間的關聯關系的集合,R={r1,r2,…,rn},n ∈Z+,r1={dx×ay×ez×jo|dx∈d,ay∈a,ez∈e,jo∈j;x,y,z,o ∈Z+}。

定義2:學術信息知識圖譜是用圖的形式表示學術信息的一種形式。符號表示為KGAI={EAI,RAI,SAI},其中EAI表示知識庫中實體的集合。RAI表示知識庫中實體之間關系的集合。SAI?EAI×RAI×EAI表示知識庫中實體與實體之間的關系。

檢索學術資料是學者做學術的必備步驟,優化學術信息檢索結構是加速科技進步的有效手段。普通的1.0 時代的學術信息檢索是一種基于關鍵詞搜索并返回與關鍵詞相關的學術信息有序列表。

定義3:學術信息知識圖譜檢索是一種基于用戶在搜索引擎中輸入關鍵詞進行搜索并返回與關鍵詞精確匹配的學術信息及知識圖譜的檢索方式。

3.基于知識圖譜的學術信息檢索架構

要組成一個完整的學術信息檢索系統,必須包括學術信息數據的采集、學術實體的抽取、學術信息知識圖譜構建、知識圖譜存儲、知識圖譜索引、學術信息檢索等模塊。

對學術數據的采集可以有多種途徑:學術機構提交給論文收錄機構的數據;通用搜索引擎中的數據;學術搜索引擎中的數據等。論文收錄機構的數據是比較規范的結構化數據,同時信息比較完整,通用搜索引擎中的數據是非結構化的包含冗余信息的數據,同時信息不完整,學術搜索引擎中的數據一般是可以獲取到結構化的數據,但信息不能保證完整性。

多種數據源經過整合后、數據預處理后,要經過信息抽取等完成多數據源的信息實體抽取。而后進行知識圖譜構建形成知識庫。再經過索引模塊的搭建把知識庫變成索引庫,為用戶的學術信息檢索提供快速的響應。

4.一種構建學術信息檢索知識圖譜的方案

學術信息是研究機構、學者、期刊、論文等信息的集合。目前,論文收錄機構數據庫中一般有完整的研究機構、論文、期刊及作者信息,是構建知識圖譜的重要數據源。同時通用搜索引擎和學術搜索引擎也是數據的重要來源。數據采集后實體關系抽取、知識融合是構建知識圖譜完成學術信息檢索的核心步驟。

4.1 基于關系數據庫的實體關系抽取

規范的論文收錄機構數據庫包含完整的研究機構信息、學者信息、期刊信息、論文信息以及各種關系表,如學者論文關系表記錄了哪位學者發表了哪篇論文。首先可以根據各個表獲取實體。實體關系可以根據關系表獲取。

4.2 學術搜索引擎中基于源代碼的的實體關系抽取

學術搜索引擎是用戶輸入并提交關鍵詞并把學術信息返回給用戶的一臺機器,如百度學術搜索(http://xueshu.baidu.com),輸入關鍵詞“模式識別”后返回給用戶的是一個與關鍵詞相關網頁信息。

4.3 知識融合、知識圖譜構建、知識圖譜的索引

從不同數據源獲得的學術信息實體關系可以起到相互補充的作用,同時也存在不同數據源雖然結構不同,但都表示同一個知識,要多個數據源的知識就牽涉到知識融合。如關系型數據庫里面的數據是二維表格,而學術搜索引擎中我們得到的就是規范的html 文本。

為了從不同數據源中抽取實體關系構建知識圖譜,本文采用了知識圖譜常用的存儲方式:三元組(E,R,E)形式,也就是實體-關系-實體的形式,這種方式的底層儲存可以有多種形式:可以采用一般的關系數據庫,也可以采用RDF 存儲、圖數據庫等。整理多個數據源的實體及關系后存儲到一定形式的數據庫中,就完成了知識圖譜的底層構建。

ElasticSearch 是一個基于Lucene 的搜索服務器,是一種分布式的實時、穩定、方便的開源搜索引擎,同時提供多種開發語言的API。同時很多機構和個人編寫了很多開源的數據同步插件,可以很容易地把關系型及非關系型數據庫中的數據進行索引,同時提供檢索服務。學術信息搜索的檢索模塊,知識庫的索引都可以用ElasticSearch 很容易地實現。

5.實驗

5.1 實驗環境及數據源

實驗在Windows 10 下進行,數據采集于某出版行業數據庫及百度學術搜索引擎,獲取某出版網站輸入關鍵詞“數據挖掘”按照主題搜索獲取大約82680 條數據,然后選中前500 條通過導出參考文獻獲取第一批實驗數據,標注為DB_1。通過網絡爬蟲技術在百度學術搜索中輸入關鍵詞“數據挖掘”,獲取返回數據的前500 條作為第二批實驗數據,標注為DB_2。對兩批實驗數據完成實體關系抽取、知識融合、知識庫構建。同時用MySQL 數據庫進行三元組信息的存儲,用ElasticSearch 進行知識圖譜的索引及檢索。

5.2 實驗步驟

5.2.1 實驗平臺的搭建

實驗環境在Windows 10 上安裝與部署,并建立數據庫knowledgegraph,表knowgraph 作為實體關系的知識圖譜存儲。

5.2.2 實體關系抽取過程

第一批實驗數據很規范地顯示作者、期刊、論文等信息,采用文本讀取分割摘取的方式解析出作者、期刊、論文等學術信息實體,同時實體關系寫入知識圖譜庫。

第二批實驗數據采用jsoup(Java 版的html 解析庫,https://jsoup.org/),對爬取的網頁信息通過html 屬性result sc_default_result xpath-log 進行解析拆分得出學術信息實體關系,寫入知識圖譜庫,同時注意庫中已經有的實體關系不再重復寫入。最終得出實體關系情況,然后通過JSON 數據解析,再把數據轉換成graphviz-2.38 可以識別圖數據格式。最后通過Graphviz 繪制圖形結構。

6.結語

為了促進學術信息的智能化搜索,本文運用到了學術信息知識圖譜的方法。首先綜述了知識圖譜及其目前的應用領域,其次設計了科技論文檢索系統基于作者和論文的知識圖譜構建模型。詳細設計學術信息實體關系抽取、知識融合等知識圖譜構建的關鍵方法,最后實驗利用某出版行業現有的數據和百度學術搜索的數據實驗了數據采集,實體關系抽取,知識融合、學術信息檢索、知識圖譜自動繪制等構建了基于知識圖譜的學術信息檢索系統。

猜你喜歡
信息檢索搜索引擎信息
訂閱信息
中華手工(2017年2期)2017-06-06 23:00:31
醫學期刊編輯中文獻信息檢索的應用
新聞傳播(2016年18期)2016-07-19 10:12:06
基于神經網絡的個性化信息檢索模型研究
網絡搜索引擎亟待規范
中國衛生(2015年12期)2015-11-10 05:13:38
展會信息
中外會展(2014年4期)2014-11-27 07:46:46
基于Nutch的醫療搜索引擎的研究與開發
廣告主與搜索引擎的雙向博弈分析
教學型大學《信息檢索》公選課的設計與實施
河南科技(2014年11期)2014-02-27 14:10:19
公共圖書館信息檢索服務的實踐探索——以上海浦東圖書館為例
圖書館界(2013年5期)2013-03-11 18:50:29
搜索,也要“深搜熟濾”
主站蜘蛛池模板: 国产又爽又黄无遮挡免费观看| 欧美精品色视频| 伊人天堂网| 国产午夜不卡| 精品国产女同疯狂摩擦2| 亚洲综合婷婷激情| 亚洲视频在线观看免费视频| 免费xxxxx在线观看网站| 成人午夜视频在线| 久久久久国色AV免费观看性色| 97综合久久| 在线欧美一区| 日本影院一区| 精品无码人妻一区二区| 亚洲人成影院午夜网站| 91久久大香线蕉| 成人国产精品一级毛片天堂 | 手机永久AV在线播放| 日韩毛片免费视频| 久久亚洲国产视频| 性色在线视频精品| 亚洲浓毛av| 国产欧美自拍视频| 国产成人精品视频一区二区电影 | 免费国产高清视频| 日本www色视频| 99re这里只有国产中文精品国产精品| 日韩精品亚洲人旧成在线| 无码高清专区| 一级在线毛片| 亚洲男女在线| www.亚洲色图.com| 色综合天天综合| 老色鬼久久亚洲AV综合| 亚洲Av综合日韩精品久久久| 国产在线专区| 久久久久无码精品国产免费| 国产91九色在线播放| 国产资源免费观看| 99久久精彩视频| 久久不卡精品| 澳门av无码| 精品亚洲麻豆1区2区3区| 99热这里只有成人精品国产| 国产精品亚洲一区二区三区z| 国产在线视频自拍| 无码国内精品人妻少妇蜜桃视频 | 美女免费黄网站| 亚洲国产欧洲精品路线久久| 国产又粗又猛又爽视频| 欧美人与牲动交a欧美精品| 国产精品太粉嫩高中在线观看| 99视频在线精品免费观看6| 国产精品亚洲综合久久小说| 日韩精品无码免费一区二区三区 | 国产特级毛片| 欧美国产在线精品17p| 亚洲手机在线| 天堂在线视频精品| 自拍偷拍欧美日韩| 色综合中文综合网| 日本午夜在线视频| 国产亚洲成AⅤ人片在线观看| 麻豆精品国产自产在线| 在线国产你懂的| 小蝌蚪亚洲精品国产| 制服丝袜亚洲| 99无码熟妇丰满人妻啪啪| 福利小视频在线播放| 美女裸体18禁网站| 国产一区免费在线观看| 欧美在线视频不卡| 精品伊人久久久大香线蕉欧美| 国产人成午夜免费看| 中国国产A一级毛片| 日本一区二区不卡视频| 伊人久久大香线蕉成人综合网| 又黄又爽视频好爽视频| 国产人成乱码视频免费观看| 亚欧成人无码AV在线播放| 亚洲中文在线看视频一区| 国产在线高清一级毛片|