999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

結(jié)合知識(shí)圖譜的行業(yè)知識(shí)庫(kù)構(gòu)建方法研究*

2022-08-05 06:31:40王得強(qiáng)關(guān)立文
制造技術(shù)與機(jī)床 2022年8期
關(guān)鍵詞:文本用戶(hù)模型

王得強(qiáng) 吳 軍 關(guān)立文

(清華大學(xué)機(jī)械工程系,北京 100084)

近年來(lái),隨著技術(shù)的飛速發(fā)展,在制造業(yè)、醫(yī)療、農(nóng)業(yè)和電子商務(wù)等諸多領(lǐng)域都產(chǎn)生了大量的行業(yè)數(shù)據(jù)和異構(gòu)知識(shí),其中有些數(shù)據(jù)以資料文獻(xiàn)形式被收錄于中國(guó)知網(wǎng)、WOS 等大型的資料檢索庫(kù),有些數(shù)據(jù)則以圖文等形式存在于網(wǎng)頁(yè)中,而這些數(shù)據(jù)的獲取過(guò)程都存在著查詢(xún)時(shí)間長(zhǎng)、查詢(xún)結(jié)果缺乏針對(duì)性及查詢(xún)過(guò)程缺乏智能化等問(wèn)題。此外,諸多行業(yè)知識(shí)庫(kù)也存在著數(shù)據(jù)的冗余性和搜索的低效性等問(wèn)題,以制造業(yè)為例,當(dāng)前制造業(yè)中產(chǎn)品在設(shè)計(jì)、制造、裝配和服務(wù)等生命周期過(guò)程中會(huì)產(chǎn)生大量的相關(guān)數(shù)據(jù)和知識(shí),而它們的存儲(chǔ)普遍存在著冗余性較高、分布分散、關(guān)聯(lián)性較弱等問(wèn)題[1],如何從冗余的數(shù)據(jù)中抽取有用信息并有效表達(dá)數(shù)據(jù)之間的內(nèi)在關(guān)聯(lián),進(jìn)一步利用數(shù)據(jù)的關(guān)聯(lián)性實(shí)現(xiàn)高效的信息檢索和智能推薦,是當(dāng)前制造業(yè)乃至行業(yè)知識(shí)庫(kù)面臨的一個(gè)重要需求。

伴隨著機(jī)器學(xué)習(xí)等人工智能技術(shù)的飛速發(fā)展,自然語(yǔ)言處理、圖像識(shí)別等技術(shù)的應(yīng)用也越來(lái)越廣泛,比如各式各樣的聊天機(jī)器人、無(wú)人駕駛汽車(chē)等智能產(chǎn)品,它們的出現(xiàn)正在為人們的生活創(chuàng)造便利,而在行業(yè)知識(shí)庫(kù)的建設(shè)過(guò)程中,如何結(jié)合機(jī)器學(xué)習(xí)構(gòu)建知識(shí)圖譜使知識(shí)庫(kù)變得更加智能化,從而更好地服務(wù)行業(yè)研究人員和相關(guān)用戶(hù),促進(jìn)行業(yè)發(fā)展,則是本文研究的主要工作。

1 知識(shí)圖譜技術(shù)

知識(shí)圖譜,在圖書(shū)情報(bào)界稱(chēng)為知識(shí)域可視化或知識(shí)領(lǐng)域映射地圖,是顯示知識(shí)發(fā)展進(jìn)程與結(jié)構(gòu)關(guān)系的一系列各種不同的圖形,用可視化技術(shù)描述知識(shí)資源及其載體,挖掘、分析、構(gòu)建、繪制和顯示知識(shí)及它們之間的相互聯(lián)系,進(jìn)而形象地展示學(xué)科的核心結(jié)構(gòu)、發(fā)展歷史、前沿領(lǐng)域以及整體知識(shí)架構(gòu)達(dá)到多學(xué)科融合目的的現(xiàn)代理論。其本質(zhì)上是一種揭示實(shí)體之間關(guān)系的語(yǔ)義網(wǎng)絡(luò),其當(dāng)前一個(gè)普遍被接受的定義[2]是“知識(shí)圖譜本質(zhì)上是一種語(yǔ)義網(wǎng)絡(luò)(semantic network),網(wǎng)絡(luò)中的結(jié)點(diǎn)代表實(shí)體(entity)或者概念(concept),邊代表實(shí)體/概念之間的各種語(yǔ)義關(guān)系”。

知識(shí)圖譜最早于2012 年由Google 正式提出,其應(yīng)用是提升搜索引擎的性能。隨后,知識(shí)圖譜在輔助智能問(wèn)答、自然語(yǔ)言理解、推薦計(jì)算等多個(gè)方面展現(xiàn)出豐富的應(yīng)用價(jià)值。以輔助搜索技術(shù)為例,傳統(tǒng)的搜索引擎依靠網(wǎng)頁(yè)之間的超鏈接進(jìn)而實(shí)現(xiàn)網(wǎng)頁(yè)的搜索,而語(yǔ)義搜索是直接對(duì)事物進(jìn)行搜索,如人物、機(jī)構(gòu)和地點(diǎn)等。這些事物可能來(lái)自文本、圖片、視頻、音頻設(shè)備等各種信息資源。而知識(shí)圖譜和語(yǔ)義技術(shù)提供了關(guān)于這些事物的分類(lèi)、屬性和關(guān)系的描述,使得搜索引擎可以直接對(duì)事物進(jìn)行索引和搜索[3],如圖1 所示。

圖1 知識(shí)圖譜輔助搜索

在其他相關(guān)研究方面,廖開(kāi)際等[4]針對(duì)在線(xiàn)醫(yī)療問(wèn)答社區(qū)數(shù)據(jù)量大、規(guī)范性差、數(shù)據(jù)稀疏等問(wèn)題,構(gòu)建在線(xiàn)醫(yī)療社區(qū)問(wèn)答知識(shí)圖譜助力個(gè)性化醫(yī)療;錢(qián)玲飛等[5]在BiLSTM-CRF 模型的基礎(chǔ)上引入預(yù)訓(xùn)練模型對(duì)實(shí)體和開(kāi)放式關(guān)系進(jìn)行自動(dòng)抽取,提出了一種面向非結(jié)構(gòu)化專(zhuān)利信息的知識(shí)圖譜自動(dòng)構(gòu)建方法;楊波等[6]基于企業(yè)風(fēng)險(xiǎn)知識(shí)構(gòu)建知識(shí)圖譜,引入時(shí)間維度動(dòng)態(tài)觀測(cè)企業(yè)面臨的風(fēng)險(xiǎn)因素。Bloem P等[7]在RDF 編碼的知識(shí)圖譜上引入了一組新的實(shí)體分類(lèi)基準(zhǔn)多模態(tài)數(shù)據(jù)集,對(duì)于多個(gè)知識(shí)圖譜基準(zhǔn)實(shí)體分類(lèi)任務(wù)提供至少1 000 個(gè)實(shí)例的測(cè)試和驗(yàn)證集,每個(gè)實(shí)例包含了多種模態(tài)的數(shù)據(jù)描述和特征,每個(gè)任務(wù)都能夠以知識(shí)圖譜結(jié)構(gòu)特征進(jìn)行評(píng)估。中國(guó)科學(xué)院自動(dòng)化研究所張瑩瑩等[8]提出了基于多模態(tài)知識(shí)感知注意力機(jī)制的問(wèn)答模型,在學(xué)習(xí)知識(shí)圖譜中實(shí)體的多模態(tài)表示后從中尋找與問(wèn)答對(duì)相關(guān)聯(lián)的實(shí)體路徑,由此得到問(wèn)答對(duì)之間的交互關(guān)系,而對(duì)于連接問(wèn)答對(duì)的不同路徑間的重要性則通過(guò)注意力機(jī)制來(lái)判別。

2 基于機(jī)器學(xué)習(xí)和知識(shí)圖譜的行業(yè)知識(shí)庫(kù)建設(shè)

研究發(fā)現(xiàn),目前許多行業(yè)研究人員獲取資料的方式仍是以文本資料為主,對(duì)于這些散布于各個(gè)地方的數(shù)據(jù)資料,各行業(yè)的建設(shè)者們急需一個(gè)專(zhuān)用的智能知識(shí)庫(kù),這就需要在進(jìn)行知識(shí)庫(kù)建設(shè)時(shí)開(kāi)發(fā)相關(guān)知識(shí)提取與數(shù)據(jù)關(guān)聯(lián)技術(shù),利用機(jī)器學(xué)習(xí)算法對(duì)行業(yè)資料進(jìn)行精準(zhǔn)采集和深度挖掘,結(jié)合知識(shí)圖譜形象地展示行業(yè)所在的知識(shí)結(jié)構(gòu),最終為行業(yè)研究人員和相關(guān)用戶(hù)帶去更為智能便利的知識(shí)庫(kù)服務(wù)。

2.1 基于深度學(xué)習(xí)的知識(shí)圖譜自動(dòng)構(gòu)建技術(shù)

在行業(yè)知識(shí)圖譜的自動(dòng)構(gòu)建過(guò)程中涉及了諸多關(guān)鍵技術(shù),典型代表有命名實(shí)體識(shí)別和關(guān)系抽取等,其中命名實(shí)體識(shí)別可以從行業(yè)領(lǐng)域的非結(jié)構(gòu)化文本中抽取到預(yù)定義的本體所實(shí)例化的實(shí)體;關(guān)系抽取技術(shù)則可以用來(lái)提取行業(yè)非結(jié)構(gòu)化文本中所蘊(yùn)含的實(shí)體對(duì)在本體中定義的關(guān)系類(lèi)別。在以上技術(shù)等的支撐下,便可以自動(dòng)化地以pipeline 的方式構(gòu)建行業(yè)知識(shí)圖譜三元組。

(1)命名實(shí)體識(shí)別技術(shù)

命名實(shí)體識(shí)別(named entity recognition,NER),是指識(shí)別文本中具有特定意義的實(shí)體,主要包括人名、地名、機(jī)構(gòu)名、專(zhuān)有名詞等,以及時(shí)間、數(shù)量、貨幣、比例數(shù)值等文字。NER 技術(shù)的發(fā)展從早期基于詞典和規(guī)則的方法到傳統(tǒng)機(jī)器學(xué)習(xí)再到近年來(lái)的深度學(xué)習(xí)以及最近熱門(mén)的注意力機(jī)制、圖神經(jīng)網(wǎng)絡(luò)等方法,NER 技術(shù)在不斷適應(yīng)社會(huì)需求的同時(shí)也在隨其他技術(shù)的發(fā)展而不斷演進(jìn)。

基于詞典和規(guī)則的NER 方法使用簡(jiǎn)單,準(zhǔn)確率也較高,但詞典和規(guī)則庫(kù)的建立需要花費(fèi)大量時(shí)間和人力,而且不同的實(shí)體類(lèi)型需要定制相應(yīng)的規(guī)則,移植性差[9]?;诮y(tǒng)計(jì)機(jī)器學(xué)習(xí)的方法是利用特定的模型和已標(biāo)注好的訓(xùn)練集對(duì)文本中的詞進(jìn)行標(biāo)簽標(biāo)注,相關(guān)的NER 模型有隱馬爾可夫模型(hidden Markov model,HMM)、最大熵模型(maximum entropy Markov model,MEMM)、條件隨機(jī)場(chǎng)(conditional random fields,CRF)模型和支持向量機(jī)(SVM)模型。不過(guò)基于統(tǒng)計(jì)的機(jī)器學(xué)習(xí)算法對(duì)人工制定的特征依賴(lài)較強(qiáng),限制了該方法在僅有少量標(biāo)注數(shù)據(jù)集中的深入應(yīng)用。

近年來(lái)深度學(xué)習(xí)模型的發(fā)展非常迅速,其在NER 技術(shù)的相關(guān)應(yīng)用也受到了人們的重視,相較于之前傳統(tǒng)的機(jī)器學(xué)習(xí)模型,深度學(xué)習(xí)模型本身具有較強(qiáng)的泛化能力,主要可分為深度神經(jīng)網(wǎng)絡(luò)模型(如LSTM、GRU 等RNN 模型)、注意力模型和遷移學(xué)習(xí)模型。在深度神經(jīng)網(wǎng)絡(luò)模型方面,曾青霞等提出了BiLSTM-CRF 模型[10](如圖2,是目前應(yīng)用最廣泛的NER 方法之一),模型利用word2vec 進(jìn)行字符嵌入,將文本用字/詞向量形式表示后使用Bi-LSTM 網(wǎng)絡(luò)進(jìn)行有監(jiān)督訓(xùn)練,識(shí)別實(shí)體類(lèi)型并進(jìn)行標(biāo)簽標(biāo)注,CRF 使用動(dòng)態(tài)規(guī)劃算法找出最優(yōu)標(biāo)注序列[11]。在注意力模型方面,史占堂[12]等提出一種基于CHTE(CNN-head transformer encoder)的實(shí)體識(shí)別方法。該方法在多頭自注意力中結(jié)合了不同窗口大小的CNN,在增強(qiáng)局部特征表示的同時(shí)能夠捕獲潛在詞信息,在NER 技術(shù)中獲得了不錯(cuò)的表現(xiàn)。在遷移學(xué)習(xí)模型方面,Gligic L 等[13]針對(duì)標(biāo)注的電子健康記錄數(shù)據(jù)稀缺的問(wèn)題,對(duì)未注釋的電子記錄進(jìn)行預(yù)訓(xùn)練得到詞向量,通過(guò)遷移學(xué)習(xí)對(duì)神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練,取得了不錯(cuò)的效果。

圖2 基于Bi-LSTM-CRF 模型的命名實(shí)體識(shí)別方法

本文采用了Bert 和Ernie 預(yù)訓(xùn)練語(yǔ)言模型,采取序列標(biāo)注的方式進(jìn)行了命名實(shí)體識(shí)別,采用的MSRA-NER 數(shù)據(jù)集由微軟亞研院發(fā)布,主要包括人名、地名、機(jī)構(gòu)名等,最初采用Bert 的原因主要有以下兩點(diǎn):一是其中的Transformer 能比較好地捕捉語(yǔ)句中的雙向關(guān)系;二是Bert 使用了更強(qiáng)大的機(jī)器訓(xùn)練更大規(guī)模的數(shù)據(jù),使其結(jié)果達(dá)到了全新的高度。

不過(guò)本文研究對(duì)象主要是中文資料,考慮到中文的表達(dá)體系中有很多都是以詞語(yǔ)這種語(yǔ)義知識(shí)單元為主要對(duì)象,而B(niǎo)ERT 在處理中文任務(wù)時(shí)是通過(guò)預(yù)測(cè)一個(gè)漢字進(jìn)行建模,此時(shí)模型很難學(xué)出詞語(yǔ)級(jí)的語(yǔ)義單元,從而影響了對(duì)完整語(yǔ)義表示的認(rèn)知能力。在經(jīng)過(guò)多次實(shí)驗(yàn)測(cè)試和模型研究后,本文發(fā)現(xiàn)基于海量數(shù)據(jù)中的實(shí)體概念等先驗(yàn)語(yǔ)義知識(shí)進(jìn)行建模的Ernie 模型可以較好地學(xué)習(xí)中文語(yǔ)境下的語(yǔ)義關(guān)系。

經(jīng)過(guò)相同epoch 的訓(xùn)練后,Bert 和Ernie 在測(cè)試集上的表現(xiàn)如表1 所示,可見(jiàn)Bert 的效果還不錯(cuò),但Ernie 的表現(xiàn)更勝一籌,之后在驗(yàn)證集上的表現(xiàn)結(jié)果也是類(lèi)似,故本文最終選擇Ernie 作為NER 技術(shù)的基礎(chǔ)模型。

表1 Bert 和Ernie 在測(cè)試集上的表現(xiàn)

(2)關(guān)系抽取技術(shù)

通過(guò)NER 技術(shù)得到的實(shí)體之間通常沒(méi)有關(guān)聯(lián),此時(shí)關(guān)系抽取的目標(biāo)就是在已完成NER 的基礎(chǔ)上,進(jìn)一步挖掘?qū)嶓w之間的關(guān)聯(lián)關(guān)系,搭建起實(shí)體間內(nèi)部的語(yǔ)義橋梁[14]。

早期的關(guān)系抽取主要是通過(guò)模式匹配算法(schema matching)來(lái)完成實(shí)體關(guān)系識(shí)別和抽取,在進(jìn)行關(guān)系抽取之前,利用人工來(lái)構(gòu)造實(shí)體的特征詞典或規(guī)則并將其存儲(chǔ)。在進(jìn)行實(shí)體關(guān)系抽取任務(wù)時(shí),將存儲(chǔ)的規(guī)則與預(yù)處理后的非結(jié)構(gòu)文本相匹配,便可提取出三元關(guān)系組[15]。之后相繼發(fā)展出了基于統(tǒng)計(jì)機(jī)器學(xué)習(xí)和基于深度學(xué)習(xí)的關(guān)系抽取模型,不過(guò)基于統(tǒng)計(jì)機(jī)器學(xué)習(xí)的抽取模型存在計(jì)算量大、邊緣模糊等問(wèn)題。而基于深度學(xué)習(xí)的模型在理解高階語(yǔ)義特征時(shí)有更好的表現(xiàn),所以近年來(lái)受到了較多的關(guān)注。陳曉玲等人針對(duì)現(xiàn)有Word2vec、ELMo 和BERT 等語(yǔ)言模型存在無(wú)法解決多義詞、融合上下文能力差、運(yùn)行速度慢等缺點(diǎn),提出了嵌入ALBERT預(yù)訓(xùn)練語(yǔ)言模型的關(guān)系抽取模型[16],在植物描述文本的實(shí)體關(guān)系抽取任務(wù)中取得了不錯(cuò)的效果。

本文采用了Bert 和Ernie 預(yù)訓(xùn)練語(yǔ)言模型進(jìn)行了關(guān)系抽取實(shí)驗(yàn),采用的數(shù)據(jù)集是百度發(fā)布的DuEE 1.0 中文事件抽取數(shù)據(jù)集,包含65 個(gè)事件類(lèi)型的1.7 萬(wàn)個(gè)具有事件信息的句子(2 萬(wàn)個(gè)事件)。

經(jīng)過(guò)多次訓(xùn)練和實(shí)驗(yàn)測(cè)試后,基于Ernie 預(yù)訓(xùn)練模型的關(guān)系抽取方法表現(xiàn)更加出色,最終本文采用Ernie 作為關(guān)系抽取技術(shù)的基礎(chǔ)模型,之后在此基礎(chǔ)上再做改進(jìn)。

2.2 基于機(jī)器學(xué)習(xí)的多模態(tài)資料挖掘

對(duì)于多數(shù)歸檔到現(xiàn)有資料庫(kù)(如CNKI、WOS)中的文獻(xiàn)資料,它們給出了關(guān)于自身內(nèi)容的關(guān)鍵詞和摘要以方便讀者進(jìn)行查詢(xún)學(xué)習(xí),然而這些對(duì)于許多散落于網(wǎng)頁(yè)上的資料來(lái)說(shuō)并不具備,因此如何對(duì)這些資料進(jìn)行關(guān)鍵詞提取和摘要總結(jié)是我們?cè)诮ㄔO(shè)行業(yè)智能知識(shí)庫(kù)時(shí)需要考慮的問(wèn)題。

關(guān)鍵詞提取算法一般分為有監(jiān)督和無(wú)監(jiān)督兩類(lèi)。有監(jiān)督的提取方法是首先構(gòu)建一個(gè)詞表,然后判斷文檔與詞表中每個(gè)詞的匹配程度,以類(lèi)似打標(biāo)簽的方式提取關(guān)鍵詞,精度較高但需要大量的標(biāo)注數(shù)據(jù)和更新數(shù)據(jù),人工成本比較高。無(wú)監(jiān)督方法則不需要人工構(gòu)建和維護(hù)的詞表,目前較常用的算法主要有TF-IDF 算法、TextRank 算法和主題模型算法(包括LSA、LSI、LDA 等)。

知識(shí)庫(kù)的數(shù)據(jù)源來(lái)自眾多平臺(tái),其形式眾多,比如文本、語(yǔ)音、圖片甚至視頻形式。因此需要利用知識(shí)提取與關(guān)聯(lián)技術(shù)對(duì)其中的生產(chǎn)技術(shù)進(jìn)行精準(zhǔn)采集與深度挖掘,通過(guò)語(yǔ)義挖掘和知識(shí)推理構(gòu)建提取與關(guān)聯(lián)關(guān)系,對(duì)多模態(tài)資料賦予統(tǒng)一文本樣式的標(biāo)簽,方便后續(xù)構(gòu)建多源技術(shù)資料的知識(shí)圖譜。

對(duì)于文本數(shù)據(jù),可以根據(jù)其文本長(zhǎng)短進(jìn)行內(nèi)容劃分、摘要提取等預(yù)處理,之后再進(jìn)行文本分類(lèi)便可提取文本數(shù)據(jù)對(duì)應(yīng)的標(biāo)簽。

對(duì)于語(yǔ)音數(shù)據(jù),可通過(guò)語(yǔ)音分離技術(shù)對(duì)目標(biāo)語(yǔ)音進(jìn)行預(yù)處理,以實(shí)現(xiàn)語(yǔ)音增強(qiáng)和抗干擾,其中語(yǔ)音分離的整個(gè)過(guò)程主要分為五個(gè)部分:時(shí)頻分解->特征提取->分離目標(biāo)->模型訓(xùn)練->波形合成。之后進(jìn)行特征提取,在解碼器中利用聲學(xué)模型、詞典和語(yǔ)言模型將聲音信號(hào)轉(zhuǎn)化成文本數(shù)據(jù),過(guò)程如圖3 所示。進(jìn)而再進(jìn)行文本分類(lèi)便可提取語(yǔ)音數(shù)據(jù)對(duì)應(yīng)的標(biāo)簽。

圖3 語(yǔ)音數(shù)據(jù)的分類(lèi)流程

對(duì)于圖片數(shù)據(jù),可以通過(guò)圖片內(nèi)容識(shí)別、圖像理解等技術(shù)對(duì)圖片中的信息進(jìn)行提取,并轉(zhuǎn)化成相對(duì)應(yīng)的文本,之后通過(guò)文本分類(lèi)技術(shù)便可得到原圖片數(shù)據(jù)對(duì)應(yīng)的標(biāo)簽。

對(duì)于視頻數(shù)據(jù),可以采用多模態(tài)模型進(jìn)行處理,即同時(shí)采集視頻中的圖像信息和語(yǔ)音信息,將對(duì)于圖像信息的采集,可以輸入視頻劃分成K個(gè)片段,每個(gè)隨機(jī)取一幀,之后可利用兩個(gè)CNN 網(wǎng)絡(luò)分別提取空間和時(shí)序特征。在進(jìn)行特征處理后和語(yǔ)音信息進(jìn)行融合,最終輸出視頻數(shù)據(jù)對(duì)應(yīng)的解釋文本,之后通過(guò)文本分類(lèi)技術(shù)便可得到原視頻數(shù)據(jù)對(duì)應(yīng)的標(biāo)簽。

最終,由顯性知識(shí)、隱性知識(shí)和推理產(chǎn)生的新知識(shí)作為智能生產(chǎn)線(xiàn)關(guān)鍵技術(shù)知識(shí)庫(kù)開(kāi)發(fā)所需要的知識(shí)源,由多模態(tài)技術(shù)資料標(biāo)簽構(gòu)成的知識(shí)圖譜則助力實(shí)現(xiàn)智能生產(chǎn)線(xiàn)關(guān)鍵技術(shù)知識(shí)庫(kù)的智能檢索與推薦等功能。

2.3 基于知識(shí)圖譜的知識(shí)庫(kù)智能引導(dǎo)和推薦

對(duì)于獲取到的文本數(shù)據(jù),除了直接進(jìn)行歸類(lèi)入庫(kù)之外,還對(duì)這些文本數(shù)據(jù)集進(jìn)行了可視化預(yù)處理,將某個(gè)領(lǐng)域的數(shù)據(jù)集進(jìn)行屬性整理和識(shí)別,生成該領(lǐng)域的詞頻云圖和知識(shí)圖譜,用戶(hù)可以自行選擇瀏覽,更加直觀地了解和把握該領(lǐng)域的發(fā)展情況和脈絡(luò),為后續(xù)查詢(xún)使用提供了一個(gè)很好的參考和指導(dǎo),具體應(yīng)用可見(jiàn)后文。

另外,引文與其所在的新發(fā)表的論文在內(nèi)容上大多是相關(guān)的,而之后新發(fā)表的論文又被其他論文引用……伴隨著科學(xué)研究的不斷推進(jìn),逐漸形成了一個(gè)知識(shí)重組到產(chǎn)生新知識(shí)再到知識(shí)重組的循環(huán),這個(gè)循環(huán)隨著新知識(shí)的出現(xiàn)變得越來(lái)越大,最終形成了引文網(wǎng)絡(luò),借此可以追根溯源,也可以追蹤未來(lái)發(fā)展。由此便可以為知識(shí)庫(kù)設(shè)計(jì)智能推薦系統(tǒng),其基礎(chǔ)就是數(shù)據(jù)集中所有的文獻(xiàn)資料組成的知識(shí)網(wǎng)絡(luò),網(wǎng)絡(luò)中節(jié)點(diǎn)之間的橋梁則可以是關(guān)鍵詞、作者等,由此加強(qiáng)各文獻(xiàn)之間的紐帶關(guān)系,最終服務(wù)于用戶(hù)。

以關(guān)鍵詞的智能推薦為例,作為一篇論文的核心概括,對(duì)關(guān)鍵詞的分析可使讀者大致把握文章主題。一般認(rèn)為,關(guān)鍵詞對(duì)在同一文獻(xiàn)中出現(xiàn)的次數(shù)越多,則代表這兩個(gè)主題越緊密。因此,計(jì)算出文獻(xiàn)數(shù)據(jù)集內(nèi)的所有主題詞對(duì)的共現(xiàn)頻率并將其作為該詞對(duì)的關(guān)聯(lián)權(quán)重,之后構(gòu)建由這些詞對(duì)關(guān)聯(lián)權(quán)重所組成的共詞網(wǎng)絡(luò)。當(dāng)用戶(hù)輸入查詢(xún)意圖時(shí),除了對(duì)該意圖進(jìn)行精確匹配和模糊匹配之外,系統(tǒng)會(huì)根據(jù)共詞網(wǎng)絡(luò)找出與用戶(hù)意圖相關(guān)的其他關(guān)鍵詞,并根據(jù)權(quán)重大小進(jìn)行重要性排序,從而實(shí)現(xiàn)為用戶(hù)提供更深層次的知識(shí)推薦。

考慮到部分技術(shù)資料可能未提供較為全面的關(guān)鍵詞屬性,對(duì)于這樣的文章,本文通過(guò)之前訓(xùn)練好的Ernie-NER 模型對(duì)其進(jìn)行實(shí)體識(shí)別,再結(jié)合ErnieGram 關(guān)系抽取等模型對(duì)其建立知識(shí)圖譜進(jìn)行技術(shù)鋪墊。

此類(lèi)方法還可以用在作者的智能推薦中,即構(gòu)建一個(gè)作者共現(xiàn)網(wǎng)絡(luò)。系統(tǒng)除了精確查詢(xún)和模糊匹配用戶(hù)的查詢(xún)意圖,還會(huì)根據(jù)共詞網(wǎng)絡(luò)找出與相關(guān)的其他作者并進(jìn)行更深層次的知識(shí)推薦。

2.4 行業(yè)知識(shí)庫(kù)建設(shè)

首先提取和分析來(lái)自生產(chǎn)制造企業(yè)、科學(xué)研究機(jī)構(gòu)、互聯(lián)網(wǎng)數(shù)據(jù)庫(kù)等的知識(shí)數(shù)據(jù),通過(guò)挖掘現(xiàn)有生產(chǎn)實(shí)踐積累與互聯(lián)網(wǎng)資源,基于語(yǔ)義挖掘技術(shù)構(gòu)建知識(shí)圖譜,實(shí)現(xiàn)了大量技術(shù)知識(shí)的提取與關(guān)聯(lián),開(kāi)發(fā)了多種行業(yè)的技術(shù)資料庫(kù),包括行業(yè)專(zhuān)題知識(shí)庫(kù)、行業(yè)專(zhuān)利技術(shù)庫(kù)、行業(yè)技術(shù)文獻(xiàn)庫(kù)等,如圖4所示。具體設(shè)計(jì)工作大體上可以分為以下幾個(gè)步驟:需求分析、概要設(shè)計(jì)、詳細(xì)設(shè)計(jì)和代碼編寫(xiě)等。

圖4 行業(yè)知識(shí)庫(kù)解析

完成前期調(diào)研工作后,在技術(shù)資料庫(kù)建設(shè)上,利用C#語(yǔ)言在VS2017 軟件平臺(tái)上編寫(xiě)了控制臺(tái)應(yīng)用程序,并鏈接至 SQL Server 2014 數(shù)據(jù)庫(kù)處理數(shù)據(jù)資料。

在登錄界面上設(shè)置了3 層權(quán)限管理功能用來(lái)分配用戶(hù)權(quán)限:超級(jí)管理員、普通管理員和普通用戶(hù)。其中,超級(jí)管理員可以添加/刪除用戶(hù),配置所有用戶(hù)權(quán)限并使用數(shù)據(jù)庫(kù)的所有功能。普通管理員可以錄入或者修改文件,在對(duì)文件進(jìn)行上述操作時(shí)系統(tǒng)會(huì)記錄相關(guān)信息以便后續(xù)聯(lián)系。而普通用戶(hù)擁有在資料庫(kù)中查詢(xún)某項(xiàng)資料以及查看所有資料的權(quán)限,同時(shí)也可以在系統(tǒng)留言區(qū)對(duì)管理員提出意見(jiàn),方便和維護(hù)者進(jìn)行溝通,有利于技術(shù)資料庫(kù)的不斷發(fā)展。其中系統(tǒng)初期的登錄界面如圖5 所示。

圖5 知識(shí)庫(kù)系統(tǒng)登錄界面

除了系統(tǒng)登錄模塊,整個(gè)知識(shí)庫(kù)系統(tǒng)還包括知識(shí)庫(kù)查詢(xún)、建議反饋和知識(shí)庫(kù)維護(hù)三大模塊,下面將主要介紹知識(shí)庫(kù)查詢(xún)模塊。

如圖6 所示為知識(shí)庫(kù)查詢(xún)初始界面,通過(guò)點(diǎn)擊主菜單中的“智能知識(shí)檢索知識(shí)庫(kù)”按鈕進(jìn)入。此界面主要有5 個(gè)功能按鈕:“詞頻云圖”、“查詢(xún)”、“知識(shí)圖譜”、“實(shí)時(shí)筆記”和“詳文網(wǎng)站”。在界面的資料表格中,會(huì)自動(dòng)列出當(dāng)前數(shù)據(jù)庫(kù)中所包含的所有資料信息,當(dāng)用戶(hù)點(diǎn)擊某項(xiàng)資料的任意單元格信息(如作者、文章名稱(chēng))時(shí),在表格右側(cè)的副文本框中會(huì)自動(dòng)列出該單元格所屬文獻(xiàn)的摘要或總結(jié),方便參考和學(xué)習(xí)。

圖6 知識(shí)庫(kù)查詢(xún)界面

若用戶(hù)有明確的查詢(xún)需求,則可直接選擇查詢(xún)條件并輸入關(guān)鍵字,點(diǎn)擊 “查詢(xún)”按鈕即可完成精確查詢(xún)和模糊匹配,查詢(xún)出的資料呈現(xiàn)到中部的表格中。若用戶(hù)未查詢(xún)到理想的資料,可以選擇系統(tǒng)的智能推薦功能:在界面的右下方有兩信息欄,分別是“作者推薦”和“關(guān)鍵詞推薦”,當(dāng)用戶(hù)輸入關(guān)鍵詞查詢(xún)后,在兩信息欄中會(huì)自動(dòng)提供相關(guān)信息,比如查詢(xún)條件為作者“劉克平”,如圖7 所示,在“作者推薦”信息欄中會(huì)顯示所有和“劉克平”在該領(lǐng)域共同發(fā)文的作者,并根據(jù)共同發(fā)表次數(shù)排序,使用戶(hù)能了解與目標(biāo)作者有研究聯(lián)系的其他作者,此時(shí)用戶(hù)點(diǎn)擊推薦欄中的任一位新作者(如“李巖”),在左下方表格中會(huì)顯示和該作者直接相關(guān)的文獻(xiàn)資料推薦給用戶(hù)。對(duì)于關(guān)鍵詞推薦,過(guò)程基本類(lèi)似,此處便不再贅述。

圖7 查詢(xún)界面的智能推薦功能

對(duì)于沒(méi)有明確查詢(xún)目標(biāo)或者對(duì)該領(lǐng)域還不太了解的用戶(hù),本系統(tǒng)通過(guò)智能引導(dǎo)設(shè)計(jì)體現(xiàn)了它的友好性。用戶(hù)選擇包括“詞頻云圖”和“知識(shí)圖譜”,當(dāng)點(diǎn)擊“詞頻云圖”按鈕后,會(huì)彈出詞頻云圖選擇界面,如圖8a 所示,此時(shí)用戶(hù)可選擇該領(lǐng)域中的“作者詞頻云圖”或“關(guān)鍵詞詞頻云圖”,當(dāng)點(diǎn)擊“知識(shí)圖譜”按鈕后,會(huì)彈出知識(shí)圖譜選擇界面,如圖8b 所示,此時(shí)用戶(hù)可以選擇該領(lǐng)域中的“關(guān)鍵詞圖譜”、“作者圖譜”或“所屬機(jī)構(gòu)圖譜”,在每個(gè)圖譜下還可以選擇“整體網(wǎng)絡(luò)”和“子熱點(diǎn)網(wǎng)絡(luò)”。通過(guò)瀏覽“詞頻云圖”和“知識(shí)圖譜”,用戶(hù)可以更迅速地把握該領(lǐng)域的主要研究熱點(diǎn),為之后的進(jìn)一步使用該系統(tǒng)做好鋪墊。

圖8 智能引導(dǎo)模塊設(shè)計(jì)效果圖

此外,為方便用戶(hù)學(xué)習(xí),在查詢(xún)界面設(shè)計(jì)了支持圖片插入和保存功能的筆記記錄板,當(dāng)用戶(hù)記錄好圖文筆記后,點(diǎn)擊相關(guān)按鈕即可保存。另外還有建議反饋模塊、可進(jìn)行資料編輯的知識(shí)庫(kù)維護(hù)模塊等等。

2.5 知識(shí)庫(kù)建設(shè)流程總結(jié)

在資料庫(kù)建設(shè)時(shí),從行業(yè)原始技術(shù)資料中提取各領(lǐng)域的知識(shí)網(wǎng)絡(luò)是行業(yè)技術(shù)資料庫(kù)開(kāi)發(fā)的關(guān)鍵問(wèn)題,由于原始技術(shù)資料具有海量分散異構(gòu)的特點(diǎn),實(shí)現(xiàn)對(duì)行業(yè)知識(shí)的深度挖掘與精細(xì)管理較為困難。因此本課題提出了一種基于知識(shí)圖譜的工業(yè)技術(shù)知識(shí)入庫(kù)方法,實(shí)現(xiàn)實(shí)體與實(shí)體之間、實(shí)體與其屬性參數(shù)之間的關(guān)聯(lián),設(shè)計(jì)了多個(gè)維度的行業(yè)技術(shù)資料庫(kù)開(kāi)發(fā)、完善與維護(hù)方案。綜上所述,一個(gè)行業(yè)技術(shù)知識(shí)庫(kù)的開(kāi)發(fā)過(guò)程可歸納為如圖9 所示。

圖9 行業(yè)知識(shí)庫(kù)開(kāi)發(fā)過(guò)程

3 結(jié)語(yǔ)

本文以當(dāng)今行業(yè)知識(shí)庫(kù)建設(shè)朝著專(zhuān)業(yè)化和智能化發(fā)展的需求出發(fā),結(jié)合機(jī)器學(xué)習(xí)和知識(shí)圖譜的相關(guān)技術(shù)簡(jiǎn)要介紹了相關(guān)的發(fā)展和應(yīng)用情況,并以自身研究項(xiàng)目為例進(jìn)行了部分相關(guān)技術(shù)的詳細(xì)介紹。

猜你喜歡
文本用戶(hù)模型
一半模型
重要模型『一線(xiàn)三等角』
重尾非線(xiàn)性自回歸模型自加權(quán)M-估計(jì)的漸近分布
在808DA上文本顯示的改善
基于doc2vec和TF-IDF的相似文本識(shí)別
電子制作(2018年18期)2018-11-14 01:48:06
關(guān)注用戶(hù)
3D打印中的模型分割與打包
關(guān)注用戶(hù)
關(guān)注用戶(hù)
文本之中·文本之外·文本之上——童話(huà)故事《坐井觀天》的教學(xué)隱喻
主站蜘蛛池模板: 中文字幕日韩视频欧美一区| 国产精品美女网站| 99re热精品视频国产免费| 真人免费一级毛片一区二区| h视频在线观看网站| 波多野结衣一区二区三区四区| 国产网站一区二区三区| 亚洲无码日韩一区| 欧洲一区二区三区无码| 欧美一级一级做性视频| 直接黄91麻豆网站| 狂欢视频在线观看不卡| 伊人五月丁香综合AⅤ| 狠狠亚洲五月天| 国内精品视频区在线2021| 99这里只有精品免费视频| 国产18在线| 亚洲一欧洲中文字幕在线| 97精品久久久大香线焦| 亚洲另类国产欧美一区二区| 国产免费久久精品99re不卡| A级毛片高清免费视频就| 国产高潮流白浆视频| 综合五月天网| 狠狠色狠狠综合久久| 国产网站在线看| 国产一区二区精品福利| 国产成人一区| 色AV色 综合网站| 久久久久中文字幕精品视频| 亚洲视频二| 国产SUV精品一区二区| 国产喷水视频| 国产自在线播放| 欧美色综合久久| 中文字幕色在线| av一区二区三区在线观看| 精品国产www| 天天色天天综合| 欧美中日韩在线| 91精品专区国产盗摄| 午夜国产大片免费观看| 91精品国产一区| 伊人激情综合网| 五月激情婷婷综合| 国产精品污污在线观看网站| 日韩无码真实干出血视频| 大学生久久香蕉国产线观看| 色悠久久久久久久综合网伊人| 色婷婷在线播放| 亚洲成AV人手机在线观看网站| 亚洲日韩国产精品无码专区| 九九香蕉视频| 亚洲成A人V欧美综合天堂| 女人18毛片一级毛片在线 | 婷婷伊人五月| 免费人成在线观看视频色| 国产69囗曝护士吞精在线视频| 亚洲AⅤ综合在线欧美一区| 国产真实乱子伦精品视手机观看 | 高清精品美女在线播放| 国产精品99一区不卡| 免费播放毛片| 思思热精品在线8| 久久综合九色综合97网| 99精品视频九九精品| 欧美另类第一页| 91久久国产成人免费观看| 欧美精品黑人粗大| 99视频国产精品| 国产色伊人| 91久草视频| 中文无码毛片又爽又刺激| 日韩第九页| 日韩天堂在线观看| 91午夜福利在线观看| 干中文字幕| 国产成人综合欧美精品久久| 伊人久久精品亚洲午夜| 亚洲视频影院| 亚洲精品天堂在线观看| 国产制服丝袜91在线|