999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

知識圖譜技術綜述及在糧蟲領域的應用

2021-08-24 08:37:38段夢詩
軟件導刊 2021年8期
關鍵詞:語義特征模型

段夢詩,肖 樂

(河南工業大學信息科學與工程學院,河南鄭州 450000)

0 引言

21 世紀人工智能經歷了從知識到大數據的過渡,符號主義的人工智能強調知識對智能的作用,但因需要大量的語料庫和規則庫,一般只適用于專用領域而不適用于智能系統。機器學習、深度學習算法的興起和發展能夠更準確、深入地挖掘出數據背后的新知識,但也因為深度學習只能提取潛在特征,抽取不到語義特征,所以要將符號主義與聯結主義相結合,即再次將知識與數據聯結,知識圖譜就是其中的一個重要表現。

知識圖譜由許多大規模的語義網絡組成[1]。相較于20 世紀七八十年代傳統的語義網絡,知識圖譜更能適應互聯網大數據時代應用需求,能夠自動獲取、構建大規模高質量的知識庫。具體來說,知識圖譜是用結構化的形式將客觀世界中的實體、概念及其語義關系以圖的形式呈現出來,使人們更加快速、準確地獲得所需信息,這也是機器理解自然語言的關鍵一步[2]。

目前知識圖譜在計算機視覺、語音處理和自然語言處理等領域產生了巨大的應用價值,在金融、醫療健康、教育、生物等領域有了巨大成就,然而知識圖譜在農業上的應用卻很少。根據聯合國糧農組織2020 年的一項調查,預測由新冠肺炎(COVID-19)導致的經濟萎縮將使全球饑餓人數增加8 300 萬,甚至達到1.32 億,若疫情得不到很好控制則會極大影響糧食生產,進而加劇全球糧食系統的脆弱性和供給不足。本文基于糧蟲知識圖譜構建應用系統,介紹了BiLSTM-CRF(Bi-directional Long Short-Term Memory,Conditional Random Fields)模型的實體命名抽取,并基于知識圖譜的智能問答進行初步實現。該系統能夠加強人們對農作物病蟲害了解進而增加農作物生產,也可查詢某種糧食或糧蟲特征,為所需人員提供智能問答服務,在一定程度上緩解糧食存儲壓力,為可持續發展提供保障。

1 知識圖譜構建過程

知識圖譜構建是一個系統工程。首先對獲取的數據進行三元組抽取,并對抽取的知識進行融合、加工、推理,實現自底向上的知識庫構建,最終實現知識圖譜與其他領域應用結合。知識圖譜構建架構如圖1 所示。

Fig.1 Knowledge map construction architecture圖1 知識圖譜構建架構

1.1 知識抽取

知識抽取是從非結構化和(半)結構化數據中獲取實體、概念及其之間的語義關系[3],將其形成結構化格式,并按一定規則加入到知識圖譜中。知識抽取是知識圖譜最基本也是最重要的技術,抽取的正確率和完整度直接影響知識圖譜的質量。知識抽取的關鍵技術分為實體抽取、關系抽取和屬性抽取。

1.1.1 實體抽取

早在1991 年的頂級IEEE 會議上,人們就提出了基于規則和詞典的實體抽取方法,如Rau 等[4]首次采用手工編寫規則和啟發式算法提取公司名稱,Rujun 等[5]使用計算機自動識別實體并構建詞典,然而固定規則模板表現出成本太高和耗時過長的缺點。為了尋找更好的特征表示方法,提高模型計算效率,研究者在2003 年的CoNNLL 會議上提出了統計機器學習的抽取方法,CRF[6]、SVM[7](Sup?port Vector Machine,支持向量機)等機器模型的出現使提取精度達到了95.0%以上,雙向LSTM 和注意力機制模型的多種特征結合使詞性也作為抽取的關鍵特征[8],中文實體抽取效果顯著提升。隨著深度學習的發展,Zhao 等[9]利用LSTM(Long Short-Term Memory,長短期記憶網絡)得到上下文信息的輸入信息,CRF 得到輸出有關聯的標注序列,有效使用過去和未來的標注來預測當前的標注;Ma 等[10]提出的Bi-LSTM+CRF+CNN 端到端的深度學習模型適合各種序列標注任務,解決了以前手工提取特征和數據預處理難題。

各種實體抽取模型比較如表1 所示。

Table 1 Comparison of entity extraction models表1 實體抽取模型比較

1.1.2 關系抽取和屬性抽取

經過實體抽取之后得到的是一個個零碎結點,為了得到易于人們理解的自然語言,還需要一條線將這些節點關聯起來,因此需要對文本語料進行關系抽取,形成所需的關系網絡。屬性抽取即抽取實體的屬性,可看作屬性與屬性值或實體與屬性值之間的一種關系,進而將屬性抽取問題看作關系抽取問題。

早期采用人工構造規則和模板的關系抽取方法,主要用語言學知識對輸入的種子進行分析并推理歸納出結果,但模板的編寫工作量巨大且要求較高,人們通過選取特征向量選擇適合的分類器進行類別判斷。Gao 等[11]利用深層句法分析特征對中文維基百科構建關系推理模型;Gan等[12]在句法特征基礎上結合詞法特征、語義特征等關系特征,使準確率、F 值相比于傳統的特征提取分別提高2.21%和4.98%,在抽取性能上有了明顯提升。

基于監督學習的關系抽取技術不僅包括基于特征抽取還包括基于核函數抽取,Guo 等[13]將徑向基核函數、卷積樹核函數、多項式核函數等多核融合方式對中文文本進行關系抽取。監督學習雖然提高了抽取準確率,但需要大量的標注信息,而無監督學習很好地解決了這一問題。Liu等[14]首次使用距離和位置限制獲取大量三元組,平均準確率為80.0%以上;Lin 等[15]提出在關系語句方面引入注意力機制,防止傳播錯誤標簽的語義信息進而提升學習效率。但無標簽標注導致其模型的準確率、召回率、F 值都較低,需要對其結果進行分析和處理才能得到可靠的結果,所以該技術還不是很成熟。

半監督學習很好地將這兩種方法進行結合,主要思想是使用少量標記數據并使用大量未標記數據。余麗等[16]通過Bootstrspping 自動挖掘詞語特征和位置特征,召回率提高了23.0%;Qin 等[17]通過評估模型和實例使實驗測試精確率達到了97%。半監督學習不僅降低了人工標記成本,還提高了數據的準確性,適用領域更廣。

傳統的機器學習算法在實體關系抽取過程中存在誤差傳播和標簽錯誤等問題,隨著深度學習的發展,深度學習和關系抽取相融合,模型有遞歸神經網絡RNN[18-19]、CNN[20-21]、LSTM[22-23],之后利用這些模型與注意力機制[24]、圖神經網絡(GraphConvolutionalNetworks,GCN)等相結合。Fu 等[25]通過GCN 解決關系重疊問題和實體重疊問題,加強了實體之間的關聯強度,其召回率、準確率、F值最佳情況下為60.0%,63.9%,61.9%;Zhang 等[26]結合雙向LSTM和GCN 剪枝依存解析樹獲得向量組合來進行關系抽取。

每種抽取方法各有優缺點,從每個方法的分類出發對實體抽取模型進行比較,如表2 所示。

Table 2 Comparison of relation extraction models表2 關系抽取模型比較情況

1.2 知識融合

由于抽取的知識來源廣泛,常常會出現來自不同數據源的知識重復、關聯不明確、異構、噪音、不確定等特征,因此必須對知識進行融合。曾鍵榮等[27]采用近鄰傳播聚類算法構建多特征融合表示模型解決同名專家消歧;Li 等[28]利用LSTM 自動學習所有類型共指的全局表示;對于出現的一詞多義現象,Geng 等[29]通過引入權重和相似度將數據處理為鍵值數據對形式,滿足大數據環境下對實體需求的指代消解。

1.3 知識加工

抽取的知識要素經過實體鏈接之后還需進行加工處理才得到高質量數據。Pisarev 等[30]在敘詞表基礎上抽取并添加所需的本體,自動構建教育領域的動態本體;鄭姝雅等[31]綜合機器學習、自然語言處理等技術,從非結構化的用戶生成文本內容中自動構建組織語義豐富的動態本體。信息和知識會隨著科技的發展不斷增長,人們的需求也會增多,而只有不斷地對知識庫進行更新才能順應時代要求。

1.4 知識推理

知識推理通過計算機推理知識庫中加工完成好的實體、屬性和關系等要素,增加對隱含知識的挖掘。當實體關系比較復雜時,知識推理可以補充知識圖譜內容,或進行完善、校驗。如實體推理對于三元組(A,father,B)和(B,father,C),可以推出(A,grandfather,C),典型的推理模型如PTrans[32]、RTrans[33]以及RPE[34]模型都極大地提高了知識推理結果。Bellomarini 等[35]采用多種啟發式方法達到解決遞歸和存在量化的終止問題,提供了一種大型知識圖的自動化推理體系結構;陳海旭等[36]引用概率學提出了PSTransE 算法,使知識圖譜的嵌入與路徑知識推理結合,考慮了關鍵路徑對推理結果的影響。隨著圖神經網絡的出現,人們使用生成圖神經網絡(GP-GNN)對非結構化文本進行關系推理從而獲得更準確的關系[37]。

以上對知識圖譜技術中知識抽取、知識融合、知識推理進行了理論闡述,宏觀知識的最終目標是應用于市場開發。國外常見的互聯網知識圖譜主要有FreeBase、DBpe?dia、BableNet、Schema、Wikidata 等,國內著名的中文知識圖譜有OpenKG、CN-DBpedia 等。將這些知識圖譜應用于實際項目,如谷歌、阿里電商等類似的人工智能搜索公司,實現智能語義搜索、個性化推薦、決策支持等功能。在金融、制造業、傳媒、醫療等領域,知識圖譜也是一個熱門的工具,然而國內還沒有公布有關農業專業領域知識圖譜。本文以糧蟲知識圖譜課題為例,介紹了基于BiLSTM-CRF 模型的實體抽取,在糧食害蟲知識圖譜基礎上初步實現智能問答,以案例形式對知識圖譜的構建及應用進行闡述。

2 知識圖譜在糧蟲領域應用

知識圖譜結合機器學習或深度學習算法能迅速組織和處理海量信息,從而實現智能搜索、問答、決策支持等智能糧蟲應用。將知識圖譜與糧蟲信息結合構建糧蟲信息圖數據庫,將糧蟲信息文本數據先存儲到關系型數據庫中,再以半自動化的方式提取出三元組并將其存入圖數據庫。糧蟲信息圖數據庫的構建為糧蟲信息深層次的知識發現和數據挖掘研究、糧蟲信息查詢云平臺提供了基礎數據支持。

2.1 數據獲取

針對百度百科等網頁格式統一的網頁,使用Python 編寫爬蟲獲取該網頁的html 源碼,再使用BeautifulSoup 解析html 源碼獲取對應的數據,存入數據庫。從各種輸入數據中將數據提取為預定義形式,數據提取的輸入輸出定義如下,輸入:從Internet 下載或抓取數據;輸出:按照每個糧蟲使用如下分類:英文名、危害方式、地區、形態特征分類、糧蟲特征、生活習性、生活習性分類、糧種、糧蟲、糧蟲分類、糧蟲識別、糧蟲識別分類、經濟意義、防治要點,進行分類并存儲到關系型數據庫中。

2.2 實體抽取

采用BiLSTM-CRF 網絡模型進行實體抽取,使用BiL?STM 解決序列標注問題,但這都只考慮了序列輸入的單詞信息,沒有考慮輸出標簽,而標簽轉移對提取序列標注問題至關重要。所以在BiLSTM 基礎上引入CRF,有效利用句子級別的標注信息。CRF 的優點是能對隱含狀態建模,學習狀態序列特征,缺點是需手動提取序列特征。本系統采用BiLSTM 與CRF 結合,在BiLSTM 后邊加一層CRF 以獲得兩者的優點。BiLSTM-CRF 模型不是輸出獨立的標簽,而是輸出有語義關聯的標簽序列。實體抽取模型如圖2所示。

Fig.2 Entity extraction process圖2 實體抽取流程

本實驗采用5 種模型的標注方法對抽取的每個實體進行標注,B1-P 表示病蟲害名首字,B2-P 表示病蟲害名的第二個字,M-P 表示病蟲害名的第三個字(非尾字),E 表示病蟲害名的尾字,O 表示其他;以此類推,B1-G 表示病蟲害名的第二個字,E-G 表示病蟲害名的尾字。

對于抽取后的實體進行模型訓練,只需表示出損失函數即可,采用負對數似然函數作為損失函數,公式如下:

y 為x 對應的真實標簽數據。模型訓練完成之后尋找最優路徑即得分最高路徑。模型準確率比較見表3。

Table 3 Model Accuracy (%)表3 模型準確率 (%)

實驗結果顯示,基于BiLSTM-CRF 模型實體抽取準確率高于HMM 等模型。

2.3 可視化展示

首先通過命名體識別抽取出實體,之后采用遠程監督的Bootstrapping 方法對關系進行抽取,使種子集合不斷迭代找出三元組。在可視化圖中點擊任意一個實體可動態顯示其三元組信息。本文一共提取3 250 個實體、4 467 個三元組。

在系統糧蟲查詢中輸入實體“豌豆象”,將會把豌豆象的所屬類別、蟲種分布、危害物種等相關信息以圖譜的方式呈現。實體查詢結果如圖3 所示。

Fig.3 Entity query圖3 實體查詢

在關系查詢中,輸入“麥蛾”和“玉米象”兩個實體,可將兩個實體之間的關系都連接起來,關系查詢結果如圖4所示。

Fig.4 Relational query圖4 關系查詢

輸入大谷盜并選擇關系類別“危害糧種”,關系查詢結果如圖5 所示。

Fig.5 Relational query圖5 關系查詢

2.4 智能問答

基于知識圖譜的自動問答可深層理解用戶的語義信息和檢索內容,將其映射到糧蟲知識圖譜的數據層,將搜索到的實體、屬性或語義關系以知識圖的方式呈現出來。即從知識圖中找到一個或多個對應的答案實體,以描述客觀事實問題。對于僅包含簡單語義的問題,自動回答問題的過程等同于將問題轉換為知識庫中的事實三元組,以便加快用戶搜索速度和提高查詢準確率,如智能搜索“危害小麥的糧蟲有什么”,將以動態圖顯示糧蟲的類別。智能問答結果如圖6 所示。

Fig.6 Intelligent Q&A圖6 智能問答

2.5 小結

在大數據環境下基于知識圖譜的應用越來越多,但是對于糧蟲圖譜的學術研究成果較少且不深入。后續目標要實現圖譜的私人定制及圖譜社區,為推動糧蟲圖譜應用打下基礎。用戶登錄后輸入希望圖譜化展示數據或上傳相關文件,系統根據數據自動構建圖譜。圖譜社區的目標主要是用戶向系統公開自己的私人圖譜,其他用戶可對公開的圖譜進行查詢等操作,實現知識共享。目前,雖然出現了實體關系聯合抽取方法,但準確率很低,所以主要困難仍是如何有效抽取出各種文本的高質量三元組。

3 結語與展望

知識圖譜與自然語言處理在各個領域不斷結合,不僅加快了用戶的搜索時間,還提高了用戶的體驗感與系統的可解釋性。本文構建了糧蟲知識圖譜,首先對獲取的數據進行預處理,并對處理的數據進行實體、關系抽??;通過知識融合對抽取后的數據進行實體鏈接與合并。本文對糧蟲知識圖譜進行評估,對糧蟲圖譜應用進行了可視化展示。

基于糧蟲構建知識圖譜,通過查閱大量文獻提出以下問題與研究方向:

(1)從Wikipedia 等大數據庫中獲取的數據,不僅來源于結構化數據,更多來源于半結構化和非結構化數據。同時,隨著科技的發展,人們需求逐漸增多,產生的數據也會越來越多,如何準確智能地提高知識抽取效率并挖掘高質量的知識是未來研究方向。

(2)在遠距離監督關系抽取中會產生信息誤傳播。為了減少錯誤標簽,需不斷改進相關算法,提出圖結構或注意力機制模型,避免數據不平衡,但需要不斷提高算法性能。

(3)在不同數據源中抽取“臟”數據或冗余數據時,有時為了保證融合的質量,融合效率可能不高,如何獲得高質量的數據是未來研究趨勢。

(4)目前大多數知識圖譜只適用于特定領域,雖然已有基于開放領域的知識抽取,但與原有領域的專業化圖譜比較還有很大區別,較差的移植性導致知識圖譜構建平臺的通用性很難實現。

(5)知識圖譜未來的發展正如一個公式表示的:NLP+KG=NLU,自然語言處理將通過知識圖譜終將走向自然語言理解。

猜你喜歡
語義特征模型
一半模型
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
語言與語義
如何表達“特征”
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
抓住特征巧觀察
3D打印中的模型分割與打包
“上”與“下”語義的不對稱性及其認知闡釋
現代語文(2016年21期)2016-05-25 13:13:44
認知范疇模糊與語義模糊
主站蜘蛛池模板: 亚洲丝袜中文字幕| AV无码一区二区三区四区| 亚洲国产成人无码AV在线影院L| 久久美女精品| 亚洲系列无码专区偷窥无码| 日韩美毛片| 天堂亚洲网| 国产精选小视频在线观看| 青草国产在线视频| 草草线在成年免费视频2| 午夜免费视频网站| 国产拍揄自揄精品视频网站| 制服丝袜在线视频香蕉| 久久精品国产999大香线焦| 亚洲精品无码人妻无码| 久久人妻xunleige无码| 激情综合婷婷丁香五月尤物| 激情无码字幕综合| 无码丝袜人妻| 国产精品刺激对白在线| 国产精品jizz在线观看软件| 国产永久无码观看在线| 噜噜噜久久| 国产精品毛片一区视频播| 漂亮人妻被中出中文字幕久久| 国产理论精品| 国产人免费人成免费视频| 久青草网站| 国产女人水多毛片18| 亚洲综合狠狠| 91精品小视频| 国产欧美精品一区二区| а∨天堂一区中文字幕| 精品成人免费自拍视频| 午夜国产大片免费观看| 国产黄色片在线看| 久久99国产综合精品1| 国产欧美视频在线| 亚洲男人天堂2020| 尤物亚洲最大AV无码网站| 成人伊人色一区二区三区| 欧美午夜网站| 亚洲一欧洲中文字幕在线| 伊人久久大香线蕉成人综合网| 亚洲天堂高清| 九九线精品视频在线观看| 美女无遮挡被啪啪到高潮免费| 1769国产精品视频免费观看| 久久福利网| 亚洲愉拍一区二区精品| 一本一本大道香蕉久在线播放| 欧美在线视频a| 国产在线观看一区二区三区| 青青草91视频| 欧美国产综合色视频| 成人国产一区二区三区| 无码内射在线| 亚洲精品手机在线| 亚洲第一网站男人都懂| 最近最新中文字幕在线第一页| 999精品色在线观看| 免费观看欧美性一级| 久久久波多野结衣av一区二区| 曰韩免费无码AV一区二区| 中日韩一区二区三区中文免费视频| 国产十八禁在线观看免费| 国产理论精品| 国产欧美日韩另类| а∨天堂一区中文字幕| 亚洲天堂网2014| 久久77777| 免费jizz在线播放| 精品一区国产精品| 日韩视频福利| 国产精品永久在线| 国产va在线观看免费| 美女扒开下面流白浆在线试听| 99热这里只有免费国产精品| 国产精品国产主播在线观看| 成人国产一区二区三区| 亚洲综合九九| 亚国产欧美在线人成|