王曉航,宋宇鵬,李海濤,李 丹,鐘聞宇,揣小龍,鄭永春
(吉林農業科技學院,吉林吉林 132101)
知識圖譜是顯示知識發展進程與結構關系的一系列各種不同的圖形,用可視化技術描述知識資源及其載體,挖掘、分析、構建、繪制和顯示知識及它們之間的相互聯系。隨著互聯網的發展,網絡數據內容呈現爆炸式增長的態勢。互聯網內容的大規模、異質多元、組織結構松散的特點,給人們有效獲取信息和知識提出了挑戰。知識圖譜以其強大的語義處理能力和開放組織能力,為互聯網時代的知識化組織和智能應用奠定了基礎。知識圖譜通過將應用數學、圖形學、信息可視化技術、信息科學等學科的理論與方法與計量學引文分析、共現分析等方法結合,形象地展示學科的核心結構、發展歷史、前沿領域以及整體知識架構達到多學科融合目的的現代理論。它能為學科研究提供切實的、有價值的參考。
近年來,知識圖譜作為大數據可視化和人工智能重要組成部分,受到了國內外學者和用戶的廣泛關注及高度重視。2012年,谷歌將知識圖譜應用于搜索引擎,以此來提升搜索質量,之后在學術界掀了一股熱潮,各大相關企業也推出了自己的知識圖譜產品[1]。2017年11月,在北京召開的世界人工智能大會上,百度知識圖譜摘得了“AI創新產品”殊榮。2018年3月,蘇寧金融企業知識圖譜系統成功上線,阿里巴巴集團積極舉辦知識圖譜研討會,天津大學的科研團隊建立起了一套知識圖譜管理與推理系統,知識圖譜在各領域的交流合作迎來了新的階段[2]。目前,國內外大規模知識圖譜庫的研究和應用在學術界和工業界引起了足夠的注意力,其實際應用在發達國家已經逐步拓展并取得了較好的效果,但它在我國仍屬研究的起步階段。雖然,知識圖譜有其獨有的綜合價值,但知識圖譜的內涵還不夠清晰,建檔還不夠完全,已有知識圖譜的使用率和重用率較低,這些問題都有待商榷。
人參為五加科,人參屬,多年生草本植物,是我國名貴的中藥材,馳名中外[3]。人參味甘微苦,性平;大補元氣,固脫生津,安神;治療驚悸,健忘,眩暈頭痛,陽痿,尿頻,久虛不復,氣血津液不足之癥[4-5]。現代醫學研究表明[6-9],人參可調節中樞神經系統,提高記憶能力,改善心臟功能,降血糖作用,增強機體的免疫和抗腫瘤等作用。人參皂苷中的三萜類皂苷是人參的主要有效物質,其中包括了Rb1、Rc、Rd、Re、Rg1等含量較高的皂苷,還根據參齡的增加一些含量較低的稀有皂苷出現,比如Rg3、Rg5、Rh1,Rh2、Rh3、Rh4、Rk1、Rk2、Rk3等[10-12]。但是,由于對人參基礎研究投入的不足,導致我國人參從種植到產品開發的整個產業鏈都存在技術落后,管理混亂、質量參差不齊的情況突出。
人參作為一種古老的中藥材,千百年來有大量國內外學者對其進行研究,通過歷代人的努力,人參在起源、資源分布、引種馴化、栽培與鑒定、加工與炮制以及藥理藥化等方面的研究卓有成效。但是,傳統的統計方法對人參知識的綜述日益突顯出雜亂無章的現象,人參的相關知識不能完整的、清晰的、系統的展現出來。然而,知識圖譜可以將農業離散的信息相互關聯,形成一個可視化的語義網絡,把復雜的農業知識直觀地展示給農民、農業技術人員和相關決策者。知識圖譜還可以對市場進行輔助決策,幫助政府對生產合作社、農民及企業之間進行信息管理與數據挖掘,進而將傳統的農業轉換為精準農業。人參知識圖譜如果在網站發布,知識圖譜可以輔助搜索、輔助問答。例如:輸入人參個體的圖片,經過人參知識圖譜分析,可以判斷人參品系;輸入病蟲害現場照片,通過人參病蟲害圖譜可以輔助判斷病情,提供一些必要的預測處理辦法。因此,人參的相關知識通過知識圖譜的方式重新展示出來顯得尤為重要。
人參知識圖譜構建研究。分析人參知識圖譜的構建流程,包括知識提取、知識表示、知識存儲、知識檢索。以人參相關文獻中記錄的數據、網頁認證的人參信息和相關研究團隊對人參多年的研究數據作為知識圖譜的數據來源,研究半結構化信息抽取方法,以四元組的形式存儲抽取的信息,并針對該數據源中的非結構化文本數據,采用實體抽取及簡單關系抽取方法,實現人參數據的實體及關系挖掘,將抽取的四元組信息映射到關系數據庫中,最終使用計算機軟件工具完成關系數據庫到資源描述框架的映射。此外,為實現知識圖譜的可視化以及后續研究的擴展,采用圖數據庫對人參知識圖譜進行分布式存儲。利用圖探索知識問答方法,針對自然語言提問,選擇相似度最高的作為最終答案,完成知識檢索。
通過將計算機軟件與人參知識信息相結合,構建出人參相關領域的知識圖譜。有效的避免了人參領域大數據來源廣泛,信息資源處于高度分散和混亂無序的狀態,極大地加強用戶獲取信息的效率和資源共享程度。
人參知識圖譜開發前景十分廣闊。人參產業是一些地區的特色產業和經濟體系支柱,是財政收入的主要來源、農民增收的主要途徑。人參的作用在補品和醫藥開發品等領域經久不衰。人參的價值雖被廣泛關注,但我國人參主要栽培區域的相關信息并未實時進行傳遞,而且,人參的種植量需量逐年遞增,尤其是農田參市場已由順暢轉緊俏,人參的價格也在逐年上升,這就需要人參相關科學技術的指導。通過人參知識圖譜的指導,可以幫助企業及參農解決人參生育期內的各種棘手問題,以達到減少種植成本的目的。并且間接增加參農數量和種植面積,對提高勞動力再就業,發展地區經濟等具有重要意義。
人參作為百草之王,千百年來有大量國內外學者對其進行研究,通過歷代人的努力,人參在起源、資源分布、引種馴化、栽培與鑒定、加工與炮制以及藥理藥化等方面的研究卓有成效。但是,傳統的統計方法對人參知識的綜述日益突顯出雜亂無章的現象,人參的相關知識不能完整的、清晰的、系統的展現出來。然而,知識圖譜可以將農業離散的信息相互關聯,形成一個可視化的語義網絡,把復雜的農業知識直觀地展示給農民、農業技術人員和相關決策者。知識圖譜還可以對市場進行輔助決策,對復雜的人參各類問題進行分析整理,幫助政府對生產合作社、農民及企業之間進行信息管理與數據挖掘,達到解決人參栽培繁育等遇到的問題,從而提高人參的產量和質量,進而將傳統的農業轉換為精準農業。
人參知識域可視化信息圖譜的研究,不僅解決了現今人參領域相關知識雜亂無章的困境,而且為人參種植業、人參保健品行業、人參加工出品等中醫藥產業化發展帶來了很大的發展空間,拉伸延長了人參產業鏈,加強了人參領域知識的普及性,廣泛性,合理性,也為人參育種、栽培、加工繁育和生物醫藥等多個領域的振興做了貢獻,協同了不同行業的銜接,同時,為大數據下的人參產業做出數據支持和基礎。