文/張青嶺 李顯正 李航宇 李華健
知識圖譜旨在通過可視化技術對客觀世界的概念、實體、事件及各部分之間的關系進行描述,具有直觀、定量、簡潔、獲取隱藏知識和客觀等優點。2003年,知識圖譜這一概念在美國國家科學院組織的“知識圖譜測繪”研討會上第一次被提出,隨后便引起了學者的關注。近幾年,隨著大數據、物聯網和人工智能等新一代信息技術的不斷發展,知識圖譜逐步進入大規模深入研究階段,已被廣泛應用于生物信息、金融和醫療健康等領域,并在智能搜索、智慧問答、大數據風控、推薦系統等應用中發揮著重要作用。
黨的十九大報告中提到,要推動信息化和農業現代化共同發展,而農業信息化已經成為農業現代化的重要組成部分。我國的農業大數據不斷發展擴大,結構越來越復雜,大數據可視化可將復雜的數據直觀化、定量化和簡單化,有利于推動我國農業信息化的發展。
知識圖譜可以構造復雜的知識網絡,科學地預測前沿的研究熱點,擁有非常廣闊的研究價值和應用前景。將知識圖譜這一可視化技術與農業相結合,對檢索到的數據進行展示與分析,有助于農業大數據的展示,有助于發現農業生產規律。
知識圖譜是以科學學為基礎,通過將應用數學和信息科學等多門學科的理論方法相結合,通過可視化的形式實現多學科的融合,是科學計量學和信息計量學的新發展。目前,國內研究學者對知識圖譜尚未給出統一定義。陳悅等將知識圖譜定義為科學計量學范疇內的顯示科學知識的發展進程與結構關系的一種圖像。借鑒以往學者對知識圖譜的定義,本文認為知識圖譜是由節點和邊構成的能夠描述物理世界中復雜關系的圖形,其本質上是一種語義網絡,表達了各類實體、概念及其之間的語義關系。其中節點表示實體或概念,邊表示實體與實體之間的聯系。

表1:4種知識圖譜繪制工具比較
大多數學者認為知識圖譜具有直觀化、可視化和形象化的特征,但不同的研究學者對其特征還有不同的理解和解釋。
知識圖譜作為大數據可視化的一種重要表現形式,具有重要的研究和應用價值。知識圖譜把復雜的知識領域用直觀簡潔的圖形展示出來,把有關知識體系系統地展示給用戶,進一步為該領域的學科研究提供極有價值的參考和依據。同時,知識圖譜具有強大的語義處理能力和開放組織能力。
在知識圖譜被提出之前,數據可視化基本停留在實體的客觀展示上,知識圖譜賦予了數據可視化一個新的方向,即展現實體間的關系,豐富的實體關系提供了一種從關系的視角來看世界的新方向。知識圖譜的核心即三元組,它使存儲的信息很容易地被人類和計算機解讀,并且使計算機具有一定的推理能力,進而讓知識圖譜具有一定的可解釋能力,彌補了之前的缺陷。此外,知識圖譜還具有規模龐大、系統性、客觀性和全面性等特征。
近年來,知識圖譜作為大數據可視化和人工智能重要組成部分,受到了國內外學者和用戶的廣泛關注及高度重視。
2012年,谷歌將知識圖譜應用于搜索引擎,以此來提升搜索質量,之后在學術界掀起了一股熱潮,各大相關企業也推出了自己的知識圖譜產品。2017年11月,在北京召開的世界人工智能大會上,百度知識圖譜摘得了“AI創新產品”殊榮。2018年3月,蘇寧金融企業知識圖譜系統成功上線,阿里巴巴集團積極舉辦知識圖譜研討會,天津大學的科研團隊建立起了一套知識圖譜管理與推理系統,知識圖譜在各領域的交流合作迎來了新的階段。
中國是傳統的農業大國,但是我國的農業仍處于分散式、半機械化的階段,存在多種資源利用率低的現象。

圖2:利用Gephi繪制的茶葉病害知識圖譜
然而大量的農業數據資料是很分散的、不集中的,且存放在結構化、半結構化以及非結構化的數據格式中,很難形成一個相互聯系的整體,因此農民及研究學者很難從中獲取到直觀有價值的信息。
而知識圖譜可以將這些離散的信息相互關聯,形成一個可視化的語義網絡,把復雜的農業知識直觀地展示給農民、農業技術人員和相關決策者。知識圖譜還可以對市場進行輔助決策,幫助政府對生產合作社、農民及企業之間進行信息管理與數據挖掘,進而將傳統的農業轉換為精準農業。
采用檢索式“SU=‘知識圖譜’*‘農業’”(SU為主題),于2019年1月20日檢索中國知網(CNKI),發現目前國內學者已發表81篇農業知識圖譜相關的研究文獻,占全部知識圖譜研究文獻(4569)的1.77%,由此可見,知識圖譜中農業上的應用較少。
在國內,湖南省農村農業信息化工程技術研究中心通過對國內外農業信息化相關領域分析,探究知識圖譜在農業信息服務中的應用,利用湖南農業產業知識搭建一個農業知識群圖譜可視化系統。國內還出現了像Agriculture_KnowledgeGraph一樣的搜索查詢系統,此系統的主要功能在于利用農業分類的樹形結構對某種類型的植物或動物進行查詢,但是查詢結果較為單一,實用性較小。
目前,常用的知識圖譜的繪制工具有以下4種,介紹如下。
CiteSapce是一款用于計量和分析科學文獻數據的信息可視化軟件,由陳超美教授和他的團隊共同研發。
CiteSpace以從各大文獻數據庫(如Web of Science、CNKI、CSSCI等)導出的純文本數據為主要的數據來源。如圖1所示,導出的純文本數據中的文獻字段主要包括作者姓名、文章名稱、所載期刊、關鍵詞、摘要、作者單位和發表時間等信息。
CiteSpace能夠繪制施引文獻的合作圖譜、共現圖譜和共被引圖譜,并且為圖譜的展示提供了三種可視化模式,分別為聚類視圖、時間線視圖和時區視圖。
除此之外,CiteSpace還具有突發檢測、網絡裁剪、地理空間分析等實用性功能。
Ucinet是一款用于社會網絡分析的軟件,由L. Freeman編寫,后來主要由S. Borgatti和M. Everett進行維護更新。
Ucinet能夠處理多種數據格式的數據,主要有初始數據文件(Raw Date File)、Excel數據文件以及數據語言文件(DL File)三種。初始數據文件僅包含數字,只能以矩陣的格式輸入。Ucinet支持直接從Excel表導入數據,但數據列數最多只能支持255列。數據語言文件包含一系列數字以及描述數據的很多關鍵語句等。
與其他軟件相比,Ucinet最大的優點是可以將一些原始數據轉換成矩陣格式,從而構建各種關系矩陣,如作者共現矩陣、關鍵字共現矩陣和期刊共引矩陣等。
Gephi是一款跨平臺的、用于網絡分析和可視化的免費開源軟件。Gephi支持多種數據格式,包括“.dot”,“.gdf”,“.gml”,“.net”,“.gexf”等;能夠處理大量的數據,支持的節點數達50,000個,支持的邊達1,000,000條,適合于繪制大型的圖譜。
Gephi提供多種對數據的操作方法和展示圖譜的方式。Gephi能夠實現對圖譜中邊和節點的屬性的調節,也有多種實時的布局算法,能夠對圖譜進行各種各樣的布局;而且能夠支持使用者對其二次開發,增加其他算法。
Pajek是由斯洛文尼亞盧布爾雅那大學的Vladimir.Batagelj和Andrej.Mrvar應用Pascal語言開發的一款用于分析大型復雜網絡的軟件,該軟件的安裝程序是免費的,但不提供源代碼。
Pajek可以讀取多種純文本格式的數據以及ASCII碼文件,包括Pajek網絡格式(PajekNwtworks)、Pajek矩陣格式(Pajek matrices)、UCINET DL f iles格式、Vega格式(Vega Graphs)、GEDCOM格式(GEDCOM Files)等多種數據格式。
相較于其他繪制工具,Pajek具有處理具有數百萬個節點的大型網絡的能力,還可以從大型網絡中提取一些小型網絡,以便使用經典算法進行更詳細的研究,并通過可視化功能顯示網絡和分析結果。
4種知識圖譜繪制工具的比較如表1所示。
CiteSpace是目前國內研究者使用最多的一款軟件,軟件自身的功能比較完善,在構建知識圖譜的整個流程中, 各個步驟的處理都能滿足不同研究者的需要,但該軟件對內存的消耗大,不適合處理數據量大的數據;Ucinet的優點在于其使用簡單,并且具有強大的數據管理和轉化功能,但由于識別的數據格式都與矩陣有關,需要花費很多時間和精力用于處理原始數據;Gephi界面美觀,能夠處理大量的數據,適合繪制大型的圖譜,也適用于對動態數據的追蹤與表現,且支持運用插件進行擴展,但Gephi對純數據的處理功能較為薄弱;Pajek在數據與處理和數據規范化處理上有一定的不足,但它支持多種格式的輸入,并且提供了多種有效的算法,能將大型的網絡分解為多個子網絡。
本文以茶葉病蟲害為例,利用Gephi進行茶葉病蟲害知識圖譜的繪制,結果如圖2所示。圖2中的紅色節點表示病蟲害的名稱,藍色節點表示易發生地區,黃色節點表示易發生條件,綠色節點表示防治方法;兩個節點之間有連線表示他們之間具有聯系,邊的粗細表示關系的強弱。
以圖2中“黑刺粉虱”節點為例,可以看出它與茶蚜、茶餅病等病蟲害之間存在聯系,易發生湖北省、浙江省、貴州省等省份,可以用誘蟲板、瓢蟲等進行防治。以“茶餅病”為例,可以看出其易發生在云南省、江西省等省份,并且和茶炭疽病之間存在聯系。
本文介紹了知識圖譜的基本知識和常用的種工具。利用Gephi工具繪制了茶葉病蟲害知識圖譜,并進行了相關的分析。隨著農業大數據研究的不斷深入,知識圖譜作為重要的可視化工具有著廣闊的應用前景,必將在輔助農業決策中發揮越來越重要的作用。