付佳潔,謝雨辰,張德林,張 鵬,張海瑜
(1. 中國農業大學煙臺研究院,山東煙臺 264670;2. 中國科學院華南植物園,廣東廣州 510650;3.中國農業大學 建筑規劃設計研究院,北京 100083;4. 中國農業大學 工學院,北京 100083)
冷鮮羊肉因其良好的營養價值和食用品質已逐漸成為我國廣大民眾羊肉消費的新潮流;與此同時,人們對冷鮮羊肉食品質量安全問題的關注也日益增長。為保障冷鮮羊肉的食用品質與安全,加強質量安全檢測與完善檢測方法、指標和技術就成為當務之急。目前,冷鮮羊肉質量檢測較多采用化學計量方法、無損檢測技術、PCR 檢測技術和色質譜聯用法等,由于缺乏系統的深度知識集成,常導致相關知識與數據存在碎片化、散亂化、利用率低、準確性不高、聚合力差等問題。隨著食品質量安全檢測技術智能化和相關知識集成化的發展,社會各界特別是飼養農戶、消費者、檢測機構工作人員等對冷鮮羊肉品質檢測數據和知識的需求日益增加,相關領域的數據及知識增長與需求矛盾變得突出起來。解決這一問題,需要構建冷鮮羊肉品質檢測的智能化知識服務平臺,對相關數據、知識進行有效整合、梳理和集成;為不同用戶提供冷鮮羊肉品質安全與檢測知識的智能信息服務。
知識圖譜是近年來興起的智能認知技術,其特點是能夠高效地整合海量數據信息,使之組合為一張相互關聯的知識網絡圖,實現知識互聯;并挖掘、梳理出知識點之間的實體聯系和有價值的信息[1]。目前,知識圖譜技術迅速發展且與深度學習、人工智能相結合,在工業、醫學、軍事、農業等領域的應用日新月異,越來越廣泛。其相關理論的發展還在不斷持續深化,基于知識語義圖譜而衍生的智能問答系統、推薦系統等也層出不窮[2]。Hook M[3]指出知識圖譜包含理解交流及在特定領域實現微觀展示與宏觀可視化,幫助加速知識傳播等功能。Hu K 等人[4]認為知識圖譜可實現學科知識整體化,幫助把握領域進化情況。也有研究指出將知識圖譜構建技術總結為知識抽取、知識融合、知識推理與加工等相互聯系的組成部分。將知識圖譜細分為通用和領域知識圖譜。關于知識圖譜技術在食品質量安全領域的應用,抓取食品質量檢驗數據并基于此構建知識圖譜,將食品安全問題可視化。Hong R 等人[5]基于Citespace 等軟件,針對可視化紅外探測技術領域構建知識結構,探究其演變進程,預測未來熱點。管錚懿等人[6]利用Scrapy 爬蟲框架獲取各級政府文件、檢測報告以及權威食品論壇的數據構建了基于Neo4j 的食品安全知識圖譜。對國家食品安全標準(NFSS) 進行了知識抽取與引用關系挖掘,構建NFSS 知識圖譜。
可以看出,知識圖譜技術在理論方面發展正在趨于完善成熟,在食品安全領域已應用廣泛,但目前還鮮有涉及肉制品檢測方面。鑒于此,以冷鮮羊肉品質檢測知識為對象,采用自頂向下和自底向上相結合的方法對構建冷鮮羊肉品質檢測知識圖譜,借助Python 語言爬取,整理相關數據,并導入Neo4j數據庫實現可視化;展示不同羊肉種類、檢測技術和羊肉品質影響因素等知識,以期為后續建立基于知識圖譜的冷鮮羊肉品質檢測智能問答和智能檢索系統等提供數據和方法基礎。
相對于Yago、Wikidata、DBPedia、谷歌和百度等使用的通用知識圖譜而言,羊肉品質檢測知識圖譜是典型的專業領域知識圖譜。與通用領域知識圖譜相比,專業領域知識圖譜的知識來源更龐雜,知識結構更加嚴格,對知識質量要求更高,知識應用的形式也更加廣泛。因此,雖然專業領域知識圖譜規模化擴展正呈現出加速態勢,但其構建過程的難度更大[7-8]。領域知識圖譜構建方法通常有自頂向下和自底向上兩種方法。其中,自頂向下構建是從頂層開始設計并構建本體概念,通常需要領域知識體系或者經行業專家梳理后從語料中提取本體;形成規則定義,完成專業術語抽取等,即構建出知識圖譜的模式層。而自底向上構建的方式則要從各類知識源內提取實體、關系和屬性,添加到知識圖譜的數據層;隨后將數據層的知識抽象成概念并進行歸納,最終構建模式層[9]。根據目前冷鮮羊肉品質檢測數據結構與特點,選擇自頂向下與自底向上相結合的方法進行知識圖譜構建。
構建冷鮮羊肉品質檢測知識圖譜面臨著各種龐雜的數據分布,從數據類型上可劃分為結構化、半結構化和非結構化數據[10],這些不同形式的數據是知識圖譜數據庫的基礎。其中結構化數據主要指已建知識庫中可用二維表結構邏輯來表達的數據,如中國農業大數據中心的谷物及畜牧飼料行業數據庫提供的食品羊肉中25 種以上全氟烷基類物質(PFCs)殘留水平數據等。此類數據資源較少,數據搜集來源覆蓋國家農業科學數據中心、AGRICOLA、AGRIS、CABI 等世界著名農業數據庫,搜集到后轉化為RDF 三元組形式并保存。半結構化數據和非結構化數據包括網站、圖片、文本文字和相關報表中的信息。對于專業性強的實體領域如羊肉檢測技術與檢測指標,需從相關權威學術期刊、論文及檢測機構發布的數據中提取。對于通識性較高的領域,如羊肉品種及加工類型,則可從畜禽網站、食品科學網站和一些新聞網站獲得有關數據。該研究中,在對目前數據存在方式和多種獲取方法綜合比較后,選用爬蟲技術為主從各種網絡資源獲取信息;再根據數據類型和網站結構的差異,采用不同算法,編寫不同的Python 腳本實現數據集成。具體做法以中國知網文獻爬取為例:首先借助Python 語言的selenium 模塊,對Microsoft Edge 瀏覽器的web driver 進行驅動,借助瀏覽器的自動化測試功能,查詢相應的關鍵詞與數據;其次,使用spider 獲取網頁中論文名稱等包含關鍵信息標簽;然后,接著使用bs4模塊對獲取到的標簽信息進行解析,獲取論文的標題、作者等信息;最后,對于二級頁面的文獻摘要內容,通過導入Python 的Parse 包重新解析html 的內容,從html 中解析出“羊肉檢測技術”“檢測指標”“羊肉品種”等信息。對于公司資料和專家經驗等數據,則需人工查詢并刪除無效或錯誤信息,然后將人工處理后的資料存儲到文本語料內。
數據獲取流程圖見圖1。

圖1 數據獲取流程圖
根據研究需要,從獲取到的冷鮮羊肉品質檢測相關數據中提煉出了羊肉種類、檢測技術和羊肉品質影響因素等方面的知識;進而在語義層面利用現代計算分析技術對領域知識進行整合,將這些知識以知識圖譜的形式關聯起來,形成冷鮮羊肉品質檢測知識網絡。在構建知識圖譜時,需要完成對信息的實體、關系及屬性定義。RDF 是一種經典的描述網絡資源的標記方式,即以資源- 屬性- 值三元素的方式來表示獲取到的信息與數據,具有通用性強、辨識度高、結構清晰、便于存儲等諸多優點。
從羊肉種類、檢測方法與品質影響因素三大方面入手,結合若干相關屬性,定義實體、關系與屬性,并采用RDF 三元組方式表達。根據所獲得的數據,并從有關冷鮮羊肉品質方面的研究論文和各種資源中整理出對應研究主題的相關概念。例如,羊肉種類這一概念就分別劃分出品種名稱、品種產地、取樣部位、肉質類型4 類概念;羊肉品質檢測技術劃分為方法名稱、檢測指標2 類;羊肉品質影響因素細分為飼料種類、飼養方式、性別及處理、年齡、屠宰性能5 類等。由于每個概念所具有的屬性特征不同,數據結構不同,因此需根據不同類別的特征對屬性進行分類定義。在羊肉種類標簽下,爬取蘇尼特羊、寧夏灘羊、小尾寒羊等11 個品種及其相應產地;在羊肉品質檢測技術標簽下,爬取部位信息(如羊里脊、羊腿、羊內臟、羊背最長肌等);還包括肉質類型(如冷鮮肉、凍肉) 及相應的檢測方法技術名稱與檢測指標。在羊肉品質影響因素標簽下,爬取與之相關的飼料種類與喂養方式,檢測所用羊的屠宰方式與年齡等屬性,并建立起不同標簽下節點之間的關系,設置關系指向與關系名稱。
節點標簽與屬性設置見表1。

表1 節點標簽與屬性設置
知識融合是為了對來自不同方面且結構類型有所差異的數據進行清洗、整理和集成的過程。面對來自不同來源且結構差異較大數據,采用了清洗和實體消歧兩大步驟進行知識融合,以便規避重復和異名同義現象。
對于與羊肉檢測或羊肉品質無關的無效信息,通過設置停用詞表來過濾文本中不相干的數據。具體操作包括,將所有需清理的無效文本表述整合到單獨的文件或記事本內,保存后通過下載Python 中的停用詞表以及編寫腳本命令對目標文本進行文字信息清理。
實體消歧又稱語義消歧、實體對齊,是一種解決相同名字的實體卻產生不同含義問題的方法。該方法的核心思想是通過計算不同實體之間的相似程度來判斷二者是否指向同一事物。例如,在羊肉檢測領域,液相色譜質譜法與HPLC-FLD 同HPLCMS/MS 其實指向的是同一種檢測技術,只不過不同作者有不同的中英文表達習慣。計算實體之間相似程度有多種數學方法,如層次聚類法、K 均值法等等,采用杰卡德相似度函數法來進行計算。該函數選用兩集合重復的元素作為權重,將二者交集的大小與并集的大小相除來衡量相似度。基礎數學公式如下:
該計算結果為0~1 的數值,該值越大證明二者之間相似度越高,反之則越低。為了實現快速計算,借助Neo4j 數據庫自帶插件GDS 來進行相似度的評判。做法是在Cypher 框中調用similarity 函數,計算兩實體之間相似度,并識別實體之間文本文字包含信息的相似度;再輔之以人工知識融合可以顯著提高判別效率。
此外,還通過上述方式對多種不同的羊肉檢測技術進行了相似度計算。在冷鮮羊肉品質檢測過程中,利用這些計算結果可以分析出能夠互相替代和補充的檢測技術,并為構建全面的測量方法所需數據提供經驗參考。
Jaccard 相似度計算頁面見圖2。

圖2 Jaccard 相似度計算頁面
例如,若以羊肉品質檢測指標為判斷標準,對羊肉檢測技術的相似性進行評判。由圖2 可知,高光譜成像技術與機器學習相結合的檢測方法既精準又智能;但在檢測條件不滿足的情況下,僅使用高光譜成像技術也可以實現前者50%的羊肉檢測指標項目。
對領域知識的相互關系進行可視化展示是知識圖譜技術的一大優勢。實現所需要的可視化展示須將從文本數據中抽取出來的實體、關系和屬性按照設計好的范式以“實體- 關系- 實體”的形式存儲于Neo4j 圖數據庫。相比于傳統數據庫,Neo4j 圖數據庫具有易操作、高性能、速度快等優點。結合搜集到的羊肉品質檢測領域數據的相關特征,將處理好的數據保存為CSV 格式,以utf-8 編碼形式存儲,并按規則分批導入Neo4j 數據庫中。通過將之前確定的實體、關聯與屬性進行定義,該研究所構建的冷鮮羊肉品質檢測知識圖譜選擇以羊肉種類、檢測方法與品質影響因素為核心點。研究過程中共抽取4 136 個,18 104 條三元組數據集合,由此生成可視化知識圖譜。
羊肉品質檢測知識圖譜局部結構見圖3。
由圖3 可知,構建完的知識圖譜與知識框架可清晰表達所有設置的羊肉品質檢測節點,以及節點之間關聯的屬性;也能夠借助Neo4j 的指令實現指定節點、節點屬性、節點對外關系的快速查詢與篩選。

圖3 羊肉品質檢測知識圖譜局部結構
為驗證所構建的知識圖譜有效性,該研究邀請了不同機構的部分檢測研究人員和冷鮮羊肉消費用戶做了相關調查與測試。92%以上的測試者認為,該知識圖譜具有響應速度快、查詢時間短、專業性強、內容詳細等優勢,可滿足冷鮮羊肉品質檢測的功能需求。該知識庫和圖譜還可為冷鮮羊肉品質檢測技術科普、知識管理及技術研發提供了相關幫助和數據支持。但對普通用戶而言,面對編程語言學習和認知計算等方面的困難,還需要對模型系統做進一步應用上的簡化與完善。
領域知識圖譜本身具有較強的數據集成和提升數據可讀性、可用性的功能,因此,在人工智能領域有著廣闊的應用前景;如智能問答系統、追溯系統、智能推薦系統等。以羊肉品質檢測知識圖譜的具體應用為例展開初步分析與探討。
各種專業的智能問答系統是當下蓬勃發展的人工智能應用領域,而且,正隨著不同行業用戶需求的多元化向著更為專業和精準的方向發展。通常,其功能的實現在一定程度上要求海量且規范的數據庫與知識庫支撐;因此,基于Neo4j 的羊肉品質檢測知識圖譜可以幫助在羊肉制品加工與促進消費等方面,為用戶提供品質檢測、等級評價環節的信息與知識服務,有效降低無關信息的擾亂,縮短相關知識獲取的成本與時間。
質量追溯系統已在農產品質量安全、金融風險防范、銀行信用、疫情流調、食品監管等行業廣泛應用,并已取得巨大進展。建立在基于羊肉品質檢測知識圖譜之上的羊肉質量追溯系統可以在原有追溯功能的基礎上實現對羊只生產管理、羊肉加工貯存、銷售貨運等環節的有效監管;若與其他智能感知和認知工具相結合,還可以幫助消費者與監督管理部門實時查看各個環節的運轉情況,完成對羊肉制品質量與安全問題的全景追溯與節點分析。
已有相關研究證明,基于知識圖譜技術衍生的智能食品推薦應用,可以很好地幫助追求食品安全和健康飲食的消費者,為其提供綜合的飲食服務建議[11]。因此,基于知識圖譜技術衍生的羊肉品質檢測方法、飼養方法的推薦系統,將為消費者、飼養農戶等提供智能化推薦,更好地滿足不同消費者和養殖戶對特定功能的個性化需求。
Neo4j 圖知識庫一個重要功能是可以提供相關領域知識的關聯節點、屬性與關系的查找功能,因此基于Neo4j 的羊肉品質檢測知識圖譜可為相關人員從事專業研究提供較大范圍內數據的快速查詢與篩選功能,大大提升信息與知識查詢的效率。
結合冷鮮羊肉品質檢測的特點,采用自頂向下和自底向上相結合的構建方法,從知識抽取、知識表示、知識融合等方面詳細闡述了羊肉品質檢測知識圖譜的構建流程。研究使用不同的Python 爬蟲技術面向不同羊肉種類、檢測技術和羊肉品質影響因素等,進行數據爬取。由于領域內存在不同類型與結構的數據來源,采用RDF 三元組形式表示對信息的實體、關系及屬性定義;基于杰卡德相似度函數法對于抽取后的數據進行實體消歧和數據清洗以實現知識融合。在獲得大量不同來源的數據后,將其導入Neo4j 數據庫,實現了羊肉品質檢測專業知識圖譜的構建,并構建了數據可視化模型。己完成的數據庫可為羊肉品質檢測技術研究人員提供對樣檢種類、樣檢部位、樣檢方式與樣檢指標等多種信息的快速查詢,輔助其在不同檢測條件下選擇合適的檢測方法。其次,該知識圖譜還可提供不同年齡、種類羊群的的飼養與屠宰信息等,為養殖農戶提供羊只飼養指導。該研究面向不同用戶提供了更簡潔有效的數據支持服務平臺,利用這個平臺可進一步建立基于該知識圖譜而衍生的冷鮮羊肉品質檢測智能問答、飼養方式推薦系統等。