

1引言
種質資源具有豐富的遺傳多樣性,如豐產性、廣適性、抗病蟲性、抗逆性等[1],大量的數據支撐育種研發和農業科技創新,有效提高生物資源利用率并推動現代農業產業發展2。作物審定品種作為一類種質資源,是根據品種區域試驗結果和小面積生產表現,經由國家或省級農作物品種審定委員會審查評定的具有推廣價值的新育成或引進品種,在保障農作物生產穩定性、提高產量和質量等方面具有實際價值。我國生物種業現已邁入以人工智能驅動的智能育種時代,迫切需要將現代信息技術與種業數據資源相結合,更充分地挖掘和發揮其數據價值。
作為人工智能和語義網絡的重要分支技術,知識圖譜可將多種物理概念以及它們之間的關系以圖形形式展現,是一種數據結構,更是一種知識的表達和存儲方式,為研究復雜問題提供切實的、有價值的參考[3]。知識圖譜相關技術在國內外研究中廣受關注,特別是醫藥衛生[4-5]、圖書情報[6-7]、企業治理[8等領域,基于“實體一關系一實體”三元組[9]及其相關屬性值對,將數據資源建構成網狀的知識結構,實現自動問答、信息推薦、數據預測等知識服務。而農業領域的知識圖譜研究,目前較為側重作物栽培[10-11]、水肥管理[12-13]、病蟲害防治[14-16]等重點問題,主要涉及農業本體構建、知識抽取、知識融合、知識推理[3,17]等關鍵技術,針對農業產業全鏈條如:育種、生產、銷售、流通、溯源等環節的知識服務還需不斷拓展和挖掘。本研究針對育種環節,收集整理廣東省主要農作物審定品種數據并結合知識圖譜技術進行數據挖掘。
2 數據采集與處理方法
2.1 數據采集
數據源的選擇將會影響數據的整體質量和后續分析應用的效果。本研究充分考慮數據的可靠性、實用性、連續性、更新頻率等因素,選擇廣東省農業農村廳官方網站(https://dara.gd.gov.cn/)作為數據獲取渠道,選用廣東省農作物品種審定委員會每年審議通過的\"廣東省農作物審定品種信息\"作為研究主體,采集2016—2023年共計8年的水稻、玉米、大豆三類農作物的品種遺傳譜系、特征特性等作為基礎數據,并進行后續加工和處理。
2.2 數據預處理
本研究所采集的基礎數據均為以.docx格式存儲的非結構化數據,包含大量、大段文本,文本中又包含不同類型的字符。為便于提取節點、屬性和關系,構建強關聯性的知識,提升圖譜構建的效率和精準度,需要通過數據預處理整理為結構化數據,解決數據不完整或不統一的問題,預處理流程如圖1所示。

首先進行數據清洗,基于正則表達式去除標點符號、特殊字符等噪聲,移除重復性數據。其次進行屬性提取,基于基礎數據中各審定品種的特征特性和產量表現,選擇共性高頻字段用作基本屬性。
最后進行數據合并,合并2016—2023年的審定品種數據,規范化存儲抗性、感性、種植地區等屬性,均值化處理天數、長度、重量等屬性,復雜數值統一保存為小數點后2位,部分缺失值以0代替。最終整理形成Excel文件。
2.3數據存儲
JSON是一種輕量級的數據交換格式,以文本形式存儲和傳輸數據,具有結構簡單、易被人類編寫和閱讀、幾乎可被所有編程語言解析和使用等特點。本研究利用Python的pandas庫,讀取并遍歷Excel文件中的每一行數據,構建JSON數據對象(即每個審定品種)并向其中添加鍵值對(即該品種的基本屬性),以此形式存儲為結構化數據。最終將.xlsx轉化為.json格式,以便后續研究中快速構建出多個“實體一關系一實體”三元組。

3 數據內容
本數據集共收集和整理 2016—2023 年廣東省水稻、玉米、大豆三類主要農作物審定品種數據823條。如表1所示,每類農作物根據其特征特性和產量表現提取了共性高頻的屬性數據,并按年份順序存儲。
本數據集為文本數據,包含.xlsx和.json兩種存儲格式。.xlsx格式下保存了三類農作物審定品種的全部屬性數據,包括遺傳譜系、栽培技術要點、審定意見、形態特征、性能數據、產量表現、適種地區等,水稻審定品種數據示例如圖2所示。.json格式下根據農作物類別保存了三份文件,分別為693條水稻、124條玉米、6條大豆審定品種數據。如圖3所示,以玉米審定品種數據為例,每個品種保存為一個對象,每個對象的所有屬性以鍵值對的形式存儲,即“審定編號、育種者/選育單位、年份、品種類型”等屬性名稱作為鍵,“粵審玉20230017、廣東省農業科學院作物研究所、2023、甜玉米”等具體屬性內容作為值。
4質量控制與技術驗證
本研究的基礎數據由廣東省農作物品種審定委員會審議通過并公開發布,保證了數據的真實性和可靠性;采集了近8年的數據信息,格式與內容規范,保證了數據的連續性和完整性。數據預處理環節,通過數據清洗、規范化處理、人工檢查矯正等方式,按照統一格式排版形成Exce1文件,保證了數據的準確性和一致性。數據存儲環節,采用JSON格式存儲為結構化數據,該格式下的數據具有解析速度快、兼容性強等特點,便于知識圖譜構建過程中提取所需實體和關系。
為驗證該數據集的有效性,本研究利用Py2Neo框架和Python的Pandas庫,將二維數據表轉換為Neo4j圖形數據模型。首先定義一個起始節點和一個結束節點,其次建立節點間關系,并通過屬性值來查找其他節點,最后共抽取出5288條知識圖譜三元組,用以構建廣東省主要農作物審定品種知識圖譜,圖譜部分內容示例如圖4所示。



5數據價值與使用建議
種質資源又稱遺傳資源,是育種研發的關鍵原材料,更是農業發展的重要基石。審定品種作為一類種質資源,經過嚴格的科學研究和試驗改良,并通過國家或省級農作物品種審定委員會審定后予以推廣,具備良好的遺傳穩定性和適應性,對于提高農業生產效率和農產品質量至關重要。本數據集通過整理合并廣東省2016—2023年農作物審定品種數據,提取關鍵特征用作屬性值,數據應用價值主要體現為:
建立專家知識庫。相關科研和生產單位可基于本數據集建立農作物審定品種專家知識庫,并通過本研究提及的公開渠道下載基礎數據、擴充數據庫,利用知識圖譜的查詢和推理能力,實現審定品種信息快速檢索、輔助育種關鍵問題科學決策。
服務智慧農業。基于本數據集支撐,研究人員可使用知識圖譜技術將育種、種植、病蟲害防治、生產、銷售、流通、溯源等全產業鏈各環節數據進行知識抽取和融合[3],構建面向具體農業任務的智能問答系統、生產管理決策應用、信息資源推薦系統等[17]。
在使用本數據集與其他不同來源的數據進行知識融合的過程中,需要關注農業實體名稱不一致或數據類型不同等異構問題,通過實體對齊、語義融合、信息合并等方法消歧。
6 數據可用性
開放訪問,遵從CCBY-NC-ND4.0協議。
https://cstr.cn/17058.11.sciencedb.agriculture.00117;
https://doi.org/10.57760/sciencedb.agriculture.00117。
數據作者分工職責
高卓君,數據分析、質量控制及論文撰寫。
張丹丹,組織實施與綜合管理,論文指導。
陳榮宇,數據收集整理、質量控制。
倫理聲明
作者聲明,當前數據不涉及倫理聲明相關的內容。
利益沖突聲明
作者聲明,全部作者均無會影響研究公正性的財務利益沖突或個人利益沖突。
參考文獻
[1]王曉鳴,邱麗娟,景蕊蓮,等.作物種質資源表型性狀鑒定評價:現狀 與趨勢.植物遺傳資源學報,2022,23(1):12-20.
[2] 劉旭,李立會,黎裕,等.作物種質資源研究回顧與發展趨勢.農學學報, 2018,8(1):1-6.
[3]穆維松,劉天琪,苗子激,等.知識圖譜技術及其在農業領域應用研究 進展.農業工程學報,2023,39(16):1-12
[4]王潤周,張新生.基于混合動態掩碼與多策略融合的醫療知識圖譜 問答.計算機科學與探索,2024,18(10):2770-2786.
[5]王楚童,李明達,孫孟軒,等.融合大規模醫學事實的跨語言雙層知識 圖譜.軟件學報,2025,36(3):1240-1253.
[6]李保金,李葉,劉穎.基于科學知識圖譜的圖書情報領域學術熱點分 析.遼寧工業大學學報(社會科學版),2024,26(2):37-42.
[7]SONG H,LI Y,WANG Y. Visualization and Analysis of Global Agricultural E-Commerce Research Based on Knowledge Graph. International Conference on Communications, Information System and Computer Engineering,Haikou(CN),2019.DOI:10.1109/CISCE.2019.00112.
[8]李澤中,齊晨旭,戎佳.多源知識融合的企業知識服務模型構建研究. 情報科學,2022,40(12):56-62.
[9]SINGHAL A. Introducing the Knowledge Graph: things,not strings [EB/OL].(2012-5-16) [2024-08-09].htps:/googleblog.blogspot.com/ 2012/05/introducing-knowledge-graph-things-not.html.
[10] 沈利言.面向水稻栽培方案的實體關系抽取與知識圖譜構建方法研 究.南京:南京農業大學,2019.
[11] 許多,魯旺平,許瑞清,等.基于農業時空多模態知識圖譜的水稻精準 施肥決策方法.華中農業大學學報,2023,42(3):281-292.
[12] 戈為溪,周俊,袁立存,等.基于知識圖譜與案例推理的水稻精準施肥 推薦模型.農業工程學報,2023,39(2):126-133.
[13]GE W, ZHOU J, ZHENG P,et al.A recommendation model of rice fertilization using knowledge graphand case-based reasoning. Computers and Electronics in Agriculture,2024,219:108751.https:// doi.org/10.1016/j.compag.2024.108751.
[14] LIU X, BAI X,WANG L,et al. Review and trend analysis of knowledge graphs for crop pest and diseases.IEEE Access,2019, 7:62251-62264. DOI:10.1109/ACCESS.2019.2915987.
[15]李貫峰,李衛軍.一個基于枸杞病蟲害領域本體的語義檢索模型.計 算機技術與發展,2017,27(9):48-52.
[16] ZHOU J,LI J,WANG C,etal.Crop disease identification and interpretation method based on multimodal deep learning. Computers and Electronics in Agriculture,2021,189(3):106408.
[17]唐聞濤,胡澤林.農業知識圖譜研究綜述.計算機工程與應用,2024, 60(2):63-76.
引用格式:高卓君,張丹丹,陳榮宇.2016—2023年廣東省主要農作物審定品種知識圖譜構建數據集[J].農業大數據學報,2025.7(2):261-268.DOI:10.19788/j.issn.2096-6369.100042.
Abstract:This studyiscariedout incombinationwiththedataofcropsapproved varieties inGuangdongProvinceandrelated technologiesofknowledge map.Seedindustryisthe initiallinkofagriculturalidustrialchainandanimportantpillartoensure national food securityandeconomic development.Asan important innovativeresource in this link,approved varieties are popularizedafter stricttestingandobjective evaluation, which efectivelyrealizes the protection and utilization of germplasm resourcesandpromotes thehigh-qualitydevelopmentofseedindustry.Withtheadvancementofagricultural informatization,the amountof agriculturaldata has increased dramaticall,and modern information technologies such as big dataandarticial intellgence have playeda prominentrole inimprovingagricultural production eficiencyandoptimizing resource alocation.As animportantbranchtechnologyofartificial intellgenceandsemanticnetwork,knowledge mapping hasbeen widelyusedin variou fields,whiletheresearchofknowledgemapping inagriculturalfieldfocusesonkeyissuessuchascropcultivation,Water andfertilizermanagement,pestcontrolandsoonBasedontheeliability,racticabilitycontinuityandotherfactorsofdata,this studycollected the eight-year crop varietydata of Guangdong Province from 2016 to 2023asbasic databy obtaining the informationpubliclyreleasedbytheGuangdong Provincial Departmentof AgricultureandRuralAfairs.Thedata was stored in. docformatandcontaineda lotof charactersandcharacters.Inorder to facilitatemachineidentificationand subsequent knowledge mapconstruction,this studyremoved theinfluenceof noisebydatacleaning,and extractedcommonatributes according tothecharacterstisandyieldperformanceofarieties.Finally,823germplasmresouresdataofthreecropsapproved varieties byrice,coandsoybean were sortedand merged,andstoredasstructured data in.xlsxand.sonformats.Inoderto verifythe validityofthe datathe knowledge mapof main cropsapproved varieties in Guangdong Province was successfully constructed byusing the graphic database: Neo4j.Relevant scientific research and production units can establish an expert knowledgebaseofopsapprovedvrietiesbasedonthisdataset,andbuildintellgentsrvicessuchasintellgentquestionand answer,management decisionand informationrecommendation for specific agricultural tasks through database expansionand multi-source data fusion.
Keywords: crops; approved varieties; characteristics; knowledge map; germplasm resources Data summary:

