錢君 馬文斌 倪峻勝 候云飛 張芳
中國(guó)電信上海理想信息產(chǎn)業(yè)(集團(tuán))有限公司 上海 200000
圍繞精準(zhǔn)脫貧為核心目標(biāo),以陜西、四川、甘肅等貧困區(qū)為重點(diǎn),通過(guò)研究農(nóng)業(yè)生產(chǎn)社會(huì)化服務(wù)系統(tǒng)的運(yùn)作機(jī)理,構(gòu)建既符合地域和產(chǎn)業(yè)特色,又具先進(jìn)性和可持續(xù)性的社會(huì)化服務(wù)模式和服務(wù)體系;運(yùn)用人工智能技術(shù)研發(fā)農(nóng)業(yè)科技成果、先進(jìn)適用技術(shù)與產(chǎn)品供需配給技術(shù),以及農(nóng)業(yè)生產(chǎn)托管社會(huì)化資源優(yōu)化配置方法和智能化服務(wù);基于云服務(wù)理念,集成整合資源和技術(shù)成果,開發(fā)農(nóng)業(yè)先進(jìn)適用技術(shù)社會(huì)化服務(wù)平臺(tái)。
本文提供一種農(nóng)業(yè)先進(jìn)適用技術(shù)社會(huì)化服務(wù)平臺(tái)架構(gòu),針對(duì)農(nóng)業(yè)生產(chǎn)社會(huì)化服務(wù)的現(xiàn)狀、多源異構(gòu)數(shù)據(jù)和建模環(huán)境,分析社會(huì)化服務(wù)平臺(tái)業(yè)務(wù)邏輯,開發(fā)農(nóng)業(yè)社會(huì)化服務(wù)平臺(tái)。

圖1 農(nóng)業(yè)先進(jìn)適用技術(shù)社會(huì)化服務(wù)平臺(tái)架構(gòu)圖
數(shù)據(jù)源層主要包括新聞?wù)摺⑥r(nóng)業(yè)科技成果、專家人才、先進(jìn)活用技術(shù)、產(chǎn)業(yè)信息和其他農(nóng)業(yè)數(shù)據(jù)等信息。將各類分散在各處的農(nóng)業(yè)數(shù)據(jù)集中治理,保證底層數(shù)據(jù)來(lái)源的全面性、多樣性。
產(chǎn)業(yè)信息知識(shí)圖譜層主要包括:茶葉、紅棗、中草藥、蘋果、谷子、葡萄等專用領(lǐng)域知識(shí)圖譜,通過(guò)知識(shí)圖譜將先進(jìn)品種與技術(shù)進(jìn)行關(guān)聯(lián),并進(jìn)行可視化處理展示。
通過(guò)建設(shè)數(shù)據(jù)中臺(tái)建立數(shù)據(jù)資產(chǎn)體系,規(guī)模化服務(wù)業(yè)務(wù),保證數(shù)據(jù)質(zhì)量,更大限度的發(fā)揮數(shù)據(jù)價(jià)值。實(shí)現(xiàn)數(shù)據(jù)資源從采集、存儲(chǔ)交換、清洗融合到應(yīng)用門戶展示的全流程貫通。
兼容關(guān)系數(shù)據(jù)庫(kù)、分布式數(shù)據(jù)庫(kù)、內(nèi)存數(shù)據(jù)庫(kù)、NoSQL 數(shù)據(jù)庫(kù)等多種數(shù)據(jù)庫(kù),支持關(guān)系型、文本、圖片等多種類型數(shù)據(jù)的存儲(chǔ)。
通過(guò)建設(shè)區(qū)塊鏈BaaS平臺(tái),提升農(nóng)業(yè)生產(chǎn)數(shù)據(jù)的鏈接能力、數(shù)據(jù)管理能力、數(shù)據(jù)協(xié)作和分享能力、數(shù)據(jù)檢索篩選能力、數(shù)據(jù)安全和開放能力,有效提高數(shù)據(jù)利用率,完成基于區(qū)塊鏈技術(shù)的可信、可靠、高效、高質(zhì)和低成本的農(nóng)業(yè)作業(yè)過(guò)程全流程跟蹤。
農(nóng)業(yè)先進(jìn)適用技術(shù)社會(huì)化服務(wù)業(yè)務(wù)流程如下[1]:
第一步:需求方注冊(cè)平臺(tái)賬號(hào)后在平臺(tái)填寫種植作物種類、環(huán)節(jié)、作業(yè)時(shí)間,以及所在地址等進(jìn)行需求發(fā)布;服務(wù)方注冊(cè)平臺(tái)賬號(hào)后在平臺(tái)填寫可服務(wù)作物、環(huán)節(jié),以及可服務(wù)區(qū)域等進(jìn)行服務(wù)能力發(fā)布;
第二步:平臺(tái)根據(jù)需求地址、需求的類型以及相似需求,進(jìn)行智能化服務(wù)推薦,匹配有對(duì)應(yīng)服務(wù)能力的服務(wù)組織;
第三步:需求方對(duì)服務(wù)方發(fā)布的服務(wù)進(jìn)行下單,服務(wù)方進(jìn)行接單確認(rèn),并上傳服務(wù)合同;
第四步:服務(wù)方根據(jù)服務(wù)要求對(duì)農(nóng)機(jī)數(shù)量對(duì)農(nóng)機(jī)手進(jìn)行指派和調(diào)度;
第五步:服務(wù)方通過(guò)平臺(tái)進(jìn)行服務(wù)進(jìn)度上傳,需求方可通過(guò)查看服務(wù)進(jìn)度詳情,對(duì)服務(wù)進(jìn)行全流程的監(jiān)控;
第六步:服務(wù)方服務(wù)完成后,需求方對(duì)整個(gè)服務(wù)進(jìn)行評(píng)價(jià),并完成訂單。
數(shù)據(jù)源層包括元數(shù)據(jù)管理以及多源異構(gòu)農(nóng)業(yè)網(wǎng)絡(luò)數(shù)據(jù)采集兩個(gè)模塊。
元數(shù)據(jù)管理是一個(gè)根據(jù)信息資產(chǎn)的使用方式來(lái)管理組織的這些資產(chǎn)的流程。統(tǒng)一管理分散在組織內(nèi)部的元數(shù)據(jù),其目標(biāo)是為更好獲取、共享、理解和應(yīng)用組織信息資產(chǎn),降低數(shù)據(jù)集成成本,為組織數(shù)據(jù)標(biāo)準(zhǔn)化提供支撐,促進(jìn)數(shù)據(jù)質(zhì)量的提升,實(shí)現(xiàn)信息資產(chǎn)價(jià)值最大化。
根據(jù)使用場(chǎng)景,多源異構(gòu)農(nóng)業(yè)網(wǎng)絡(luò)數(shù)據(jù)采集爬蟲可分為通用爬蟲(傳統(tǒng)爬蟲)和聚焦爬蟲兩種。
通用爬蟲捜索引擎抓取系統(tǒng)(Baidu、Google、Yahoo等)的重要組成部分。主要目的是將互聯(lián)網(wǎng)上的網(wǎng)頁(yè)下載到本地,形成一個(gè)互聯(lián)網(wǎng)內(nèi)容的鏡像備份。但是大多數(shù)情況下,網(wǎng)頁(yè)里面90%的內(nèi)容對(duì)用戶來(lái)說(shuō)是無(wú)用的[2]。
聚焦爬蟲需要根據(jù)一定的網(wǎng)頁(yè)分析算法過(guò)濾與主題無(wú)關(guān)的鏈接,保留有用的鏈接并將其放入等待抓取的URL隊(duì)列。然后,它將根據(jù)一定的搜索策略從隊(duì)列中選擇下一步要抓取的網(wǎng)頁(yè)URL,并重復(fù)上述過(guò)程,直到達(dá)到系統(tǒng)的某一條件時(shí)停止。
產(chǎn)業(yè)信息知識(shí)圖譜模塊包括:產(chǎn)業(yè)信息知識(shí)本體建模、產(chǎn)業(yè)信息知識(shí)圖譜構(gòu)建、知識(shí)圖譜可視化。
基于本體的產(chǎn)業(yè)信息知識(shí)本體建模方法具體包括如下3個(gè)方面。
4.1.1 本體模型構(gòu)建層。基于產(chǎn)業(yè)信息內(nèi)容凝練產(chǎn)業(yè)信息知識(shí),并進(jìn)行整理及分類;分析產(chǎn)業(yè)信息知識(shí)內(nèi)部具有的關(guān)系類型,并以本體語(yǔ)義關(guān)系的形式表達(dá)。
4.1.2 知識(shí)圖譜構(gòu)建層。將知識(shí)圖譜劃分為概念層級(jí)關(guān)系圖與實(shí)體層級(jí)關(guān)系圖,采用三元組表達(dá)概念、實(shí)體間關(guān)系,基于產(chǎn)業(yè)信息知識(shí)架構(gòu)完成知識(shí)圖譜的構(gòu)建,利用本體與知識(shí)圖譜之間的樹與圖關(guān)系建立并分析產(chǎn)業(yè)信息知識(shí)本體與圖譜間的映射機(jī)制。
4.1.3 知識(shí)圖譜存儲(chǔ)層。基于表結(jié)構(gòu)存儲(chǔ)方式將圖譜存儲(chǔ)入知識(shí)庫(kù)中,以便于產(chǎn)業(yè)信息知識(shí)的管理及重用。
產(chǎn)業(yè)信息知識(shí)圖譜構(gòu)建方法具體包括如下2個(gè)方面。
4.2.1 知識(shí)圖譜表示方法。在工藝知識(shí)概念及實(shí)體關(guān)系體系中,父子關(guān)系、決定關(guān)系及整體與部分關(guān)系占主體部分。因此將產(chǎn)業(yè)信息知識(shí)圖譜知識(shí)間的關(guān)系劃分為兩大類:概念層級(jí)關(guān)系和實(shí)體關(guān)系。使用三元組表達(dá)語(yǔ)義關(guān)系,與表示節(jié)點(diǎn)(概念或?qū)嶓w),方向是由指向,r表示語(yǔ)義關(guān)系。每個(gè)三元組表示一個(gè)事實(shí)。
4.2.2 知識(shí)圖譜建立。構(gòu)建產(chǎn)業(yè)信息知識(shí)圖譜首先要確定本體與知識(shí)圖譜映射匹配機(jī)制。本體的實(shí)質(zhì)是將關(guān)系和實(shí)體等進(jìn)行層次化抽象表達(dá)。將本體概念層級(jí)結(jié)構(gòu)當(dāng)作樹,本體概念層級(jí)結(jié)構(gòu)的概念、實(shí)例等作為樹的節(jié)點(diǎn),其關(guān)系用連線表示。而知識(shí)圖譜相當(dāng)于一張巨大的語(yǔ)義網(wǎng),將知識(shí)圖的概念層級(jí)關(guān)系圖當(dāng)作樹,概念節(jié)點(diǎn)作為樹的節(jié)點(diǎn),則實(shí)體節(jié)點(diǎn)可作為知識(shí)圖譜的實(shí)體關(guān)系圖的節(jié)點(diǎn),其節(jié)點(diǎn)之間的關(guān)系也用連線表示。故本體和知識(shí)圖譜的本體映射匹配模式可當(dāng)作樹與樹、樹與圖之間的映射。
基于上述的知識(shí)分析、提取和知識(shí)圖譜構(gòu)建和建立等工作,通過(guò)Echarts等可視化插件,對(duì)知識(shí)圖譜進(jìn)行可視化表達(dá),樣例如下:
數(shù)據(jù)中臺(tái)模塊包括:數(shù)據(jù)采集、數(shù)據(jù)治理、數(shù)據(jù)處理。
5.1.1 數(shù)據(jù)采集介紹。為了提供一個(gè)完善、高可用性的數(shù)據(jù)感知與采集系統(tǒng),同時(shí)支持結(jié)構(gòu)化、半結(jié)構(gòu)化、非結(jié)構(gòu)化數(shù)據(jù)的采集,系統(tǒng)將從配置組件、采集效率、應(yīng)用場(chǎng)景等多方面進(jìn)行闡述。
數(shù)據(jù)采集與感知主要是將各種數(shù)據(jù)源接入到大數(shù)據(jù)平臺(tái)或者其他數(shù)據(jù)倉(cāng)庫(kù),為大數(shù)據(jù)計(jì)算和分析提供基礎(chǔ)數(shù)據(jù)。它是一個(gè)可配置、可橫向擴(kuò)張的系統(tǒng)。在整個(gè)采集入庫(kù)環(huán)節(jié),平臺(tái)將會(huì)通過(guò)相關(guān)技術(shù)保證數(shù)據(jù)采集的真實(shí)性以及時(shí)效性[3]。
5.1.2 數(shù)據(jù)治理介紹。大數(shù)據(jù)治理的核心是為業(yè)務(wù)提供持續(xù)的、可度量的價(jià)值。大數(shù)據(jù)治理人員需要定期與課題業(yè)務(wù)人員進(jìn)行溝通,保證大數(shù)據(jù)治理計(jì)劃可以持續(xù)獲得支持和幫助。
結(jié)構(gòu)化數(shù)據(jù)的數(shù)據(jù)治理:通過(guò)數(shù)據(jù)標(biāo)準(zhǔn)管理,元數(shù)據(jù)管理,數(shù)據(jù)質(zhì)量管理,從功能上提供數(shù)據(jù)規(guī)范,實(shí)現(xiàn)自動(dòng)進(jìn)行數(shù)據(jù)治理。通過(guò)保障機(jī)制,從制度,組織,流程上保障數(shù)據(jù)治理體系。
5.1.2.1 數(shù)據(jù)標(biāo)準(zhǔn)。在數(shù)據(jù)標(biāo)準(zhǔn)管理組織架構(gòu)推動(dòng)和指導(dǎo)下,遵循協(xié)商一致制定的數(shù)據(jù)標(biāo)準(zhǔn)規(guī)范,根據(jù)國(guó)家標(biāo)準(zhǔn)、行業(yè)標(biāo)準(zhǔn)和課題已有的標(biāo)準(zhǔn),兼顧各個(gè)標(biāo)準(zhǔn)之間的兼容性、一致性以及標(biāo)準(zhǔn)的可擴(kuò)展性,借助標(biāo)準(zhǔn)化管控流程得以實(shí)施數(shù)據(jù)標(biāo)準(zhǔn)化的整個(gè)過(guò)程。
5.1.2.2 數(shù)據(jù)質(zhì)量。對(duì)數(shù)據(jù)從計(jì)劃、獲取、存儲(chǔ)、共享、維護(hù)、應(yīng)用、消亡生命周期的每個(gè)階段里可能引發(fā)的各類數(shù)據(jù)質(zhì)量問(wèn)題,進(jìn)行識(shí)別、度量、監(jiān)控、預(yù)警等一系列管理活動(dòng),并通過(guò)改善和提高組織的管理水平使得數(shù)據(jù)質(zhì)量獲得進(jìn)一步提高。
5.1.3 數(shù)據(jù)處理介紹。數(shù)據(jù)處理包括:數(shù)據(jù)集成、數(shù)據(jù)轉(zhuǎn)換、數(shù)據(jù)規(guī)約、數(shù)據(jù)保真。
5.1.3.1 數(shù)據(jù)集成。數(shù)據(jù)處理過(guò)程中經(jīng)常需要數(shù)據(jù)集成——合并來(lái)自多個(gè)數(shù)據(jù)存儲(chǔ)的數(shù)據(jù)。小心集成有助于減少結(jié)果數(shù)據(jù)集的冗余和不一致,有助于提高后續(xù)應(yīng)用過(guò)程的準(zhǔn)確性和速度。數(shù)據(jù)語(yǔ)義的多樣性和結(jié)構(gòu)對(duì)數(shù)據(jù)集成提出了巨大挑戰(zhàn)。在集成過(guò)程中需要解決匹配多個(gè)數(shù)據(jù)源的模式和對(duì)象的問(wèn)題。
5.1.3.2 數(shù)據(jù)轉(zhuǎn)換。所謂數(shù)據(jù)轉(zhuǎn)換就是將數(shù)據(jù)轉(zhuǎn)換或歸并已構(gòu)成一個(gè)適合數(shù)據(jù)挖掘的描述形式。數(shù)據(jù)轉(zhuǎn)換策略包含以下處理內(nèi)容[4]:①平滑處理:幫助除去數(shù)據(jù)中的噪聲,主要技術(shù)方法有:Bin方法、聚類方法和回歸方法。②合計(jì)處理:對(duì)數(shù)據(jù)進(jìn)行總結(jié)或合計(jì)操作。例如:每天銷售額(數(shù)據(jù))可以進(jìn)行合計(jì)操作以獲得每月或每年的總額。這一操作常用于構(gòu)造數(shù)據(jù)立方或?qū)?shù)據(jù)進(jìn)行多細(xì)度的分析。
5.1.3.3 數(shù)據(jù)規(guī)約。數(shù)據(jù)規(guī)約策略包括維規(guī)約,數(shù)量規(guī)約和數(shù)據(jù)壓縮。
5.1.3.4 數(shù)據(jù)保真。結(jié)構(gòu)化數(shù)據(jù)通過(guò)數(shù)據(jù)質(zhì)量管理,解決數(shù)據(jù)處理過(guò)程中數(shù)據(jù)漂移帶來(lái)質(zhì)量問(wèn)題,保證數(shù)據(jù)完整性、準(zhǔn)確性、一致性。
提供以規(guī)則為核心的插座式架構(gòu),內(nèi)置服務(wù)管理、數(shù)據(jù)管理、傳輸引擎等核心組件,方便大數(shù)據(jù)數(shù)據(jù)交換服務(wù)、數(shù)據(jù)質(zhì)量服務(wù)、數(shù)據(jù)傳輸服務(wù)、數(shù)據(jù)共享服務(wù)作為插件插入到該架構(gòu)平臺(tái)中,并基于同一個(gè)工具內(nèi)實(shí)現(xiàn)對(duì)這些服務(wù)模型的可視化配置、部署、管理,滿足集中配置、集中部署、集中管理的需要。
提供靈活多樣的數(shù)據(jù)交換及數(shù)據(jù)管理部署架構(gòu),提供工具可視化配置生成交換節(jié)點(diǎn)滿足星形、樹形、網(wǎng)狀部署方式需要,提供跨網(wǎng)段的實(shí)時(shí)數(shù)據(jù)交換,提供跨節(jié)點(diǎn)、跨網(wǎng)段的服務(wù)聯(lián)動(dòng)調(diào)度策略滿足同步、異步業(yè)務(wù)聯(lián)動(dòng)需要,至少服務(wù)代理、發(fā)送方及接收方前后處理、流程等服務(wù)聯(lián)動(dòng)調(diào)度策略是經(jīng)過(guò)可視化配置完成的。
支持j2ee,可運(yùn)行于window、linux等操作系統(tǒng)。
區(qū)塊鏈平臺(tái)主要包括區(qū)塊鏈目錄鏈系統(tǒng)、區(qū)塊鏈服務(wù)系統(tǒng)、區(qū)塊鏈應(yīng)用支撐引擎等。
5.3.1 區(qū)塊鏈目錄鏈系統(tǒng)。利用區(qū)塊鏈技術(shù),形成數(shù)據(jù)資源“目錄鏈”系統(tǒng),實(shí)現(xiàn)數(shù)據(jù)變化的實(shí)時(shí)探知、數(shù)據(jù)訪問(wèn)的全程留痕、數(shù)據(jù)共享的有序關(guān)聯(lián),有效提升醫(yī)保數(shù)據(jù)管理效率效能。
區(qū)塊鏈目錄鏈系統(tǒng)分為目錄鏈管控平臺(tái)和用戶端,主要包括登錄、目錄盤點(diǎn)、數(shù)據(jù)源對(duì)接、目錄管理、目錄質(zhì)量評(píng)價(jià)、數(shù)據(jù)共享、系統(tǒng)管理等功能。
5.3.2 區(qū)塊鏈服務(wù)系統(tǒng)。區(qū)塊鏈服務(wù)系統(tǒng)主要包含區(qū)塊鏈網(wǎng)絡(luò)管理和區(qū)塊鏈管控。區(qū)塊鏈網(wǎng)絡(luò)管理提供區(qū)塊鏈的認(rèn)證服務(wù)、分布式賬本、智能合約、隱私保護(hù)與數(shù)據(jù)安全服務(wù)、 SDK/API 等功能;區(qū)塊鏈管控支持對(duì)區(qū)塊鏈底層網(wǎng)絡(luò)進(jìn)行可視化的管理,實(shí)現(xiàn)區(qū)塊鏈管理、節(jié)點(diǎn)管理、申請(qǐng)管理、區(qū)塊鏈用戶管理、合約管理、合約倉(cāng)庫(kù)、區(qū)塊鏈瀏覽器、服務(wù)器管理、區(qū)塊鏈網(wǎng)絡(luò)管理、系統(tǒng)用戶管理、運(yùn)維管理、日志管理、工單管理和異構(gòu)鏈兼容等功能[5]。
5.3.3 區(qū)塊鏈應(yīng)用支撐引擎。區(qū)塊鏈應(yīng)用支撐引擎提供基于區(qū)塊鏈底層技術(shù)支撐各上層應(yīng)用系統(tǒng)的能力。
通過(guò)工作臺(tái)、區(qū)塊鏈應(yīng)用管理、業(yè)務(wù)合約、鏈上數(shù)據(jù)開放、鏈上資產(chǎn)管理、系統(tǒng)設(shè)置、數(shù)據(jù)上鏈管理、鏈上憑證、數(shù)據(jù)比對(duì)、數(shù)據(jù)模板管理、權(quán)限管理以及其他相關(guān)功能等服務(wù),實(shí)現(xiàn)區(qū)塊鏈與場(chǎng)景的結(jié)合。
本文提供一種農(nóng)業(yè)先進(jìn)適用技術(shù)社會(huì)化服務(wù)平臺(tái),通過(guò)面向農(nóng)業(yè)大數(shù)據(jù)的可視化表達(dá)、供需精準(zhǔn)匹配和多終端服務(wù)推薦的技術(shù)研究,并基于大數(shù)據(jù)可視化、機(jī)器學(xué)習(xí)等技術(shù)針對(duì)農(nóng)業(yè)社會(huì)化服務(wù)供需對(duì)接場(chǎng)景進(jìn)行研究分析和開發(fā)。基于區(qū)塊鏈技術(shù)結(jié)合差異化托管服務(wù)模式對(duì)整個(gè)農(nóng)業(yè)服務(wù)的全流程進(jìn)行跟蹤,便于需求方可以實(shí)時(shí)了解到社會(huì)化服務(wù)流程的最新進(jìn)展。