顧戈琦, 李 瑾
(北京農業信息技術研究中心/國家農業信息化工程技術研究中心/農業部農業信息技術重點實驗室/北京市農業物聯網工程技術研究中心,北京 100097)
眾包即為打破原有體制限制,將原來須由系統內部工作人員將完整的任務置于開放平臺上,使非特定的社會大眾可以根據自己的能力選擇適合自己的采集任務,而不須成為發布任務的單位中的一員[1-2]。現階段,采集農業大數據多依托特定的政府部門、企事業單位建立有獨立的數據采集團隊進行特定農業數據的采集,采集到的數據部分進行公開分享,部分留于系統內部使用,這種采集方式具有采集成本高、采集隊伍管理難度大等問題。眾包農業大數據采集平臺能打破不同單位間體系,將原來以特定體系為核心的任務完成方式轉化成以特定任務為核心的網絡化社會生產,只要具備數據采集能力的社會大眾都可以參與農業大數據采集工作中,有效地擴充了數據采集隊伍,擴大了數據采集覆蓋范圍[2-3],同時,應用先進的大數據技術,能有效減少在采集眾包數據中產生的誤差,在保證數據采集質量的前提下,降低采集成本、擴大采集范圍。
眾包別稱網絡化社會生產,是指把過去由員工執行的工作任務,以自由、自愿的形式外包給非特定大眾網絡的做法,具有生產成本低、聯動潛在生產資源、生產效率高以及滿足用戶個性化需求等優勢[4-7]。眾包具有組織開放性,眾包發布者將公開發布需求,參與者不受組織邊界的限制,無論是否屬于發布者的組織,都可以參與解決眾包問題,組織可以借助外部資源解決內部問題;眾包具有地域分散性,眾包發布者與參與者不受地理位置的限制,均可以通過信息技術手段溝通、討論、解決問題,具有明顯的個體分布特點[8];眾包具有參與自主性,參與者根據自己的能力自主選擇合適的眾包需求,用“由下至上”的需求匹配模式代替“由上至下”的任務布置模式,大幅度提高了團隊能力和任務需求的匹配程度。
最早于1980年由著名未來學家阿爾文·托夫勒提出大數據的概念[9-10],直到2008年以后,大數據的概念才逐步被認可,并被政府、企業以及學術界所廣泛傳播[11]。大數據有5個主要技術特點,可總結為5V特征:(1)大體量(volume),即可從數百太字節(terabyte,簡稱TB)到數十數百拍字節(petabytes,簡稱PB)、甚至艾字節(exabytes,簡稱EB)的規模;(2)多樣性(variety),即大數據包括各種格式和形態的數據;(3)時效性(velocity),即很多大數據需要在一定的時間限度下得到及時處理;(4)準確性(veracity),即處理結果要保證一定的準確性;(5)大價值(value),即大數據包含很多深度的價值,大數據分析挖掘和利用將帶來巨大的商業價值[12-13]。農業大數據是指大數據技術、理念、思維在農業領域的應用,利用智慧化、智能化、網絡化的現代信息技術,為農業生產、流通、消費過程服務[9,14]。農業大數據首先要解決的問題就是數據采集,只有采集到海量、多樣、及時、準確的數據,農業大數據才能發掘出數據中的價值,更好地為農村農業發展、農業經濟轉型升級服務[15]。
2.1.1農戶農戶受限于自身技術水平,應用數據指導生產的能力較弱,但因其具有人數眾多、時間相對充裕、生產經驗較為豐富、收入偏低等特點,在眾包農業大數據采集中可以作為廣泛的數據采集源。農戶利用閑散時間上傳相關數據信息,并結合其豐富的生產經驗,對數據的準確定期進行人工審查,同時,由于其收入偏低,數據采集費用也相對較低。
2.1.2合作社農業合作社具有一定的規模及資金實力和技術能力,每天都會產生大量生產、銷售數據,如對這些數據進行匯總分析可產生巨大的價值。同時,合作社具有初步應用數據能力但大多沒有專業的數據分析人員,無法針對數據進行深入分析進而指導生產,但可以通過數據共享交換數據服務的方式,使合作社參與到眾包農業大數據采集中。
2.1.3農業企業農業企業是指圍繞農業生產、流通、消費各環節提供增值服務的企業,其生產經營具有較強的專業性。企業內部大多建有信息管理系統,具有一定的數據意識和數據分析能力,數據對于企業生產經營效率提升較為顯著,故其使用數據的意愿較為強烈。在眾包農業大數據采集中,一方面可以將企業信息系統中的數據進行脫敏采集,交換對應的數據,另一方面可以讓企業支付一定的費用,獲取其需要的目標數據。
2.2.1多源采集機制平臺集合農業合作社、農業企業、個體農戶等多種采集主體,通過傳感器直采、信息系統接入、農戶手機上報等多種采集方式,采集生產環境、生命信息、農田變量信息、農產品市場經濟等多種類型的數據,廣泛采集農業相關數據,實現多來源、多類型數據的全覆蓋。
2.2.2多重校驗機制平臺采用多重校驗機制,不同質量級別的數據源對應不同的數據檢驗方法,評級低的數據源須進行多次、多種校驗。不同來源的數據通過智能算法進行交叉校驗,對于部分質量不達標的數據會進行二次人工審核。在使用數據的過程中,用戶也可以對數據進行審查,如有誤,可提交糾錯,實現多層次、多方法的數據校驗。
2.2.3用戶激勵機制平臺可根據用戶采集數據的數量、質量、時效性等特征,將用戶采集的數據統一轉化成數據分,用戶可以使用自己的數據分交換平臺上的原始數據、數據分析報告等數據服務或者直接交換現金,使不同的數據采集用戶都可以在平臺上獲取有效激勵。
眾包農業大數據采集平臺利用眾包的思想,轉變數據采集工作思路與采集人員隊伍建設,將傳統的獨立成體系的數據采集隊伍打散,將普通社會大眾納入到農業大數據采集隊伍中,每一個普通社會大眾利用閑散時間就可自主參與農業大數據采集工作,平臺利用大數據技術進行交叉校驗、結合人工數據檢驗,可以有效保證數據質量,數據需求方也可根據自身需求發布數據采集任務,減少自建數據采集隊伍的成本。這樣既可以擴大數據采集范圍,又可以降低數據采集成本,能有效地提高農業大數據采集效率。
政府機關、科研單位、農業企業及部分農業合作社多已建有管理信息系統,這些信息系統覆蓋氣象、農產品市場價格、生產環境、土肥配方等領域,包含從政府宏觀層面到企業微觀層面的信息,但由于功能設計、應用技術、數據結構等原因,系統與系統之間的數據相互孤立,平臺通過建立通用開放接口,連通多種類型信息系統接入數據,數據源可根據接入數據的質量與數量獲取相應的金錢收入或交換對應的數據服務。
無線射頻識別(radio frequency identification,簡稱RFID)技術、空氣溫濕度傳感器、土壤溫濕度傳感器等物聯網設施在農業領域應用逐漸深入,采集到海量生產環境、物流、產品溯源等信息,平臺建有物聯網數據采集模塊直接接入物聯網信息采集硬件設備,直接讀取硬件設備采集的多種信息,減少信息采集中間環節,減少物聯網設施安裝、軟件系統構建成本。同時,數據源可根據接入數據的質量與數量獲取相應的金錢收入或交換對應的數據服務。
在農業生產各個環節中,很多數據的采集還須依賴人工進行,現階段采集手段多為人工記錄,然后統一上傳到特定的信息系統中,部分地區還使用原始的人工紙筆記錄,逐級上報的信息采集手段,平臺建有移動信息采集端,可以安裝到信息采集人員的手機上,也可以適配移動掃碼槍、移動電子秤等移動信息采集端,及時、完整地將采集到的信息匯集到平臺中,減少時間延誤和上報過程中的誤差。人工直采信息員可以是企業、政府等有組織的信息員,也可以是普通個人用戶,可以在私人手機上安裝信息采集端上傳數據,根據接入數據的質量與數量獲取相應的金錢收入或交換對應的數據服務。
互聯網包含海量數據,很多與農業直接相關的數據,如農產品價格、農產品供需、氣象、政策法規等數據,還有很多與農業間接相關數據,例如宏觀經濟、市民生活、交通物流等數據,在大數據技術支持下,間接數據可以作為直接數據應用的有力補充,提高數據應用效果。平臺建有互聯網數據爬蟲,廣泛采集互聯網農業直接相關和間接相關的各類數據,構建農業綜合數據庫。
根據數據源的獲取方式、接入渠道,對數據源進行分級,如是物聯網設施直采數據,政府、科研單位、知名企業、大型農場信息系統接入數據以及有組織的人工直采數據,評級較高,進行簡單清洗統一結構即可接入平臺;網絡抓取數據、零散的人工上報數據、小型信息化水平較低單位的信息系統接入數據,則評級較低,須進行數據清洗校驗接入平臺,同時保留原始數據供用戶深入分析。高級別的數據可以減少數據清洗校驗的環節,提高數據采集的時效性,同時,用戶也可以參考評級分類,選擇適合自己的數據。
數據具有隱私性,部分隱私程度高的數據只能供給特定用戶使用,例如部分政府數據只能供給特定的研究機構使用,部分企業數據也無法做到完全公開。平臺提供數據隱私評級功能,數據提供方可以在接入平臺的時候,選擇自己的數據隱私評級,保護自己的數據權益,這樣才能讓更多的數據源接入采集平臺。
將數據采集到大數據平臺之后須進行簡單的清洗,首先剔除格式錯誤、亂碼數據等形式錯誤,然后針對異源同類數據進行校驗,如來源不同的同類數據出現不同,則標注數據存入異常數據庫中,再將異源同類數據進行合并匯總,減少數據重復。
受限于現階段的數據清洗技術單純的計算機無法高效準確地清洗所有數據,平臺同時開放人工數據審核功能,用戶可以根據自己的特點申請分級審核資格,在獲取分級審核資格之后,針對目標數據進行人工審核,可根據審核工作量、審核挑出的錯誤數,獲取相應收入。
雖然大數據采集平臺廣泛采集各類農業數據,但部分數據無法滿足需求,用戶可以根據自己的數據需求進行訂單化數據懸賞,鼓勵其他數據源分享數據,鼓勵個人用戶積極參與數據采集工作,既可省去自建數據采集隊伍的高昂成本,也可獲取急需的重要數據。
3.10數據交易功能
數據擁有方可以將自有數據放在大數據采集平臺上進行交易。
現有的數據采集體系大多為政府、科研單位、企業等為自身目標建立的完整的數據采集系統,數據采集人員多為該單位雇傭人員,同時,由于體系限制,特定系統工作人員只能采集該系統所需數據,大多數數據采集人員的工作量遠沒有達到飽和狀態,導致了數據采集隊伍重疊,數據采集能力浪費等問題。基于眾包的原理,眾包農業大數據采集平臺打破原有建立的完整數據采集隊伍進行數據采集的模式,匯集社會各界力量,使每個具有數據采集能力的人都可以參與到數據采集工作中,以數據采集目標為核心進行數據采集工作。
現有數據多分散地存儲于不同的信息系統、數據庫中,由于部門限制、商業利益等原因不能完整有效的公開,在原始數據的基礎上部分公開數據進行了數據整合,處理之后的數據,很多寶貴的細節信息會丟失,導致深入分析的價值大幅降低。通過開放信息系統接口的方式,眾包農業大數據采集平臺使現存于各個信息系統、數據庫的數據能夠便捷、廣泛地匯集到平臺中,通過物聯網設備直采、人工采集數據直采功能,快速、高效地將原始數據采集到平臺中,保留豐富的原始數據細節。
現有數據采集平臺無法根據數據的隱私程度進行數據隱私分類,但許多政府、企業單位的數據由于數據隱私性、數據敏感性等多種原因無法對全部使用者開放,由于無法控制數據傳播和使用范圍,這些單位選擇了完全不開放數據。平臺提供數據隱私評級功能,允許數據發布者選擇數據分享隱私級別,使用戶可以選擇數據分享的受眾范圍,使部分具有機密性的數據只能被部分用戶訪問、使用,最大限度的保護數據源的隱私,使更多的政府、企業愿意將自己的數據在平臺上分享。同時,通過數據源分級的機制,用戶可以自行甄別數據源的質量,信息分析能力強的用戶可以選擇原始數據進行深度分析,使信息分析能力弱的用戶可以選擇經過初步處理的數據應用,以滿足不同人群的需求。
平臺在采集端進行廣泛的數據接入,不僅可以接入現有數據庫、信息系統中進行初步加工的數據,還可以直接接入物聯網設施、人工直接采集的數據,這些數據不僅存在數據結構不同、采集誤差、傳輸誤差等系統問題,還由于眾包數據采集隊伍構成人員復雜、數據采集水平高低等導致的采集專業性、采集連續性等人員問題。平臺通過數據挖據、人工智能等技術進行數據交叉驗證、補全,可以有效減少單一數據采集系統存在的系統性錯誤,剔除異源同類型數據中存在的錯誤,可以減少眾包采集人員采集到的數據誤差。
平臺不僅通過數據挖掘、人工智能等計算機技術進行自動化交叉驗證,還開放了人工數據驗證功能,具有一定數據識別能力的人可以在平臺上申請人工數據校驗資格,具有數據校驗資格后,利用空閑時間進行數據人工查錯,如果找到錯誤數據并進行有效更正,即可獲得查錯獎勵,這樣在數據校驗層面上也利用眾包的思想匯集社會各界力量,用人工的方式進行數據校驗可以發現機器無法發現的更為細致的數據錯誤。
現階段,數據使用方大多只能在現有的數據中選擇自己需要的數據進行使用,對于沒有現成數據的情況,如果實力雄厚可以自建數據采集隊伍,定向采集目標數據,但對大多數用戶來說,無法建立自己的數據采集隊伍,只能通過估算等方式獲取近似數據。眾包農業大數據采集平臺具有定制化數據采集功能,數據需求方可以根據自己的需求按照數據采集的難度、數量、頻率等標準發布數據采集任務,數據采集者可以領取任務進行數據采集工作,這樣數據需求方只須專注于自己的數據需求而不用再為此建立一支數據采集隊伍,相應的數據獲取成本也會大幅度降低。
應用農業大數據對農業生產效率提高具有重要價值和意義,大數據得以有效應用的前提就是廣泛采集多源多類型的農業數據。傳統的農業數據采集系統多有部門限制,采集隊伍管理難度大、數據采集成本高,限制了農業數據采集的廣泛性和普遍性,眾包農業大數據采集平臺結合互聯網領域應用廣泛的眾包思想,將普通的社會大眾都轉化成數據采集員、數據質量校驗員,有效地擴充了數據采集員隊伍,擴大了數據采集覆蓋范圍,降低了數據采集的成本,為農業大數據的深度應用打下堅實的數據基礎。
參考文獻:
[1]魏拴成. 眾包的理念以及我國企業眾包商業模式設計[J]. 技術經濟與管理研究,2010(1):36-39.
[2]趙景明,時永梅. 圖書館眾包模式的理論與實踐研究[J]. 圖書館理論與實踐,2011(8):12-13.
[3]劉文華,阮值華. 眾包:讓消費者參與創新[J]. 經營與管理,2009(7):67-69.
[4]Jonassen D H. Learning to solve problems:an instructional design guide[M]. New york:John Wiley and Sons,2004.
[5]Terwiesch C,Xu Y. Innovation contests,open innovation,and multiagent problem solving[J]. Management Science,2008,54(9):1529-1543.
[6]Trompette P,Chanal V,Pelissier C. Crowdsourcing as a way to access external knowledge for innovation[C]//24 th EGOS Colloquium,Amsterdam,2008:1-29.
[7]Whitla P. Crowdsourcing and its application in marketing activities[J]. Contemporary Management Research,2009,5(1):15-28.
[8]Guido J,英介鈴木. Inside Cisco’s search for the next big idea[J]. Harvard Business Review,2010,35(4):64-71.
[9]孫忠富,杜克明,鄭飛翔,等. 大數據在智慧農業中研究與應用展望[J]. 中國農業科技導報,2013,15(6):63-71.
[10]許世衛. 農業大數據與農產品監測預警[J]. 中國農業科技導報,2014,16(5):14-20.
[11]王文生,郭雷風. 農業大數據及其應用展望[J]. 江蘇農業科學,2015,43(9):1-5.
[12]陶雪嬌,胡曉峰,劉洋. 大數據研究綜述[J]. 系統仿真學報,2013,25(增刊1):142-146.
[13]涂新莉,劉波,林偉偉. 大數據研究綜述[J]. 計算機應用研究,2014,31(6):1612-1616.
[14]張浩然,李中良,鄒騰飛,等. 農業大數據綜述[J]. 計算機科學,2014,41(11A):387-392.
[15]郭承坤,劉延忠,陳英義,等. 發展農業大數據的主要問題及主要任務[J]. 安徽農業科學,2014,42(27):9642-9645.