陳秀剛/編譯
編者按:“數據即金礦”,這是大數據時代人們耳熟能詳的一句話。為了幫助非洲農民擺脫貧窮,八國集團正在考慮開放農業數據來提高非洲的生產力。不過,開放與私有、公共與個人之間,永遠都存在難以調和的矛盾?!稌r代》雜志的前攝影師說,“眼下主要是企業和政府在考慮有關大數據的用途,我們每個人也應當考慮大數據是如何影響我們的生活的。”歐盟正在討論如何保護大數據時代的個人隱私,正在修改中的《歐盟個人數據保護指令》要求科學家在利用個人數據時必須經過每個數據持有者的同意——但這幾乎是不可能實際操作的。于是希望通過大數據來獲得下一個大的突破的科學家們開始尋求特殊條款??茖W家們與出版商之間也在激烈交鋒。前者希望通過計算機程序下載和閱讀論文,并以此獲得新的發現。然而出版商則認為無限制的文本挖掘會使他們的服務器疲勞過度。既然是金礦,就一定存在利益分配的問題。本組本章,將帶領我們進入這一熱點領域,一探究竟。

農業專家提出,數據共享將提高非洲的生產力
現今,農民的食物產出量是50年前的3倍,而使用的土地僅僅比50年前多了12%,這都要歸功于新技術以及更優良的耕作方式的應用。但全球各地的水平參差不齊。非洲農業研究論壇研究表明,非洲農民的個人實際產出量僅占全球平均個人產出量的一小部分,大部分人都在與土壤貧瘠和氣候干旱的斗爭中勉強度日。
幫助非洲和其他地區的農民生產出更多的食物,將會是數百萬人擺脫貧困以及養活2050年的90億世界人口的關鍵。食品政策專家認為,實現這一目標的關鍵在于,給農民、科學家和企業家自由訪問農業數據的權力。在為期2天的關于開放農業數據問題的國際會議上,八國集團——即世界上最富裕的八個國家——的領導人們集體討論出了取消數據限制的最佳途徑,而且這些數據也很容易被人和機器所分析。
“農業數據非常有趣,因為它分好幾種類型,”詹姆斯·亨德勒(James Hendler)說,他是紐約特洛伊市倫斯勒理工學院的計算機科學教授,負責美國政府網站Data.gov的建設。該網站上有關于諸如植物基因組學和當地天氣情況的詳盡數據庫。還有一些比如特定土壤條件下最好的作物研究、降水量的變化、害蟲和疾病的跡象,以及當地市場作物的期望價格等數據庫。
來自法國蒙彼利埃國際農業研究中心的皮爾斯博科克在國際農業研究組織聯合會上說,如果這些數據集都能做到免費提供,那么他們將會派上大用場。在這次會議上,來自大學及研究機構的專家們介紹了他們開發的數據應用程序,這些程序已經可以公開使用。其中包括MyFarm,一款基于安卓的多語言應用程序,能夠為小農戶提供相應的農業咨詢;Aqueduct是一款互動工具,能提供與水相關的風險問題的高分辨率地圖。
在非洲,即使最貧窮的農民都會攜帶手機,享受開放式數據帶來的福利,這僅是一個設想——令人難以置信——但也不是完全不可能實現。 “想象一下”,博科克說,“一個站在馬拉維農田里的女人,用剛剛借來的錢創辦了自己的農場,如果我們在她的手機上進行地理定位設置,然后通過運用數據生態系統知識庫,系統能夠識別土壤類型和特定土層的需求,告訴她應該買什么樣的種子、何時種植、收獲等等?!?/p>
想要讓這些“假設”的方案成為現實,就需要更多免費的農業科研資料挖掘平臺入口——不僅人類能自主使用,機器也能自主挖掘辨認。一些大學和研究中心的科學家們對于自己收集的大部分數據,明確表示,出于安全或隱私原因,這些數據不能公開。“現在流行一種說法,‘我不想分享,這是我的私人財產’,或‘這是政府財產’”,博科克說道。
即便有些資料是免費的,也不一定很容易被搜索到并投入使用。例如,亨德勒說,目前存在這樣一個日益增長的趨勢,政府及機構提供原始形式的數據,或通過應用程序的數據操作軟件,或者創建移動應用程序來公開一些數據。然而,這樣的數據集很難在互聯網上被搜索到。同時也可能由于缺少標注或其他原因難以被識別和應用。
亨德勒因研究語義網而出名,他將目前的情況比作前網絡時代的超文本時期,既沒有共享信息的標準,也沒有任何能找到信息的搜索引擎。他說,目前亟需新的方法和技術,這樣發現數據并進行數據交互,才能變得更便捷。
八國集團開放數據會議標志著文本共享的開始。在這次會議上,一些國家公布了關于農業數據庫公開的政策方案。其中加拿大、印度、美國,正在推動建設一個開放性的數據共享平臺。例如美國農業部,宣布在Data.gov上建立一個門戶網站,該網站能鏈接到348個農業數據集。
不過,要真正做到大規模的資料開放,仍需要八國集團和合作國、國際組織,以及私營部門之間長久的努力。“本質上說來,這屬于文化變化”,博科克說,“老派的研究作風認為,我所收集的資料是自己的私人財產:‘為什么我要把它給別人?’而公開數據的行為將會改變整個世界?!?/p>