林鄂平
隨著國務院扶貧辦印發《扶貧開發建檔立卡工作方案》,全國大規模的建檔立卡工作拉開帷幕。
建檔立卡是做什么?概括地說,就是在全國范圍內建立貧困戶、貧困村、貧困縣和連片特困地區電子信息檔案,以此為基礎,構建全國扶貧信息網絡系統,為精準扶貧工作奠定基礎。
這次全國性有組織的建檔立卡工作,核心是“數據”,雖然距離“大數據”尚有一段長路,但這個工作的挑戰性和時代感,給人以樂觀的想象。
《大數據時代》這本書,開篇講了Google通過人們在搜索引擎上搜索關鍵字留下的數據,成功地預測了2009年美國H1N1的爆發地與傳播方向,以及可能的潛在患者的事情。Google的預測比政府提前將近一個月,而且其預測與政府數據的相關性高達97%,這個數字就是大數據時代預測結果的相對準確性與事件的可預測性的最好證明。通過這一事以及其他的案例,作者維克托提出了在大數據時代“樣本=總體”的思想。
回過來看看“建檔立卡”的幾個數據要求:以2013年農民人均純收入2736元的國家農村扶貧標準為識別標準;規模原則上以國家統計局發布的2013年底全國農村貧困人口規模8249萬人為基數,省級統計數大于國家發布數的可在國家發布數基礎上上浮10%左右,個別省級統計數與國家發布數差距較大的,上浮比例可適當提高。內容包括家庭基本情況、致貧原因、幫扶責任人、幫扶計劃、幫扶措施和幫扶成效六個方面。
這幾個數字說明了什么?當樣本無限趨近于總體的時候,通過計算得到的描述性數據將無限地趨近于事件本身的性質,而 “樣本<總體”的做法很大程度上無法做到更進一步的描述事物。這次建檔立卡雖然主題還是基礎性數據收集,但幾乎全覆蓋式的“樣本=總體”的測算方式,正是大數據時代的主流。
舉一例,是關于奢侈品營銷的。PRADA 在紐約的旗艦店中每件衣服上都有RFID碼。每當一個顧客拿起一件PRADA進試衣間,RFID會被自動識別。同時,數據會傳至PRADA總部。每一件衣服在哪個城市哪個旗艦店什么時間被拿進試衣間停留多長時間,數據都被存儲起來加以分析。如果有一件衣服銷量很低,以往的作法是直接干掉,但如果RFID傳回的數據顯示這件衣服雖然銷量低,但進試衣間的次數多,那就能另外說明一些問題,也許只是某個細節的微小改變就會重新創造出一件非常流行的產品。
再舉一例,中國的航班晚點很普遍,相比之下美國航班準點情況好很多。這其中,美國航空管制機構的一個做法發揮了作用。說起來也非常簡單,就是美國會公布每個航空公司、每一班航空過去一年的晚點率和平均晚點時間,這樣客戶在購買機票的時候就很自然會選擇準點率高的航班,從而通過市場手段牽引各航空公司努力提高準點率。這個簡單的方法比任何其他管理手段都見效。
兩個例子意在說明,海量數據的產生、獲取、挖掘及整合,使之展現出巨大的商業價值,這就是最通俗的大數據解釋。信息技術發展,數據指數級增長,正在改變政府、社會、商業群體的傳統決策方法,形成一種數據驅動的決策方法。
于此,我們可以提出一個概念:數據扶貧。這次開展的全國大規模建檔立卡工作,是通過收集全面、準確的數據建立網絡信息平臺,整個運作體系和內容實質就是數據扶貧。
大數據時代對人類的數據駕馭能力提出了新的挑戰,未來的扶貧開發工作,決策將日益基于數據和分析而作出,而并非基于經驗和直覺。扶貧數據平臺一旦建立,駕馭數據就不是一個簡單機械的“更新”所能承載,如何盤活數據資產將是一個具有無限潛力和空間的議題。
對于數據扶貧的未來,你想象到什么了呢?