摘要: 大數據是社會從網絡化演進到智能化的技術基礎,更是未來數據經濟的基礎資產和貨幣。認為目前大數據的創新主要局限在技術棧和組織內部,數據的可獲得性、處理和分析技術的缺乏以及封閉系統的數據思維成為制約創新的因素。提出大數據開放式創新的要素:通過開放數據及基于數據安全流通和定價的數據市場解決數據供給,開放基礎設施及社會化分析服務實現技術共享,最后通過跨領域的開放數據思維獲得數據創意。認為開放式創新重構了數據生態,將改變大數據的競爭格局。
關鍵詞:大數據;開放創新;匿名化;數據定價
Abstract:Big data is the technical foundation of an evolving society, from the networking to intelligent age, and plays the role of critical assets and currencies of future data economy. However, today big data innovation is limited to technical stacks and within the organizations, and suffers from unavailability of data, lack of processing and analytics technologies, and closed-world thinking. This paper discusses key factors of open innovation for big data: unleash the data supply via open data and data marketplaces with secure exchange and pricing, democratize the technologies through open data infrastructure and socialized analytics services, and finally harvest innovative data ideas by “crossover” thinking. Open innovation restructures the data ecosystem and will reshape the competitive landscape of big data.
Key words:big data; open innovation; anonymization; data valuation
大數據創新的最高境界是用構建數據生態來改變競爭格局——數據源解決數據供給,數據創意者從數據中創造價值,而這又有賴于大數據處理和分析技術。在開放式創新的體系中,5種元素扮演3種角色。
·數據源:開放數據,基于數據安全流通和定價的數據市場;
·大數據分析和處理技術:開放的基礎設施,以及開放的社會化分析服務;
·數據創業者/應用服務:跨越領域界限的開放數據思維。
它們五行相生,互相作用,形成價值的涌現。
1 開放數據的發展及問題
數據開放的主體首先是政府和科研機構,即把非涉密的政府數據,以及納稅人支持的一些科研數據開放出來。越來越多國家推出了統一的政府開放數據門戶。中國在2015年也推出了《促進大數據發展行動綱要》,將開放數據作為工作重點。在開放數據運動的風起云涌之下,現在更多的企業也開始開放數據,實現數據的價值化,并建構生態系統和護城河。
萬維網之父Tim Berners Lee提出了數據開放的五星標準[1],以保證數據質量:一星是開放授權的格式,比如說PDF;二星是結構化,把數據從文件變成了像Excel這樣的表;三星是開放格式,如CSV;四星是能夠通過統一資源標識符(URI)定位每一個數據項;五星是能夠跟其他數據鏈接,形成一個開放的數據圖譜。
數據開放與開源軟件也形成了共振。主流的數據開放門戶,像data.dov,都基于開源軟件。Data.gov用WordPress做數據內容呈現,用CKAN做數據目錄,甚至data.gov的整個架構也在GitHub開源了。英特爾在麻省理工學院的大數據科研中心研發了開源的DataHub系統,支持對開放數據的多人協作分析,具有數據版本管理和多編程語言交互的能力。
數據開放中會碰到很多問題。
(1)數據權屬的問題。數據屬于誰?屬于采集人?還是屬于生產人?抑或是屬于被觀察的客體?在特定情況下,擁有權如何分割(比如離婚)或者轉移(比如繼承)?
(2)敏感數據的界定。比如位置信息數據在歐洲屬于敏感數據,而在日本不屬于敏感數據。另外各個不同行業有進一步規定,比如美國的《健康保險便利和責任法案》對個人健康信息的隱私性、機密性和完整性做了規定;而在征信領域則有《公平信用報告法》對個人信用方面的信息做了規定。敏感數據需要法律和行業法規的界定。
(3)敏感數據的脫敏。如果開放數據中具有敏感數據,就要做數據的脫敏。脫敏最簡單的做法是去標識,但是去標識未必能夠徹底脫敏。美國研究顯示:即使把姓名、地址等標識信息拿掉,只要有郵政編碼、性別、生日等3項信息,就有60%~90%的可能性鎖定個人。即使去標識很徹底,仍有“阿喀琉斯之踵(致命弱點)”。一種攻擊的方法是通過多數據源的比對來縮小搜索范圍,重新標識;另一種方法是基于統計的攻擊,比如根據兩個打分再加上一定的時間范圍約束,還是有接近70%的可能性鎖定個人。
(4)防止隱私攻擊的匿名化技術。比較典型的如k-anonymity和L-diversity等,但在敏感屬性不夠多樣化,或攻擊者具有背景知識時,這兩種技術仍不夠魯棒。目前最好的一種技術叫差分隱私,即把噪聲加入到數據集中,但仍保持它的一些統計屬性,支持特定的機器學習算法。
這些困難和挑戰都不能阻擋開放數據運動的深入人心。在數據(尤其是商業數據)仍然無法充分流通的今天,開放數據無疑能夠讓具有數據思維和分析能力的創意者點石成金,把死的、消耗成本的數據變活、創造利潤。
2 基于數據安全流通和定價
的數據市場
數據之于數據社會,就如同水之于城市或血液之于身體——城市因河流而誕生,也受其滋養;血液一旦流動停滯,身體就有危險。所以,在數據化生存的今天,一定要讓數據流動起來。數據開放更多適用于政府公共數據和納稅人資助的科研數據,而更多涉及私人隱私或企業機密的數據無法通過簡單的開放獲得。如果把數據看作一座冰山,公開的只是露出海面的一點點,絕大多數藏在暗黑的海面以下。
數據擁有者不愿意把數據拿出來,有兩個原因:擔心數據被偷竊;對自己并無好處。所以,解決時該問題時需要把握兩點:保障數據的安全流通;對數據的使用進行定價,而實現這兩個關鍵的載體是數據市場。
數據市場并非是新概念。早年的綜合數據市場多進行原始數據集的下載交易,由于數據容易復制,版權保護困難,這種形態逐漸被幾種新的形態取代:
(1) 為特定用戶定向采集或加工數據,如某公司從事人臉分析技術,委托第3方采集各類、各種姿態和光照條件的人臉數據,或某公司具有大型數據集,需要特定的服務來做標注。
(2)專業領域的數據服務,如交通領域的Inrix或金融領域美國三大征信公司。
(3)不給出整個數據集,只能基于查詢或應用程序接口(API)提供數據的受控訪問,中國出現的數據交易市場多為此類型。
(4)不給出原始數據,只交易加工信息,這是之前大數據時代的主流,有些公司(如彭博社)甚至提供專門的終端保證信息服務。
隨著數據生態的完善,數據市場的形態將更為豐富。首先,上述形態多為數據提供者與數據請求者的簡單交易關系,而未來市場的參與者可能同時是提供者與請求者。其次,交易將不僅是簡單的“給”和“得”,而是融合、使用從而產生新的衍生價值。因此,數據的定價不是那些比特的固有價值,而是在這一次“使用”中產生的當前價值。數據市場應該是使用和買賣一站式服務,并且是先使用再買賣。
Steven Johnson的TED演講 《偉大創意的誕生》是從咖啡館說起,它創造了一個安全的空間,讓不同的人做思想碰撞,創造新的想法。數據何嘗不需要這樣一個咖啡館,讓各方的數據能夠產生“化學作用”。“數據咖啡館”項目[2]基于多方安全計算,試圖解決3個問題:安全可控的開放;數據市場和云計算的一體化;數據定價的問題。
然而,絕大多數數據的價值是不確定的,這正是數據的外部性。這種屬性決定了數據與石油本質上的區別:石油的價值在燃燒的一瞬間實現并消失了,但數據能夠反復使用,產生不可預期的新價值。基于Moody的信息估值七律,可以衍生出數據估值七律:
(1)數據可以被無限次共享,可以產生更大的總體價值,但多次復制會使所有權復雜化,增加成本;
(2)數據用得越多,價值越大;
(3)數據價值會隨時間衰變;
(4)數據越精確,價值越大;
(5)多個獨立數據源的融合為1+1>2;
(6)更多的數據不見得能帶來更多的價值;
(7)數據不會損耗,反而會越用越多。
這些基本原則對數據的定價具有指導意義——數據的使用頻度、新鮮度、質量、外部性等都是重要變量。Glue Reply公司據此提出了基于使用的估值模型。
另一方面,Gartner分析師Doug Laney——大數據3V的提出者,把信息和數據的估值模型分成非金融模型和金融模型。
我們期待未來的數據市場有靈活的數據定價模型,該模型既考慮數據的使用歷史和時間嬗變所形成的基礎價值,又能計量當前的這次租用中可量化的價值,計算出這次交易的數據定價。同時,如果這次使用有多方數據參與,根據各方在計算中貢獻的大小,對其數據分別進行定價。
數據的安全流通和定價將鼓勵數據擁有者將其數據參與流通,對其數據價值化、貨幣化和資產化,從而形成“收集-使用-價值化-更多收集-更多使用”的正向反饋,為開放式創新提供更廣泛的原材料供給。
3 開放的基礎設施
筆者的同事Eric Dishman罹患腎癌23年,嘗試了各種治療方案,甚至換腎,一直沒有進展,直到他選擇了基于基因分析的精準治療。整個測序和鎖定致病基因片段的過程花了3個月;接著,數TB的基因數據被拷到硬盤里,在美國東西岸傳來遞去,顛簸了4個月以后方才形成了治療方案。雖然他現在已經恢復健康,但7個月的等待對于任何一個病人來說都是煎熬。
原因很簡單,對于專業的醫療健康和生命科學機構來說,計算和存儲的基礎設施并不是他們所擅長。要知道,就連大數據領域內部也是隔行如隔山,做數據分析的人很難理解分布式的存儲和處理系統。事實上系統部署的困難已經成為目前攔在大數據產業前面的一座大山。
要致富,先修路(基礎設施)。在現實生活中的這個樸素道理也適用于大數據。基于云計算的公共基礎設施,特別是大數據系統作為平臺服務,是搬走這座大山的希望所在。在其他的一些國家,很多以數據思維見長的小型創新企業已經開始受益于這一趨勢。
Decide.com是筆者一直關注的一家創業公司(后被Ebay收購)。它每天吸入幾十萬條商品價格數據以及相關的新聞(這也是開放數據),分析后告訴顧客買什么牌子、型號以及預測何時買最劃算。在其神奇的背后,只有4個博士精心調制算法,他們不用擔心基礎設施的問題,因為亞馬遜已經把計算和存儲能力作為基礎設施開放出來了。
Prismatic是另一家創造神奇的公司,它能讀懂用戶關心什么,發掘用戶新的興趣,實時地、個性化地推薦閱讀。這家公司在很長一段時間內只有4個員工,3個是學生,然而估值已經達到好幾億美金。之所以能夠把神奇的數據思維變成現實,同樣要感謝亞馬遜的云計算把臟活累活都干了。
把大數據系統裝在云上是第1代大數據奮斗者的夢想。早在2007年,Hadoop解決方案的領導者Cloudera成立伊始,就已經在憧憬這一愿景(從Cloudera這個名字可以看出)。然而,這條道路并不順利。
首先,把Hadoop這樣的重型系統跑在虛擬機里是很大的挑戰,大數據這樣的輸入輸出(IO)密集型應用與虛擬化技術有點“水土不服”,性能下降嚴重。經過業界和社區多年的努力,這如今已經不是問題。而像Spark這樣的新貴是生在云里,長在云里,與云相得益彰。
其次,對于大數據的早期用戶來說,把數據放在云里是有疑慮的,一來大數據的搬動太過困難;二來數據安全沒有保障。這些年來,云計算的積累效應悄然間改變了數據生態,越來越多的數據一生下來就在云里。而對于初嘗云滋味的客戶,亞馬遜甚至專門設計了容量達50 TB的、可托運小型存儲設備幫助他們把數據搬到云里。Spark的商業化推動者Databricks也順勢與亞馬遜結盟,在其AWS云服務上部署Databricks云,可以利用大量已經存在于亞馬遜云的數據,這真是一個妙招。
而數據安全的保障有賴法律法規、行業自律和技術推動三箭齊發。目前關于大數據權利的立法已在醞釀之中,行業規范更是走在前列(如第1節所述)。在行業自律上,我們看到了阿里云發起的《數據保護倡議》。然而,沒有技術推動,法律法規和行業自律會制約大數據的云部署。本小節開始講的基因數據在磁盤里周游世界的故事,還是會一再重演,因為美國的《美國健康保險便利和責任法案》對數據在網絡上的傳輸施加了很多限制。
Eric Dishman的癌癥經歷引起了計算機科學家的深思。男性有一半的幾率罹患癌癥,女性的幾率也達到1/3。相比之下,過去50年癌癥的治愈率只提升了8%,在各種疑難重癥中進步最小。究其原因,癌癥作為一種長尾病癥,需要足夠多的數據樣本才能有所突破,而《美國健康保險便利和責任法案》等法規對于數據共享的限制使得各大科研機構只能各自為戰,相對較少的數據樣本制約了生命科學技術的發展。
想象一下,如果第2節中所談的多方安全計算技術能夠使數據在法規允許的范圍內共享和互通,癌癥研究將大不一樣。鑒于此,英特爾和俄勒岡健康科學大學等科研機構開始陸續推動基于安全多方計算的協作癌癥云。
我們預計:隨著云觀念越來越深入人心,大數據和高性能計算在云中的部署將呈現加速之勢。這時候,云作為一種開放基礎設施的優勢將得到充分展現。
還是回到Eric Dishman的案例。歷時7個月的診斷過程固然有數據磁盤在路上的延誤,另一個重要原因是計算基礎設施的缺乏。在生命科學領域中(尤其是生命信息學),非常罕見地呈現了高性能計算和大數據分析齊頭并進的態勢,尋常的科研院所無法維護完美支持兩種運算的基礎設施。
可以想見:未來的幾年中融合高性能計算和大數據分析能力的云基礎設施將變得普及。我們有一個雄心勃勃的愿景:到2020年,像Eric Dishman這樣的患者,一天之內就能完成全基因組測序,鎖定致病基因,且形成個性化用藥和修復方案。相比起他7個月的經歷來說,計算能力與時俱進的開放基礎設施能縮短數百倍的等待時間。另一個非常熱門的領域——腦科學研究如今也面臨計算力有不逮的局面,一次功能性核磁共振對大腦的完整數據采集將獲得500~600 GB左右的數據,而對其進行完整的分析耗時6 h。我們期待2020年這個工作將在1 s內完成,也就是說,能夠對腦部活躍成像做一些實時的分析,這對腦科學和類腦計算的研究來說將打開一扇前所未有的大門。
4 開放的社會化分析服務
《哈佛商業評論》說數據科學家是21世紀最性感的職業。而麥肯錫認為:2018年前美國這類人才的缺口達到數十萬,特別是能夠做深度分析的分析師有50%~60%的缺口。也難怪,一個合格的數據科學家必須精通數理統計和計算機科學,對數據敏感,對業務理解。現有的計算機科學或數學的教育體系,無法批量生產這樣的人才。我們看到基于慕課(MOOC)的數據科學課程獲得了數百萬學生的參與,很多大學開始推出在線數據科學課程和學位,相信基于互聯網的新型教育體系將在人才供給中扮演更重要的角色。但是,短期內人才饑渴是非常現實的問題,這對于矢志立于大數據潮流之巔的企業來說,不免英雄氣短。
與此同時,一股轟轟烈烈的資源革命在互聯網卷過,共享經濟充分利用互聯網將閑散資源與需求對接,解決了供需失衡的問題。設想數據科學家的技能和時間也是一種資源(克萊·舍基將其稱作“認知盈余”),應該也能夠在這一框架下提高使用效率。這就是所謂的開放的社會化分析服務。
這種服務對我們的社會來說并不陌生。某種意義上,這是一種古老智慧“懸賞”和現代“眾包”思維的合體。1714年,英國議會懸賞20 000英鎊的“經度”大獎促使一個鐘表匠發明了航海天文鐘,完全改變了航海史和征服史。18世紀,拿破侖懸賞12 000法郎征集儲存食物的方法,促使一個商人之子發明了罐頭。近現代史上這樣的懸賞還有很多,比如跨大西洋飛行、月球車、宇航員手套等。另一方面,眾包完全改變了當代知識的生成和解決問題的方式,比如維基百科。
那么,開放的社會化分析服務該如何工作呢?下面我講幾個故事。
Netflix在2006—2009年之間向大眾發起數據分析挑戰賽,希望能夠通過預測用戶星級評分來提升推薦引擎的效率,目標是提升10%,為此設了百萬美金大獎,吸引了全世界180多個國家4萬多支團隊來參加。非常可惜的是Netflix沒有采用第1名的算法。那這個比賽是否沒有價值呢?不然,大數據生態系統中最受關注的Spark平臺正是因為這個比賽形成了靈感和最早的原型。大賽的價值往往不在賽場里。
第2個故事關于休利特基金會。它征集一個對學生的短論文進行自動化評分的算法,因此設立了10萬美元獎金的Automated Student Assessment Prize。第1輪大賽先向十多家專業的教育科研機構開放,而第2輪則是在Kaggle平臺上向社會開放。Kaggle坐擁數十萬具有專業知識和自由時間的分析師,而具有數據分析需求的企業只要把數據和挑戰賽規則放到網上,分析師們就可以八仙過海、各顯神通、一較高低。結果出人意料,這些業余愛好者搞出來的算法,遠勝于專業機構的算法。更讓人大跌眼鏡的是前3名獲得者分別是美國一位機械工程專業的本科生,斯洛文尼亞一位計算機系的博士生,和新加坡一位39歲的保險精算師。第1、3名獲獎者剛剛從Coursera慕課平臺上學完了斯坦福機器學習的課程,剛剛學完去參賽,就摘得桂冠,這是非常顛覆的。Netflix大賽的獲獎團隊都是高大上的科研人員,包括兩個AT&T的研究主管,而這次竟然讓幾個初通機器學習門徑的學生拿到了大獎。競賽改變了學生的命運,第1名轉向了數據科學專業,而斯洛文尼亞和新加坡的兩位優勝者在美國找到了職業發展的巨大空間。
第3個故事是關于一家很小的初創公司Jetpac,它在IPAD上做一個關于旅游的應用。這個公司非常小,做技術的兩個人,一個CTO,另一個是程序員,他們希望有一個自動化的算法在很多照片中篩選出最好的照片。但兩個人學識有限,于是他們在Kaggle平臺上搞了一個比賽,因為資金有限,就出了5 000美金,沒想到還是吸引到了400多支團隊參賽,最終他們確實選到了一個合適的算法,讓這個應用脫胎換骨。Jetpac馬上就拿到了240萬美金的風險投資,他們的精明之處在于:利用社會的資源為其貢獻才智,換來資本的青睞。
對于當前的“大眾創業、萬眾創新”,數據科學的專業性門檻必然導致洛陽紙貴;而這樣的思想眾包平臺將解決數據智慧的短缺,提升眾創的成功率。
大家試想,Kaggle這個平臺,也就數十萬注冊用戶,咱們中國畢業生每年都是千萬,學科學工程專業的也有好幾百萬,在中國可資利用的社會化分析力量一定更為強大。
鑒于此,中國計算機學會大數據專家委員會主辦了“中國好創意”全國青年大數據創新大賽。首先,它是學生學習數據科學,切磋數據分析技術的平臺;第二,像中國好聲音一樣,它一定是年輕人展現自己的平臺,就像吳曉波所言,這個時代是無名山丘崛起為峰的時代,這個時代需要這么一個平臺;第三,操作系統BSD的發明人Bill Joy提出了Joy定律:在這個時代,無論公司再牛,世界上最聰明的絕大多數人都是為其他人工作的。那么最好的辦法就是打開組織的邊界,讓組織虛擬化,讓世界上成千上萬的人幫忙你解決難題。同時,對于數據科學家/工程師來說,數據分析能力將成為其行走江湖的獨特品牌,縱橫于不同企業之間,最大化其價值。
5 跨領域數據思維
2013年,一種病毒在上海和安徽爆發,國家派出了很多工作組,前往各個現場采樣,對10 000個樣本進行分析。他們尋找的是H7N9禽流感病毒。筆者當時在想,我們的生物科技人員要是有大數據思維多好!早在2005年,Craig Ventor——這位被稱為“科學界Lady Gaga”的奇人,已經在對紐約的空氣做全集的基因組測序。如果對源頭菜市場的空氣做全集的檢測,不正是大數據全集思維相對于采樣的優勢嗎?Ventor的跨界思維并不止于此。2014年,他的創業公司“人類長壽”從Google挖走了頂級計算機科學家,谷歌翻譯首席科學家Franz Och。在這里,Franz將運用大數據去解密人類基因組的奧秘[3-5]。
同樣,生物科學的思維也能幫助大數據。百度首席科學家吳恩達,曾經一度迷惘人工智能走進了死胡同:識別杯子需要一種算法,識別人臉又是一種算法,識別汽車還要一種算法,似乎永遠無法窮盡人的智能。直到有一天,神經科學方面的最新進展讓他大開眼界:科學家把大腦皮層負責聽力的區域與聽力器官的神經連接剪斷,連到視網膜,過了一段時間,這部分區域竟然能夠形成視覺理解了;同樣,負責觸覺的區域也可以被訓練成具有視覺功能。吳恩達獲得了頓悟:原來人腦只有一套算法實現各種認知功能,從此他走上了深度神經網絡的研究之路。
Farecast.com是人工智能學者Oren Etzioni開的一個創業公司(后被微軟的Bing收購),他攜數據思維切入了航空公司白熱化的價格競爭之中。通過洞悉機票隨季節、燃油價格、天氣狀況甚至特定事件的變化趨勢,他推出了機票價格預測服務。如果到此為止,這不失為一個精彩的跨界數據思維案例,但真正使其成為經典的是:在預測服務后Farecast.com增加了10美元的“Fareguard”保險服務,如果購買后一周內價格下跌,公司將補足差價。
前文的另一個案例Decide.com幫助顧客預測某個商品何時買最劃算。同樣,Decide.com對于某些商品提供價格保險,如果消費者購買后一段時間內商品降價,那么公司會補償差價。
The Climate Corporation把氣候學和農藝學揉在一起,告訴農民播種的時機,或為惡劣天氣做好準備。真正天才的創意在于:他們把保險業引入到三角關系中——通過微氣象建模預測異常氣候的發生,幫農民辦理保險,并在氣象災害發生后,自動理賠、打款。當氣候學、農藝學和金融學以一種全新的方式組合在一起,造就了一家10億美元的公司。
讀者從上述的3個例子能夠讀出什么?
大數據的預測分析和保險是完美搭檔,創造了新的商業模式。推而廣之,大數據的預測分析與金融也能產生很多新的商業機會,因為金融本質上就是跨越時空的價值交換,而大數據則能夠發現時空之間的價值剪刀差。這毫無疑問也要拜跨界思維之賜。
相比信息,數據的價值有很高的外延空間。信息的意義是明確的,價值也是確定的。而數據有外部性,它因為某種目的被采集,又可以無限服務于新的目的。克強指數采用的3個數據——耗電量、鐵路貨運量和貸款發放量,都不是為衡量經濟運行狀況而設計的,然而總理跨界的數據思維使其能夠反映中國的經濟全貌(必須指出,這些數據反映的更多是重工業運行情況)。同樣,智能電表采集的社會用電情況不經意間反映了房屋空置比例。數據的這一奇特特性亟需跨界思維去挖掘。
在大數據的開放式創新中,不只是需要技術的開源,更需要思想的開源。如果能夠把世界各地、各行各業的跨界數據思維及其實踐內容檔案化,加入檢索功能,數據智慧就能得到積累和傳播,真正讓大數據之光普照大眾、惠及我們的地球和城市。
6 結束語
文章從5個方面闡述了大數據的開放式創新。我們期待通過開放式創新,中國能夠出現一萬個、十萬個甚至百萬個數據思維公司,他們如群星般璀璨,秉持知行合一,或凈化環境,或改善民生,或推動產業轉型升級,或提升社會治理,形成一股巨大的力量,實現大數據在中國的繁榮!
參考文獻
[1] Linked Data [EB/OL]. (2016-07-27)[2009-06-18]. http://www.w3.org/DesignIssues/LinkedData.html
[2] 吳甘沙.大數據技術發展的十個前沿方向[J/OL].大數據,2015(2) [2015.08.28]. http://www.j-bigdataresearch.com.cn/CN/10.11959/j.issn.2096-0271.2015023
[3] MOODY D, WALSH P. Measuring the Value Of Information: An Asset Valuation Approach[C]// Proceedings of Seventh European Conference on Information System (ECIS99), Copenhagen Business School, Frederiksberg, Denmark, 1999
[4] Reply. The Valuation of Data as an Asset: A Consumption-Based Approach[EB/OL].[2014-04-22]. https://www.reply.eu/Documents/13903
[5] LANEY D. Why and How to Measure the Value of Your Information Assets [EB/OL]. [2015-08-04]. https://www.gartner.com/doc/3106719/measure-value-information-assets