文‖《上海國資》記者 金琳
陳運文:只要有足夠的數據,這個世界沒有偶然
文‖《上海國資》記者 金琳
他為公司新入職的同事下發了一套題,如何預測泰坦尼克號上的幸存者
在絕大多數人尚未聽說過大數據這個名字的時候,陳運文就已經浸淫其中。如今大數據如火如荼,離職創業對于他來說是一件水到渠成的事情。良好的教育和職業背景使陳運文創辦的達觀數據在張江高科“895創業營”中脫穎而出。
著名投資人巴菲特曾經說,對投資高科技行業不感興趣,因為這個行業變化太快,競爭激烈,難以把握。對此,陳運文則自信地表示,大數據領域競爭相對較少,自己的團隊一直處于技術研發一線,這是別人難以逾越的核心競爭力。
正因為此,“達觀數據科技”成立短短幾個月,就獲得了來自真格基金領投的1000萬人民幣天使輪融資,眾米資本和掌門科技集團跟投。
數據應用已經滲透到當今每一個行業和業務職能領域,成為重要的生產因素。
達觀數據抓住潮流。
2008年獲得復旦大學計算機博士學位的陳運文有著讓旁人羨慕的履歷,畢業后的第一份工作就是百度核心技術研發工程師,后進入盛大創新院擔任大數據團隊負責人,成為盛大文學、騰訊文學首席數據官。
“在復旦掌握了學術界前沿的數據挖掘技術,在百度是從學術界進入產業界,理論轉化為實踐。在盛大開拓了視野,結識了很多互聯網各個方向的精英。在騰訊鍛煉和提升了團隊管理能力。每一份經歷都是一次收獲,不過最難忘的還是盛大研究院。”陳運文說。
陳運文一直對盛大網絡心存感激,他告訴記者,“盛大網絡放手讓技術人員去探索,讓我們去參加競賽”。正是這種敢于投入,敢于涉足前沿研究的魄力,讓陳運文成為國內第一批接觸大數據領域的人。
陳運文與盛大網絡結緣于2010年。那一年,還在北京百度工作的陳運文在一次聚會上結識了當時的盛大創新院一位副院長,他向陳運文介紹了盛大創新院的規劃:既要進行創新項目的孵化,又可以結合盛大內部的應用需求來做一些有意思的工作。那時盛大正處于巔峰狀態,盛大游戲一騎絕塵,管理層希望在其他領域有所拓展,據說盛大創新院最初是要模仿普林斯頓大學高級研究院,在這種思路下,盛大以業內一流的薪水,從全國各地招聘了很多一流的互聯網人才。陳運文是江蘇人,去百度工作之前,他在復旦計算機系攻讀了碩士和博士,盛大網絡描繪的藍圖讓有意向回上海發展的陳運文非常心動。很快,他就接到了邀請加入盛大創新院的電話。
陳運文說,創新院聚集了各行各業的技術牛人,沒有經營壓力,沒有KPI考核,沒有部門之間的隔閡,有的是腦洞大開和激情四射。“有想法的人都有很強的內在驅動力。”云計算、多媒體、大數據……,那些當時聽上去有點兒玄的技術,現在都成了最熱的名詞。
創新院的氛圍讓陳運文感觸頗深。“創新院有兩項獨特的制度,一個是技術分享會,每周開一次講座,大牛們輪流上陣,有助于大家開闊眼界。另一個制度是項目評審會,如果有好的想法可以提出,大家幫忙出主意,不同意的可以‘拍磚’。”這些制度看起來平等、民主、公開。陳運文說,創新院總是鼓勵大家去試一試,志同道合的幾位小伙伴很容易就聚在一起把點子實現出來,例如現在用戶規模達7個億的Wi-Fi萬能鑰匙當時也只是創新院里一個初創的項目。
在盛大創新院,陳運文負責大數據研究。在創新院寬松的氛圍下,2011年,陳運文所在的大數據團隊開發出了一套個性化的推薦系統,這個系統涵蓋了獲取新聞、深度分析、用戶個性化口味的建模和精準推薦等一系列服務。
值得一提的是,因為在盛大大數據挖掘方面的優異成績,他作為隊長代表創新院參加了各項國際比賽,在國際計算機學會的大數據挖掘競賽中,拿到過國際亞軍,創下中國大陸企業參賽的歷史最好成績。在2012年倫敦大數據黑客馬拉松大賽和2013年ACMCIKM舉辦的國際數據挖掘競賽中,他又連奪兩個冠軍,并受到盛大集團最高層的親自嘉獎。如今,這些獎狀被擺放在陳運文辦公室的顯眼位置。讓陳運文記憶最深刻的是2012年在倫敦舉辦的EMI數據黑客競賽,“我們對500萬聽歌用戶的數據進行了挖掘,開發了系統分析用戶偏好模型,形成了500萬個預測模型,從數十萬首曲庫中預測每個用戶最有可能接下來收聽的歌曲,精度超過了其他300支參賽隊獲得了冠軍。競賽過程中我們和劍橋大學代表隊的算法交替領先,在競賽截止前1分鐘才最終鎖定勝局”。
“聚是一團火,散是滿天星。”盡管最后盛大創新院解散了,但是陳運文認為,“這是創業人才的黃埔軍校”。陳運文說,盛大創新院走出去的團隊在上海創業圈形成了巨大的影響。
在盛大創新院解散后,陳運文和他的團隊加入了盛大文學,擔任首席數據官。
在盛大文學,他開發了針對文本的自動審核系統,搭建了文學搜索引擎和推薦系統。正是有了這些系統,讀者才能從浩瀚的書籍中找到自己想看的內容。盛大文學被騰訊并購后,陳運文又加入騰訊擔任數據中心的負責人。他領銜開發的這些系統還在繼續沿用。
2015年年底,陳運文和他的團隊正式創業,很順利地拿到了投資,天使輪一共融到了1000萬元。公司業務主要面向企業,已與多家企業建立了合作關系,幫助企業挖掘大數據,并與一些媒體展開合作,開發了針對讀者的個性化推薦系統。公司還服務兩萬多家新媒體,推出了新媒體大數據排行榜。
大數據產業鏈大致可分為上游大數據資源、中游大數據儲存與分析以及下游大數據應用三個環節。其中,數據資源是大數據發展的基礎和前提,目前主要掌握在政府部門、國有企業以及BAT等大型互聯網公司手中。數據加工、處理、流通以及應用是實現數據價值的終點和驅動力,也是陳運文等創業企業大展身手的戰場。
達觀數據人才濟濟,陳運文任CEO,CTO紀達麒是原騰訊文學數據中心高級研究員、搜狗廣告系統架構師;COO馮佳妮是原盛大云計算公司運營總監;首席科學家段如冰也是原盛大創新院資深研究員,美國南加州大學博士后……不過,在創辦公司的過程中,陳運文覺得最大的困難是尋找人才。“應聘者一般希望選擇大的平臺,我們希望招到大數據領域最好的工程師,最有潛力的畢業生,就要做好說服工作。”陳運文說,公司通過提供有競爭力的薪酬,小而美的特色來吸引人才。“我們會給員工提供全面的鍛煉機會。”
關于大數據,陳運文的理解是,數據要落地,產生價值,才是真正有用的大數據應用。“這里的落地,既可以是對歷史數據的總結,生成報表,更可以是對未來數據的預測,并提供自動化的服務。達觀數據就在這些落地的方向深耕。”他對記者說,“通過大數據,很多事情都是可以預測的。”
他為公司新入職的同事下發了一套題——如何預測泰坦尼克號上的幸存者。整套題通過獲取泰坦尼克號上所有乘客的真實信息,包括性別、年齡、職業、票價、艙位等,然后編寫程序來預測這2000余名乘員中哪些人最終得以生還。
在陳運文眼里,將所有信息加以綜合挖掘,就能夠推演出最終的答案——“705名生還者都可以準確預測。”
預測這樣的事件只是數據挖掘的一個案例,對于極客而言,只要給他們足夠的信息,這個世界就沒有意外和偶然。
現在,陳運文用自己的技術幫助企業進行商業決策。陳運文將第一批客戶瞄準為自媒體人,通過數據分析,為自媒體提供可以引發熱議的話題,并告訴這些作者,什么人喜愛看他們的文章、會關注什么話題。讓機器自己學會分析信息早就在商業行為中廣泛存在。在百度工作期間,陳運文負責搜索引擎的核心算法研究,主要“為用戶提供最有價值的信息”。工作的難點不在于搜索信息,而在于讓機器認知用戶的搜索意圖。
用戶經常會在搜索框中輸入“口語詞匯或者模糊的語句”,服務器要從人們的搜索語句中判斷真正的需求。陳運文就需要設計算法讓搜索引擎理解用戶的語義,從數百億的網頁中迅速找到對用戶最有價值的結果。這種“算法”就屬于人工智能。百度每天的搜索有數十億次,每當陳運文改進了算法都能看到用戶點擊的滿意度在上升。
達觀數據已經形成了清晰的商業模式,按照數據規模、模塊功能、使用時長收取技術服務費。公司在創立四個月后已經實現盈虧平衡,計劃在今年下半年起在全國擴大銷售和市場規模。
達觀數據利用在推薦系統和機器學習等領域的技術優勢,專注于為企業提供大數據挖掘服務,服務對象不僅有目前活躍的新媒體行業,也包括電商、金融、傳統企業等。在895創業營的培養下,達觀數據快速成長,現已針對電商、新媒體和服務企業開發了多個大數據解決方案,其提供的大數據預測、搜索引擎、個性化推薦等產品服務能夠幫助客戶更好地提升點擊率,實現廣告營銷。
陳運文說:“我們面向這些企業的收費是階梯性設置的,根據用戶的數據規模、調用接口的數量和頻次等指標來定價。”而他們服務過的企業,除了可提供已經開通使用的功能,還會根據所采集的反饋數據,持續優化系統。
“雖然我們現在還是一個很小的公司,但目標遠大。希望未來大家討論大數據的時候,都能想到‘達觀’。我覺得這樣我們就成功了。”中國互聯網都會以國際上成功的企業為范本,達觀也是如此,達觀對標的是一家美國大數據服務公司Taboola,這家公司通過幫助發行商網站提升流量并通過廣告盈利,發展極為迅速,已成為僅次于Google的北美第二大流量公司。
陳運文的耐心和親和力讓人印象深刻。他認為,老板的親和力能讓團隊更有“韌性”,尤其逆境的時候大家能沉得住氣,能一起團隊起來想辦法。“我希望自己能身先士卒,讓員工打心眼里佩服我、信任我,愿意跟著我一起堅持到底。”
回顧創業來的歷程。他說:“事實上,大數據應用的需求很多,出發之前你會發現這個領域很多條路都能走。但你其實不知道哪條路能走到終點。”陳運文一直很和緩的語氣忽然加重了點,“但我們會沿著現在的路堅定走下去。”