譚婧
人類正從IT走向DT(DataTechnology),這是個大背景。
企業處在數據產品和AI產品的紅海,想活命就必須手持一本《AI避坑逃生指南》。
個人處在競爭與內卷的浪潮,數據思維和工具是護身符。
在上海市徐匯區虹漕路77號C8,我見到了和鯨科技創始人范向偉與首席產品官殷自強。這是一家擁有近15萬注冊數據科學家社區的公司,同時也是在數據科學的江湖里無論如何也不會錯過的公司。
我們曾經從2017年就開始“聊天”。
這次只是,無數次中的一次。
只是這次,忠實地做了記錄。
出發時,和鯨只是一家被稱作“對標谷歌Kaggle”的公司。到如今,和鯨是一家“走通”從競賽到社區,再到產品的公司。在中國,乃至全球,這條路,都是獨一無二的。
彼時,美國有,中國抄。
那一輪,投資人拿和鯨和Kaggle做中美對標,數據競賽玩家拿“中國版Kaggle”指代和鯨。
Kaggle是什么?是全球最大的數據科學技術分享社區(在線分享代碼、項目和數據集等),創立于2010年。“Kaggle大神”是數據科學競賽界頂禮膜拜的江湖稱謂,可見其地位之顯赫。
2017年,Kaggle被谷歌收購,宣布收購消息是彼時谷歌云首席科學家李飛飛。消息漂洋過海,范向偉耳邊都是:“賣給BAT,財富就自由”。
范向偉不想“賣”公司,因為他一開始就沒有“抄”。辦競賽、搭平臺、建社區、出產品,全套拳法,天人合一。
到今天,真相大白了。因為沒得抄了,反而能看出來誰在踏踏實實做數據科學的產品。
既然不被收購,那接下來,路在何方?這個問題,范向偉這幾年應該被問了無數次。當年,有人說Kaggle可以推出SaaS產品,因為抓住了一群獨特的、技術含量極高的、小眾的群體。這群人的需求,比中情局的情報還珍貴。
四年過去了,Kaggle始終沒有邁出這一步。被誤稱為“中國版Kaggle”的公司卻做到了。SaaS產品“數據科學云端協作工具”,并非誕生美國硅谷車庫,而誕生在中國人自己的數據科學社區。
如果它有口號的話,估計會和熊貓、雪豹、金絲猴“撞稿”:“我們誕生在中國。”彼時,數據化浪潮開天劈地,數據競賽風起云涌,范向偉從上海交通大學統計系的教室里緩步走出。他并不熱心于完成碩士學業,而是心心念念數據競賽。興趣是最好的開始,而同行者最是惺惺相惜。社區就是吸鐵石,把同類人“吸”在一起。
數據競賽社區高手云集,人氣高,思路廣,不乏大量活躍者,貢獻算法、案例、數據集,吸引更多數據人才,武林高手齊聚光明頂,圍攻“挑戰性數據問題”。
數據競賽社區中國不止一家,阿里巴巴、百度都有,是不是論規模,定輸贏?范向偉的答案是否定的。
和鯨不只是數據競賽舉辦方。別人僅僅是辦一場活動,和鯨團隊則在打磨產品——先做競賽系統,再把整個競賽系統SaaS化。他們做到了從人力運營轉換到競賽產品。
范向偉說:“多年前,比賽客戶就開始自辦比賽了,我們只提供競賽產品。比如華東師范大學,就是用和鯨的比賽系統直接辦比賽。”演化與進化都是悄然發生的。
歌手唱:《想愛誰你就去愛誰》,范向偉說:“想辦競賽你就去辦競賽”,下半句是:“給你工具就行了。”
中國移動、中國電信、南方電網、中華醫學會、鵬城實驗室、北京醫保局都來找和鯨辦數據競賽,范向偉拿出產品——數據競賽管理平臺。一面辦比賽,一面產品化。這是一件很有趣的事兒。
數據競賽不崇尚孤膽英雄,團隊作戰更為常見。一起寫代碼,讓“協作”成為參賽選手的剛需。從那時開始,像種子一樣的“協作”產品理念,已經發芽了。數據競賽系統突出競賽,數據科學云端協作工具突出協同,兩個產品的底層模塊有共同之處。
首席產品官殷自強說:“SaaS化是因為有抓手,我們才有機會摸索產品化的道路。”和鯨社區打磨產品的方法是獨一無二的,類似開源軟件的方法論,千手捉蟲(bug)快,和真實需求的距離最近。
“有多近?”“和鯨團隊的辦公室,是距離中國數據科學競賽比賽現場最近的地方。”打磨,是SaaS產品的必由之路。
殷自強說:“數據競賽的價值是什么?這個問題我們思考了五年,這五年來,我們辦了100多場比賽,100個不同的場景,100家不同的機構,處理100個人工智能需求,100個機器學習需求,共性在哪?”
“直接給到客戶的,相當于為客戶做定制開發。某一模塊可能只是客戶唯一需求。對于高速迭代的工具平臺,這種先定制開發,再產品化的模式會遇到很大的挑戰。”殷自強說。
“和鯨的做法是,某個產品模塊上新,讓社區先使用。”社區,是和鯨得天獨厚的寶地,是孫悟空的花果山,是哪咤的陳塘關。“比賽結束,一切都結束了,那是活動營銷公司的生意。”殷自強補充說。
這時候,有人質疑,是不是和鯨的產品,只用于數據競賽?答案并不是。
產品要在場景無數次驗證大規模的需求,數據競賽就是這樣的場景,證明產品是可以支撐千人同時在線編程。若論同時使用產品的人數,一家普通公司不可能比社區里的人多。
所以,和鯨的產品對客戶的服務,變成了降維滿足客戶需求。和鯨社區里的各色需求都被提煉成產品的迭代需求。這既是一種“折磨”,也是一種“幸福”。折磨受得越多,產品越成熟。很多時候,在和鯨辦公室里看見研發團隊誰的神情最焦灼,那人便是殷自強。
但是他說這句話的時候充滿自信心:“從來沒有碰到過哪個公司的并發,把我們給卡住了。”
數據與AI的發展既強勢,又混沌。做數據和AI產品要對主流技術趨勢敏感,有判斷力。用范向偉的話說就是:“數據科學已經發展到第三階段(3.0),數據類型、基礎設施、分析工具和工程任務中的行為,發生巨大變化。”
一個軟件版本用N年的時代,已經一去不復返了。殷自強自問自答:“快速擴容是一個里程碑。10臺變成100臺,1000臺變成10000臺,這種變化不能影響服務。支持大規模工程的能力,業界遲早要有,且大家都會去選最好的。這件事情,為什么不是我們來做?”當K8s剛出1.0版本的時候,CTO和技術團隊敏銳地關注了。
第一,發現大廠都選K8s,主流的大廠進來,需求迅速變成現實。第二,K8s表現強勢,剛出來的時候還有一個叫Swarm的一套技術,也能解決彈性控制的問題,但還是被K8s快速淘汰掉了。第三,K8s是開源的。人工智能界的好東西,很多都開源了。
判斷結論有了:K8s有優勢,會帶來一波變化,那就抓住它。產品好是一個大概念,有很多“訣竅”是外行人難以察覺的。
江湖有一種迷信,似乎只要算法高超,就勝券在握。但是,傳統機器學習算法和深度學習算法各有優勢,各有用途。
大規模深度學習已是貴族游戲了,只有工業界的頭部大公司才可以承受,鯉魚躍龍門般的高門檻限制了創新探索和整體發展。比起深度學習,數據分析“身價平平”。
但是,江湖有云,欲練上乘劍法,不限招式多寡。《倚天屠龍記》當中,孤鴻子和楊逍比武,楊逍奪走孤鴻子的倚天劍又扔還。殺傷力不大,侮辱性極強。
楊逍拿著劍冷笑道:“倚天劍,好大的名氣!在我眼中,卻如廢銅廢鐵一般!”孤鴻子對兵器盲目迷信。楊逍就不信這個邪。
算法和產品都是工具,工具的存在,是為了解決問題。在“解決問題”這個終極任務面前,人的智慧極為重要,不能過分夸大工具的威力。
范向偉說:“我們判斷數據分析的場景價值更大一些,或者是說,要做AI,首先要從數據分析起步。單獨看技術難度,數據分析肯定簡單,但是不能說價值低,要做好數據分析,一樣充滿挑戰,需要發掘人的價值、解決人的問題。”
倚天劍不能擊敗所有對手,深度學習也不能。范向偉認為,在企業中,最難處理的問題,永遠是人的問題。他堅信,人是一切問題的根源,也是一切辦法的支點。
所以,當和鯨團隊意識到這個問題的重要性的時候,產品邏輯了然于胸——數據科學云端協作工具,也就是和鯨的ModelWhale。他說:“數據科學家彼此之間的協同,是權利責任、資源分配、分工協同、過程追蹤、成果整合的問題。產品定位,立足于此。”
“人才和管理,是數據產品和AI產品落地過程中隱形大坑。”這句話應該寫在《AI避坑逃生指南》的第一頁。
明槍易躲,暗坑難防。近幾年,最知名的數據產品,莫過于數據中臺。一個數據中臺的實施與落地,牽扯企業組織變革、資源變革、流程變革……一場變革尚且窮盡其力,如此多的變革,讓一款產品,難負其重。這是數字化改革的“深水區”,觸動了很多人的深層次利益。
某公司中層干部的內心獨白是:“我們部門的私有數據,是私有資產,為啥要和隔壁部門共享。年終獎拱手讓人嘛?”數據工具的先進性,并不能解決人類思維的慣性。
產品邏輯的背后,是產品理念、企業的理念,以及創始團隊的信仰。數據協作工具這一類型的產品猛地聽起來,并不容易理解。而范向偉則認為這是最好的“工具”。
“數據思維”狠狠告別“原始年代”,也是個體的必然選擇。培訓拯救不了焦慮,數據科學唯有從動手開始。
殷自強說:“我們也在做拖拉拽系統,降低門檻,降低畏懼情緒。”
“同時,也思考用戶快速搭建分析框架(框架包括,觀察數據分布、提取特征、測試模型、評估效果),完善代碼,并調整成能提高模型準確率和業務相關性的成果(報告或模型)。”門檻的高度是一個比較值,不是一個絕對值。自2017年起,范向偉就一直拿學英語這件事情打比方。他說:“七八十年代,國民整體英語水平偏低,英語翻譯很吃香。近十年,英語普及得較好,英語能力不再是一種稀缺能力。”
以前,學英語。如今,學數據科學。
范向偉也談到了5年以來的觀察:“5年前,用戶絕大多數是計算機專業背景,因為編程是敲門磚。現在,很多社會科學學院、大氣科學學院、商學院、醫學院背景的人已經離不開數據科學的工具了。”這個變化,符合幾年前他的判斷。他說:“我們跟隨行業的腳步,很多人在社區里成長,努力培養數據思維,學以致用。和鯨團隊不相信,只靠類似AI全家桶的產品,就能解決產業里無法窮盡的問題。”
將視野放寬到行業,那些做數據科學產品與AI產品的中國SaaS廠商,幫客戶把算法都搞定了,變成一個普通業務員工能去用的工具。
范向偉認為:這是過度“封裝”,容易陷入局部最優的陷阱,長期看來,難以迭代,拓展和復用。企業業務是動態變化的,數據的用法是動態變化的。有,且只有:業務員越具備數據思維的時候,越利用得好數據,才會把數據的價值滲透到毛細血管級別的場景里面去。
《AI避坑逃生指南》認為:定位數據與人工智能類的企業級產品,有兩個大坑。首先是,工具類的產品都是賦能千行百業的,石油、電力、交通等,大多數情況下創業者自己不是核心用戶,你滿足的是別人的需求,無法得知客戶的真實需求,容易踏進主觀臆斷的坑。其次是,訂單合同金額較高,碰到大的項目,客戶必定有定制化的需求,標準化產品賣不進去。屈從定制,團隊和人力就搭進去了,容易踏進人力資源外包公司的坑。
如今的和鯨是國家氣象信息中心國家級工程——氣象大數據云平臺(“天擎”)數據挖掘分析系統支撐方。和鯨做了哪些準備?第一,洞悉了客戶需求的“水晶球”,第二,做到了產品通用性的厚積薄發。