張芊芊

2021年是王瑞哲到美國(guó)的第十二個(gè)年頭。在這十二年里,他從一個(gè)對(duì)科研心懷向往的學(xué)生,成長(zhǎng)為業(yè)內(nèi)建樹(shù)頗豐的科研工作者,支撐他的,是心中不滅的科研夢(mèng)。
“他是一個(gè)做科研就停不下來(lái)的人,停下來(lái)就憋得慌。”這是太太喻瑩對(duì)他的評(píng)價(jià)。
初出茅廬
2009年,王瑞哲還在廈門(mén)大學(xué)讀大四,因成績(jī)優(yōu)異,世界名校美國(guó)圣路易斯華盛頓大學(xué)給他發(fā)來(lái)了攻讀直博的offer,并提供全額獎(jiǎng)學(xué)金。懷著純粹的科研夢(mèng),這年夏天本科畢業(yè)后,王瑞哲便帶上兩個(gè)行李箱,飛往美國(guó)攻讀博士學(xué)位。
王瑞哲在博士期間的主攻方向是利用數(shù)據(jù)和建模來(lái)研究復(fù)雜系統(tǒng)。關(guān)于復(fù)雜系統(tǒng),在不同領(lǐng)域有著不同的研究對(duì)象,比如在生物學(xué)范疇,可以是細(xì)胞;在商業(yè)范疇里,則往往是多樣化的消費(fèi)者。這個(gè)領(lǐng)域像是一片尚未開(kāi)墾的荒地,幾乎沒(méi)有現(xiàn)成的理論做指導(dǎo),全靠自己摸索。
對(duì)王瑞哲來(lái)說(shuō),越有挑戰(zhàn)性的工作,就越有吸引力。不過(guò),理想很豐滿(mǎn),現(xiàn)實(shí)卻很骨感。讀博的頭兩年,他根據(jù)其他學(xué)者發(fā)表的實(shí)驗(yàn)數(shù)據(jù),發(fā)展出一套關(guān)于細(xì)胞長(zhǎng)度與生長(zhǎng)速度關(guān)系的理論。正當(dāng)他準(zhǔn)備將研究結(jié)果發(fā)表時(shí),國(guó)際頂尖研究期刊《自然》雜志刊登了一篇論文,展示了與原有實(shí)驗(yàn)截然相反的實(shí)驗(yàn)結(jié)果。這對(duì)王瑞哲來(lái)說(shuō)無(wú)疑是當(dāng)頭一棒,這意味著幾年辛苦研究的成果幾乎全部報(bào)廢,一切需要重新開(kāi)始。
好在王瑞哲是一個(gè)樂(lè)觀(guān)的人,他明白,這幾年學(xué)到的研究方法論是放諸四海而皆準(zhǔn)的,研究結(jié)果可以作廢,但是努力不會(huì)白費(fèi)。很快,他重整旗鼓,投入到了下一個(gè)研究課題——肌動(dòng)蛋白動(dòng)力學(xué)。這一次,新舊實(shí)驗(yàn)數(shù)據(jù)完美支持他的理論,他一口氣在國(guó)際期刊上發(fā)表了兩篇研究論文,并于2015年夏,成功通過(guò)了博士論文答辯,晉級(jí)成了王博士。
因其突出的研究成果,全美頂尖的華盛頓大學(xué)醫(yī)學(xué)院Siteman癌癥中心的主任DiPersio博士向王瑞哲拋來(lái)橄欖枝,邀請(qǐng)他加入他們的研究團(tuán)隊(duì),運(yùn)用數(shù)據(jù)和建模來(lái)研究基因?qū)W問(wèn)題。而與此同時(shí),世界500強(qiáng)企業(yè)通信巨頭AT&T在亞特蘭大的高等大數(shù)據(jù)團(tuán)隊(duì)也在盛情邀請(qǐng)王瑞哲加入,去研究利用數(shù)據(jù)科學(xué)來(lái)解決客戶(hù)流失的問(wèn)題。
在這兩個(gè)機(jī)會(huì)面前,王瑞哲有些舉棋不定。這時(shí),他的太太喻瑩提議:“來(lái)美國(guó)這些年,我們都很想念中餐,圣路易斯的中餐太少,我們還是去亞特蘭大吧。”后來(lái),王瑞哲在談到這個(gè)決定時(shí)笑道:“這兩個(gè)機(jī)會(huì)都非常寶貴,我都難以割舍,最后還是太太英明,大手一揮,我們便在2015年秋天揮師南下了。”
一戰(zhàn)成名
在隨后為AT&T工作的三年時(shí)間里,王瑞哲一直在研究預(yù)測(cè)客戶(hù)流失的機(jī)器學(xué)習(xí)模型。在探尋了海量數(shù)據(jù)后,他開(kāi)發(fā)出了針對(duì)數(shù)千萬(wàn)客戶(hù)的精準(zhǔn)預(yù)測(cè)模型,這項(xiàng)成果每年能為公司節(jié)省因客戶(hù)流失而損失的上千萬(wàn)美金。但同時(shí),王博士也發(fā)現(xiàn),模型的準(zhǔn)確性會(huì)隨著新數(shù)據(jù)的涌入而逐漸降低。接受采訪(fǎng)時(shí),王瑞哲打了一個(gè)比方:“比如說(shuō)去年很多客戶(hù)在用iPhone12,彼時(shí)剛剛開(kāi)發(fā)的機(jī)器學(xué)習(xí)模型會(huì)認(rèn)定這批人是最新潮的,但是現(xiàn)在iPhone 13上市了,很多人會(huì)轉(zhuǎn)用iPhone 13,iPhone 12就不是最新款了。數(shù)據(jù)的變化是日新月異的,可模型并不知道這個(gè)世界已經(jīng)發(fā)生了變化,它還是會(huì)以老的眼光來(lái)看人看事,而根據(jù)老眼光做出的預(yù)測(cè)會(huì)越來(lái)越失準(zhǔn)。”
為了克服機(jī)器學(xué)習(xí)模型的這一缺陷,王瑞哲設(shè)計(jì)了一個(gè)新的算法。這個(gè)算法的核心思想就是探測(cè)新數(shù)據(jù)并更新模型。新類(lèi)別的數(shù)據(jù)會(huì)自動(dòng)識(shí)別,老類(lèi)別的數(shù)據(jù)自動(dòng)歸類(lèi)。這樣,模型所需數(shù)據(jù)時(shí)刻都被規(guī)整到最新的狀態(tài)。不僅如此,這個(gè)算法還可以自動(dòng)處理數(shù)據(jù),節(jié)省70%的數(shù)據(jù)處理時(shí)間。
采訪(fǎng)中,當(dāng)提到這項(xiàng)研究時(shí),喻瑩打趣道:“還記得那個(gè)周末,我們帶著孩子在奧林匹克公園里玩,本來(lái)玩得好好的,老王突然愣住了,看著公園里的噴泉發(fā)呆。我問(wèn)他怎么了,他說(shuō),‘有個(gè)控制器控制著這個(gè)噴泉,讓水流時(shí)靜時(shí)動(dòng),這跟數(shù)據(jù)有點(diǎn)像。我可以讓算法實(shí)現(xiàn)這個(gè)功能!對(duì),一定能行!說(shuō)著,他也不管我和孩子,掉頭就跑。后來(lái)我才知道,他跑到公司去干活了!”王瑞哲笑道:“靈感來(lái)了,不能等啊!我得立刻把靈感敲進(jìn)代碼!”
這項(xiàng)成果讓王瑞哲一戰(zhàn)成名,并受邀在當(dāng)年的一場(chǎng)數(shù)據(jù)科學(xué)競(jìng)賽中擔(dān)任評(píng)委。這次競(jìng)賽由號(hào)稱(chēng)“南方麻省理工”的佐治亞理工主辦,要求利用數(shù)據(jù)和建模解決一個(gè)實(shí)際問(wèn)題,參賽作品題材不限,但要求原創(chuàng)。經(jīng)過(guò)激烈競(jìng)爭(zhēng),最后脫穎而出的冠軍團(tuán)隊(duì)作品是一個(gè)App,它能根據(jù)各個(gè)街區(qū)的犯罪數(shù)據(jù)來(lái)預(yù)測(cè)人行道的犯罪概率,并為路人推薦晚間行走的最佳路線(xiàn)。王瑞哲認(rèn)為這個(gè)作品不僅技術(shù)出眾,還具有真正的社會(huì)意義,能夠切實(shí)幫助到群眾。通過(guò)這個(gè)競(jìng)賽,王瑞哲也更深刻地體會(huì)到,研究者不應(yīng)該永遠(yuǎn)待在象牙塔里,應(yīng)該走出去,讓科研成果服務(wù)于社會(huì)。
步履不息
在A(yíng)T&T公司干了三年后,王瑞哲發(fā)現(xiàn)這項(xiàng)工作漸漸失去了挑戰(zhàn)性。因此,2018年,他從AT&T公司離職,加入了一家名為FLEETCOR的金融公司。對(duì)此,他解釋說(shuō):“在金融領(lǐng)域,有很多機(jī)器學(xué)習(xí)模型用來(lái)預(yù)測(cè)客戶(hù)失信的概率,金融機(jī)構(gòu)據(jù)此決定是否對(duì)客戶(hù)進(jìn)行借貸。有一次,我在一個(gè)學(xué)術(shù)會(huì)議中了解到,很多機(jī)器學(xué)習(xí)的模型都有一個(gè)重大缺陷,就是數(shù)據(jù)來(lái)源非常有限。一些關(guān)鍵數(shù)據(jù),比如征信等,無(wú)法覆蓋到大量沒(méi)有信用歷史的客戶(hù)。對(duì)待這類(lèi)客戶(hù),由于數(shù)據(jù)的匱乏,機(jī)器學(xué)習(xí)模型便無(wú)用武之地,這些需要借貸的客戶(hù)也就沒(méi)有辦法融資。我覺(jué)得,金融不應(yīng)該只是為有錢(qián)人服務(wù),廣大底層人民應(yīng)該也有權(quán)利得到金融服務(wù)。如果我能夠用科學(xué)的方法,挖掘相關(guān)數(shù)據(jù),開(kāi)發(fā)出好的解決方案,讓金融惠及更多的平民百姓,那我的工作才是真正有價(jià)值的。正好當(dāng)時(shí)FLEETCOR提供了這么一個(gè)機(jī)會(huì),我就又整裝出發(fā)了。”
在FLEETCOR,王瑞哲提出了一個(gè)非凡的設(shè)想:利用非傳統(tǒng)的數(shù)據(jù)來(lái)增大機(jī)器學(xué)習(xí)數(shù)據(jù)集,幫助各種機(jī)器學(xué)習(xí)模型進(jìn)行預(yù)測(cè),以擴(kuò)大受眾群體。王瑞哲的設(shè)想得到了公司高層的認(rèn)可,不僅如此,公司還給他提供了一個(gè)超大的云端數(shù)據(jù)平臺(tái),方便他來(lái)整合外部數(shù)據(jù),進(jìn)行探索和分析。通過(guò)這個(gè)云平臺(tái),他的任何想法都可以快速落地,不受任何人或者IT資源的限制。這令王瑞哲十分振奮。
在探索了上百個(gè)外部數(shù)據(jù)源的上萬(wàn)個(gè)變量之后,王瑞哲挖掘到一批在傳統(tǒng)數(shù)據(jù)庫(kù)沒(méi)有的優(yōu)質(zhì)變量,開(kāi)發(fā)出一套數(shù)據(jù)增強(qiáng)的技術(shù),極大地豐富了機(jī)器學(xué)習(xí)數(shù)據(jù)訓(xùn)練集。這樣,通過(guò)這些增強(qiáng)數(shù)據(jù),原本苦于無(wú)米之炊的機(jī)器學(xué)習(xí)模型又可以大顯神通了,讓上百萬(wàn)沒(méi)有信用記錄的客戶(hù)有了借貸的希望。這項(xiàng)成果廣泛地?cái)U(kuò)展了潛在客戶(hù)群體,幫助公司在短短一年的時(shí)間里扭虧為盈。而且,在研究過(guò)程中,王瑞哲還發(fā)現(xiàn)數(shù)據(jù)增強(qiáng)技術(shù)在詐騙偵測(cè)、風(fēng)險(xiǎn)控制等領(lǐng)域有巨大潛力,這也為他未來(lái)的工作奠定了方向。
一路走來(lái),王瑞哲始終在科研的前沿探索,記者問(wèn)道:“你在科研路上,遇到過(guò)困難嗎?”王瑞哲說(shuō):“遇到的困難數(shù)也數(shù)不清,但是如果你轉(zhuǎn)變一下心態(tài),你就會(huì)發(fā)現(xiàn)困難無(wú)非就是很多簡(jiǎn)單的事情揉在一起,再裹上幾層用來(lái)迷惑你的外衣。而你需要做的就是用科學(xué)的方法,不斷嘗試,抽絲剝繭。”他用砍柴舉例,“一個(gè)人第一次砍柴,不知道怎么砍,用什么工具,用多大力氣,那應(yīng)該怎么辦?如果是我,我會(huì)先用一把小刀試試,不行就換大刀,再不行就換斧頭。一開(kāi)始,我會(huì)用小一點(diǎn)的力氣,感受深淺,然后逐漸加大力度,直到找到最佳的力度。劈柴的角度我也會(huì)多方嘗試,橫著砍、豎著砍、斜著砍。最后,一定會(huì)找到最合適的工具、力度和角度。所有難題,不都是這么解決的嗎?”
采訪(fǎng)即將結(jié)束時(shí),記者感慨道:“王博士,你年紀(jì)輕輕就有這樣的成就,家庭事業(yè)雙豐收,真是妥妥的成功人士啊!”談起科研就口若懸河的王瑞哲,此時(shí)面對(duì)夸贊卻露出了靦腆的微笑,他說(shuō):“我一路走到今天,離不開(kāi)太太的大力支持。我的太太也是名校畢業(yè),也擁有成功的事業(yè),但她在工作之余,還要照顧孩子、操持家務(wù),為我做出了很大的犧牲,我非常感激她。而我作為一名科研工作者,我的使命就是一步一個(gè)腳印地探尋真理。我很幸運(yùn),在這個(gè)領(lǐng)域做出了一點(diǎn)成績(jī),但若是論成功,我才剛上路呢!未來(lái),我還想讓我科學(xué)研究的成果更多地服務(wù)廣大人民群眾,這才是一個(gè)科學(xué)家真正的人生價(jià)值所在。”