王碧清

2015年年底,上海張江一處20平米的房間內(nèi),十幾個(gè)熱火朝天的年輕人寫下了第一行代碼。2020年,上海達(dá)觀數(shù)據(jù)(Data Grand)和這里的工程師們已走進(jìn)了更多企業(yè)的視野。步入大數(shù)據(jù)時(shí)代,他們以文本智能處理技術(shù)助力企業(yè)破浪前行。
什么是文本智能處理?即通過自然語言理解、自然語言生成、知識(shí)圖譜等人工智能領(lǐng)域方面的技術(shù),實(shí)現(xiàn)文本的自動(dòng)抽取、審核、糾錯(cuò)、搜索、寫作等功能。
如今,達(dá)觀數(shù)據(jù)已成為文本智能處理行業(yè)當(dāng)中的引領(lǐng)者。保持創(chuàng)新、不斷積淀,年輕的航船載譽(yù)而歸——公司成為中國唯一入選2020 IDC創(chuàng)新者的文本智能處理企業(yè)、獲中國智能科學(xué)技術(shù)最高獎(jiǎng)“吳文俊人工智能獎(jiǎng)”;而公司創(chuàng)始人陳運(yùn)文憑借在人工智能領(lǐng)域取得的研究成果,入選為全球科學(xué)企業(yè)家200人名單。
不久前,陳運(yùn)文獲評(píng)共青團(tuán)中央2020年“全國向上向善好青年”(創(chuàng)新創(chuàng)業(yè))。他表示:“非常光榮,將繼續(xù)努力,把產(chǎn)品技術(shù)推向更廣的應(yīng)用天地。”
陳運(yùn)文低調(diào)而謙遜。在創(chuàng)業(yè)前,他已是科技部“萬人計(jì)劃”專家,后帶領(lǐng)團(tuán)隊(duì)在數(shù)據(jù)挖掘方面的國際大賽之中斬獲冠軍,還在由國際計(jì)算機(jī)學(xué)會(huì)(ACM)主辦的全球最高級(jí)別的國際數(shù)據(jù)競賽中,以“社交網(wǎng)絡(luò)推薦算法”在全球1000支隊(duì)伍中獲得亞軍,創(chuàng)造了大陸企業(yè)15年來歷史最佳戰(zhàn)績。
選擇創(chuàng)業(yè)后,陳運(yùn)文是篤定的:服務(wù)傳統(tǒng)行業(yè),為企業(yè)轉(zhuǎn)型升級(jí)賦能。而探尋“AI+傳統(tǒng)行業(yè)”的道路并非一日之功,但他走得不疾不徐、少見焦慮,更多地是一份堅(jiān)定和惜時(shí)如金的水到渠成。
從復(fù)旦大學(xué)計(jì)算機(jī)系博士畢業(yè)之后,陳運(yùn)文先后擔(dān)任盛大文學(xué)首席數(shù)據(jù)官、騰訊文學(xué)高級(jí)總監(jiān)、百度核心技術(shù)研發(fā)工程師。在軟件開發(fā)的各類實(shí)戰(zhàn)當(dāng)中,他深感國內(nèi)互聯(lián)網(wǎng)企業(yè)技術(shù)水準(zhǔn)的領(lǐng)先,但同時(shí)也注意到,“許多傳統(tǒng)行業(yè)里面的計(jì)算機(jī)技術(shù)運(yùn)用得相對(duì)落后,填寫、核對(duì)文檔等仍需手工完成。以技術(shù)提高傳統(tǒng)行業(yè)的運(yùn)行效率,我覺得這是非常有價(jià)值的事”。
在上海張江集團(tuán)創(chuàng)業(yè)孵化器的一處20平方米的辦公室,陳運(yùn)文仍記得,那時(shí)和創(chuàng)始團(tuán)隊(duì)的不舍晝夜。盡管公司成立之初,云集了各大互聯(lián)網(wǎng)巨頭當(dāng)中的風(fēng)云人物,但由于新成立公司的知名度并不高,新鮮力量的補(bǔ)充步履維艱。雖然各方面的條件都很艱苦,但陳運(yùn)文形容:“痛并快樂著,就像搭積木一樣,看著想做的事情一點(diǎn)一滴地實(shí)現(xiàn),心中的藍(lán)圖逐漸成形,充滿著期盼,這種感覺還是很好的。”
那時(shí),陳運(yùn)文要考慮的是如何生存。“小公司沒有知名度和客戶,產(chǎn)品技術(shù)還在打磨,人員規(guī)模也很少。而創(chuàng)新創(chuàng)業(yè)都是從小公司一步步走過來的,如何發(fā)展壯大其實(shí)是非常困難的。”
創(chuàng)業(yè)之殘酷,如穿越逆境寒冬。為了活下來,陳運(yùn)文團(tuán)隊(duì)努力將每一項(xiàng)技術(shù)服務(wù)做到極致,把專項(xiàng)技術(shù)做出特色。“就像國際上許多巨頭公司,例如日本專門做拉鏈的公司YKK,已有近百年的歷史,他們把拉鏈做到世界第一。對(duì)于我們來說,就是把一項(xiàng)技術(shù)打磨成行業(yè)里面最好的。哪怕我們做的事情很小,也依然可以爆發(fā)出很強(qiáng)的生命力。”
陳運(yùn)文團(tuán)隊(duì)最先實(shí)現(xiàn)了文檔材料的自動(dòng)化解析,可以從Word、PDF、Excel等文檔中,實(shí)現(xiàn)精準(zhǔn)識(shí)別和自動(dòng)審核,受到了市場的歡迎,逐步建立起了口碑,也成為一些投資人眼中穩(wěn)健、靠譜的優(yōu)質(zhì)項(xiàng)目代表。三個(gè)月時(shí)間,公司實(shí)現(xiàn)了盈虧平衡;三年的時(shí)間,公司實(shí)現(xiàn)了盈利。
積木一塊一塊地累搭,陳運(yùn)文說,雖然道路暫時(shí)窄一點(diǎn)、黑一點(diǎn),但心間自有光明。“我們常用的漢字雖然約有5000個(gè),但漢字組合起來千變?nèi)f化、語義豐富,如何讓計(jì)算機(jī)像人一樣去思考、理解、識(shí)別非常艱難,技術(shù)到今天為止,都不能說是成熟,還有許多問題和挑戰(zhàn)。”達(dá)觀數(shù)據(jù)團(tuán)隊(duì)在一年一臺(tái)階穩(wěn)步壯大,在不斷解決問題、保持創(chuàng)新之中,行至更加寬闊的智能時(shí)代。
作為人工智能領(lǐng)域中的獨(dú)角獸,達(dá)觀數(shù)據(jù)始終保持著穩(wěn)步增長,不斷升級(jí)迭代。在深耕NLP(自然語言處理)技術(shù)方面,陳運(yùn)文已經(jīng)帶領(lǐng)團(tuán)隊(duì)建立了完備的語料庫,獲得了60余項(xiàng)發(fā)明專利。
2018年,達(dá)觀數(shù)據(jù)獲得了寬帶資本1.6億元的B輪融資,累積融資額超過兩億元,刷新了中國NLP融資紀(jì)錄,發(fā)展駛?cè)肟燔嚨馈2贿^,陳運(yùn)文始終保持著冷靜而理性的態(tài)度,不疾不徐地布局、前進(jìn),“創(chuàng)業(yè)者要在恰當(dāng)?shù)臅r(shí)機(jī)正確引入、使用資本”,“做企業(yè)服務(wù),要慢工出細(xì)活,著急不來”。這年,RPA(機(jī)器流程自動(dòng)化)成為業(yè)界炙手可熱的概念,由美國最先風(fēng)行,并已獲得許多場景當(dāng)中的實(shí)際應(yīng)用。而達(dá)觀數(shù)據(jù)也開始從NLP(自然語言處理)發(fā)展到RPA階段。
如何針對(duì)中文使用習(xí)慣,開發(fā)出適合中國企業(yè)的RPA產(chǎn)品,陳運(yùn)文和團(tuán)隊(duì)開始了新一輪的征戰(zhàn)。
在團(tuán)隊(duì)成員的努力下,達(dá)觀數(shù)據(jù)成功發(fā)布國內(nèi)首款自主研發(fā)集OCR(光學(xué)字符識(shí)別)與NLP(自然語言處理)于一體的RPA系列產(chǎn)品。RPA可以理解為軟件機(jī)器人或虛擬勞動(dòng)者,可以記錄人在計(jì)算機(jī)上的操作,并可重復(fù)運(yùn)行,全程嚴(yán)格監(jiān)控以保障信息安全性。因?yàn)镽PA的技術(shù)突破,RPA+NLP可以適應(yīng)更多更加復(fù)雜的應(yīng)用場景,讓AI技術(shù)真正賦能金融、物流、零售、政務(wù)、醫(yī)療等行業(yè)的流程自動(dòng)化,從而創(chuàng)造價(jià)值。
比如,針對(duì)國際結(jié)算系統(tǒng)自動(dòng)開戶這一實(shí)際應(yīng)用,RPA軟件首先可以通過自動(dòng)識(shí)別已上傳的公司營業(yè)執(zhí)照信息,自動(dòng)完成登陸國家外匯管理系統(tǒng)、獲取客戶信息、登陸國際結(jié)算系統(tǒng)、代填客戶信息并開戶,極大地加速、準(zhǔn)確且優(yōu)化地完成金融系統(tǒng)相關(guān)工作流程。
陳運(yùn)文坦言,國內(nèi)的智能文本行業(yè)目前仍處于早期的技術(shù)產(chǎn)生、中期的推廣應(yīng)用發(fā)展階段,雖然諸如中國銀聯(lián)、招商銀行、工商銀行等企業(yè)都已經(jīng)開始使用達(dá)觀數(shù)據(jù)的產(chǎn)品,但整體來看還不是通用的級(jí)別,市場仍然廣闊。“我們可能很容易理解外賣、共享單車等的運(yùn)行邏輯,但對(duì)于智能文本處理,讓大家理解這項(xiàng)技術(shù)的價(jià)值,并且可以使用它,還需要下功夫。”
談及人工智能技術(shù)的“數(shù)學(xué)氣質(zhì)”,這位本科就讀于數(shù)學(xué)系、后獲得復(fù)旦大學(xué)計(jì)算機(jī)博士的“80后”創(chuàng)業(yè)者表示:“表面上看是文字處理問題,實(shí)際上確實(shí)都是數(shù)學(xué)問題。漢字的排列組合背后都是數(shù)學(xué)的概率、組合。用數(shù)學(xué)化的方式去解讀文字的規(guī)律,還是非常有意思的。”
在陳運(yùn)文上海的辦公場所,每間辦公室的名字都來自于數(shù)學(xué)的一種算法或模型:最大熵、傅立葉、貝葉斯網(wǎng)絡(luò)……“數(shù)學(xué)還是非常神奇的,定理、規(guī)律非常優(yōu)雅”,他希望給團(tuán)隊(duì)伙伴們創(chuàng)造一種良好的技術(shù)氛圍,“走到哪里都像走在數(shù)學(xué)公式里一樣”。采訪當(dāng)中,陳運(yùn)文總會(huì)提到團(tuán)隊(duì)之間的“犧牲和支持”、“配合與成就”,而求真、務(wù)實(shí)的企業(yè)文化,將大家凝聚在一起,共同耕耘、共同期待未來枝葉繁盛。
正如陳運(yùn)文喜歡的一本書《文明之光》中提到的計(jì)算機(jī)的“無所不能”那樣,“如果說工具是人類手腳的延伸,那么計(jì)算機(jī)就是人腦的延伸”,陳運(yùn)文希望,未來有一半的日常文檔資料是由達(dá)觀數(shù)據(jù)所支持的機(jī)器人助手去完成,人們從繁重的工作中解脫出來,去做更多更有創(chuàng)造性的工作。