楊松

“2023年,我覺得是人工智能進入新階段的一個起點。”
提及當下大熱的ChatGPT,達觀數據董事長、CEO陳運文興奮地告訴《21CBR》記者,其寫出來的內容,相較之前的計算機寫作有了質的飛躍,寫作能力已經超過了普通人。
陳運文覺得,ChatGPT與自己的創業項目,有“非常強的相關性。”達觀對文本進行智能化處理,與ChatGPT本質上是一致的,都使用到了自然語言處理技術。
人工智能技術主要應用在三個方面,語音識別、圖像識別、自然語言處理。前兩個領域進展迅速,已經上市的商湯、科大訊飛等公司,業務均集中在圖像、語音方面。
2008年從復旦大學博士畢業后,陳運文的工作一直圍繞著“人工智能”和“文本”,先后擔任盛大文學首席數據官、騰訊文學高級總監、百度核心技術研發工程師等職務。
2015年,陳運文創辦了專注于智能文本機器人公司達觀數據。創業初期,他組建了一個算法團隊,參加全球算法競賽,兩次獲得世界冠軍。
自然語言處理技術(NLP)因其復雜和高難度,被業內稱為“人工智能皇冠上的明珠”。陳運文覺得團隊的技術實力并不比海外同行差,一頭扎進了自然語言處理技術這個頗具挑戰的領域。
經過7年技術研發,達觀首創了國內第一套文本智能處理IDP處理平臺,行業無錨點OCR文字提取系統,以及獨家開發RPA(機器人流程自動化)文字元素自適應穿透捕獲算法。
產品應用方面,達觀的業務已遍布金融、制造、政務等細分領域,陳運文透露,國內排名前30的券商公司,均是達觀的客戶。
天眼查數據顯示,2022年3月,達觀數據完成C輪5.8億元融資,投資方包括中信證券、招商證券、廣發證券、中信建投等券商,累計融資額超過10億元。這4家券商,投資前均是達觀多年的客戶。
在陳運文看來,AI文本領域的市場規模,并不比視覺領域小。隨著ChatGPT類似技術應用到各個領域,將是千億甚至萬億級別的市場。
達觀數據也迎來了文本AI的春天。陳運文透露,今年公司的營收有望超過歷史上任何一年,預計會完成新一輪融資。
ChatGPT 大火,其運用的技術原型,在2017年就誕生了,我們叫做Transformer模型,既可以用來做文檔資料的閱讀理解,也可以用來寫作。
我印象中人工智能上一次這么熱,還是2016年AlphaGo下圍棋。6年之后又有一個非常巨大的技術突破,挺鼓舞人心的。
行業內有句話,自然語言理解,是人工智能皇冠上的明珠。我之前估計,人工智能的水平超過人類,需要5-10年,現在時間進程大大加快。2023年人工智能進入一個新的階段,標志著新時代的開始。
ChatGPT背后的大模型技術,是通過海量文檔資料進行深度學習,智能程度已經達到非常高的水平。不僅能直接給出選擇題的答案,還可以幫用戶寫代碼、找bug,寫各種各樣的文檔資料。
大家對人工智能的未來前景也越來越樂觀,以前覺得人工智能做不了的事情,接下來會一點一點實現,超過人類的相應能力。
達觀所從事的研究領域,是文檔資料的智能處理,與ChatGPT的工作原理類似。達觀的產品則應用在企業級領域,面向更為垂直的行業。
不過,通用大語言模型與專用模型,有很大差異。如果用戶問ChatGPT一些專業性問題,會發現它的回答可能東拉西扯,說不到重點或不夠深刻。
我曾問過關于自然語言處理領域特別專業的技術知識,它的回復不太好。在垂直領域,還是需要類似達觀所提供的專用語言模型。
在自然語言處理領域,OpenAI(ChatGPT背后的公司)的模式已經走通,我們可以跟隨,并在垂直領域做得更好,未來會有非常優秀的國產語言大模型。
達觀在2021年建立了一個專家工作站,與復旦大學計算機科學技術學院教授黃萱菁合作,她也是國內自然語言處理領域的知名專家。
今年,達觀和復旦大學聯合實驗室的重點任務,在AIGC(AI Generated Content,利用人工智能技術生成內容)領域,爭取推出優秀的成果。
ChatGPT的大熱,也給我們研發團隊更大的壓力。以前覺得技術沒那么快成熟,而美國同行做出了這么優秀的產品,我們需要加速研發進度。
我自己是研發出身,現在也是管研發更多一些。時不我待,近期研發同事都在加班。我對達觀今年的研發期望很大,希望在專用語言模型和知識圖譜方面均有所突破。
過去幾年,我們圍繞文檔資料處理,研發了很多相關技術和產品。
比如,針對文檔掃描環節,我們開發了達觀OCR(文字掃描)相關平臺;推出模擬重復性操作文檔資料的RPA功能模塊,不管是紙質還是電子版的文檔資料,達觀平臺都能處理。
針對不同行業,我們在研發產品時,需要行業內大量專有語料數據,對系統進行強化訓練。達觀招聘了很多垂直行業的業務專家,也跟行業領先的公司合作。
比如,和很多金融行業的頭部銀行、證券公司合作,將業務專家的專業知識引入語音模型中,讓系統擁有專家能力。
在金融行業,達觀產品實現大規模落地。金融行業的文書工作很多,比如各種信貸報告、招股書、研報等,需要大量的文檔處理工作,且對準確率要求高,AI系統非常有優勢。
這個領域的人才成本比較高,期望利用AI系統提高效率,達觀產品內嵌到金融公司內部的作業系統中,幾乎是員工日常工作的標配工具。
比如銀行的流水核查,甚至更復雜的財報中數據出現矛盾,通過系統都能鑒別出來。
計算機處理文字資料的效率,大概是普通白領員工的100倍。在持續工作狀態下,準確率保持一致,可以24小時工作,對很多行業來說是非常有價值的。
例如進出口企業,海外訂單可能是半夜才到,需要系統立即處理,而不是等到第二天員工上班才去處理。
而在證券領域,目前,前30大券商都是達觀的客戶。其中4家頭部企業在幾年前已經使用產品,后來也成為了我們公司的股東。
行業類產品,從研發到成熟到大規模復制普及,整個過程需要一定周期性。所以,達觀會對行業有所選擇,看潛在客戶在文檔資料領域的需求,是否有行業普適性。
我們通常從市場容量高的行業優先切入,目前布局了金融、制造等板塊。
在自然語音處理領域,國內外有很多大平臺,比如百度、谷歌都有多年積淀。相較這些巨頭,達觀的優勢在于垂直領域。
達觀團隊通過與行業客戶合作,可以積累很多專用的語料大數據,即便是搜索引擎也是很難獲得的。
就整個行業來看,互聯網巨頭未來可能會推出面向個人用戶端的通用語言大模型,而類似達觀這類TOB初創公司,則專注于垂直領域的專用大模型,會有一個差異化發展路徑。
在文檔資料領域,除了審核還有寫作環節。智能化寫作將是達觀重要的技術突破點,完成之后就能形成產品閉環。
在去年的艱難環境中,我們是AI行業增長最快的公司,團隊做了很多努力,挺不容易的。
今年整個經濟形勢及市場信心回暖得非常快,我覺得今年的收入和業務發展,應該超過公司歷史上任何一年。
我今年更關注產品研發,有了優秀的產品,可以迅速帶動業務。
年內我們會推出國產的語言大模型,并且會用于幾個垂直領域,比如工業制造、零售供應鏈、金融等。

未來,人工智能并不是完全替代人力,而是變成“人機協同”。
寫作也是很多客戶的痛點之一,人寫作的速度是非常慢的,我們做過測算,一個人平均寫1000字左右的文檔,A4紙大概一頁半紙,差不多需要2到3個小時。
如果用AI系統去寫作,這個時間可以縮短到一分鐘之內,對效率的提升是非常巨大的。我相信未來AI工具和人結合,能夠讓各行各業的專業文書寫作更為高質高效。
我們預估過,把所有文本文字資料處理的工作加起來,未來有AI滲透進去的話,將是一個萬億級市場。
目前,市場上有相關技術能力的創業公司并不多,行業門檻挺高的,需要很強的研發能力,并在行業中有很深的技術積淀,才敢啃自然語言處理這塊“硬骨頭”。
隨著ChatGPT大熱,近期想找達觀投資的機構挺多的,我們考慮今年推進新一輪的融資。
科創板目前還沒有自然語言處理或者文本語義處理的上市公司。圖像、文字、語音是人工智能的三個大賽道,圖像已經有幾家公司上市了,語音有科大訊飛,文字則沒有。
所以,我們有機會扛起這面大旗,做科創板文字AI“第一股”。