萬宏蕾

7月8日,上海2023 世界人工智能大會,達觀數據曹植大語言模型
2023年3月,硅谷創業公司OPEN AI推出的新型AI聊天機器人工具ChatGPT 3.5展現出了令世人驚艷的對話能力。僅用兩個月時間,ChatGPT月活躍用戶就達一億,成為史上用戶增速最快的消費應用。
這之后,阿里云“通義千問”大模型、昆侖萬維“天工”大模型、商湯科技“日日新”、“360智腦”、百度“文心一言”……類ChatGPT產品相繼浮出水面。越來越多的國內企業入局其中,大模型之戰悄然打響。
2023年7月,上海企業達觀數據發布了國內首個垂直行業專用的自主可控的GPT大語言模型——“曹植”。據悉,“曹植”可準確完成多類型、復雜結構的長文本寫作。
“ChatGPT帶來了人工智能技術和應用的新一輪發展熱潮,雖然它離通用人工智能的距離還很遙遠,但我們要充分認識到借助人工智能技術進行分析、理解、生成的道路是正確的。這對于中國乃至全球人工智能企業而言,既是機遇也是挑戰。”中國信通院云計算與大數據研究所所長何寶宏說。
“目前我們談論的都是大模型本身,但我覺得明年、后年大家會開始談論模型用在哪里、解決什么問題,是什么樣的產品形態等。”達觀數據董事長兼CEO、復旦大學校外研究生導師陳運文告訴《瞭望東方周刊》,“目前的市場確實很熱,但整體來說,中國市場才剛開始。”
在人工智能三大應用領域中,圖像識別和語音識別均屬于“感知技術”,而屬于“認知技術”(理解復雜語義并進行高精準度處理)的文本理解,是AI技術發展的關鍵所在。
在人工智能三大應用領域中,圖像識別和語音識別均屬于“感知技術”,而屬于“認知技術”(理解復雜語義并進行高精準度處理)的文本理解,是AI技術發展的關鍵所在。
“讓機器讀懂人的意思,這是人工智能技術得以實際應用最重要的也是最難的一環。”陳運文說。他曾在盛大、騰訊、百度擔任技術研發和管理職位,長期從事文本挖掘相關工作。
“企業每天都產生大量文檔,需要配備大量人力對文檔進行歸類、整理和分析。對互聯網企業來說,內部文字資料的處理和應用已經發揮了很大價值但沒有實現價值最大化;而傳統企業,很多還停留在用人力做重復性高、技術含量低的文字處理工作,人工智能技術應用極其原始。”陳運文說,“現在越來越多的企業將信息化納入議程,很多企業內部數據豐富,但沒有很好的方法去挖掘,可謂守著金山要飯。”
通過運用文本挖掘技術能夠幫助企業提升運營效率,就是達觀數據看中的風口。
2015年,達觀數據在上海成立,2016年便獲得真格基金領投,眾米資本和掌門科技跟投的1000萬元天使輪融資,成為一家為企業提供各類場景智能文本機器人的國家高新技術企業。
“實際上,在ChatGPT火起來之前,達觀數據已經進入大模型賽道。2018年,OpenAI發布了第一代ChatGPT技術。當時除了學術圈,社會大眾少有關注。2020年6月GPT3發布,我們當時也使用了GPT3系統。坦率說,當時的系統效果并不好。”陳運文回憶說,“到了2022年11月底,ChatGPT3.5正式發布,我們使用后發現這和3.0有天壤之別,是巨大的飛躍。我們意識到,這會是一個劃時代的技術,或許會撬動整個社會與行業的變革。”
“以前客戶提出了很多應用場景,但因技術條件有限,很難達到客戶滿意的、能夠自然流暢使用的水平;現在有了大語言模型,針對以前客戶很需要又很難實現的應用場景,我們用新模型都能搞定,效果甚至超出客戶預期。與此同時,ChatGPT對中國用戶并不友好。達觀數據敏銳地發現這是一個巨大的機會,國內各行業都需要自主可控的模型,為中國客戶提供專屬服務。”陳運文說。
“在下定決心做國產GPT之前,公司開會討論了好幾天,設想能做成什么樣,同時計算投入和產出。初步盤算,光硬件就要投入幾千萬元,還要找算力平臺。”達觀數據技術總監韓偉告訴《瞭望東方周刊》,“2022年底,當國內很多公司還沒有在意,只覺得ChatGPT是個聊天軟件時,達觀數據就作出了全力投入自主研發大模型的決定。”
總共有將近200人的工程師團隊參與研發“曹植”國產大模型,分成不同的工程小組,各自承擔數據采集、研發、訓練等不同任務。為了取系統名字,公司內部征名,出了98個方案。“如果取類似GPT這樣的英文單詞縮寫,感覺跟中國人的關聯度不夠。考慮到我們系統擅長的長文本寫作,‘七步成詩的曹植形象非常符合,且這一商標在計算機軟件領域還沒有過。”陳運文說,“曹植的《洛神賦》是古代文學作品里的長文本,而做文檔資料智能化的分析寫作工作也是‘曹植大模型的專長。”
“長文本處理領域,我們走在行業前列,所以一路都是‘黑夜獨行。”陳運文說,大模型優異的效果隱藏在諸多技術細節里,但海外同行沒有公布GPT訓練過程的工程細節和參數方法這類核心要素,為了給團隊更多知識補給,達觀數據向復旦大學計算機科學技術學院的教授們請教,讀了許多業界頂尖論文和技術報告。每周技術團隊都在反復討論技術方案,開展各種交流研討,逐字逐句探究核心指南。

達觀技術團隊探討曹植大語言模型
除了作為人工智能基礎設施的算力平臺,大模型訓練還需要巨大規模的數據。達觀數據投入了大量精力來積累和提煉文本數據,源源不斷地投入模型訓練。
“訓練數據規模比一所大學圖書館所有藏書量都要大得多。硬件試驗設備也得跟上,一套方案就要200萬元。”陳運文說。
“GPU不是買回來就能用,需要以軟件形式組網,每個節點是個GPU,最終形成龐大的算力網絡。”韓偉解釋,“從2023年1月開始,團隊調研、采購、組網,不斷打磨,模型的訓練開始循序漸進,先訓練小的模型,再到中、大、超大規模的模型。”
“回過頭來看,由于當時前瞻性的布局,下手早,大模型熱出現后,現在市場上對相關芯片的需求已經一哄而上,不僅供貨周期非常長,價格還上漲了近50%。”陳運文說。
“當‘曹植第一版出來時,正是晚上八九點,大家讓模型跑起來,全部測試結束到了半夜12點,當所有測試集測試效果達到預期,埋頭熬了4個月的團隊歡呼雀躍。”韓偉說。
“第二天,研發成功的第一個版本GPT模型馬上和公司內部釘釘系統對接,驗證系統能力。內測時為了區分不斷刷新的各種版本,我們把曹氏家族名字都取了一遍。”陳運文說。
2023年3月,在由中國人工智能學會主辦,達觀數據攜手中國人工智能學會自然語言理解專委會、真格基金共同承辦,中國信通院云計算與大數據研究所支持的“ChatGPT及大模型專題研討會”上,達觀數據正式對外宣布研發國產版GPT“曹植”系統,作為垂直、專用、自主可控的國產版ChatGPT模型。
“在‘國產ChatGPT和大模型的發展上,自然語言處理這一方向比起其他方向,中國企業與海外先進企業的差距要小很多。”在一場圍繞ChatGPT和大規模語言模型發展應用專題研討會上,與會專家這樣認為,ChatGPT帶動了自然語言處理整體上下游以及芯片的思考和發展,某種程度上大模型可能將成為下一代的基礎設施,而中國需要有自己的基礎模型體系,來保證安全性、并發性和穩定性。
“曹植”也是國內大規模語言模型中首批可落地的產業應用級模型。“在3月份外界剛剛意識到大模型熱時,達觀數據已經領先半個身位。”陳運文說。
所有客戶都關心私有數據會不會被大模型泄露出去,如果公用一個通用大模型的話,確實存在數據被模型學習后再被他人利用的隱患。
目前 ChatGPT、“文心一言”等通用大模型已經被大眾所熟知,這類大模型在用戶廣泛認知方面具有極大優勢,但是在垂直領域,這種建立在公有云上的大模型讓客戶有數據安全方面的擔憂。尤其是現在ChatGPT 頻繁被爆出負面信息后,數據安全更加引起用戶的重視。
“所有客戶都關心私有數據會不會被大模型泄露出去,如果公用一個通用大模型的話,確實存在數據被模型學習后再被他人利用的隱患。”陳運文說,“與通用大模型相比,垂直領域專用大模型參數少,訓練成本和使用成本都更具競爭力;與公有部署相比,私有部署的模式在數據安全方面更具優勢,也更適合中國電信、各大銀行這樣的垂直行業。”
再加上,每個企業都有內部工作規范和規章制度,垂直領域的大模型可以適應每個公司獨特的工作要求去完成文本審核、寫作、分析等工作,而通用模型無法做到。
“達觀數據的定位就是專注于做垂直領域專而精的大模型,雖然只局限在某個領域,但它可以挖得更深,解決任務效果更好,參數規模相對來說可以縮小一個數量級,對客戶來說成本可控,更具性價比,讓客戶‘玩得起、玩得轉。”陳運文說,“大模型應用的性價比是很重要的考量,因為不可能每個客戶都投幾個億去建一個集群來做模型訓練。比如,我們用一些輕量的顯卡去跑這種大模型,通用大模型的話要100張英偉達A100卡能跑的數據,垂直領域專用大模型用一張卡就能跑出同樣的性能。”陳運文說,“這就是‘曹植的商業價值。”
“大模型要管用、好用,必須能解決行業里真正的痛點、難點。如果大家都做一個泛泛的通用大模型,產品的同質化會非常嚴重。”陳運文說,“未來在企業的落地形態,一定是大模型和多個垂直行業小模型的組合。”
具體到“曹植”等大模型的落地,從理論到應用有很多困難要克服,而語義分析又是其中挑戰特別大的方向。“語義是人類智慧的高度抽象和濃縮,讓計算機去理解文字語義需要日積月累、精益求精的技術升級優化。而中文的語法比英文更靈活更復雜,讓計算機去做中文領域的閱讀理解,更加困難重重。”陳運文說。
“文檔智能審閱系統是一個全新的系統,以前沒有過。我們逐漸接觸了一些政府和大企業客戶,他們對人工智能的態度是又愛又怕。作為開拓者,我們需要告訴客戶,技術已經能夠代替人來進行文檔資料的閱讀理解和后續處理,讓客戶明白這個全新系統有什么用、怎么用、可以做到什么程度。”陳運文說,“這個過程需要耐得住寂寞,扎扎實實地把技術做好,讓市場慢慢地成長起來。”
目前,達觀數據已經在科技、金融、視頻、電商、媒體行業落地應用。另外,上海市全力推行“一網通辦”,在處理大量行政審批文本、縮短行政審批時間方面,達觀數據也已經展開與政府機構廣泛的戰略合作。
“與培育市場相比,我們面臨的更大困難是高質量文字資料數據的稀缺與大模型工程人才的稀缺。”韓偉說,“我們希望培養一批優秀的工程人才,既有學術底蘊,能看懂論文、了解新技術,也能動手實踐,摸索出具體的大模型參數、訓練步驟、推理方案。”
“未來如果大模型真正發揮作用,一定不會只是一問一答的形式。就像電出現后,1879年出現最多的是電燈泡公司,但是電能的應用絕不止電燈泡一種形式。我們不做燈泡,我們要做洗衣機、做電冰箱,要去想象其他能滿足應用場景的產品形態。大家要對未來人工智能滲透在各個行業做好準備。”陳運文說。
“我預測2023年底之前,國內第一批大模型的商業化會陸續產生,大規模的商業化落地應用,可能要到2024年、2025年全面開花。整個產業鏈,從底層算力、硬件到應用層,對國內企業來說都充滿機遇。”陳運文說。
注釋:大模型是指具有巨量參數數量的人工神經網絡模型,主要用于解決復雜的自然語言處理、語音識別等任務。大模型是ChatGPT 及其同類產品的底層基礎設施。