清晨的斯坦福大學(xué)校園,很安靜,好未來創(chuàng)始人張邦鑫,約上CTO田密,一起散步。
二人心事重重,氣氛有點(diǎn)嚴(yán)肅。張邦鑫一開口,直入主題:“能不能請你放下別的所有工作,只做大模型?”
那時(shí),ChatGPT發(fā)布已有幾個(gè)月,張邦鑫等人第一時(shí)間關(guān)注,做了些非正式預(yù)研,沒拿定主意要不要跟進(jìn)。他帶著團(tuán)隊(duì)專程赴美,考察大模型的進(jìn)展。
一周多的時(shí)間里,團(tuán)隊(duì)連軸轉(zhuǎn),英偉達(dá)、谷歌等科技巨頭以及當(dāng)時(shí)還沒爆火的Figure等初創(chuàng)公司,一口氣走了個(gè)遍。白天出門,夜里復(fù)盤討論。
地陪司機(jī)忍不住嘀咕:“別人都是去哪兒玩,去哪兒看show,你們公司一天安排六七個(gè)訪問行程,也太拼了。”
“走完一圈,挺受震撼的,我們很快意識到,AI將給教育帶來巨大顛覆。”田密接受《21CBR》記者專訪時(shí)表示。
那場清晨對話的最后,田密立下軍令狀:“如果大模型做失敗了,我就離開公司。”
他帶著幾十人的隊(duì)伍,埋頭攻堅(jiān),半年時(shí)間,自研發(fā)布數(shù)學(xué)大模型MathGPT,后取名為“九章”。
現(xiàn)在,九章大模型已深度應(yīng)用到學(xué)習(xí)機(jī)等核心產(chǎn)品,也推出了獨(dú)立APP和小程序“九章愛學(xué)”。能力方面,以數(shù)學(xué)最為突出,在去年MathEval網(wǎng)站的數(shù)學(xué)能力測評中,位列國內(nèi)外幾十個(gè)大模型榜首。
今年,田密團(tuán)隊(duì),積極推動(dòng)大模型走進(jìn)公立學(xué)校,三個(gè)月就做出了第一版產(chǎn)品“九章愛學(xué)大小屏”,已在全國四個(gè)省市試點(diǎn)。
“AI老師,是好未來堅(jiān)定要做的方向。真人老師能干的事情,要讓AI老師都能干,而且干得更好。”田密說。
2022年11月底,ChatGPT問世,我們第一時(shí)間開通賬號。用完以后,大家很驚嘆,過完春節(jié)就發(fā)現(xiàn),身邊討論的人越來越多,這款產(chǎn)品破圈了。
邦鑫和我們幾個(gè)人,一直在討論,要不要跟進(jìn)。當(dāng)時(shí)還沒買卡,就用手頭一批老的英偉達(dá)V100卡,試著做了些預(yù)研測試。
大家覺得,還是得去發(fā)源地看看,了解AI行業(yè)當(dāng)前的發(fā)展?fàn)顩r。我們在美國考察時(shí),感受很深刻,新的技術(shù)革命來了,好未來必須all in,全力投入大模型。
帶著幾十人的團(tuán)隊(duì),我重新回到一線攻堅(jiān)狀態(tài)。
大模型要順利起步,三要素的投入不能少,算力、算法人員、數(shù)據(jù),都是以億為單位的,很燒錢,成本投入是擺在面前的首要問題。
幸運(yùn)的是,老板的決心很大。
算力方面,起初我想過,要不要租一批大廠的卡來訓(xùn)練。邦鑫建議,自己買卡比較可控。好未來在教育公司里,算力投入可能是最大的。
算法的關(guān)鍵在于人。當(dāng)時(shí)集團(tuán)的算法人員大約有100多個(gè),幾乎全部抽調(diào)來做大模型。我們意識到,大模型顛覆傳統(tǒng)AI的路徑,如果執(zhí)著于過去的技術(shù)路線,就是“屎上雕花”。
數(shù)據(jù)方面,公司多年下來,積累了大量教育數(shù)據(jù),但做模型的強(qiáng)化和微調(diào),光有教育垂類數(shù)據(jù)還不夠。我們專門建了一個(gè)基地,雇人做數(shù)據(jù)標(biāo)注。
最初,我們希望從零開始,訓(xùn)練一個(gè)自己的大模型。過了一段時(shí)間,越來越多優(yōu)秀的開源模型涌現(xiàn)出來,我們發(fā)現(xiàn),自己做預(yù)訓(xùn)練,并不劃算。
因此,我們果斷切換方向,在DeepSeek、LLaMA等全球頂尖的開源模型基礎(chǔ)上,結(jié)合學(xué)而思獨(dú)有的教育行業(yè)專有數(shù)據(jù),進(jìn)行二次訓(xùn)練,再把多個(gè)模型進(jìn)行交叉驗(yàn)證和投票,最終得到專業(yè)的教育大模型。
跟之前相比,步驟其實(shí)沒省多少,但站在巨人肩膀上,模型能力得到提升。
做大模型的廠商很多,從數(shù)學(xué)切入的,只有好未來。
數(shù)學(xué)是公認(rèn)的大語言模型最弱的地方,如何提升其邏輯推理能力,是業(yè)界共同面對的難題。
好未來做數(shù)學(xué)培訓(xùn)起家,在這個(gè)領(lǐng)域的積累,是我們做數(shù)學(xué)大模型的優(yōu)勢。
加上公司在2017年就成立了AI Lab,多年布局之下,有傳統(tǒng)AI時(shí)代打下的地基,過渡到新的大模型時(shí)代,過程很順。
花了半年時(shí)間,我們做出了MathGPT的第一版,2023年11月,MathGPT成為首批通過備案的教育大模型。
“九章”這個(gè)名字,源自《九章算術(shù)》,是世界上最早的印刷本數(shù)學(xué)書。大家基本沒有糾結(jié),覺得“九章”好聽好記且有故事,一致通過。
回過頭看,在傳統(tǒng)AI時(shí)代,需要針對多個(gè)應(yīng)用場景,用到上百個(gè)小模型。公司做了大量AI助手,協(xié)助老師備課、批改作業(yè)等,功能較為零散、簡單。
現(xiàn)在,一個(gè)大模型就能搞定很多事情,更重要的變化在于,隨著AI能力逐步強(qiáng)大,能實(shí)現(xiàn)教、學(xué)、練的閉環(huán),真正從過去以老師為中心,轉(zhuǎn)向以學(xué)生為中心。
九章大模型以數(shù)學(xué)起家,并把能力繼續(xù)延伸,覆蓋全學(xué)段、全學(xué)科。
比如,語文學(xué)科,可以提供作文輔導(dǎo)寫作、作文批改等功能;英語學(xué)科,提供英語作文批改、口語對話練習(xí)等功能。
最早,團(tuán)隊(duì)從AI解題這項(xiàng)能力做起。很快,我們意識到,AI解題,技術(shù)水平再牛,也不是家長和學(xué)生的實(shí)際痛點(diǎn)。
家長要的是AI能給孩子批改作業(yè),把錯(cuò)題講明白,減少他們輔導(dǎo)作業(yè)的工作量和請家教的成本。
做大模型不是炫技,幫用戶解決現(xiàn)實(shí)問題才是第一位。
九章選擇聚焦三個(gè)方向——批改、講題、精準(zhǔn)練。
先看批改。傳統(tǒng)AI時(shí)期,能做的是選擇題、判斷題等簡單的批改。現(xiàn)在有了大模型,不光能支持所有題型,而且能呈現(xiàn)批改過程,指出答題錯(cuò)在哪一步,這個(gè)步驟關(guān)聯(lián)哪個(gè)知識點(diǎn)。
至于講題,好未來實(shí)打?qū)嵱?xùn)練出來一個(gè)AI老師,能劃分六個(gè)維度的指標(biāo),讓真人老師打分,評價(jià)其講題的邏輯性、過程的連貫性等。
最后的精準(zhǔn)練,基于知識圖譜,從孩子做對或做錯(cuò)一道題,來判斷其是否掌握某個(gè)知識點(diǎn),精準(zhǔn)推送孩子需要的題目。
這些技術(shù)能力,以多種應(yīng)用方式落地,既嵌入好未來現(xiàn)有的APP、智能硬件和學(xué)習(xí)服務(wù),也有獨(dú)立的APP和小程序“九章愛學(xué)”,并提供API和智能體接口。
隨著落地探索的深入,我們逐漸認(rèn)清了現(xiàn)實(shí):純AI軟件很難單獨(dú)落地,軟硬結(jié)合可能是現(xiàn)在的唯一出路。
在教育硬件賽道,學(xué)習(xí)機(jī)的復(fù)雜程度是最高的。好未來在2023年2月推出第一代學(xué)而思學(xué)習(xí)機(jī),錨定“好內(nèi)容”,當(dāng)時(shí)有人估算過,4000多元的學(xué)習(xí)機(jī),僅內(nèi)置的課程資源,價(jià)值至少等于30萬元的培訓(xùn)費(fèi)。
到了第二代產(chǎn)品,大模型能力全面接入,升級為“好內(nèi)容+好AI”,“好AI”即九章與DeepSeek形成的雙核大模型,進(jìn)一步強(qiáng)化學(xué)習(xí)機(jī)的智能交互與精準(zhǔn)分析能力。
從具體功能來看,今年5月發(fā)布的旗艦產(chǎn)品T系列,搭載了小思智慧島Pro,這是個(gè)軟硬一體化的攝像頭體系。學(xué)生伏在桌上寫作業(yè),攝像頭能直接拍到紙上的題目,方便、智能地提供作業(yè)輔導(dǎo)。
我們正在努力,往多模態(tài)AI老師的方向進(jìn)化,省去每次主動(dòng)喚醒AI的動(dòng)作,讓交互體驗(yàn)變得絲滑。
桌面放上教科書或試卷,學(xué)生手寫時(shí),攝像頭實(shí)時(shí)錄入查看,實(shí)時(shí)按步驟講解,如同真人老師面對面輔導(dǎo)。
九章大模型的AI能力,保持以月為單位的迭代節(jié)奏,配合學(xué)習(xí)機(jī)等前端產(chǎn)品的更新。
好未來堅(jiān)定往AI老師的方向走,仿照無人駕駛等級的L0到L5,我認(rèn)為,教育行業(yè)的AI老師,大體上也是如此進(jìn)階。
L1級別,AI只能給老師打輔助,做些簡單重復(fù)的工作。
當(dāng)前所處的L2,AI能在某個(gè)模塊上,勝任老師的工作,比如批改,屬于“輔助駕駛”階段,駕駛員可以“脫手”“脫腳”,不能“脫眼”。
L3,進(jìn)入“有條件的無人駕駛”,可部分“脫眼”,不能“脫腦”。一些特定場景下,交給AI老師明確的任務(wù)和目標(biāo),它能基本跑完一個(gè)閉環(huán),但需要隨時(shí)準(zhǔn)備接管。
我們希望,未來兩三年,能實(shí)現(xiàn)L3級別。比如在家場景下,學(xué)習(xí)平板里的AI老師,可以自主幫你完成學(xué)業(yè)規(guī)劃,也能實(shí)現(xiàn)做題—批改—講題—練題的完整閉環(huán)。
未來,到了L4,AI老師可以跨場景切換,家長能放心地把孩子的學(xué)習(xí)交給AI老師,除非出現(xiàn)個(gè)別極端情況,基本不用接管。
那時(shí)候,教育行業(yè)將迎來徹底變革。
為了將大模型能力推向更多應(yīng)用場景,我們開啟AI產(chǎn)品進(jìn)校業(yè)務(wù),去年底立項(xiàng),今年3月推出第一版To G的學(xué)習(xí)機(jī)產(chǎn)品。
第一批試點(diǎn),至今兩三個(gè)月時(shí)間,據(jù)學(xué)校反饋,兩個(gè)班級對比,有AI工具賦能的班級,數(shù)學(xué)成績的均分較另一個(gè)班高出7分,預(yù)測學(xué)期末將拉開十幾分的差距。
AI進(jìn)校,有個(gè)逐漸接受的過程,關(guān)鍵在于信任和效果,我們有耐心,也有信心。
技術(shù)和業(yè)務(wù)緊鑼密鼓的同時(shí),我們也在鍛造AI化組織。
一是轉(zhuǎn)變思路,業(yè)務(wù)遇到問題,先問大模型,能不能做、怎么做。
二是工作內(nèi)容的“AI率”提升。明確要求所有崗位,未來幾個(gè)月,至少有某項(xiàng)工作由AI替代。比如,公司法務(wù)、財(cái)務(wù)的合同審核,現(xiàn)在基本交給大模型,大幅提效。
我做大模型這兩年,感到壓力最大的,是剛接下任務(wù)的時(shí)候,一切未知,不知從何著手。
現(xiàn)在心里踏實(shí)多了,怎么應(yīng)對挑戰(zhàn)也很明確:從用戶使用過程和經(jīng)驗(yàn)中發(fā)現(xiàn)不足,思考技術(shù)改進(jìn)的路徑,探討更豐富的交互形態(tài)。
就我個(gè)人而言,之前十幾年,待在騰訊、阿里,花名一直是“老師”。或許,冥冥之中就確定了我的角色。