
又到一年高考查分時。大模型在經歷高考之后,也要查分了。
隨著AI快速發展,高考已經成為各家AI企業檢驗模型能力的又一重要場景。
6月初,字節跳動旗下豆包大模型1.6正式發布,該模型由2023年成立的字節跳動Seed團隊推出。面世不久,這位“考生”就和其他大模型一起接受了2025年山東卷的高考測試洗禮。
在字節跳動Seed團隊的測評中,豆包取得不錯成績:綜合成績排名靠前。不管是文科還是理科,按照賦分制調整后的高考分數近700分,相較去年成績大幅提升。而且去年偏文科嚴重的它,今年實現文理的均衡發展。
豆包的成績可用突飛猛進來形容。優異成績背后,豆包在模型能力和技術上下了苦功。
高考不僅是高三考生的戰場,也是各家大模型同場競技的舞臺。這對于AI來說是一次綜合練兵。
高考考查內容十分全面,涉及文科、理科,文字、圖像,不同難度的知識點等,意味著AI需要具備豐富的知識儲備能力。
高考的題目全新。相關題目在市面上找不到,有助于模型泛化能力的測試。泛化能力是衡量AI模型優劣的關鍵指標之一,考察的是模型在日常訓練之外的數據、場景或者任務中,是否能夠表現出有效的預測和推理能力。
此次測評,豆包大模型1.6和其他大模型如Gemini(谷歌研發的開源模型)、DeepSeek(國內深度求索研發)、Claude(美國AI獨角獸公司Anthropic研發)、O3(美國OpenAI研發),共同測試了2025年山東高考試題。
考試開始,先要讓大模型理解試卷。字節Seed團隊在各個大模型內,分別輸入題目的文本和截圖,讓它們通過文字和圖像的方式看見試卷、理解試卷,參與考試。
山東高考試卷滿分750分。測評發現,5個推理模型,理科分數最低為579分,文科分數最低為625分,基本都達到優秀考生水平。
具體來看,豆包成績排名靠前,理科648分,排名第二;文科683分,排名第一。國產大模型的數學成績十分亮眼。DeepSeek成績145分,排名第一;豆包大模型1.6成績141分,排名第二。
山東高考為賦分制,3門副科的賦分相比原始分會有一定程度的提高,尤其是在化學、物理等難度較大的科目上。
據山東當地媒體采訪的一線教師估算,豆包大模型1.6的理科賦分約680分,意味著它能考上985高校理工科專業;文科賦分成績在700分左右,也就是說,“山東考生豆包”有望考上清華或者北大。
這并不是豆包第一次參考高考。2024年,有媒體對包含豆包在內的國內外大模型進行高考評測。結果讓人有些意外:高考分數一般,而且相較國外大模型,國內大模型普遍偏科。文科較好,但是理科成績,尤其是數學成績不理想。
AI偏科背后,原因多樣。大語言模型可理解為文字接龍游戲,本質為概率問題,推理和計算能力較弱。同時,國內外模型在訓練數據上存在差異。此外,數學、物理等帶有圖像信息,大模型在圖像識別上存在挑戰。
但當下,情況發生變化。以豆包為例,成績有了很大跨越:理科在2024年466.5分的基礎上提高了181.5分;文科在2024年542.5分的基礎上提高了140.5分。具體學科來看,豆包的數學成績提升幅度最大,從去年的61.5分提升至141分。
2025年高考成績飛速提升,原因在于豆包大模型1.6的多模態能力持續提升,其擁有豐富的教育相關數據,具備深度思考能力。
所謂多模態,是指AI要同時處理多種數據類型以便更全面地了解和分析事物。也就是說,大模型不僅要讀懂文字,還要用“眼睛看、耳朵聽、嘴巴說”。
數據方面,據字節跳動Seed團隊官方介紹,在多模態混合持續訓練階段,團隊增加了學科、代碼、推理類數據的占比,提升了文本數據的知識和推理密度,同時加入了視覺模態的數據,與高質量文本數據混合訓練。這意味著豆包模型得到專業數據訓練,有助于垂直領域問題的解決。
“就像考生通過刷題掌握各類解答技巧、在草稿上列出計算過程一樣,通過學習專業數據和持續優化模型架構,大模型具備了深度思考能力,也能通過描述思維過程,實現對特定問題的推理、驗證和反思。”業內人士分析稱。
就像大部分參與者希望通過考試了解自身不足、提高能力水平一樣,豆包大模型參與高考,或許還是希望通過不斷總結實戰經驗,以便在未來的AGI競爭中保持優勢。
責編:楊琳""yanglin@ceweekly.cn
美編:孫珍蘭