AI參加高考，竟能上清北？

2025-07-03 00:00:00鄭雪

又到一年高考查分時。大模型在經歷高考之后，也要查分了。

隨著AI快速發展，高考已經成為各家AI企業檢驗模型能力的又一重要場景。

6月初，字節跳動旗下豆包大模型1.6正式發布，該模型由2023年成立的字節跳動Seed團隊推出。面世不久，這位“考生”就和其他大模型一起接受了2025年山東卷的高考測試洗禮。

在字節跳動Seed團隊的測評中，豆包取得不錯成績：綜合成績排名靠前。不管是文科還是理科，按照賦分制調整后的高考分數近700分，相較去年成績大幅提升。而且去年偏文科嚴重的它，今年實現文理的均衡發展。

豆包的成績可用突飛猛進來形容。優異成績背后，豆包在模型能力和技術上下了苦功。

高考不僅是高三考生的戰場，也是各家大模型同場競技的舞臺。這對于AI來說是一次綜合練兵。

高考考查內容十分全面，涉及文科、理科，文字、圖像，不同難度的知識點等，意味著AI需要具備豐富的知識儲備能力。

高考的題目全新。相關題目在市面上找不到，有助于模型泛化能力的測試。泛化能力是衡量AI模型優劣的關鍵指標之一，考察的是模型在日常訓練之外的數據、場景或者任務中，是否能夠表現出有效的預測和推理能力。

此次測評，豆包大模型1.6和其他大模型如Gemini（谷歌研發的開源模型）、DeepSeek（國內深度求索研發）、Claude（美國AI獨角獸公司Anthropic研發）、O3（美國OpenAI研發），共同測試了2025年山東高考試題。

考試開始，先要讓大模型理解試卷。字節Seed團隊在各個大模型內，分別輸入題目的文本和截圖，讓它們通過文字和圖像的方式看見試卷、理解試卷，參與考試。

山東高考試卷滿分750分。測評發現，5個推理模型，理科分數最低為579分，文科分數最低為625分，基本都達到優秀考生水平。

具體來看，豆包成績排名靠前，理科648分，排名第二；文科683分，排名第一。國產大模型的數學成績十分亮眼。DeepSeek成績145分，排名第一；豆包大模型1.6成績141分，排名第二。

山東高考為賦分制，3門副科的賦分相比原始分會有一定程度的提高，尤其是在化學、物理等難度較大的科目上。

據山東當地媒體采訪的一線教師估算，豆包大模型1.6的理科賦分約680分，意味著它能考上985高校理工科專業；文科賦分成績在700分左右，也就是說，“山東考生豆包”有望考上清華或者北大。

這并不是豆包第一次參考高考。2024年，有媒體對包含豆包在內的國內外大模型進行高考評測。結果讓人有些意外：高考分數一般，而且相較國外大模型，國內大模型普遍偏科。文科較好，但是理科成績，尤其是數學成績不理想。

AI偏科背后，原因多樣。大語言模型可理解為文字接龍游戲，本質為概率問題，推理和計算能力較弱。同時，國內外模型在訓練數據上存在差異。此外，數學、物理等帶有圖像信息，大模型在圖像識別上存在挑戰。

但當下，情況發生變化。以豆包為例，成績有了很大跨越：理科在2024年466.5分的基礎上提高了181.5分；文科在2024年542.5分的基礎上提高了140.5分。具體學科來看，豆包的數學成績提升幅度最大，從去年的61.5分提升至141分。

2025年高考成績飛速提升，原因在于豆包大模型1.6的多模態能力持續提升，其擁有豐富的教育相關數據，具備深度思考能力。

所謂多模態，是指AI要同時處理多種數據類型以便更全面地了解和分析事物。也就是說，大模型不僅要讀懂文字，還要用“眼睛看、耳朵聽、嘴巴說”。

數據方面，據字節跳動Seed團隊官方介紹，在多模態混合持續訓練階段，團隊增加了學科、代碼、推理類數據的占比，提升了文本數據的知識和推理密度，同時加入了視覺模態的數據，與高質量文本數據混合訓練。這意味著豆包模型得到專業數據訓練，有助于垂直領域問題的解決。

“就像考生通過刷題掌握各類解答技巧、在草稿上列出計算過程一樣，通過學習專業數據和持續優化模型架構，大模型具備了深度思考能力，也能通過描述思維過程，實現對特定問題的推理、驗證和反思。”業內人士分析稱。

就像大部分參與者希望通過考試了解自身不足、提高能力水平一樣，豆包大模型參與高考，或許還是希望通過不斷總結實戰經驗，以便在未來的AGI競爭中保持優勢。

責編：楊琳""yanglin@ceweekly.cn

美編：孫珍蘭