谷歌開發語言模型在數學考試中可達到人類平均水準

2022-09-22 09:45:42

海外星云 2022年17期

關鍵詞：數學模型研究

近日，谷歌開發了一個名為“麥內瓦”的自然語言處理（NLP）模型，能夠回答微分方程、化學、狹義相對論等高難度學科問題。

據了解，現在已有的NLP模型（如Open AI的GPT-3、Deep Mind的Gopher等）可以較好地執行總結、翻譯、寫作等各類文本處理任務。但目前，這類神經網絡模型在解決所謂的定量推理問題（如數學問題）方面的能力還有不足。

“定量推理是語言模型仍然遠遠低于人類水平表現的一個領域，”研究人員在谷歌官方博文中解釋說，“通常認為，用機器學習解決定量推理問題需要模型架構和訓練技術的重大進步。”

其中還提到，數學等復雜學科問題的解決需要使用自然語言和數學公式解析問題，以及生成數值計算的分步解決方法等多種技能的組合。

由于這些挑戰，谷歌打造了“麥內瓦”這種可以解決定量推理問題的人工智能模型。

2022年6月29日，相關論文以《用語言模型解決定量推理問題》為題提交在arXiv上。

據了解，麥內瓦建立在PaLM（5400億參數模型，谷歌2022年4月發布）基礎之上，并在一個118GB數據集（包括科學論文和含有數學表達式的網頁）上進行訓練。

研究人員還提到，他們沒有刪除這些數據中對數學表達式的語義意義至關重要的符號和格式。因此，麥內瓦學會了如何使用標準數學符號來表達它生成的答案。并在博文中補充道：“為實現STEM（Science、Technology、Engineering、Mathematics）推理任務的最先進性能，麥內瓦結合了小樣本提示、思維鏈或暫存器提示以及多數投票等提示和評估技術。”

比如通過思維鏈提示，研究人員不僅可以讓麥內瓦回答問題，還可以嘗試讓它解釋是如何計算答案的。在某些情況下，這種方法使神經網絡能夠解決過于復雜的問題。

“麥內瓦”對兩個數學問題的輸出解答

另外，在解答數學問題時，該模型可以找到多種計算相同結果的方法，然后，對生成的不同解決方案進行比較，根據多數投票原則選擇最有可能成為正確答案的解決方案。

值得一提的是，用戶還可以使用谷歌推出的交互式網頁試用麥內瓦的輸出效果。

為了測試“麥內瓦”的準確性，研究人員讓其回答跨越多個領域的問題，難度從小學水平到研究生水平，涵蓋小學和高中數學競賽、大規模多任務語言理解基準子集MMLU-STEM、麻省理工學院開放課件等中的各種問題。620億參數的麥內瓦在波蘭國家數學考試（每年參加人數約有27萬名）中達到了57%的分數，這恰好是2021年該國的平均水平，而5400億參數版本實現了65%的分數。

麥內瓦示例瀏覽網站

研究人員表示，在所有情況中，相較之下，麥內瓦都能獲得最先進的結果。但值得注意的是，麥內瓦還是會犯不少錯誤，其中計算錯誤和推理錯誤約各占50%，這些錯誤大都比較容易解釋。而結果正確，推理過程錯誤的情況被研究者稱為“誤報”，誤報率相對較低，620億參數的麥內瓦在數學上產生的誤報率低于8%。

谷歌對這些錯誤樣本進行了分析，以確定模型后續需要改進的地方。以下是模型犯的兩個示例錯誤。

計算錯誤

由于麥內瓦并沒有使用底層數學結構來回答問題，這使其無法自動驗證答案，因而檢測不到“誤報”情況。該模型還無法利用計算器或Python解釋器等外部工具。因此，它進行需要復雜數值計算的定量推理任務的能力有限。麥內瓦模型的性能目前與人類的表現還有不小差距。

總的來說，通過在大量定量推理數據上訓練大模型，并采用一流的人工智能技術，從而讓麥內瓦在多類定量推理任務上實現較高的提升。

最后，機器學習模型已在許多科學學科中發揮重要作用，但它們通常局限于解決特定范圍的任務。像麥內瓦這類能夠進行定量推理的模型有許多潛在的應用，包括作為研究人員的輔助工具、為學生提供新的學習機會等。“我們希望解決定量推理問題的通用模型能夠有助于推動科學和教育的進一步發展。麥內瓦已經朝這個方向邁出一步。”研究人員表示。

谷歌開發語言模型 在數學考試中可達到人類平均水準

谷歌開發語言模型在數學考試中可達到人類平均水準