基于語義理解增強的數學應用題機器解答方法

2025-03-09 00:00:00菅朋朋閆鳴王彥麗

計算機應用研究 2025年1期

摘要：針對現有數學應用題機器解答方法不能自適應理解語義多變的問題文本、求解精度提升受限，提出基于語義理解增強的機器解答方法。首先，設計語義增強的預訓練語言模型SeBERT，通過多粒度知識建模策略和連續語義融入策略以實現對題目的精確理解；其次，構建求解模型SeBERT-PT，其采用語言模型-池化-樹的求解結構，有效改善了應用題的語義理解偏差并且提高了解題的精確度；最后，引入基于置信度的判斷機制，對于不值得信任的預測直接判定求解失敗，確保解答精度的同時，提升求解模型訓練效率。實驗結果表明，該方法在中文和英文數據集上的解題精度分別達到了85.7%和77.9%，均優于其他基線方法，特別是在涉及復雜語義理解和邏輯推理的題目上，表現尤為突出。證明了該方法在提升數學應用題解答精度方面的有效性，也展示了其在跨語言環境下的廣泛適用性。

關鍵詞：數學應用題求解；預訓練語言模型；語義增強；池化；置信度

中圖分類號：TP391.1"" 文獻標志碼：A

文章編號：1001-3695（2025）01-029-0214-08

doi： 10.19734/j.issn.1001-3695.2024.06.0208

Machine solving method for math word problem based on semantic understanding enhancement

Abstract：Since the existing machine solving methods of math word problems cannot adaptively understand the text of the problem with changing semantics， and have a limit in the improvement of solving accuracy， this paper proposed a machine solving method based on semantic understanding enhancement. Firstly， this method designed a semantically enhanced pre-training language model SeBERT to accurately understand the topic through a multi-granularity knowledge modeling strategy and con-tinuous semantic integration strategy. Secondly， this method constructed the solution model SeBERT-PT， which adopted the solution structure of language model-pool-tree to effectively improve the semantic understanding deviation of word problems and the accuracy of understanding problems. Finally， it introduced a confidence-based judgment mechanism to directly determine the failure of solving untrustworthy predictions， ensure the accuracy of the solution， and improve the training efficiency of solving models. The experimental results show that the accuracy results on Chinese and English datasets are 85.7% and 77.9% respectively， which is superior to other baseline methods， especially on problems involving complex semantic understanding and logical reasoning. It has proved the effectiveness of the method in improving the accuracy of solving math word problems and demonstrates its wide applicability in cross-language environments.

Key words：math word problem solution; pre-trained language model; semantic enhancement; pooling; confidence

0 引言

近年來，科技的飛速發展推動了機器解答在教育領域的應用。作為人工智能的一個重要方面，機器解答以其高效、準確和個性化的特點，正深刻地改變著學生的學習方法和教師的教學方式[1，2]。本文專注于研究小學數學應用題（math word problem，MWP）求解，這是機器解答中基礎且具有挑戰性的子問題[3]。設想一下，如果機器能夠自動解題，給出求解方程和答案，那么這將極大地減輕學生的負擔，給他們提供解題思路，提高學習效率。同時，機器現在已經具備了從大量數據中學習和解決問題的能力，這不僅為數學應用題的自動解答提供了強有力的技術支持，更為未來教育領域的智能化發展開辟了新的道路。

作為機器解答的重要分支，MWP的求解經歷了基于規則的方法[4]、統計學習方法[5，6]和語義分析方法[7]。早期，Huang等人[8]提出基于方程模板映射的方法，構建細粒度表達式解答代數應用問題，提高了方程模板檢索效率。2016年，Liang等人[9]提出標簽統計的機器求解方法，通過標簽將主題信息轉換為邏輯結構，推動語義標注。然而以上方法需要大量繁瑣的人工操作，并且求解精度不高，已逐漸被新技術所取代。

目前MWP的求解主要利用深度學習方法，概括地分為基于傳統語言模型和基于預訓練語言模型的方法兩類。

a）基于傳統語言模型的方法。RNN、LSTM等序列模型和DRL（deep reinforcement learning）等增強學習模型是傳統的自然語言模型，旨在利用神經網絡對文本進行向量表示，實現對題目的理解、推理和答案生成[10]。例如，DNS[11]第一次將基于RNN的seq2seq模型應用到MWP中，解決了傳統方法需要手動捕獲特征的難題。RecursiveNN[12]提出基于循環神經網絡的模板求解方法，并結合雙向LSTM和自注意力機制推導出表達式。MathDQN[13]利用DRL的獎勵機制來預測答案。

b）基于預訓練語言模型的方法。預訓練的自然語言模型（pretrained language model， PLM）是近幾年的研究熱點，其主要思想是先讓模型進行大規模的無監督學習，再在各項下游任務上微調。其中最為著名的是BERT[14]、GPT[15]、XLNet[16]等模型，它們的優秀不僅體現在文本分類、情感分析[17]等任務中，還能用于生成式任務，如對話、摘要等[10，18]。因此，PLM也被啟發用于數學求解。例如，Li等人[19]通過語義編碼器BERT將具有相似原型方程的問題聚合在一起，提高了解決問題的效率。MWP-BERT[20]提出了一套考慮邏輯推理和數值性質的算術增強預訓練任務，有效提高了模型的性能。EPT[21]采用由BERT改造而來的輕量ALBERT模型作為其編碼器。mBERT-LSTM[22]將多語言的BERT作為語義編碼器來研究交叉語言和多語言表示的數學問題。REAL[23]第一個將類比學習和預訓練模型結合在一起，它強調類比學習而不是通常的基于模板學習。

機器解答MWP可以分為題目理解、推理預測和答案生成三個部分。其中，題目理解是后續兩個步驟的根基。PLM被廣泛用來實現題目文本的理解。但是，不同于其他語言任務，應用題的表達方式多樣且復雜，包含大量的現實場景信息，語言模型需要具備更強的語義分析能力和更多的背景知識才能正確地理解題目文本。目前的預訓練模型比如BERT等，對文本的處理還停留在字與詞之間，不能對短語、實體和句子之間的隱含關系以及上下文的背景聯系進行深入挖掘，可能會造成題目中某些重要語義的丟失。如表1所示，當題目語義較為復雜時，現有模型由于無法準確理解題目的含義，往往預測出錯誤的方程和答案。對比設計了語義增強的新型預訓練模型SeBERT（semantics-BERT）[24]，其多粒度知識建模策略通過“字-短語-實體”三階段的掩碼來訓練模型對于題目中的特殊短語、實體以及之間關系的理解；連續語義融入策略通過設計詞語、結構、語義三方面的預訓練任務，深度訓練模型挖掘題目中詞法、語法、語義等信息的能力。最終模型通過這些任務，能夠充分理解題目上下文間的隱含關系、背景常識，以實現對MWP題目的精確理解。

當前的自然語言技術在提升語義理解上面臨著不小的挑戰。受遷移學習思想的啟發，創新性地探索了NLP中池化技術的潛在應用價值，特別是在MWP求解任務中的潛力。雖然池化技術（如最大池化、平均池化等）在圖像處理和自然語言處理的其他任務（如文本分類、情感分析等）中已有廣泛應用，但在數學領域還沒有得到有效驗證。因此，在MWP求解中，通過精心設計的池化策略，對池化窗口的平均值進行計算，捕捉題目描述中的關鍵信息，保留其重要的背景知識，同時減少噪聲和冗余，在預訓練模型的基礎上進一步增強對題目語義的理解。這種跨領域的技術遷移與創新應用，旨在提升模型在復雜文本理解任務中的表現，有助于更精確地解答各類數學問題。

MWP求解廣泛采用經典的seq2seq（序列到序列）模型[25]，經過神經網絡的內部推理，模型能夠預測出求解方程，最終計算得到答案。但是該序列模型在生成預測表達式時可能會出現無效的token序列，導致最終生成無效的方程，比如“13+21）*2”；并且依賴固定長度的隱藏狀態向量，無法逐層地利用上下文信息。有學者針對這些問題提出seq2tree模型[26]，通過將非終結符轉換為token，并逐層進行解碼，確保了最終生成的表達式是有效的；并且樹結構的解碼器在解碼過程中可以逐層地利用上下文信息，有助于模型更準確地理解輸入數據，并生成更準確的輸出。因此，選用seq2tree結構來構造應用題求解模型SeBERT-PT （SeBERT-pooling-tree decoder）。區別于普通的編碼過程，將SeBERT預訓練模型作為語義編碼器，更準確地捕捉題目中的關鍵信息；在編碼器和解碼器之間融入池化層，進一步增強對題目的理解；經過神經網絡的內部推理，解碼器預測出求解二叉樹，并對其前序遍歷得到求解方程，編譯器計算出最終的結果。

由于神經網絡的本質還是機器，不可避免地會產生有缺陷、錯誤的推理，所以在求解之外提出一種基于置信度的判斷機制，以此完善整個求解過程。該機制在解碼器預測出樹型表達式后，先將其置信度與設置的臨界值進行比較，若低于臨界值，則表示此次解答是不值得信任的，不再進行后續遍歷和計算操作，直接判定解答失敗。該機制在保證解答精度的前提下，顯著提高了模型的訓練效率，使整個求解過程更加完善和高效。

本研究的貢獻總結如下：a）設計了語義增強的新型預訓練模型SeBERT（semantics-BERT），通過多粒度知識建模策略和連續語義融入策略以實現對MWP題目的精確理解；b）引入了池化技術，通過計算每個池化窗口的平均值，將區域內的語義信息全部匯集在一起，進一步增強了對題目的理解；c）構建了MWP求解模型SeBERT-PT （SeBERT-pooling-tree decoder），有效改善了MWP的語義理解偏差并且提高了解題的精確度；d）提出了一種基于置信度的判斷機制，該機制在保證解答精度的前提下，顯著提高了模型的訓練效率。

1 方法論

1.1 SeBERT預訓練模型

對于語義復雜的數學應用題，現有的語言模型常因理解偏差而預測出錯誤的方程和答案。為改善此問題，設計出語義增強的預訓練語言模型SeBERT。該模型以BERT結構為基礎，設置“字-短語-實體”三階段的多粒度知識建模策略和連續語義融入策略，深度挖掘題目上下文間的隱含關系、背景常識以及詞法、語法、語義等信息，從而實現對題目的精確理解。

1.1.1 多粒度知識建模策略

BERT通過對文本中的單詞進行隨機掩碼和預測來學習上下文之間的語義關聯。然而，這種基礎的掩碼策略雖能讓模型判斷語句的通順性，但會造成應用題某些語義的丟失。為了彌補這一不足，SeBERT在BERT的基礎上設計了創新的多粒度知識建模策略，利用“基礎-短語-實體”三階段的掩碼巧妙地將短語和實體知識融入語言表示中，使模型能夠隱式地學習諸如實體關系、實體屬性等深層次的語義信息。圖1展示了三個階段的掩碼策略。

1）針對短語的掩碼phrase-level masking

SeBERT的第一階段采用與BERT相似的基礎掩碼策略，故不再贅述。進入第二階段，SeBERT開始聚焦于句子中的短語掩碼。短語是由單詞或漢字組合而成的概念單元，在英文文本中通過詞性標注和句法分析來界定其邊界，而中文文本則依賴語言特定的分割和識別工具來提取短語信息。在這一階段，SeBERT不僅以基礎語言單元為訓練輸入，還創新地對句子中的某些短語進行隨機掩碼和預測，進而將所獲得的短語知識整合到文本詞嵌入中。

2）針對實體的掩碼entity-level masking

進入第三階段，SeBERT聚焦于實體的掩碼處理。命名實體如人名、機構名、地名以及其他以名稱為標識的實體，在此階段成為重點。這些實體往往承載著句子中變量的關系信息，對于提取句子隱含關系至關重要。與第二階段類似，模型首先識別并分析句子中的命名實體[27]，隨后對其進行掩碼和預測。通過將前兩個階段獲得的短語知識與實體知識相結合，并融入詞嵌入中，再經過編碼器的精心處理，最終生成富含語義信息的文本表示。

1.1.2 連續語義融入策略

SeBERT建立了詞語、結構和語義三種不同類型的預訓練任務，分別捕獲題目中的詞法、語法和語義信息，將一系列的語義融入到文本表示當中。具體任務如下：

1）詞語相關的預訓練任務

a）大寫預測（capitalization prediction， CP）。主要針對英文題目設計，鑒于大寫單詞[28]在英文中的特殊含義，結合BERT的分支模型優勢，通過此任務發現特殊詞語間的語義聯系。

b）關鍵詞預測（keyword prediction， KP）。針對句子中頻繁出現的關鍵詞[29]進行識別，提高模型捕捉關鍵信息的能力，從而加深對文本內容的理解。

2）結構相關的預訓練任務

a）句子重新排序（sentence reordering， SR）。將問題文本隨機分成若干子句，打亂順序后重新排列，生成新的問題文本。此任務旨在提升模型對子句間關系的把握能力。

b）句子位置判斷（sentence position judge， SPJ）。數字 “0”和“1”分別表示在一個問題文本中兩個句子的位置是相鄰和不相鄰，“2”則表示兩個句子在不同的問題文本中。距離近的句子之間相關性大，距離遠的句子之間聯系較小。模型根據句子之間距離的遠近判斷它們的相關程度，深化對文本結構的理解。

3）語義相關的預訓練任務

話語關系預測（discourse relation prediction，DRP）。利用Sileo等人[30]提供的數據集訓練模型，通過標記句子間的話語關系并發現具有強語義相關性的句子對，增強模型在語義理解方面的能力。同時，也為中文數據準備了相應訓練資源，確保模型的跨語言性能。

1.2 SeBERT-PT求解模型

MWP求解時，通常把問題描述作為模型輸入，生成的表達式作為模型輸出[31]。因此，本文采用Transformer的編碼器-解碼器結構來構建求解模型。其中SeBERT充當語義編碼器，通過不斷地知識學習和知識合并，提取到語義豐富的題目隱藏狀態向量。其次，在編碼器之后加入平均池化層，對隱藏向量逐層求平均，得到包含題目全部語義特征的平均表示向量。考慮到seq2seq結構會生成不能計算的無效表達式，比如“13+21）*2”，出現的方程重復性問題（x=3+9+2-1和x=9+2-1+3），以及依賴固定長度的隱藏狀態向量，無法逐層地利用上下文信息等缺陷，采用樹型結構作為解碼器對節點的生成概率進行預測，得到唯一的表達式樹，再通過先序遍歷得到唯一的求解方程。最后經過編譯器的計算，就可以得到最終的答案。圖2展示了SeBERT-PT的完整結構。

1.2.1 編碼器

最后，將上下文兩個方向的隱藏狀態合并在一起就能得到s時刻的隱藏狀態hs：

1.2.2 平均池化層

卷積神經網絡通過引入池化機制能夠縮小參數矩陣，減少連接層參數，提高計算效率[32]。將池化應用于MWP求解，可帶來兩大優勢：a）通過降維處理，減少了模型工作量，加快了計算速度，同時能夠保留數據特征；b）通過池化窗口內平均值的計算，能夠有效地聚合區域內的語義信息，并保留其重要的背景知識，增強模型的語義理解能力。在MWP中，最大池化可能會造成部分語義信息的丟失，而平均池化則計算每個池化窗口的平均值，有助于保留背景信息，突顯題目特征，因此更適合用來處理隱藏狀態向量。

在上節中，通過編碼器得到了題目的隱藏狀態序列H={h1，h2，…，hn}，即一系列的特征向量。這些特征向量代表了序列中不同時間步長的信息。接著，平均池化層沿著時間維度對這些特征向量進行平均，從而得到一個固定長度的特征向量。這個特征向量可以看做是一個特征圖，因為它同樣代表了序列數據的抽象表示，只是形式上更接近于圖像特征圖（盡管維度上有所不同）。關于每個特征圖的大小，如式（4）所示。在假設所有初始特征圖的高度和寬度都相同的情況下，第k個特征圖包含的元素個數Nx等于其高度H乘以寬度W再乘以通道數Cx。

Nx=H×W×Cx（4）

其中：Cx表示第k個特征圖的通道數，將每個詞向量的維度視為“特征通道”（類似于圖像中的顏色通道），它需要模型通過額外的信息或上下文來確定。而每個題目對應的特征向量（即特征圖）的個數k主要由編碼器輸出的序列長度，也就是序列中特征向量的數量決定。

由于每個特征圖的形態是不確定的，為了直觀地描述出池化過程，在此假設每個題目的狀態序列都被轉換為若干個4×4的特征圖，用一個2×2的過濾器，以步長為2進行“掃描”，詳細過程見圖3。對區域內的向量值取平均，將平均值輸出到下一個池化層，依此類推，最終得到包含題目所有語義信息的平均表示向量。平均池化的計算公式為

其中：ykij表示與第k個特征圖有關的矩形區域Rij的平均池化輸出值；xkpq表示矩形區域Rij中位于（p， q）處的元素；Rij表示矩形區域Rij中的元素個數。

1.2.3 樹解碼器

平均表示向量和單詞嵌入狀態序列作為解碼器的輸入，由此可以得到一個上下文向量，根據這個上下文向量去計算不同時刻解碼器的狀態。在s時刻解碼器狀態的計算公式如下：

當前生成的節點是運算符還是數字需要通過概率計算來判斷。經過上述操作得到不同時刻的解碼狀態之后，就可以計算相應時刻節點的生成概率：

其中：Wop和Wnum是權重矩陣；βt∈［0，1］是決定生成運算符節點還是數字節點的門控值；ylt;s表示在s時刻之前生成的節點；最終的生成概率P（ys|ylt;s，X）由門控值與運算符概率Pop（ys）和數字概率Pnum（ys）共同決定。通過概率對節點逐個預測，當所有的節點生成之后，模型就可以將表達式樹轉換為對應的方程來求解答案。圖4展示了求解方程的生成過程。

1.3 判斷機制

盡管模型已經經過大量的訓練，但其本質上仍是機器，不可避免地會產生有缺陷的推理[33]。理想情況下，可以讓模型直接學習每個預測結果的置信度度量，但這被證明是一項艱巨的任務。因為在大多數機器學習任務中，沒有可用于置信度估計的基礎真值標簽[34]。本文沒有直接從傳統標簽中學習置信度，而是設計了一種方法，在訓練過程中激勵神經網絡模型產生置信度估計。

1.3.1 置信度估計

在考試場景中，學生為了優化成績，一個好的策略是在不使用提示的情況下回答所有自己有信心的問題，然后對不確定的問題要求進行提示，以提高正確率。在測試結束時，提示次數可視為它們對每個問題自信程度的近似指標。將此策略應用于機器學習模型，則無須依賴真實標簽，即可學習并估計模型的置信度。

為了賦予神經網絡模型請求提示的能力，首先在前饋架構中添加一個與預測分支并行的置信度分支，如圖5所示。置信分支包含一個或多個全連接層，最后一層輸出0～1的單個標量（參數化為sigmoid）。這個置信度值c代表了模型在給定題目輸入的情況下，能夠生成正確預測的置信度。如果模型確信它可以生成正確的表達式，它輸出的c值應該接近于1。相反，則輸出接近于0的c值。

在歸一化之前，模型接受題目輸入X，產生預測logit以及置信度logit。對于預測logit，使用softmax函數來獲得二叉樹各個節點的預測概率p。而置信度logit則通過sigmoid傳遞來獲得置信度估計c。

為了在訓練過程中給模型“提示”，通過在原始二叉樹預測和目標概率分布Y之間進行插值來調整softmax的預測概率，其中插值的程度由網絡的置信度表示：

圖4直觀地展示了這一點。現在使用修改后的預測概率像往常一樣計算表達式損失，對于損失的計算，本文使用負對數似然函數：

為了防止模型始終選擇c=0并且接收整個基礎真值來最小化表達式損失，在損失函數中添加了一個對數懲罰，稱之為置信度損失：

因此，求解模型最終的損失簡單說就是表達式損失和置信度損失的總和。置信度損失通過一個超參數λ加權，平衡了表達式損失和置信度損失：

1.3.2 置信度判斷

當置信度估計c小于或等于臨界值δ時，模型預測的表達式被認為是可信賴的。為了選擇合適的臨界值，在預訓練階段估計出每道題目的置信度，通過回歸分析繪制出置信度分布的散點圖，如圖6所示。可以看出訓練初期模型的置信度普遍不高，并且生成的錯誤預測較多。隨著學習過程的深入，正確預測逐漸增多，正確預測和錯誤預測的置信度都趨于各自的區間范圍。通過評估不同δ的檢測誤差，選擇誤差最小的圖7橫坐標變量作為最終臨界值。對于解碼器預測出的表達式，先不對其進行求解操作，而是將該表達式的置信度與臨界值進行比較，若低于臨界值，則不再進行后續求解操作，直接判定解答失敗。此策略在確保精度的同時，顯著提升了模型訓練效率。

為了更好地展示置信度估計的有效性，選取幾個誤差較小的臨界值構成結果置信區間，觀察在不同臨界值下模型求解結果的正確性，如圖7所示。從圖中可以看到，當臨界值為置信區間里的值時，模型求解的正確率達到最大。

2 實驗

在中英文數據集上對比了SeBERT-PT與其他基線模型的精確度。為了驗證各項策略的有效性，還開展了消融實驗。通過逐一移除模型中的特定策略，觀察到了模型性能的相應變化。這也證明了模型在處理中英文數學問題時，各項策略之間的協同作用對于提高整體性能的重要性。這些實驗結果為進一步優化模型提供了有力的依據。

2.1 預訓練

在訓練策略上，對于英文數據，本文遵循了標準的BERT訓練流程，包括使用英文維基百科和英文數據集MathQA的訓練集部分來進行預訓練，并在目標任務上進行微調。MathQA[35]是一個涉及超多運算符的英文數據集，其中包含了幾何、概率等較難解決的數學問題。而對于中文數據，本文嘗試了在預訓練階段融入特定領域的中文語料，也就是使用Ape210k數據集對模型進行預訓練，以更好地適應本文任務需求。Ape210k[36]是一個超大型的中文數學數據集，不僅需要對自然語言的理解，而且需要常識知識。

此外，本文還調整了學習率調度策略和正則化技術。學習率（learning rate）是一個關鍵的超參數，它控制著在每次迭代中對模型權重的調整幅度，使用線性衰減策略來調整。這種策略有助于模型在訓練的后期更精細地調整權重，避免陷入局部最小值，并提高模型的泛化能力。dropout是一種常用的正則化技術，用于防止過擬合，通過在訓練過程中隨機將一些網絡層的輸出置為零來實現。由于在每次迭代中都會隨機丟棄，從而迫使網絡學習到更加魯棒的特征表示。

2.2 參數設置

實驗代碼基于PyTorch實現。模型的預訓練輪數設置為150，正式訓練（微調）輪數為125。其中中文數據的batch size為64，英文為16。Adam優化器用來進行模型優化，它的初始學習率在中英文中分別設置為3E-5和0.000 1。另外，dropout為0.5和0.1，解碼過程中beam size被指定為5。

2.3 基線

1）基于傳統語言模型的經典基線

a）DNS：第一次將基于RNN的seq2seq（序列到序列）模型應用到MWP中，經過神經網絡的推理輸出其求解方程，解決了傳統方法需要手動捕獲特征的難題。

b）Math-EN[37]：通過計算三種模型的生成概率，最高概率的模型輸出將作為最終的答案，并提出歸一化方法來解決方程重復性問題。

c）GTS：在樹解碼器的基礎上提出了目標驅動方法，通過一層層目標分解來生成表達式樹。

d）Graph2Tree[38]：設計了數量單位圖和數量比較圖，來捕獲題目中數值之間的關系和順序，從而使求解更加準確。

2）基于預訓練語言模型的基線

a）BERT-CL：將預訓練模型BERT與對比學習進行結合構造了BERT-CL，通過語義編碼器BERT將具有相似原型方程的問題聚合在一起、不相似的分開，以此提高解決問題的效率。

b）REAL：第一個將類比學習應用到MWP中，它強調類比學習而不是基于模板學習。

c）BERTGen和RoBERTaGen：Lan等人[39]在不同數據集中對BERT和 RoBERTa模型的解題能力進行測試，發現精確度高于大部分沒有使用PLM的模型。

2.4 主要結果

實驗結果如表2所示，將精確度（accuracy）作為評價指標來衡量模型預測正確的題目數量占總題目數量的比例，它反映了模型預測正確的準確程度。SeBERT-PT在各個數據集上都取得了最高精確度。

由此可以總結出如下結論：

a）基于深度學習的方法優于基于規則的方法。從表2可以看到，利用基于規則的方法解得的精確度明顯不如深度學習方法。這是因為基于規則的方法需要人工構建大量的規則和模板匹配來處理題目。但是應用題的表述方式多樣且可能包含復雜的邏輯關系和語義信息，規則構建和模板匹配時難免存在遺漏和錯誤。而深度學習方法能夠自動從大量數據中學習特征表示和推理規則，有強大的語義理解能力，并且具有更強的泛化性，因此更適合于MWP機器求解任務。

b）樹型解碼器提升模型性能。在第一類基線中，除了DNS和Math-EN，其他都采用了樹解碼器，并且精度都達到70%以上。在第二類基線中，BERT-CL利用樹結構進行解碼，精度也高于非樹的REAL、BERTGen和RoBERTaGen。

c）預訓練語言模型有出色的執行下游任務能力。與經典基線相比，基于PLM的求解模型精確度普遍更高，能夠達到80%以上。這是因為PLM具有一定的普適性，可以根據下游任務不斷進行參數更新，更好地學習文本特征和特定知識。REAL和BERT-CL利用預訓練取得了巨大的成功，答案精度分別達到了82.3%和83.2%。其中BERTGen和RoBERTaGen的實驗結果不太令人滿意，是因為其將BERT和RoBERTa直接放在數據集上訓練，沒有針對具體任務做任何改進和調整，因此效果甚至不如一些經過精心設計的經典基線。

d）本文提出的語義理解增強求解方法有效解決了MWP的語義理解偏差，提高了模型的解題精度。不論中文還是英文，與所有的基線模型相比，SeBERT-PT的精確度都達到最高。

2.5 消融實驗

本節通過消融實驗全面探究預訓練、掩碼策略以及預訓練任務對模型求解精度的影響，并評估判斷機制對訓練效率的提升作用。鑒于模型在中文MWP任務上展現出的卓越性能，將主要在中文數據集Math23K上開展這些實驗，僅在2.5.1節中涉及中英文數據集的對比研究。

2.5.1 預訓練

在2.1節深入探討了預訓練（pre-trained， PT）對MWP求解的關鍵作用。如表3所示，未經預訓練的模型與經過預訓練的模型在精度上存在顯著的差距。這一結果充分證明了預訓練對于提高模型在MWP求解任務上的性能至關重要。

2.5.2 多粒度的知識掩碼策略

如表4所示，在預訓練的基礎上，依次向模型中加入三種掩碼策略，并與BERT進行比較，觀察到短語掩碼和實體掩碼均對模型性能產生了積極的影響。特別值得一提的是，實體掩碼的作用尤為顯著。這是因為實體之間的隱含關系對模型理解題目至關重要，這些信息顯著提升了模型對題目的理解深度和廣度，進一步增強了模型的求解能力。

2.5.3 連續語義融入策略

如表5所示，在連續語義融入策略設置的三種預訓練任務中，語義任務對模型的影響最為顯著。這可能是因為語義任務中的話語關系預測能夠更有效地捕捉上下文之間的語義聯系，從而幫助模型更深入地理解文本內容。此外，隨著每個預訓練任務的逐步學習，模型的精確度也在不斷提升，這充分證明了預訓練任務在提升模型理解能力方面的語義有效性。

2.5.4 平均池化

將保持其他實驗設置不變，僅改變池化層的策略，分別使用最大池化和平均池化來提取文本表示。如表6所示，通過對比這兩種策略下的實驗結果，可以清晰地看到平均池化在MWP求解任務上的表現更好。這將為模型選擇提供更豐富的依據，并幫助讀者更好地理解池化層在模型中的作用。

2.5.5 判斷機制

如表7所示，判斷機制有效縮短了模型的訓練時間并提升了求解精度。這是因為模型在預測出表達式之后，先篩選出值得信任的推理，再進行表達式的求解。避免了在錯誤或不確定的問題上浪費計算資源，從而有效減少了不必要的計算量，顯著提升了模型效果和訓練效率。

3 實際案例

盡管深度學習模型在處理各類語言任務時表現出色，但其內部的工作機制往往被視為一個黑盒過程，難以被人類直觀理解，這限制了模型的可解釋性。因此，列舉了一個簡單的應用題實例，直觀地展示了該求解方法的流程。

1）問題輸入與預處理

輸入：小明買了5個蘋果，每個蘋果2元，他還買了3個橙子，每個橙子3元，問小明一共花了多少錢？

預處理：將文本輸入轉換為機器可處理的格式，包括分詞、詞性標注、命名實體識別等。例如，識別出“蘋果”“橙子”為物品名詞，“5個”“2元”為數量與價格描述。

2）語義分析

深度語義理解：利用語言模型SeBERT理解句子中的語義關系，識別出關鍵信息（如物品、數量、單價）及其之間的關系。

特征提取：將文本信息轉換為向量表示，為后續處理提供基礎。

3）數量關系提取與推理

直陳數量關系：蘋果數量5個，單價2元；橙子數量3個，單價3元。

隱含數量關系：需要計算總價，即蘋果總價+橙子總價。

表達式樹如圖8所示。

遍歷樹：表達式為總價=5×2+3×3。

4）表達式評估與求解

判斷表達式：置信度gt;臨界值，表達式值得信任，進行后續計算。

解答生成：輸出最終答案“小明一共花了19元”。

4 結束語

本文提出了一種基于語義理解增強的數學應用題機器解答方法。設計語義增強的預訓練語言模型，多粒度的知識建模和連續語義融合策略使其能夠深入理解題目背景知識和語義信息。池化技術進一步增強了模型對題目的理解。在此基礎上，構建求解模型SeBERT-PT，預訓練模型作為語義編碼器與樹結構解碼器的結合，有效減少了語義理解偏差，提高了求解精度。此外，還引入了一種判斷機制，顯著提升了模型的訓練效率，同時保證了解答精度。實驗結果顯示，SeBERT-PT在中英文任務上均展現出卓越的求解性能，顯著優于現有方法。消融實驗也驗證了優化措施和判斷機制的有效性。盡管本文取得了一定的成果，但仍面臨一些挑戰。由于神經網絡的推理過程通常是黑盒的，輸出的結果難以直觀解釋，所以未來將致力于提升模型的可解釋性，例如通過探索基于注意力機制的解釋方法或構建可解釋的神經網絡結構，以進一步推動數學應用題機器解答技術的發展。

參考文獻：

[1]崔金貴，馬瑩瑩. 我國人工智能教育研究進展與展望[J]. 高校教育管理， 2023， 17（6）： 31-39. （Cui Jingui， Ma Yingying. The research progress and future prospect of artificial intelligence education in China[J]. University Education Administration， 2023， 17（6）： 31-39.）

[2]高婷婷，郭炯. 人工智能教育應用研究綜述[J]. 現代教育技術， 2019， 29（1）： 11-17. （Gao Tingting， Guo Jiong. Review on the application of artificial intelligence in education[J].Modern Educational Technology，" 2019， 29（1）： 11-17.）

[3]王明書. 機器解答小學數學應用題研究[D]. 武漢：華中師范大學， 2020. （Wang Mingshu. Research on machine solution to primary school mathematics word problems[D]. Wuhan： Central China Normal University， 2020.）

[4]Bakman Y. Robust understanding of word problems with extraneous information[EB/OL]. （2007-01-14）. https：//arxiv.org/abs/math/0701393.

[5]Kushman N， Artzi Y， Zettlemoyer L，et al. Learning to automatically solve algebra word problems[C]// Proc of the 52nd Annual Meeting of the Association for Computational Linguistics. Stroudsburg， PA： Association for Computational Linguistics， 2014： 271-281.

[6]唐發明. 基于統計學理論的支持向量機算法研究[D].武漢：華中科技大學， 2005. （Tang Faming. Research on support vector machine algorithm based on statistical theory[D].Wuhan： Huazhong University of Science and Technology， 2005.）

[7]Shi Shuming， Wang Yuehui， Lin C Y， et al. Automatically solving number word problems by semantic parsing and reasoning[C]// Proc of Conference on Empirical Methods in Natural Language Processing. Stroudsburg， PA： Association for Computational Linguistics， 2015： 1132-1142.

[8]Huang Danqing， Liu Jing， Lin C Y， et al. Neural math word problem solver with reinforcement learning[C]// Proc of the 27th International Conference on Computational Linguistics. Stroudsburg， PA： Association for Computational Linguistics， 2018： 213-223.

[9]Liang Zhenwen， Zhang Xiangliang. Solving math word problems with teacher supervision[C]// Proc of the 30th International Joint Confe-rence on Artificial Intelligence. [S.l.]： International Joint Confe-rences on Artificial Intelligence Organization， 2021： 3522-3528.

[10]Khashabi D， Min S， Khot T， et al.UnifiedQA： crossing format boundaries with a single QA system[EB/OL]. （2020-10-07）. https：//arxiv.org/abs/2005.00700.

[11]Wang Yan， Liu Xiaojiang， Shi Shuming. Deep neural solver for math word problems[C]// Proc of Conference on Empirical Methods in Natural Language Processing. Stroudsburg， PA： Association for Computational Linguistics， 2017： 845-854.

[12]Wang Lei， Zhang Dongxiang， Zhang Jipeng，et al. Template-based math word problem solvers with recursive neural networks[C]// Proc of AAAI Conference on Artificial Intelligence. Palo Alto， CA： AAAI Press， 2019： 7144-7151.

[13]Wang Lei， Zhang Dongxiang， Gao Lianli，et al. MathDQN： solving arithmetic word problems via deep reinforcement learning[C]// Proc of the 32nd AAAI Conference on Artificial Intelligence. Palo Alto， CA： AAAI Press， 2018： 5545-5552.

[14]Devlin J， Chang M W， Lee K， et al.BERT： pre-training of deep bidirectional Transformers for language understanding [EB/OL]. （2019-05-24）. https：//arxiv.org/abs/1810.04805.

[15]Radford A， Narasimhan K， Salimans T， et al. Improving language understanding by generative pre-training [EB/OL]. （2018）. https：//paperswithcode.com/paper/improving-language-understanding-by.

[16]Yang Zhilin， Dai Zihang， Yang Yiming，et al. XLNet： generalized autoregressive pretraining for language understanding[C]// Proc of the 33rd International Conference on Neural Information Processing Systems. Red Hook， NY： Curran Associates Inc.， 2019： article No. 517.

[17]Minaee S， Kalchbrenner N， Cambria E，et al. Deep learning-based text classification： a comprehensive review[J].ACM Computing Surveys" 2021， 54（3）： artice No. 62.

[18]Zhang Yizhe， Sun Siqi， Galley M， et al. DialoGPT： large-scale gene-rative pre-training for conversational response generation [EB/OL]. （2020-05-02）. https：//arxiv.org/abs/1911.00536.

[19]Li Zhongli， Zhang Wenxuan， Yan Chao， et al.Seeking patterns， not just memorizing procedures： contrastive learning for solving math word problems [EB/OL]. （2022-03-10）. https：//arxiv.org/abs/2110.08464.

[20]Liang Zhenwen， Zhang Jipeng， Wang Lei， et al.MWP-BERT： numeracy-augmented pre-training for math word problem solving[EB/OL]. （2022-05-11）. https：//arxiv.org/abs/2107.13435.

[21]Kim B， Ki K S， Lee D，et al. Point to the expression： solving algebraic word problems using the expression-pointer transformer model[C]// Proc of Conference on Empirical Methods in Natural Language Processing. Stroudsburg， PA： Association for Computational Linguistics， 2020： 3768-3779.

[22]Tan Minghuan， Wang Lei， Jiang Lingxiao，et al. Investigating math word problems using pretrained multilingual language models[C]// Proc of the 1st Workshop on Mathematical Natural Language Proces-sing. 2022： 7-16.

[23]Huang Shifeng， Wang Jiawei， Xu Jiao， et al.Recall and learn： a memory-augmented solver for math word problems [EB/OL]. （2021-09-27）. https：//arxiv.org/abs/2109.13112.

[24]Zhang Zhengyan， Han Xu， Liu Zhiyuan， et al.Ernie： enhanced language representation with informative entities [EB/OL]. （2019-06-04）. https：//arxiv.org/abs/1905.07129.

[25]Cho K， Van Merrienboer B， Gulcehre C， et al.Learning phrase representations using RNN encoder-decoder for statistical machine translation [EB/OL]. （2014-09-03）. https：//arxiv.org/abs/1406.1078.

[26]Xie Zhipeng， Sun Shichao. A goal-driven tree-structured neural mo-del for math word problems[C]// Proc of the 28th International Joint Conference on Artificial Intelligence. [S.l.]： International Joint Conferences on Artificial Intelligence Organization， 2019： 5299-5305.

[27]張海橢，伍大勇，劉悅，等. 基于深度神經網絡的中文命名實體識別[J].中文信息學報， 2017， 31（4）： 28-35. （Zhang Haituo， Wu Dayong， Liu Yue， et al. Chinese-named entity recognition based on deep neural networks [J].Journal of Chinese Information Processing，" 2017， 31（4）： 28-35.）

[28]Zhang Hao， Cheng Youchi， Kumar S，et al. Capitalization normalization for language modeling with an accurate and efficient hierarchical RNN model[C]// Proc of IEEE International Conference on Acoustics， Speech and Signal Processing. Piscataway， NJ： IEEE Press， 2022： 6097-6101.

[29]Hong J， Fang M. Keyword extraction and semantic tag prediction[EB/OL].（2017-09-23）. https：//cs229.stanford.edu/proj2013/FangHong-Keyword%20Extraction%20and%20Semantic%20Tag%20Prediction.pdf.

[30]Sileo D， Van-De-Cruys T， Pradel C， et al.Mining discourse markers for unsupervised sentence representation learning [EB/OL]. （2019-03-28）. https：//arxiv.org/abs/1903.11850.

[31]姜貴松. 基于深度自適應圖卷積網絡的數學應用題求解器[D]. 天津：天津師范大學， 2023. （Jang Guisong. Math word problem solver based on deep adaptive graph convolutional network[D]. Tianjin： Tianjin Normal University， 2023.）

[32]袁銘陽，周長勝，黃宏博，等. 卷積神經網絡池化方法綜述[J]. 軟件工程與應用， 2020， 9（5）： 360-372. （Yuan Mingyang， Zhou Changsheng， Huang Hongbo， et al. Review of pooling methods for convolutional neural networks[J]. Software Engineering and Applications， 2020， 9（5）： 360-372.）

[33]Lu Pan， Qiu Liang， Yu Wenhao， et al.A survey of deep learning for mathematical reasoning [EB/OL]. （2023-06-22）. https：//arxiv.org/abs/2212.10535.

[34]Devries T， Taylor G W. Learning confidence for out-of-distribution detection in neural networks [EB/OL]. （2018-02-13）. https：//arxiv.org/abs/1802.04865.

[35]Amini A， Gabriel S， Lin P， et al. MathQA： towards interpretable math word problem solving with operation-based formalisms[EB/OL]. （2019-05-30）. https：//arxiv.org/abs/1905.13319.

[36]Zhao Wei， Shang Mingyue， Liu Yang， et al.Ape210k： a large-scale and template-rich dataset of math word problems [EB/OL]. （2020-10-09）. https：//arxiv.org/abs/2009.11506.

[37]Wang Lei， Wang Yan， Cai Deng， et al. Translating a math word problem to an expression tree [EB/OL]. （2018-11-15）. https：//arxiv.org/abs/1811.05632.

[38]Zhang Jipeng， Wang Lei， Lee R K W，et al. Graph-to-tree learning for solving math word problems[C]// Proc of the 58th Annual Mee-ting of the Association for Computational Linguistics. Stroudsburg， PA： Association for Computational Linguistics， 2020： 3928-3937.

[39]Lan Yihuai， Wang Lei， Zhang Qiyuan， et al. MWPToolkit： an open-source framework for deep learning-based math word problem" solvers[C]//Proc of AAAI Conference on Artificial Intelligent.Palo Alto， CA：AAAI Press，2022： 13188-13190.

計算機應用研究2025年1期

計算機應用研究的其它文章: 小數據集上基于語義的局部注意視覺Transformer方法; 一種基于旋轉-平移解耦優化的在線稠密重建算法; 單目RGB穿衣人體的手部精細化重建; 基于視角統一的手姿態估計優化方法; 基于互相關和旋轉約束的視覺慣性里程計在線時間校準算法; 適用于智能醫療的匿名基于身份的認證密鑰協商協議