基于數據挖掘的專門用途英語(ESP)測試自動評分

2021-11-01 06:29:42薛慧娟劉敏

微型電腦應用 2021年10期

薛慧娟, 劉敏

(1.陜西鐵路工程職業技術學院基礎課部，陜西渭南 714000; 2.陜西理工大學數學與計算機科學學院，陜西漢中 723001)

0 引言

隨著改革開放的不斷深入，我國對外貿易規模不斷提高。國內外的各種社會交流也逐年增長，這些都離不開我國對英語教育事業的大力支持。但是，隨著競爭的不斷加劇，社會對復合型人才的需求越來越多。企業要求這些人才不僅要具有扎實的專業知識，還需要具備熟練的英語表達能力，例如專業領域的術語溝通等。專門用途英語(ESP)因此應運而生[1-3]。不同于普通英語，ESP教學側重在真實語境中靈活運用語言達到交際目的，因此口語能力相當重要。

雖然教學形式得到了多樣化的發展，但是現階段ESP的口語教學還處在人工判定階段。需要教師花費大量的時間和精力進行各種主觀性測試，導致工作效率無法有效提高，特別是大規模的ESP測試場景[4]。目前，隨著人工智能技術的興起和發展，基于各種人工智能算法的英語測試自動評分技術開始逐漸被提出[5-8]。例如，魏揚威等[8]提出結合語言學特征和自編碼器的英語作文自動評分，取得了很好的預測效果和魯棒性。李婷等[9]提出了一種集中趨勢自適應增強的英語作文評分算法，解決了過擬合問題，相比人工評分該算法的誤差均小于20%。但是可以看出，目前已提出的英語自動評分技術均僅從軟件或者算法方面進行研究，因此實時性較差且無法應用于ESP口語測試。

為了有效解決ESP口語測試的自動評分，就必須從硬件上對評分系統進行整體設計。由于ARM9系列平臺在實時數據采集和傳輸方面具有功耗低、便攜性、成本低和性能強等優勢，武曉燕等[10]設計了基于ARM的語音識別及控制系統，為ESP口語測試的自動評分研究提供了思路。

因此，在上述研究的基礎上，本文提出一種基于數據挖掘和嵌入式ARM設備的英語口語自動評分系統。在硬件方面采用基于三星S3C6410芯片微處理器、UDA1341TS音頻編解碼器和以太網接口的ARM開發板，能夠實現音頻信號的實時采集并上傳。調用科大訊飛API接口實現音頻文件轉換生成文本答案。對識別出的文本答案進行聚類特征提取，并采用關聯規則數據挖掘技術進行預測評分。實際測試結果驗證該系統的效率較高，其評分性能達到了人工評分的水平。

1 ESP測試自動評分平臺設計

1.1 系統硬件設計

為了降低整體系統的成本，提出系統在硬件方面采用基于三星S3C6410芯片微處理器、UDA1341TS音頻編解碼器和以太網接口的ARM開發板，能夠實現音頻信號的實時采集并上傳。工作系統采用ARM+LINUX架構，支持 LCD 接口和JTAG 調試接口，且體積小、專用性強，系統硬件框圖如圖1所示。

圖1 ESP測試自動評分系統的硬件框圖

1.2 UDA1341TS音頻接口電路設計

本系統采用了飛利浦基于IIS音頻總線的UDA134TS，可以外接8/16 bit的立體聲。UDA134TS音頻芯片的工作電壓為1.8 V-3.6 V。S3C6410微處理器通過AC-Link 數字接口對UDA134TS音頻芯片進行功能控制，如圖2所示。

圖2 AC-Link 數字接口硬件框圖

音頻芯片UDA134TS與S3C6410微處理器的連接電路以及外圍電路，如圖3所示。

圖3 音頻接口部分電路

ARM開發板的音頻相關電路有兩個3.3 V輸入電源，為音頻芯片UDA134TS供電，如圖4所示。

圖4 音頻接口電源電路

1.3 系統的軟件實現

在ARM開發板上需要通過交叉編輯構建開發環境，安裝Linux內核、根文件系統配置和加載相關驅動程序。Linux 系統選用的是 Ubuntu 12.04，需要下載到開發板上運行、驗證程序，交叉開發模式如圖5所示。

圖5 交叉開發模式

在臨時環境變量配置成功后，通過執行$ct-ng menuconfig命令打開Linux的圖形配置界面。然后編譯并安裝arm-linux-gcc 4.8.4交叉編譯工具鏈。

音頻芯片UDA134TS電路不斷采集語音信息,并由IIS總線接口輸入各個緩沖區中。用戶程序可以從當前緩沖區存儲空間直接讀取數據音頻模塊的語音信號。

2 自動評分功能的實現

通過ARM開發板采集ESP測試中用戶語音信息后，通過以太網口上傳到PC端生成音頻文件。然后調用科大訊飛API接口(語音聽寫接口)實現音頻文件的轉寫，生成英語文本答案。

2.1 聚類后的特征提取

為了對英語文本答案的內容進行準確表征，本文將英語文本的詞向量進行K-means聚類分析。詞向量的生成借助了詞向量計算的工具Word2vec[11-13]。將生成的英語文本答案內容表征成3×k維向量，則聚類分析的步驟如下。

(1) 設Word2vec生成的詞向量集合為X={x1,…,xM}，其中xi表示英語文本的詞向量。

(2) 隨機初始化k個聚類中心，u1,u2,…,uk∈Rn。

(3) 對xi的類型結果進行計算,為式(1)。

(1)

(4) 然后對聚類中心進行調整,為式(2)。

(2)

式中，j∈[1,k]。

(5) 判斷聚類中心是否不發生變化，是的話就結束聚類，否則跳轉到步驟(2)繼續執行。

表1 詞法特征

2.2 關聯規則數據挖掘

在特征構建好后，將采用FP_Growth關聯規則挖掘算法[14]應用于英語文本評分的預測任務。令I={i1,i2,…,id}是特征數據中所有項的集合，而T={t1,t2,…,tN}是所有事務的集合。每個事務ti包含的項集都是I的子集。

在關聯分析中，支持度(support)和置信度(confidence)的具體表示方式為式(3)、式(4)。

(3)

(4)

式中，N表示事務的數量。

英語文本評分的支持度計算方式如式(5)。

s=|{x|x∈D,rulei∈x}|

(5)

其中，D表示訓練數據集;rulei表示D的規則。在關聯分析中集合是被視為項集(itemset)。

基于FP_Growth關聯規則挖掘的英語文本評分預測的核心步驟是構建FP-tree樹節點，以便減少所需頻繁項集的數量。事務型數據的示例如表2所示。

表2 事務型數據

FP_tree樹的節點機構如圖6所示。

圖6 FP-tree節點

3 實驗結果與分析

3.1 實驗數據和評估指標

為了驗證所提ESP測試自動評分系統的有效性，進行了具體測試。實驗數據庫為國內高校ESP口語比賽數據集中隨機選取的800道簡答題。選擇一個測試者進行現場ESP口語簡答測試，然后分別進行人工評分和音頻采集自動評分。PC端系統運行環境配置信息如表3所示。

表3 系統運行環境參數

本文自動評分系統和人工評分均采用二次加權的Kappa值[15]進行量化評估，其計算方式如式(6)。

(6)

其中，Oi,j表示分數同時為i和j的答案的數量(由兩個不同的評分人給出);w表示權重，其計算方式如式(7)。

(7)

其中，N表示評分的等級數。Kappa值越大則準確度越高。針對同一個測試者分別進行了5次人工評分和自動評分，其中每次人工評分由3個專家打分并取平均值，每次自動評分也是取3次結果的平均值。

3.2 時間和準確度

利用3.1節中數據集對基于FP_Growth關聯規則挖掘算法的ESP測試自動評分系統進行實驗，在不同最小支持度情況下系統運行時間結果如圖7所示。

圖7 運行時間分析

從圖7可以看出，隨著最小支持度逐漸增大，自動評分系統的運行時間逐漸減少。但是在支持度較大時，本文提出自動評分方法的評分精度也會有所降低，因此需要做出適當的平衡，本文選取的最小支持度為1.2%。

利用ESP口語比賽數據集和人工評分結果，對本文自動評分方法、傳統自動評分方法(VikP)和Adaboost/CT自動評分方法[9]這3種方法進行準確度分析，如表4所示。

表4 3種自動評分方法的準確度對比

從表4可以看出，對于不同的ESP題庫，雖然比Adaboost/CT方法要低，但是本文自動評分方法的準確度明顯高于傳統的VikP自動評分方法，更接近人工評分的結果。Adaboost/CT方法在準確度方面優于本文方法，這是由于其采用深度學習框架，但也導致其運行時間較長，而本文則是側重實時性，以便配合嵌入式ARM開發需求。另外，噪聲達到45左右時，會對語音測試者的識別造成明顯的干擾，識別的精度降低，導致最終的評分性能較差。

4 總結

本文提出一種基于數據挖掘和嵌入式ARM設備的英語口語自動評分系統。采用ARM開發板實現音頻信號的實時采集。調用科大訊飛API接口實現音頻文件轉換生成文本答案，并進行聚類特征提取。采用關聯規則數據挖掘技術進行預測評分。實際測試結果驗證該系統的可行性。但是語音識別時的噪聲干擾對整體性能有一定的影響，降噪問題將是后續工作重點。