999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于數據挖掘的專門用途英語(ESP)測試自動評分

2021-11-01 06:29:42薛慧娟劉敏
微型電腦應用 2021年10期
關鍵詞:數據挖掘文本英語

薛慧娟, 劉敏

(1.陜西鐵路工程職業技術學院 基礎課部, 陜西 渭南 714000; 2.陜西理工大學 數學與計算機科學學院, 陜西 漢中 723001)

0 引言

隨著改革開放的不斷深入,我國對外貿易規模不斷提高。國內外的各種社會交流也逐年增長,這些都離不開我國對英語教育事業的大力支持。但是,隨著競爭的不斷加劇,社會對復合型人才的需求越來越多。企業要求這些人才不僅要具有扎實的專業知識,還需要具備熟練的英語表達能力,例如專業領域的術語溝通等。專門用途英語(ESP)因此應運而生[1-3]。不同于普通英語,ESP教學側重在真實語境中靈活運用語言達到交際目的,因此口語能力相當重要。

雖然教學形式得到了多樣化的發展,但是現階段ESP的口語教學還處在人工判定階段。需要教師花費大量的時間和精力進行各種主觀性測試,導致工作效率無法有效提高,特別是大規模的ESP測試場景[4]。目前,隨著人工智能技術的興起和發展,基于各種人工智能算法的英語測試自動評分技術開始逐漸被提出[5-8]。例如,魏揚威等[8]提出結合語言學特征和自編碼器的英語作文自動評分,取得了很好的預測效果和魯棒性。李婷等[9]提出了一種集中趨勢自適應增強的英語作文評分算法,解決了過擬合問題,相比人工評分該算法的誤差均小于20%。但是可以看出,目前已提出的英語自動評分技術均僅從軟件或者算法方面進行研究,因此實時性較差且無法應用于ESP口語測試。

為了有效解決ESP口語測試的自動評分,就必須從硬件上對評分系統進行整體設計。由于ARM9系列平臺在實時數據采集和傳輸方面具有功耗低、便攜性、成本低和性能強等優勢,武曉燕等[10]設計了基于ARM的語音識別及控制系統,為ESP口語測試的自動評分研究提供了思路。

因此,在上述研究的基礎上,本文提出一種基于數據挖掘和嵌入式ARM設備的英語口語自動評分系統。在硬件方面采用基于三星S3C6410芯片微處理器、UDA1341TS音頻編解碼器和以太網接口的ARM開發板,能夠實現音頻信號的實時采集并上傳。調用科大訊飛API接口實現音頻文件轉換生成文本答案。對識別出的文本答案進行聚類特征提取,并采用關聯規則數據挖掘技術進行預測評分。實際測試結果驗證該系統的效率較高,其評分性能達到了人工評分的水平。

1 ESP測試自動評分平臺設計

1.1 系統硬件設計

為了降低整體系統的成本,提出系統在硬件方面采用基于三星S3C6410芯片微處理器、UDA1341TS音頻編解碼器和以太網接口的ARM開發板,能夠實現音頻信號的實時采集并上傳。工作系統采用ARM+LINUX架構,支持 LCD 接口和JTAG 調試接口,且體積小、專用性強,系統硬件框圖如圖1所示。

圖1 ESP測試自動評分系統的硬件框圖

1.2 UDA1341TS音頻接口電路設計

本系統采用了飛利浦基于IIS音頻總線的UDA134TS,可以外接8/16 bit的立體聲。UDA134TS音頻芯片的工作電壓為1.8 V-3.6 V。S3C6410微處理器通過AC-Link 數字接口對UDA134TS音頻芯片進行功能控制,如圖2所示。

圖2 AC-Link 數字接口硬件框圖

音頻芯片UDA134TS與S3C6410微處理器的連接電路以及外圍電路,如圖3所示。

圖3 音頻接口部分電路

ARM開發板的音頻相關電路有兩個3.3 V輸入電源,為音頻芯片UDA134TS供電,如圖4所示。

圖4 音頻接口電源電路

1.3 系統的軟件實現

在ARM開發板上需要通過交叉編輯構建開發環境,安裝Linux內核、根文件系統配置和加載相關驅動程序。Linux 系統選用的是 Ubuntu 12.04,需要下載到開發板上運行、驗證程序,交叉開發模式如圖5所示。

圖5 交叉開發模式

在臨時環境變量配置成功后,通過執行$ct-ng menuconfig命令打開Linux的圖形配置界面。然后編譯并安裝arm-linux-gcc 4.8.4交叉編譯工具鏈。

音頻芯片UDA134TS電路不斷采集語音信息,并由IIS總線接口輸入各個緩沖區中。用戶程序可以從當前緩沖區存儲空間直接讀取數據音頻模塊的語音信號。

2 自動評分功能的實現

通過ARM開發板采集ESP測試中用戶語音信息后,通過以太網口上傳到PC端生成音頻文件。然后調用科大訊飛API接口(語音聽寫接口)實現音頻文件的轉寫,生成英語文本答案。

2.1 聚類后的特征提取

為了對英語文本答案的內容進行準確表征,本文將英語文本的詞向量進行K-means聚類分析。詞向量的生成借助了詞向量計算的工具Word2vec[11-13]。將生成的英語文本答案內容表征成3×k維向量,則聚類分析的步驟如下。

(1) 設Word2vec生成的詞向量集合為X={x1,…,xM},其中xi表示英語文本的詞向量。

(2) 隨機初始化k個聚類中心,u1,u2,…,uk∈Rn。

(3) 對xi的類型結果進行計算,為式(1)。

(1)

(4) 然后對聚類中心進行調整,為式(2)。

(2)

式中,j∈[1,k]。

(5) 判斷聚類中心是否不發生變化,是的話就結束聚類,否則跳轉到步驟(2)繼續執行。

表1 詞法特征

2.2 關聯規則數據挖掘

在特征構建好后,將采用FP_Growth關聯規則挖掘算法[14]應用于英語文本評分的預測任務。令I={i1,i2,…,id}是特征數據中所有項的集合,而T={t1,t2,…,tN}是所有事務的集合。每個事務ti包含的項集都是I的子集。

在關聯分析中,支持度(support)和置信度(confidence)的具體表示方式為式(3)、式(4)。

(3)

(4)

式中,N表示事務的數量。

英語文本評分的支持度計算方式如式(5)。

s=|{x|x∈D,rulei∈x}|

(5)

其中,D表示訓練數據集;rulei表示D的規則。在關聯分析中集合是被視為項集(itemset)。

基于FP_Growth關聯規則挖掘的英語文本評分預測的核心步驟是構建FP-tree樹節點,以便減少所需頻繁項集的數量。事務型數據的示例如表2所示。

表2 事務型數據

FP_tree樹的節點機構如圖6所示。

圖6 FP-tree節點

3 實驗結果與分析

3.1 實驗數據和評估指標

為了驗證所提ESP測試自動評分系統的有效性,進行了具體測試。實驗數據庫為國內高校ESP口語比賽數據集中隨機選取的800道簡答題。選擇一個測試者進行現場ESP口語簡答測試,然后分別進行人工評分和音頻采集自動評分。PC端系統運行環境配置信息如表3所示。

表3 系統運行環境參數

本文自動評分系統和人工評分均采用二次加權的Kappa值[15]進行量化評估,其計算方式如式(6)。

(6)

其中,Oi,j表示分數同時為i和j的答案的數量(由兩個不同的評分人給出);w表示權重,其計算方式如式(7)。

(7)

其中,N表示評分的等級數。Kappa值越大則準確度越高。針對同一個測試者分別進行了5次人工評分和自動評分,其中每次人工評分由3個專家打分并取平均值,每次自動評分也是取3次結果的平均值。

3.2 時間和準確度

利用3.1節中數據集對基于FP_Growth關聯規則挖掘算法的ESP測試自動評分系統進行實驗,在不同最小支持度情況下系統運行時間結果如圖7所示。

圖7 運行時間分析

從圖7可以看出,隨著最小支持度逐漸增大,自動評分系統的運行時間逐漸減少。但是在支持度較大時,本文提出自動評分方法的評分精度也會有所降低,因此需要做出適當的平衡,本文選取的最小支持度為1.2%。

利用ESP口語比賽數據集和人工評分結果,對本文自動評分方法、傳統自動評分方法(VikP)和Adaboost/CT自動評分方法[9]這3種方法進行準確度分析,如表4所示。

表4 3種自動評分方法的準確度對比

從表4可以看出,對于不同的ESP題庫,雖然比Adaboost/CT方法要低,但是本文自動評分方法的準確度明顯高于傳統的VikP自動評分方法,更接近人工評分的結果。Adaboost/CT方法在準確度方面優于本文方法,這是由于其采用深度學習框架,但也導致其運行時間較長,而本文則是側重實時性,以便配合嵌入式ARM開發需求。另外,噪聲達到45左右時,會對語音測試者的識別造成明顯的干擾,識別的精度降低,導致最終的評分性能較差。

4 總結

本文提出一種基于數據挖掘和嵌入式ARM設備的英語口語自動評分系統。采用ARM開發板實現音頻信號的實時采集。調用科大訊飛API接口實現音頻文件轉換生成文本答案,并進行聚類特征提取。采用關聯規則數據挖掘技術進行預測評分。實際測試結果驗證該系統的可行性。但是語音識別時的噪聲干擾對整體性能有一定的影響,降噪問題將是后續工作重點。

猜你喜歡
數據挖掘文本英語
探討人工智能與數據挖掘發展趨勢
在808DA上文本顯示的改善
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
基于并行計算的大數據挖掘在電網中的應用
電力與能源(2017年6期)2017-05-14 06:19:37
讀英語
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學隱喻
一種基于Hadoop的大數據挖掘云服務及應用
酷酷英語林
如何快速走進文本
語文知識(2014年1期)2014-02-28 21:59:13
基于GPGPU的離散數據挖掘研究
主站蜘蛛池模板: 国产成人综合网| 久久这里只有精品2| 日韩无码精品人妻| 国产亚洲高清在线精品99| 试看120秒男女啪啪免费| 2021亚洲精品不卡a| AV色爱天堂网| 91福利国产成人精品导航| 精品精品国产高清A毛片| 伊伊人成亚洲综合人网7777| 色一情一乱一伦一区二区三区小说| JIZZ亚洲国产| 国产男人天堂| 91精品人妻互换| 日韩精品欧美国产在线| 日本精品视频| 亚洲天堂网2014| 日本亚洲成高清一区二区三区| 午夜a级毛片| 成人亚洲国产| 久久国产精品夜色| 国产微拍精品| 成人国内精品久久久久影院| 国产精品亚洲一区二区三区z| 亚洲精品国产精品乱码不卞| 日韩精品久久久久久久电影蜜臀| 中文字幕在线看| 欧美亚洲综合免费精品高清在线观看| 色婷婷成人网| 91色国产在线| 亚洲视频免费在线看| 日韩欧美在线观看| 色综合五月婷婷| 97在线观看视频免费| 首页亚洲国产丝袜长腿综合| 亚洲人成成无码网WWW| 精品国产免费观看一区| 2019年国产精品自拍不卡| 亚洲黄色成人| 日韩专区欧美| 亚洲欧美激情小说另类| 亚洲国产日韩一区| 被公侵犯人妻少妇一区二区三区| 老司机久久99久久精品播放| 国产性精品| 日韩欧美国产精品| 欧美69视频在线| 美女高潮全身流白浆福利区| 国产福利影院在线观看| 日本国产精品| 日本五区在线不卡精品| 美女一区二区在线观看| 99精品国产自在现线观看| 亚洲美女高潮久久久久久久| 欧美激情福利| 91丨九色丨首页在线播放| 找国产毛片看| 亚州AV秘 一区二区三区| 亚洲天堂成人在线观看| 国产免费精彩视频| 夜精品a一区二区三区| 日韩a级片视频| 中国一级特黄视频| AV无码国产在线看岛国岛| 亚洲欧美日韩动漫| 欧美全免费aaaaaa特黄在线| 午夜一级做a爰片久久毛片| 伊人五月丁香综合AⅤ| 99性视频| 在线色综合| 国产尤物视频网址导航| 久久不卡精品| 精品福利国产| 亚洲无码视频喷水| 国产成在线观看免费视频| 欧美色视频在线| 国产爽妇精品| 国产精品久久久久久久久kt| 毛片三级在线观看| 欧美α片免费观看| 色135综合网| 国产精品妖精视频|