


摘要:作者利用自主研發的英語語音計算機測試系統先后對200名英語專業在校生的英語語音進行計算機測試,并將其成績與傳統語音測試成績作對比分析,給出誤差修正公式及降低誤差的方法。
關鍵詞:英語語音;測試;誤差;分析
中圖分類號:TP311? ? ? 文獻標識碼:A
文章編號:1009-3044(2023)13-0113-03
開放科學(資源服務)標識碼(OSID) :
0 引言
隨著語音合成、輸出和語音識別技術的出現,使英語語音計算機測試成為可能,現階段筆者已經研發了一套英語語音計算機測試系統軟件[1],它能利用計算機對學生的英語語音判斷識別并給出相應的成績,與此同時還進行同步錄音,以便考試結束后教師檢查修正學生的英語語音成績。
英語語音計算機測試是一個新的領域,它需要計算機代替人腦去判斷測試者的語音并給出相應的分值,因而其測試結果的準確度將成為該技術能否被廣泛應用的關鍵。此前,筆者已經開發了一套英語語音計算機測試系統,并組織紹興文理學院外國語學院英語專業學生進行測試,但是發現測試的成績與傳統教師評分的成績存在一定的誤差。分析原因可能與學生機器操作的熟練程度以及機器評分的成績計算公式有關,為了讓計算機測試結果更加準確,為此,筆者通過兩組實驗對比分析,再結合費希納對數定律的公式對計算機測試成績進行優化,并跟傳統的教師評分進行優良率分析比對,初步找出控制誤差的方法。
1 理論依據
1.1 心理量概念
心理量指人在受到外界刺激而引起的自身知覺的大小,觸覺心理量是指由外部接觸刺激引起的知覺經驗[2]。
1.2 物理量概念
物理量是指能準確表示物體狀態以及物理變化的程度。如長寬高、運行速度、溫度、做功、電阻以及電流等。
1.3 差別感受性和差別感覺閾限
差別感受性是指人剛能覺察出兩個同類刺激物之間最小差異的能力,而這兩個同類刺激物之間的最小差異量稱為差別感覺閾限。差別感受性和差別感覺閾限在數值上是成反比關系的。
德國生理學家韋伯發現,差別感覺閾限并不是固定的值,而是隨著原刺激量的增加而增加,但它們的比值卻是一個常數,這就是韋伯定律:
[K=ΔI/I] (1)
式中:[I]表示原刺激量;[ΔI]表示刺激增減量;[K]代表常數。
1.4 費希納對數定律
1860年,德國心理學家費希納在研究人們對心理刺激量的變化時提出了心理量的概念。指出韋伯定律中的最小的可覺差(Just-Noticeable Difference,JND) [3]是對刺激量的一個最小變化的覺察量,并將其作為測量心理量變化的單位。當刺激量增大時,產生的[ΔJND]的變化量就會增大,根據韋伯定律在心理量增大的情況下,如要感知到同樣的[ΔJND]差異,就需要更大的刺激變化。而心理量跟刺激變化的關系為:
[K=S/lnR] (2)
式中:[S]是心理量;[R]是刺激量;[K]是常數;其中[R]與[S]之間是一種對數關系。這一規律稱為費希納定律。
準確地講,費希納定律指出了:由刺激引起心理量[S]變化值與刺激強度[F]的變化值成對數之積。如圖1,[AB]之間的差異在刺激差異量上與[BC]之間不等,但引起的心理量相等,都是2個最小可察覺差異。從數學角度看當心理量以算術級數(1-2-3) 增長時,刺激能量以幾何級數(1-4-9) 增長,心理量與刺激強度之間在數量上是一種對數關系[2]。
由圖1關系費希納推出S與F之間的關系為:
[S =m+nln(F+d)] (3)
式中:[m]、[n]以及[d]為常數。
2 軟件應用
筆者利用自己開發的英語語音測試系統軟件對紹興文理學院外語專業2個年段的學生(總共200人)的英語語音進行了計算機測試和傳統人工測試,并將兩者的成績結果進行了比較分析。其中第一組人員經過反復練習熟悉計算機語音考試的要領后進行機考測試,第二組人員則直接進行計算機語音考試。
語音識別的具體過程就是根據模式匹配原理和一些相似性度量規則,在參考模式數據庫中對未知模式與參考模型進行匹配[4]。軟件通過波形訓練和語音測試模塊來不斷改進學生的語音訓練,界面如圖2所示。
波形訓練模塊可以使學習者矯正發音方式,再通過語音測試模塊分別從單詞、單句以及段落綜合評分,最終測算出學習者最終得分。
3 利用費希納對數定律對實驗數據進行誤差矯正
為防止出現以偏概全的現象,筆者在20級和21級英語專業新生中各抽取100人進行測試。
3.1 實驗一組
測試對象:2020級英語專業新生100人,且經過反復訓練后再進行計算機語音測試。
測試內容:2個段落、7個單句、6個單詞
實驗步驟:學生在測試電腦語音時,系統進行同步錄音,測試結束后,由教師分別對錄音文件進行線上評分得到教師評測成績和電腦評測成績如圖3。
從圖3可以看出:教師的評分區間控制在60~80之間且比較穩定,而計算機測評成績起落較大,且通過與教師評分成績的平均絕對誤差計算達到17.2。
3.2 實驗二組
測試對象:選取了2021級英語專業新生100人,沒有經過訓練直接進行語音測試。
測試內容:2個段落、4個單句、10個單詞。
實驗步驟:學生在測試電腦語音時,系統進行同步錄音,測試結束后,由教師分別對錄音文件進行線上評分得到教師評測成績和電腦評測成績如圖4。
從圖4可以看出:教師的評分區間控制在60~80之間且比較穩定,計算機測評成績起落仍較大,且通過與教師評分成績的平均絕對誤差計算達到14.9。
從以上兩組實驗得出,計算機進行語音測評的分數和教師進行傳統語音測評的分數,它們的絕對誤差都在10分以上,且這兩個平均絕對誤差值相差不大,這說明計算機評分雖然分值起落比較大但是和教師評分的絕對誤差值是相對穩定的,兩者之間存在某種系統誤差,需要通過某種公式進行優化計算機測評成績。
3.3 誤差分析處理
傳統測試教師判斷學生的語音成績是從心理量角度來評分。傳統測試評分是指教師在受到學生語音刺激后根據引起的自身知覺的大小給出評分,所以傳統測試的成績是以心理量的方式顯示的。計算機測試是機器根據語音識別引擎來判斷學生語音的成績是從物理量角度來評分。計算機測試評分是計算機對所接收到的語音信號的一種刺激強度的變化量來給出評分,所以計算機測試的成績是以刺激強度的方式顯示的。
根據費希納對數定律,傳統測試成績和計算機測試成績應該滿足心理量[S]和刺激強度[F]的關系,即它們之間滿足的式(3) 的關系。經過筆者多次測試比較(具體過程略),最終將計算機測試的成績通過以下公式換算成心理量表示:
[S=LN(F)*17.4] (4)
式中:[S]為新計算機測試成績(以心理量為評分標準);[F]為原計算機測試成績(以刺激強度為評分標準)。
經過式(4) 處理后得到新計算機測試成績,再將新計算機測試成績與原來的教師測評成績對比,得到圖5、圖6。
從圖5、圖6中可以看出,教師測評成績和電腦測評成績兩者的評分曲線基本上吻合,平均絕對誤差分別為4.86和6.25,較未使用費希納對數定律之前的電腦測試成績有較大的準確率提升,說明按照費希納對數定律進行誤差矯正能夠將計算機的測試成績跟人工測試成績基本符合。
4 對糾正后的數據進行統計分析
從圖5、圖6中可以看出,教師的測評成績和計算機測評成績基本吻合,平均絕對誤差都在10以內,通過數據分析統計得到兩者的成績絕對誤差在10分以內的均占比達到97%。效度計算公式為:
r2=SV2/SX2 (5)
其中r為效度系數,SV2為電腦測評方差,SX2為教師測評方差。第一組效度為0.79,第二組效度為0.70,可見兩組的成績對比都能達到SPSS效度最優區間0.5~0.8之間。
4.1 優良及格率分析
英語語音評分本身就是主觀性比較強的一種評分方式,因此對于分數上存在一定的差異性應該被允許的,一般設定絕對誤差在5分以內的屬于正常誤差范圍。設定大于80以上為優秀,70至80之間為中等,60至70之間為及格,60以下為不及格。進行優良率分析如圖7,從中看到第一組的教師測評優良率分布和機器測評的優良率分布基本一致;其中機器測評出現的不及格率7%,經過統計分析,其中與教師測評分差5分以內的占不及格人數的71%即5人,如果對這5人進行一定的加權使其及格,那么第一組機器測評及格率將從48%達到53%,不及格率將變成2%,屬于正常的誤差范圍。
第二組的機器測評和教師測評在優秀率和中等率上的百分比差別超過10個百分點,經過統計分析,教師測評為優秀的人員,在機器測評中都被列為中等,且兩者的分差超過5分,從第二組的優良率看,機器評分大部分集中在中等,優秀率不高。
4.2 原因分析
1) 對于語音機考的熟練程度。第二組學生由于初次進行計算機語音測試,對計算機語音測試的方法還不習慣,還沒能掌握好測試的技巧。段落測試和單詞單句測試的計算機評判方法不同,因而朗讀的方法也要求不同,一般來說段落應該朗讀得慢而清晰,單詞單句應該朗讀得快而流暢。語音好的學生習慣連讀,但對于段落識別來說連讀反而拉低了成績。
2) 英音和美音的區別。傳統測試中英語語音成績好的學生往往喜歡美式發音,而本次機考的語音識別標準音是以英式發音為主。因此發美音的學生在計算機測試中成績就偏差。
3) 軟件在處理識別的語音時也存在一定的誤差。
5 措施
5.1 提高技能、細化考題
平時組織學生經常性訓練英語語音,熟悉機考的發音技巧,確保在機考測試中能盡量避免因不熟練而引起的失分;通過對整個試卷考題類型分類、細化 ,并且根據教學內容進行權重設定使評分依據明朗化[5]。
5.2 多種模型、提升信度
計算機進行語音測試時,可以提供發音選項,即確保發美音的學生用美音的標準音進行測試,發英音的學生用英音標準進行測試,從而提高分數的可信度。
5.3 同步錄音、方便核查
學生在語音機考時進行同步錄音,這樣以便發現判分嚴重失誤時可以及時人工介入,確保分數準確性。
6 結束語
基于費希納對數定律的計算機英語語音評分測試誤差分析,使得語音識別架構下英語口語考試輔助評分系統避免了教師評分中的缺陷[6],通過計算機測試成績和教師測評成績的對比分析和誤差調整,使得計算機英語語音測試系統更加具有人性化,也為計算機英語語言測試這一新領域開辟道路。
參考文獻:
[1] 羅軍平.利用語音識別引擎實現電腦英語語音測試的探索[J].中國教育技術裝備,2005(1):19-20.
[2] 沈春山,聶余滿,葛運建.機器人傳感器觸覺心理量檢測的研究[J].傳感器技術,2005(4):11-12,15.
[3] B.H.坎特威茨.實驗心理學:掌握心理學的研究[M].郭秀艷,譯.上海:華東師范大學出版社,2001:208-209.
[4] 曹課興.基于模糊理論的大學英語語音測試系統研究[J].電腦知識與技術,2019,15(9):197-198.
[5] 陳香美,岳峰.量化理論在提高英語語音測試評分反饋效度的研究[J].福建商業高等專科學校學報,2012(4):11-15.
[6] 田偉偉.語音識別架構下英語口語考試輔助評分系統[J].自動化技術與應用,2022,41(5):168-170,179.
【通聯編輯:謝媛媛】