吳沛瑾
(蚌埠學院,安徽 蚌埠 233000)
英語是被廣泛使用的國際語言,在經(jīng)濟全球化和世界多元文化格局下,提高全民的英語水平,逐步消除英語溝通障礙顯得十分重要。動詞是英語語法中的核心詞匯,具有較高的開放性,存在很多詞形變化的特征[1]。英語動詞詞形不僅需要和主語人稱以及數(shù)量保持對應,還需要依據(jù)句子的時態(tài)、語態(tài)和語氣進行轉(zhuǎn)變。英語動詞詞形可以反映動作發(fā)生的時間或存在的狀態(tài)以及反映主語和動作之間的關系[2],同時還可以表示對某個動作的命令、請求等。由于漢語不包含詞形變化,因長期受到母語的影響,導致很難理解及區(qū)分英語動詞詞形,進而影響人們的英語學習效果。因此,有必要對英語動詞詞形進行有效分類,幫助人們更好地掌握動詞的用法。英語動詞詞形分類不僅能為英語教學提供輔助,還可以豐富翻譯單位和語料庫研究,同時對于詞典編纂、教材編寫以及文本分析等也發(fā)揮著不可估量的作用[3,4]。傳統(tǒng)分類方法以人工識別形式為主,雖然準確度較高,但存在耗時費力以及受數(shù)量限制大等弊端,并且部分非常用詞形很容易被忽略。因此,研究可靠并具有大批量處理能力的英語動詞詞形分類方法成為當前學術(shù)領域關注的重點課題。
很多學者均在該課題的研究上取得重大進展,例如牛振東等人利用深度隨機森林完成英語動詞詞形分類,該方法能很好地應對大規(guī)模數(shù)據(jù)處理問題,但對于復雜動詞詞形的分類效果欠佳[5];丁勇等人利用主題和關鍵詞特征完成英語動詞詞形分類,該方法的泛化能力和時間性能較為優(yōu)異,但在特征提取時未考慮特征的詞頻信息[6]。
為此,本文設計了了基于聚類算法的英語動詞詞形分類方法。隨著大數(shù)據(jù)時代的發(fā)展,以聚類算法為核心環(huán)節(jié)的信息檢索技術(shù)在語言識別領域得到廣泛應用,通過K-means 算法和支持向量機算法的相互協(xié)作,達到準確判斷英語動詞詞形類別的目的。并通過實驗分析驗證了本文分類方法的有效性。
為了實現(xiàn)英語動詞詞形的分類,首先構(gòu)建了英語動詞詞形的語義架構(gòu)模型。英語動詞詞形用CS描述,其包含的語義結(jié)構(gòu)數(shù)量為m,在其基礎上通過多元特征分布重新塑造語法規(guī)則,得到英語動詞詞形語義特征分布模型,并借助權(quán)重約束手段獲取語義結(jié)構(gòu)特征分布集,同時引入模糊度檢測,完成英語動詞詞形狀態(tài)特征量的提取。令語義策略用Ai描述,在此策略下,英語動詞詞形狀態(tài)分布集用V描述,其屬于謂語中心詞,相應的承受者用O 描述,英語動詞的分級特征量用S 描述,且S=V,任意一個英語動詞用Wi描述,其多級知識結(jié)構(gòu)用S 和V 描述,Wi的特征語義修飾對象用WGi描述,則可以使用公式(1)描述英語動詞詞形狀態(tài)分布的相關度計算過程:

定義β 代表英語動詞詞形特征分布的實數(shù)集,且滿足β∈[0,T],其中英語動詞詞形評價集S內(nèi)的元素有T 個,通過語法樹將英語動詞詞形多級知識表達模型創(chuàng)建于S 中,并利用最小屬性特征分割對英語動詞詞形結(jié)構(gòu)進行組合分析[7,8],以獲取公式(2)所示語義信息分布狀態(tài)特征量求解過程:

式中,ak的取值介于[-0.5,0.5]范圍內(nèi),取整算子用round 描述。依據(jù)語法量化集對該式進行求解,可獲得英語動詞詞形狀態(tài)特征量,用m 描述。
針對多級知識結(jié)構(gòu)的劃分,可以通過分段劃分的形式來完成,使其變?yōu)锳B、AA、PD,并從英語動詞的特征分布集中查找相應的簡單語義集,分別用AB+S、AA+S 和PD+V 描述,最后借助語義本體特征構(gòu)造方法反映英語動詞詞形語義特征,如L→AAPDAB,從而實現(xiàn)英語動詞詞形語義結(jié)構(gòu)模型構(gòu)建。
在上述構(gòu)建的英語動詞詞形語義結(jié)構(gòu)模型基礎上,為描述英語動詞詞形語義特征,使用語義本體特征構(gòu)造方法來實現(xiàn),進而有效提取英語動詞詞形狀態(tài)特征量。
二元語義信息用{(s1,a1),(s2,a2),…,(sn,an),}描述,與其相匹配的權(quán)重向量用ω=((ω1,a′1),(ω2,a′2),…,(ωn,a′n),)T描述,其中ωj的取值介于[0,1]范圍內(nèi),可使用公式(3)表示加權(quán)算術(shù)平均算子的計算過程:


通過有向圖模型重組英語動詞詞形狀態(tài),得出相應的語法樹模型[9,10]。定義R(rij,aij)m×n代表英語動詞詞形評價矩陣,多級知識反映的指標權(quán)重用W=((ω1,β1),…,(ωn,βn))描述,則公式(4)為將語法樹使用模糊度尋優(yōu)完成歸一化后所得結(jié)果:

依據(jù)上式所得結(jié)果,獲取有向圖模型內(nèi)的指標權(quán)重以及綜合評價矩陣,分別用W=((ω′2,β2),…,(ω′n,β′n))、X=(rij,a′ij)m×n描述。
使用余弦相似度對上述過程中獲取的英語動詞詞形狀態(tài)特征量之間的相似度進行計算。英語動詞詞形間的相似度,即英語動詞詞形狀態(tài)特征量之間的夾角余弦值,若想表明英語動詞詞形之間具有較高相似度,則余弦值應取較大值[11]。該方法的計算過程用公式(5)描述:

式中,兩個英語動詞詞形狀態(tài)特征量分別用x、y 描述,兩者位于空間上的距離用Sim(x,y)描述,x的第k 維權(quán)重值用xk描述,y 的第k 維權(quán)重值用yk描述,英語動詞詞形狀態(tài)特征量總數(shù)用n 描述,x和y 的模分別用||x||、||y||描述。該式可以轉(zhuǎn)化為公式(6)所示形式:

通過單位化處理英語動詞詞形狀態(tài)特征量x,能夠得到公式(7)所示結(jié)果:

可采用同樣方式處理英語動詞詞形狀態(tài)特征量y,進而獲得以下所示公式(5)的轉(zhuǎn)化結(jié)果:

通過上述轉(zhuǎn)化過程,可顯著提升英語動詞詞形狀態(tài)特征量之間相似度的計算效率。
依據(jù)上小節(jié)獲得的英語動詞詞形狀態(tài)特征量之間相似度的計算結(jié)果,使用K-means 算法和支持向量機算法相結(jié)合的方法,對英語動詞詞形進行分類。
2.4.1 K-means 算法
K-means 算法是當前應用最廣泛的非監(jiān)督、間接性聚類算法之一。該算法定義的參數(shù)用k 描述,據(jù)其將數(shù)量為n 的對象劃分成k 個簇,以使簇內(nèi)和簇間的相似度分別處于較高、較低水平[12]。其中利用簇內(nèi)對象的均值便能得出簇內(nèi)相似度。
K-means 算法基本原理:采用隨機形式抽取數(shù)量為k 的對象,各對象均能表示一個聚類中心,針對未抽取到的對象,依據(jù)某對象和每個聚類中心間的距離,將其劃分至與自身相似度最高的聚類中,并重新求解各聚類的聚類中心。循環(huán)執(zhí)行以上步驟,當準則函數(shù)達到收斂狀態(tài)時,則停止循環(huán)。
(1)假設英語動詞詞形劃分的類別個數(shù)為k,則需要以隨機形式選取數(shù)量為k 的初始中心向量。
(2)對各英語動詞詞形和k 個聚類中心之間的距離進行計算,依據(jù)相似度結(jié)果將所有英語動詞詞形歸入相應的類別。當運算執(zhí)行次數(shù)為m 時,第i類的聚類中心用Ci(m)描述,其中i 的取值介于[1,k]范圍內(nèi)。在滿足D(t)-Cj(m)<D(t)-Ci(m)的條件下,且i和j 的值不相等時,則表明英語動詞詞形D(t)和聚類中心Cj(m)的相似度最高,將其分配到類θj中。
(3)在計算k 個類的平均距離的基礎上,利用公式(9)求解k 個新聚類中心:

式內(nèi),類θj內(nèi)的總點數(shù)用Mj描述。
(4)依據(jù)最小距離原則,利用求出的新聚類中心重新實現(xiàn)所有英語動詞詞形的聚類。循環(huán)執(zhí)行上述過程,停止條件為聚類中心不再發(fā)生變化。
2.4.2 支持向量機算法
創(chuàng)建符合分類標準的最優(yōu)超平面,并將其視為決策曲面,以最大化正、反例間的隔離邊緣[13,14],即支持向量機(Support Vector Machine,SVM)的基本原理。
針對線性可分問題,假設訓練樣本用{Xi,yi)}Ni=1描述,其中輸入模式中次序為i 的例子用Xi描述,表示為Xi=(x1,…,x2,…xn),目標輸出用yi描述,則可使用公式(10)描述分類超平面符合的約束條件:

式中,權(quán)值向量用W 描述;偏置用k 描述;i 的取值介于[1,n]范圍內(nèi)。此時可使用Δ=2/||W||2表示分類間隔,因此能將最優(yōu)超平面建立問題轉(zhuǎn)化為在公式(10)的條件下,求解Φ(x)=||W||2/2 的問題,該式的解僅存在一個,最優(yōu)超平面即最小化Φ(x)的分類平面。
針對線性不可分問題,通過正松弛因子和錯誤懲罰參數(shù)的引入,將上式轉(zhuǎn)化為公式(11)所示形式,同時使用公式(12)描述目標函數(shù):

式中,正松弛因子錯誤懲罰參數(shù),分別用ξi、C描述。
依據(jù)拉格朗日(Lagrange)乘子法,使用公式(13)描述以上問題轉(zhuǎn)化后的對偶形式:

式中,Lagrange 乘子用α 描述,αi的值大于等于0,且小于等于C。αi、W 和k 的最優(yōu)解分別用αi*、W*以及k*描述,對其進行計算 可獲得 公式(14)所示分類函數(shù):

式中,符號函數(shù)用sgn(·)描述;輸入向量用X描述。
通過非線性映射處理輸入向量,使其呈現(xiàn)在高維特征向量空間[15],最優(yōu)分類面可在該空間內(nèi)進行創(chuàng)建,并選取合適的核函數(shù),即可將非線性問題轉(zhuǎn)化為線性分類。
2.4.3 融合K-means 和SVM 的英語動詞詞形分類過程
(1)初始聚類。輸入樣本用D(t)=[d1(t,)d2(t),…,dn(t)]T描述,使用K-means 算法實現(xiàn)輸入樣本的初始聚類,獲得類別數(shù)為k。
(2)選擇訓練樣本。針對以上步驟生成的各類樣本,以其內(nèi)英語動詞詞形數(shù)量作為標準,從中選取距離聚類中心較近的英語動詞詞形進行SVM 訓練。
(3)使用SVM 完成分類。利用以上步驟獲得的訓練集對SVM 進行訓練,并通過完成訓練的SVM重新分類初始樣本,以獲得新的英語動詞詞形分類結(jié)果。
將從某語料庫不同使用頻率的英語動詞集中,抽取的2000 個不同詞形變化的英語動詞作為實驗對象,其包含動詞原形、第三人稱單數(shù)、過去式、過去分詞和現(xiàn)在分詞5 種英語動詞詞形類別,且存在不規(guī)則變化的動詞,使用本文方法對這2000 個英語動詞進行分類,以驗證該方法的分類能力。
分別從5 種英語動詞詞形類別中隨機選擇3個規(guī)則動詞,再另外選擇2 個不規(guī)則動詞進行分類測試,使用表1 描述本文方法計算的各英語動詞詞形狀態(tài)特征量的相似度結(jié)果,與之對應的英語動詞詞形分類結(jié)果用表2 描述。

表1 英語動詞詞形狀態(tài)特征量的相似度

表2 英語動詞詞形分類結(jié)果
從表2 可以看出,不同英語動詞詞形類別中不存在分類錯誤的動詞,對于規(guī)則變化的動詞,過去式和過去分詞類別中的動詞完全相同,這是由于這兩種類型具有一致的英語動詞詞形變化方式;對于不規(guī)則變化的動詞became 和broken,本文方法均能將其分類到正確的類別中。表明本文方法對規(guī)則及不規(guī)則變化的英語動詞詞形均具有較優(yōu)異的分類效果,且該方法的英語動詞詞形狀態(tài)特征量的相似度計算結(jié)果準確性較高,能夠為后續(xù)分類提供可靠依據(jù)。
引入調(diào)整蘭德系數(shù)(Adjusted Rand Index,ARI)衡量本文方法的英語動詞詞形分類性能,該系數(shù)的取值介于[0,1]范圍內(nèi),其值越大,表明方法的分類結(jié)果與實際情況的吻合度越高。將錯誤懲罰參數(shù)分別設置為3、6、9、12,測試不同正松弛因子下,本文方法的分類調(diào)整蘭德系數(shù)結(jié)果,具體用圖1 描述。

圖1 英語動詞詞形分類調(diào)整蘭德系數(shù)結(jié)果
分析圖1 可以發(fā)現(xiàn),在正松弛因子不斷增大的情況下,不同錯誤懲罰參數(shù)對應的英語動詞詞形分類調(diào)整蘭德系數(shù)均呈現(xiàn)出先上升,并在達到極值后開始下降的趨勢,當正松弛因子增大至3000 時,不同錯誤懲罰參數(shù)對應的分類調(diào)整蘭德系數(shù)均處于最高值,其中最大值十分接近于1,當正松弛因子一定時,錯誤懲罰參數(shù)取9 時對應的分類調(diào)整蘭德系數(shù)始終保持最高,且在達到極值后的下降速率極其緩慢,其余值對應的分類調(diào)整蘭德系數(shù)下降速率較快。以上結(jié)果可得,將正松弛因子和錯誤懲罰參數(shù)分別設置為3000、9 時,可獲得更好的英語動詞詞形分類效果。
英語動詞詞形分類對語言研究和語言教學的發(fā)展起著重要的推動作用,為解決已有分類方法存在的分類效果較差等問題,本文研究基于聚類算法的英語動詞詞形分類方法。該方法利用余弦相似度能準確計算英語動詞詞形狀態(tài)特征量之間的相似度,從而為分類提供可靠的數(shù)據(jù)支持。該方法通過K-means 算法和支持向量機的相互協(xié)作,可以對規(guī)則變化與不規(guī)則變化的英語動詞詞形進行有效分類,并且該方法通過測試已證明可以獲得更好分類效果的參數(shù)設置。