999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

一種基于SVM 的英/美式英語的文本分類方法

2021-07-30 07:57:48成潔
電子設計工程 2021年14期
關鍵詞:單詞分類特征

成潔

(陜西國際商貿學院通識學院,陜西西安 712046)

互聯網的發展使得英語文本易于在在線媒體中找到并廣泛傳播。廣泛的英文文檔和文本,使其中包含的英語類型之間的區分變得更加困難。實際上,了解文本中使用的英語類型對于學習英語很重要。英語在世界范圍內的差異也很大,尤其是在詞匯和句法層面展現出的區域差異[1]。因此,非英語母語者沒有標準的英語參考文獻可以參考[2]。

除了可以通過英語差異識別當地居民的籍貫之外,英式/美式英語的一致性還可以提高人們理解英語的知識水平。如先前的研究所述[3],通過對作者使用的英語類型進行識別,可以知道作者的國籍信息。同時,對于這些所獲得的信息,可以用作社會學研究、市場分析、翻譯機制和信息檢索的材料。

雖然美式英語是世界上使用的標準英語之一,但還沒有對美式英語進行分類。考慮到已經進行了關于英語識別的研究,該研究的重點是關注英式/美式英語文本的句子中使用的語言,而不是基于作者所在國家。數據來自英式英語的英國國家語料庫(British National Corpus,BNC)[4],美式英語的數據來自當代美國英語語料庫(Corpus of Contemporary American English,COCA)[5]。根據在COCA 和BNC 進行的數據檢索,所擁有的每個數據的標簽為英式英語和美式英語類。因此,這項研究使用監督學習對具有已知標簽的訓練數據集進行學習。

在這項研究中,使用SVM(支持向量機)算法對英式英語和美式英語文本進行分類。使用SVM 分類器可以很好地處理具有高維的輸入空間,并且在文本分類中具有良好的準確性[6-10]。在這項研究中還提出了結合使用N-gram 特征和使用附加特征的方法,這是因為在以前的英語語言識別研究中并未使用N-gram 組合[2-3]。此外,這項研究還將揭示詞干的影響和單詞詞典功能的影響。

1 SVM算法原理

SVM 的中心思想是把線性不可分問題用非線性變換將其從低維度空間(如:二維平面)轉換到高維度空間的線性可分割問題[7,11-13]。假設一個訓練集,其中,xi是特征向量,yi∈{-1,1}是訓練集中樣本的標簽。那么SVM 算法學習函數如式(1)所示。

它是樣本x與具有法向量w和偏移量b的分離超平面之間的距離。函數D可用于根據概念對集合中的圖像進行排序。給定訓練集中的l個正樣本和k個負樣本,SVM 的優化問題被表述為:

對于式(2),其約束條件如下:

從式(2)可知,目標函數的第一項與正類和負類之間的解的邊界成反比。最大的距離是被認為最優的解決方案。松弛變量ξi是對違反約束條件的訓練集樣本的錯誤分類的懲罰。參數C+和C-是調節寬度和訓練誤差之間的常數。

2 分類過程

該節主要介紹了整個文本分類系統的處理過程。圖1 為整個文本分類系統流程示意圖。

圖1 英美英語文本分類系統流程

2.1 預處理

已獲取的數據集根據其所屬的類別或類進行標記,按標簽可分為英式英語和美式英語兩類。標記是基于句子數據的來源或所獲得的引語:從英國國家語料庫獲得的數據將被標記為英式英語類;相反,從當代美國英語語料庫獲得的數據將被標記為美式英語類。樣本數據示例如表1 所示。

表1 樣本數據示例

表1 是獲得數據的一個簡單例子。當更深入地探討時,colou(r顏色)詞匯基本上是用英式英語來寫的,color 這個詞是用美式英語寫的。然后句子將進入一個標點刪除過程,刪除文本中的標點。在這項研究中,去除標點符號的同時也去除句子中所包含的數字。

在此之后,執行一個大小寫折疊過程,目的是將所有字母轉換為小寫字母。這樣做是為了讓計算機能夠更容易地識別和區分現有的單詞。基本上,如果沒有完成折疊過程,那么“Colour”和“colour”是兩個不同的詞。下一步是標記化,標記化是將句子轉換為獨立單詞或標記的過程。例如,表1中編號為1的句子改為“[each”“,room”“,has”“,a”“,colour”“,tv”]。

預處理部分的最后一步是停止詞刪除過程。本研究中的停止詞是包含在nltk.corpus[14]的英語停止詞中的單詞,這些詞包括連詞、冠詞、to be 等。然后執行詞干處理,詞干處理是將一個單詞轉換成一個基本詞的過程,通常是通過消除前綴、插入、后綴或組合來完成的。在這項研究中,使用了NLTK WordNet Lemmatization 庫[14]。

2.2 詞性標注

在預處理階段,將從一個句子中獲得一組單詞。然而,從預處理結果中獲得的單詞集合仍然具有一些特征,其中一類單詞(POS 標記)并不顯著,在文獻[3]中某些POS 標簽被用作特征。詞性標注是一個詞在句子中所起作用的標注過程。標簽是根據詞的類型而定的,在本研究中,先使用詞性標記法進行特征縮減。在文獻[3]和[15]的基礎上,本研究將刪除具有特定標簽的詞。剩下的單詞包括名詞、動詞、形容詞和副詞。

2.3 N-gram特征提取

在此階段,使用N-gram 方法進行特征提取。特征提取是在分類過程中產生具有顯著特征的對象,N-gram 是從文本中提取的字符或單詞序列。在這種情況下,N-gram 是從一個句子中提取的N個連續單詞的集合。該研究中使用的N是unigram(N=1)、bigram(N=2)和trigram(N=3)的特征。

在短語“his mobile phone rang”中,將獲得unigram 特征“his”、“mobile”、“phone”、“rang”。至于bigram 的形式,將獲得“mobile”、“mobile phone”、“phone rang”等特征。然后以三聯圖的形式,對連續3 個單詞執行相同的操作。

2.4 特征選擇

在獲得N-gram 形式的特征后,進行特征選擇,以減少被認為對分類過程沒有顯著影響的特征。選擇特征是通過給特征的文檔頻率(Document Frequency,DF)值賦予一個閾值來完成的,DF 是所有使用的數據或文檔的特征或術語出現的頻率。

DF 值低于或等于閾值的特征將被刪除,在此假設,當單詞出現的次數較少,不會影響的整體結果[16]。給DF 設置一個閾值是一種最簡單的技術,它可以減少具有大量語料源的詞匯或特征,并提高計算時間的效率。

2.5 TF-IDF加權計算

基于已獲得的特征,將與TF-IDF 矩陣的最終結果進行加權計算。TF(Term Frequency)表示文檔中特征的頻率。IDF(Inverse Document Frequency,文檔反頻率)出現在DF(文檔頻率)中,DF 最初是一個詞在所有被調查的文檔中出現的次數。有時,一個術語出現在大多數文檔中,導致獨特的術語搜索過程。如果一個詞廣泛出現在現有的所有文檔集中,IDF 的作用是減輕該詞的權重。

在本研究中,TF 的計算使用可用特征數的原始值,公式如下:

fi,j的值表示文檔中某個術語的頻率。而IDF 值由式(6)計算。

N表示所有文檔的數量,dfi是包含項i的文檔的數量。然后通過式(7)計算TF 和IDF 的乘積值來獲得權重w。

2.6 詞語字典

除了從訓練數據生成的特征外,還使用了兩個附加特征,這兩個特征是英式英語和美式英語的小型詞典。這本小詞典包含特定的詞匯和短語,在這兩種語言中都能找到。

所建立的單詞和短語列表摘自英國牛津生活詞典,每一本詞典都有280 個單詞或短語。如果在數據或文檔中找到與已構建的詞典匹配的單詞/短語,則詞典中的功能將被賦予“1”值,反之則被賦予“0”值。

Simulation on Power System of Offshore Platform with Closed Bus-Tie(s)

例如,在文檔1 中有單詞“soccer”,并且在美國英語詞典中有單詞“soccer”,因此在“American Dictionary”功能中將給出值1,加權示例見表2。

表2 字典加權的樣本

2.7 矩陣合并

利用之前所述內容,將TF-IDF 權重矩陣和單詞字典矩陣組合起來。表3 是所形成的最終矩陣樣本結果。

表3 最終矩陣樣本

2.8 學習過程

建立分類系統時,進行了數據分割,將所擁有的數據分為訓練集和測試集,目的是利用支持向量機(SVM)算法訓練所擁有的分類系統。該模型將被訓練以產生最佳超平面,從而將英式英語和美式英語分開。

2.9 評 估

在處理數據分布時,該研究采用k-折疊交叉驗證,k-折疊是一種交叉驗證技術,旨在將數據分為訓練數據和測試數據,交叉驗證是一種在執行訓練過程時不使用所有數據集的技術。訓練過程完成后,使用訓練過程中未包含的數據來測試從已執行的訓練過程中獲得的模型。k-fold 將數據分成盡可能多的k個部分。然后對數據的k-1 個部分進行訓練,剩下的1 個部分作為測試數據。然后重復k個數據,直到所有數據都成為測試數據。研究采用k=10 進行k-折疊交叉驗證,即將90%的數據分為訓練數據和10%的數據分為測試數據。

經過交叉驗證過程,得到準確度的評價和計算值。準確度是分類器進行分類時的準確度,即表示分類器正確分類的測試數據量的百分比。同時,選擇準確度作為分類模型評估的衡量標準,研究表明,使用準確度等簡單指標進行評估時,解釋每個類別中具有平衡量的數據。

3 實驗與評估

3.1 實驗配置和測試場景

實驗環境為Windows 10 64 位操作系統的臺式機一臺,其CPU 為英特爾I7 3.5 GHz 處理器,內存為16 GB,GPU 為英偉達RTX 2060s。實驗使用Python 3.7 語言在Anaconda3 64 位下進行。

3.2 實驗結果

3.2.1 最佳SVM模型(場景1)

表4 內核測試準確性的結果

表4 中的測試結果表明,線性核在處理英美英語分類數據集中基于所獲得的精度值的數據分布方面具有良好的性能。因此,在場景2 中,支持向量機算法將與線性核函數一起用作分類器。

3.2.2 N-gram特征的最佳組合(場景2)

基于場景1 中獲得的最佳SVM 模型,接下來進行的分析是結合來自不同N值的N-gram 特征。在不增加字典的情況下,使用TF-IDF 進行加權。

基于表5,由Unigram-Bigram 特征生成的特征組合具有最佳的準確度。因此,此特征將在稍后的場景3 中使用。

表5 N-gram組合的結果

3.2.3 阻塞效果(場景3)

此外,在場景2 中測試結果得到的Unigram-Bigram 特性上,在沒有和使用詞干算法的情況下分別進行測試。阻塞結果如表6 所示。

表6 阻塞結果

表6 的結果表明,在預處理階段去除了詞干算法,提高了系統性能,準確度為92.1%。此外,該模型將用于場景4 中的測試。

3.2.4 詞典特征的組合(場景4)

通過為每個特征獲得的文檔頻率(DF)值提供閾值來執行下一個分析。如果特征的DF 值小于或等于閾值,則該特征將從TF-IDF 加權矩陣中移除。表7 顯示了在給定閾值的情況下,在不使用從場景3獲得的詞干算法的情況下,對Unigram-Bigram 模型的測試結果。

表7 DF閾值結果

在給定DF 值閾值的基礎上,得到最佳閾值,其值為2,準確度為94.0%。最后一個測試是添加單詞詞典作為新功能,使用的模型是Unigram-Bigram 模型,而不使用從場景3 獲得的詞干算法。

基于圖2 所示的實驗結果,通過使用選擇特征(閾值DF)和添加單詞字典特征,獲得了具有最佳精度值的實驗結果。使用的閾值是基于從表7 獲得的最佳值,即為2。因此,系統的最佳值為96.5%。

圖2 詞典特征測試結果

3.3 結果評估

通過對英美英語文本分類系統的研究可知,首先,采用線性核函數的支持向量機算法可以克服英美英語中數據分布的問題,從而得到該情況下的最優支持向量機模型。其次在特征提取中結合N-gram 特征可以提高系統性能,在這種情況下,結合Unigram 和Bigram 形式。接著,對詞干處理過程有助于提高系統性能。在預處理階段詞干表明系統性能下降,這是由于詞干算法將單詞轉換為一個基本單詞,而在英式英語和美式英語中,有一些具有相同基本單詞的詞語具有不同的形式。然后在所使用的特征的組合上,可以得出結論,在文檔頻率中提供某些閾值可以提高系統性能和計算時間效率,此外,將附加字典作為另外的特征也可以提高系統性能。通過分析和測試,得到了最佳的系統性能,準確度為96.5%。因此,該系統的性能優于先前的研究[3],準確率為77.32%。

4 結論

由于英式英語跟美式英語之間存在較大區別,為了更好區分英/美式英語的文本,以及其語義,文中提出一種算法,實現對英式英語和美式英語的區分。此外,更希望在此基礎上,通過對英式英語和美式英語中的模式和詞匯的區分,來實現對文本的預測。通過實驗證明,該系統在分辨英式和美式英語文本的準確度能夠達到96%左右。

猜你喜歡
單詞分類特征
分類算一算
單詞連一連
如何表達“特征”
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
分類討論求坐標
數據分析中的分類討論
看圖填單詞
教你一招:數的分類
抓住特征巧觀察
線性代數的應用特征
河南科技(2014年23期)2014-02-27 14:19:15
主站蜘蛛池模板: 亚洲黄色高清| 99热在线只有精品| 免费 国产 无码久久久| 亚洲一级毛片| jizz亚洲高清在线观看| 69免费在线视频| 国产精品一老牛影视频| 久久国产拍爱| 精品在线免费播放| 免费A级毛片无码免费视频| 精品一區二區久久久久久久網站| 91久久夜色精品| 99热国产这里只有精品9九 | 97视频免费看| 日韩小视频网站hq| 99久久精品视香蕉蕉| 久久久国产精品免费视频| 成人在线观看一区| 精品三级网站| 午夜国产精品视频黄| 精品亚洲麻豆1区2区3区| 精品国产www| 园内精品自拍视频在线播放| 粗大猛烈进出高潮视频无码| 国产va在线| 国产色网站| 国产日本视频91| 国产精品专区第1页| 青青草原国产| 国产无码网站在线观看| 欧美69视频在线| 国产无码网站在线观看| 免费人成在线观看成人片| 欧美三级日韩三级| 亚洲天堂久久久| 亚洲人成色在线观看| 国产精品美女网站| 精品国产自| 国产激情无码一区二区免费| 精品一区二区三区波多野结衣 | 国产91av在线| 无码国产伊人| 免费可以看的无遮挡av无码| 欧美日韩动态图| 黄色三级网站免费| 国产青榴视频| 五月丁香伊人啪啪手机免费观看| 亚洲天堂日本| 青青草原国产| 亚洲最黄视频| 婷婷六月色| 在线五月婷婷| 九九这里只有精品视频| 亚洲av成人无码网站在线观看| 国产成人三级在线观看视频| 日韩在线中文| 久久久久国产精品嫩草影院| 精品国产成人av免费| 无码内射在线| 欧美福利在线| 国产精品第一区| 日本免费新一区视频| AV天堂资源福利在线观看| 在线免费观看a视频| 国产欧美专区在线观看| 国产小视频在线高清播放| 国产尤物jk自慰制服喷水| 有专无码视频| 亚洲AV无码乱码在线观看裸奔| 色偷偷av男人的天堂不卡| 日韩第九页| 国产成人精品一区二区免费看京| 久久精品这里只有国产中文精品| 九色免费视频| 国产福利拍拍拍| 亚洲日韩精品无码专区97| 91亚瑟视频| 欧美日韩国产在线观看一区二区三区| 欧美乱妇高清无乱码免费| 婷婷亚洲视频| 色网站在线免费观看| 成年女人a毛片免费视频|