999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于機器學習的韓國語新造詞透明度探究

2021-03-22 02:53:17趙天銳
電腦知識與技術 2021年4期
關鍵詞:機器學習

趙天銳

摘要:機器學習在諸多學科領域的定量分析中都已經顯現出了巨大價值。本文借助sklearn機器學習庫,以韓國國立國語院2015年發布的《新詞調查報告書》中收錄的新造詞為對象,根據報告中出現的分類標準為詞匯建立特征矩陣。而后運用多種機器學習算法進行特征選擇,最終篩選出對韓國語新造詞詞義理解影響較強的因素。實驗結果表明:如果該詞為派生詞或外來詞,該詞呈現低透明度的概率更高。

關鍵詞:韓國語;機器學習;新詞;邏輯回歸;隨機森林

中圖分類號:TP391? ? ? ? 文獻標識碼:A

文章編號:1009-3044(2021)04-0204-03

Abstract: Machine learning has shown great value in quantitative analysis in many disciplines. This article uses the sklearn machine learning library provided by Python to build a feature matrix for the vocabulary based on the newly coined words included in the "New Word Survey Report" issued by the National Academy of Korean Language in 2015. Then, a variety of machine learning algorithms are used for feature selection, and finally the factors that have a strong influence on the understanding of the meaning of new Korean words are screened out. The experimental results show that if the word is a derived word or a foreign word, the word has a higher probability of showing low transparency.

Key words: Korean; machine learning; new words; logistic regression; random forest

1 引言

新造詞研究一直是韓國語詞匯學研究的重要領域,長期以來許多國內外學者對收集到的韓國語新詞或流行語進行歸類分析,從形態結構、語言來源等方面進行歸納總結,以探索新造詞生成的內在規律。雖然相關研究取得了豐富的成果,但對新造詞的分析存在一定的局限。

首先,研究范圍不明晰。在韓國語中”???”,”??”,”???”,”???”等都可以表示“新詞”這個概念。許多關于韓國語新詞的研究是新詞或者流行語,但從流行語興起到湮滅,其經歷的時間往往很短,難以對詞匯進行長期研究。因此本文選擇韓國國立國語院發布的《新造詞調查報告書》(下簡稱《報告書》)中的新造詞作為研究對象,一是清楚界定詞匯的選擇范圍,二是得到韓國國立國語院收錄的詞匯具有一定的權威性,有使用時間長,影響范圍廣的特點。其次,對韓國語新詞的分析多采用傳統語言學中音韻學、詞匯學和形態學等視角,定性分析較多,定量分析較少。過往研究常把重心放在分類和列舉方面,對分類結果的利用缺乏關注。因此本文選擇利用《報告書》中的分類標準,探討各分類對該詞匯理解難度,即透明度的影響。

隨著機器學習方法的逐步發展完善,各學科在進行定量分析時都可以借助已經封裝好的機器學習工具,達到在本領域進行數據處理的目的。本文選擇基于Python開發的機器學習庫sklearn,采用嵌入法進行特征選擇,最終篩選出對新造詞透明度影響最大的特征。在機器學習算法的選擇上,本文選擇邏輯回歸和隨機森林作為特征選擇所用的算法。和深度學習相比,傳統機器學習算法擁有更強的解釋性,因此更適合對特征的重要性進行探究,而sklearn庫中的邏輯回歸和隨機森林作為經典算法,可以方便地調用接口查看特征在模型中的貢獻度,為本文的實驗提供了便利。同時兩種算法相互驗證,可以增強實驗的可靠性。本文首先篩選《報告書》中的收錄詞匯,根據分類,用獨熱編碼建立特征矩陣,再對所得到的詞匯根據理解難易程度分為高透明度詞匯和低透明度詞匯,分別用1和0作為兩類詞匯的標簽。然后,將特征矩陣和標簽帶入模型訓練,得到使模型分類準確率最高的特征子集。最后,將子集中的特征按參數絕對值/特征重要性排序。

2 研究綜述

在對韓國語新詞展開的研究中,大多數是對新詞本身進行研究。在國內,王志國在《關于韓國語新詞構造的研究》一文當中以音韻變化、形態變化和其余變化三類來總結韓國語新詞的生成方式;孟麗在《淺談韓國新詞的特點》一文中提到韓國語新詞類型時也是主要從詞的結構和形態進行分類和列舉;李得春在《世紀之交韓國語新詞中的漢字詞》一文中從詞性、語言來源角度出發,對韓語新詞中的漢字詞進行了系統的統計和列舉;此外,姬旭在《反映社會現象的韓國語新詞特點研究》中,針對不同的社會領域對韓國新詞進行了梳理。可以看出,對新詞的研究主要是描述詞匯本身的形態,辨析詞匯的語源,盡管存在部分統計方面的研究,但更多是止于統計而不進行分析。

韓國國內對新詞的研究也一直在進行,???從連語的角度對韓國語新詞進行了研究,他認為能被承認的新詞多是以連語的形式使用,并且提出新造詞和慣用語具有很強的互通性;而???以網絡新詞為主要的分析對象,分析了詞匯的音韻學、形態論和語義論特征,并按照詞匯的透明性和兼容性又進行了分類和舉例。因此在對韓國語新詞的研究也更關心分類和舉例,期望通過總結對新詞誕生的條件進行探究。

3 基于機器學習的韓國語新造詞透明度探究

本文的總體思路是:先對《報告書》中收錄的詞條進行篩選,然后根據其中提供的四種分類標準對每個詞進行編碼,建立特征矩陣,最后將詞語送入模型進行特征選擇,并對特征選擇的結果進行可視化展示。

3.1 獨熱編碼(one-hot encoding)

《報告書》中提到了詞匯四方面的特征,分別是:詞性、語言來源、構詞方式和所屬領域。這四種特征都屬于內部無法計算,也無法比較大小關系的變量。如其中講到的詞性一共有:名詞、動詞、副詞和形容詞四類,無法說“名詞+動詞=形容詞”或者“名詞>動詞”,所以選擇獨熱編碼對其進行數字化是較為合適。那么四個詞性向量化的結果就是名詞(1, 0, 0, 0),動詞(0, 1, 0, 0),副詞(0, 0, 1, 0),形容詞(0, 0, 0, 1)。以此類推,對剩下三種特征也進行獨熱編碼,最終每個新詞都會以26位向量的形式出現在特征矩陣當中。因為涉及的特征并不多,所以不會產生維度災難,同時較大限度保留了原特征的信息。最終特征矩陣如下圖所示:

3.2 邏輯回歸模型

邏輯回歸是機器學習領域常用的分類模型,其本質是:假設數據服從某種分布,然后使用極大似然估計去推導參數。目前在工業界邏輯回歸主要用來解決二分類問題,其同Adaline自適應算法類似,都是通過在線性回歸外套用sigmoid函數找到分類超平面。在機器學習領域,二元邏輯回歸的損失函數為:

在得到損失函數之后,可以通過梯度下降等方式求出最合適的參數向量,從而得到損失函數的最小值。在實際的應用當中,為了防止模型的過擬合,常常使用添加正則項的方式對參數項進行限制,L1范式就是正則項的一種,其表現為參數向量中每個參數絕對值之和。sklearn庫中的加入L1范式的損失函數為:

其中J(θ)是之前的損失函數,C是用來控制正則化的超參數,n是特征總數。加入了L1范式的損失函數在進行訓練時可以將參數向量中的某些參數降為0,即實現特征選擇,所以本文采用加入了L1范式的邏輯回歸模型。

3.3 隨機森林模型

隨機森林模型是一種集成的強學習模型,其集成的基本學習器是樹模型。集成模型通常都是考慮多個評估器的建模結果,匯總后得到綜合結果,以此來獲得比單個模型更好的表現。該模型既能被用來解決分類問題,也能被用來解決回歸問題,能在運算量沒有顯著提高的前提下提高預測精度。若待預測的變量為離散型變量,則隨機森林的最終結果為多數樹模型的分類結果; 若待預測的是連續型變量,則隨機森林的最終結果是所有樹模型得到結果的平均值。隨機森林中為了讓各個基分類器不同,盡可能地選取不同的訓練數據進行訓練,而sklearn中的參數bootstrap,就是代表這種有放回的隨機采樣技術。

和邏輯回歸不同,樹模型的建立不具備復雜的數學過程,其建模過程中涉及到運算的只是各葉子節點的分類標準,在sklearn庫中可以通過設置參數以使用交叉熵或者基尼系數來作為葉子節點的分類標準。但這并不影響隨機森林在訓練過程中的高準確率,同時作為樹模型的集成,隨機森林也具備查看各特征重要性的接口,所以本文將其作為特征選擇的算法之一。隨機森林工作流程如下圖所示:

3.4 嵌入法(embedded)

本文采用嵌入法進行特征選擇。嵌入法是一種讓算法決定使用哪些特征的方法,即特征選擇和算法訓練同時進行。在使用嵌入法時,先使用某些機器學習的算法和模型進行訓練,得到各個特征的權值系數,根據權值系數從大到小選擇特征。這些權值系數往往代表了特征對于模型的某種貢獻或某種重要性,比如決策樹和樹的集成模型中的feature_importances_屬性,可以表示各個特征對樹的建立的貢獻,基于這種貢獻的評估找出對模型建立最有用的特征。同理,在使用添加L1 范式的邏輯回歸時,某些權值系數會逐漸趨近于零,這些權值參數對應的特征對模型的貢獻度不高,而對于權值參數不為零的特征,參數的絕對值越大,證明其對模型的貢獻度越高。嵌入法的工作流程如圖4所示:

4 實驗結果分析

本文將轉換后的特征矩陣帶入模型,使用嵌入法進行特征選擇。雖然兩種模型的原理不同,但將最終得到的結果進行對比驗證,可以看出對標簽影響最大的特征是什么,即詞性、構詞方式、語言來源和所屬領域分別會對韓國語新詞的透明度產生多大的影響。而且因為所得參數都是具體數值,所以可以進行可視化處理。最終邏輯回歸得到的權值參數和隨機森林得到的重要性程度如下表所示:

從實驗結果來看,經過邏輯回歸的特征選擇,原有的26個特征剩下9個,而隨機森林篩選過后剩下10個,數量大致相同,其中重復的特征有6個,超過半數。從中可以得到如下結論:

1)韓國語新詞透明度的影響因素是可以通過量化手段進行分析的,本文的研究具備一定的合理性;

2)“接尾詞”是影響《報告書》中新詞透明度的重要因素,兩個模型篩選出的特征都包含它并給予最高權重;

3)兩個模型選擇出的特征當中按重要性程度排序,前四名特征中有三項是重復的,分別是“接尾詞”“外來詞”和“縮略詞”;而且這三項因素的數值加和都超過了剩下因素的加和,可以說明這三項對新詞透明度影響較大。

從本文研究方法的最終結果反觀本文的研究方法,可以得到以下不足之處:

1)實驗的樣本較少,缺乏普遍性。由于本文只是篩選了《報告書》中符合條件的單詞,所以樣本包含的單詞數量較少,所得結論可靠性尚需進一步驗證;

2)在進行特征選擇時,直接選擇《報告書》中給予的分類當作特征來源,這是為了保證結論的可解釋性,但如果在特征矩陣中加入新特征,可能會得到新的結論;

3)在實驗的過程中,采取兩種算法對比驗證的策略。但實際上也有其他機器學習算法能解決分類問題并進行特征選擇,未來可以使用更多算法進行驗證。

5 結語

本文用基于機器學習的方式篩選影響韓國語新詞透明性的因素。從結果來看,收到了一定效果,得到了具體研究結論和可供支持的實驗數據。同時本文方法在細節處理上還有待優化,可以從樣本擴充、特征提取、算法選擇等方面進一步提升實驗的可靠性和結果的適用性。

此外,就以往對韓國語新詞的研究而言,本文是方法論層面的嘗試,最重要的是將較為前沿的量化分析方法和傳統的韓國語詞匯學知識進行結合。傳統的語言學知識用新方法進行度量,這可以提升語言學研究的科學性,也是未來的研究趨勢和方向。

參考文獻:

[1] 王志國. 關于韓國語新詞構造的研究[J]. 韓國語教學與研究,2018(3):11-15.

[2] 孟麗. 淺談韓語新詞的特點[J]. 科教文匯(上旬刊),2010(7):129-131,135.

[3] 李得春. 世紀之交韓國語新詞中的漢字詞[J]. 民族語文,2004(5):50-55.

[4] 姬旭. 反映社會現象的韓國語新詞特點研究[D]. 延邊大學,2016.

[5] 李航. 統計學習方法[M]. 2版.北京:清華大學出版社:北京,2019:67-109.

[6] ?????.? 2014? ?? ?? ???[R].2015.

[7] ???. ??? ??? ?? ??[J].2011.

[8] ???. ??? ???? ??? ???[J].2018.

【通聯編輯:王力】

猜你喜歡
機器學習
基于詞典與機器學習的中文微博情感分析
基于網絡搜索數據的平遙旅游客流量預測分析
時代金融(2016年27期)2016-11-25 17:51:36
前綴字母為特征在維吾爾語文本情感分類中的研究
科教導刊(2016年26期)2016-11-15 20:19:33
下一代廣播電視網中“人工智能”的應用
活力(2016年8期)2016-11-12 17:30:08
基于支持向量機的金融數據分析研究
基于Spark的大數據計算模型
基于樸素貝葉斯算法的垃圾短信智能識別系統
基于圖的半監督學習方法綜述
機器學習理論在高中自主學習中的應用
極限學習機在圖像分割中的應用
主站蜘蛛池模板: 最新加勒比隔壁人妻| 亚洲精品无码高潮喷水A| 国产精品13页| 国产精品人莉莉成在线播放| 中文国产成人精品久久| 国产精品成人AⅤ在线一二三四 | AV网站中文| 99热最新网址| 亚洲黄色高清| 亚洲精品国产乱码不卡| 一级香蕉人体视频| 国产女人水多毛片18| 天天做天天爱夜夜爽毛片毛片| 狼友视频国产精品首页| 国产欧美精品午夜在线播放| 国产手机在线观看| 亚洲男人天堂久久| 无码一区18禁| 精品国产免费第一区二区三区日韩| 中文字幕欧美日韩高清| 波多野结衣一二三| 91免费观看视频| 亚洲一级无毛片无码在线免费视频| 国产人成网线在线播放va| 国产第四页| 人妻精品全国免费视频| 国产尹人香蕉综合在线电影| 中文字幕啪啪| 又黄又湿又爽的视频| 爆乳熟妇一区二区三区| 五月六月伊人狠狠丁香网| a毛片免费在线观看| 亚洲欧洲日产国码无码av喷潮| 日韩123欧美字幕| 无遮挡国产高潮视频免费观看 | 99精品国产电影| 亚洲精品国产精品乱码不卞| 亚洲中文字幕手机在线第一页| 成人夜夜嗨| 精品小视频在线观看| 成人午夜精品一级毛片| 青青青视频91在线 | 日韩毛片免费观看| 久久精品人妻中文视频| 亚洲美女一区二区三区| 免费在线一区| 色综合婷婷| 国产成人喷潮在线观看| 欧美日本二区| 国内丰满少妇猛烈精品播| 日韩欧美视频第一区在线观看| 91精品专区| 午夜免费小视频| 亚洲日本中文综合在线| 国产又粗又爽视频| 99精品国产电影| 日韩精品欧美国产在线| 亚洲第七页| 波多野结衣无码中文字幕在线观看一区二区| 欧美色视频网站| 婷婷六月综合网| 国产黄网永久免费| 永久免费无码成人网站| 亚洲人精品亚洲人成在线| 亚洲啪啪网| 欧美在线综合视频| 又爽又大又黄a级毛片在线视频| 免费中文字幕一级毛片| 国产 在线视频无码| 欧美视频二区| 国产二级毛片| 91无码人妻精品一区| 天天躁夜夜躁狠狠躁图片| 精品国产免费人成在线观看| 一本一本大道香蕉久在线播放| 又黄又湿又爽的视频| 日韩人妻无码制服丝袜视频| 伊人久久综在合线亚洲91| 欧美国产另类| 日本久久久久久免费网络| 欧美福利在线| AV熟女乱|