999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于歷時語料的詞語穩定性度量

2017-06-15 15:07:01張衛華
河南科技 2017年7期
關鍵詞:詞匯

張衛華

(鄭州大學電氣工程學院,河南鄭州 450001)

基于歷時語料的詞語穩定性度量

張衛華

(鄭州大學電氣工程學院,河南鄭州 450001)

詞語是能獨立使用的最小語法單位,詞匯大綱是語言教學的基礎,研制一個科學的、反映語言生活現實與人類認知規律的詞表,對于提高漢語教學效果具有重要意義。本文基于歷時語料,從詞頻和詞義兩方面對詞語的穩定性進行度量,以期為漢語詞表的構建提供參考。對詞頻穩定性的2種統計指標進行相關性分析,在詞義穩定性度量中引入詞向量,對詞語的穩定性分布情況進行考察。通過對HSK漢語水平考試詞匯等級大綱(2012年修訂)的分析表明,總體上,本文提出的穩定性度量能較好地體現出大綱的等級分布,即大綱級別越低,詞語穩定性越高,并可以為大綱的更新與調整提供依據。

歷時語料;詞語穩定性;詞頻穩定性;詞義穩定性;HSK詞匯大綱

隨著社會的快速發展,語言也在不斷發展和演化,社會語言學與自然語言處理的許多任務都依賴于詞匯信息,研究和度量詞匯穩定性必不可少。自然語言是動態的,隨時間演變適應其用戶和環境的需要[1],根據詞匯的歷時信息不僅可以判斷其在特殊時期及相應領域的使用情況,而且還能反映相應的社會狀況和人民生活的變化。每個時間段上的詞匯都帶有以往的語言歷史,是歷史的混合產物。

詞匯穩定性的研究有助于現代漢語水平大綱的編寫,詞匯的歷時信息更能幫助漢語學習者了解和認識漢語的歷時演變。例如,通過對比和分析《漢語水平詞匯與漢字等級大綱》[2]與統計穩定度得到漢語詞匯的異同,不僅發現和收錄詞匯大綱未錄用的常用詞,而且可以刪除穩定度較低的歷史詞匯。通常利用統計分析方法,如詞頻、信息熵等度量詞匯的穩定性。王治敏[3]利用語料的頻次信息和時間跨度,通過不同的時間點,統計得到歷時變化的漢語常用詞表。統計詞表不僅為《漢語水平詞匯與漢字等級大綱》新詞的錄用和歷史性詞語的刪除提供了有價值的數據,也為初學漢語者提供了可靠的參考。

本文基于歷時語料,從詞頻和詞義兩方面對詞語的穩定性進行度量,以期為漢語詞表的構建提供參考。對詞頻穩定性的2種統計指標進行相關性分析,以了解不同指標之間的關系。在詞義穩定性度量中引入詞向量,利用“觀其伴,知其義”的思想,通過觀察詞義相近詞的情況來度量詞義穩定性。最后把詞語穩定性應用于HSK漢語水平考試詞匯大綱的分析,并為詞匯大綱的修訂提供依據。

1 相關研究

研究人員針對歷時語料的詞語穩定性研究已經采取了諸多方法。針對詞頻穩定性方面,荀恩東等[4]采用自然語言處理的相關技術,基于詞語的頻次、頻率以及香農熵的方法分析研究歷時新聞語料,開發了現代漢語詞匯歷史檢索系統,此系統對詞匯的語義、語用等方面的研究較為突出,反映新詞的變化過程及公共領域的詞語信息;王治敏[5]根據歷時語料詞語的頻繁和穩定程度判斷常用詞匯,提出詞語穩定程度參數U來判斷詞語隨時間變化的穩定性,該方法得出的常用詞詞表可實現《漢語水平詞匯與漢字等級大綱》(簡稱HSK詞匯大綱)的半自動更新,以及為利用新聞語料研究常用詞提供強有力的依據;Kulkarni等[6]利用詞頻模型捕捉詞語隨時間變化的各個方面,頻率的變化與詞語產生新詞義或失去詞義的變化相一致,所以利用詞頻變化獲取詞義變化。

關于詞義穩定性方面,Yoon Kim等[7]利用神經語言模型訓練歷時語料得到詞向量,其中利用前一年的詞向量來初始化后一年詞向量的訓練,根據計算詞語在不同時間段的余弦相似度衡量語義的穩定性;Popescu和Strapparava[8]采用政治、社會等某些術語與情感詞語的頻率統計檢驗識別語言變化和時間段之間的相關性;胡俊峰等運用點互信息(Pointwise Mutual Information,PMI)計算每個詞對的分布相似性,而PMI是采用構建共現向量和余弦的權重或歸一化點積的方法,根據語義相似的交集揭示了詞語的語義或用法在較短時間間隔內趨于穩定,以及可以獲得歷時敏感詞語和歷時不敏感詞語;Jey-Han Lau等將主題模型應用到詞義歸納(Word Sense Induction,WSI)上,通過歷時語料分析具有高邊際概率的主題詞識別隨時間變化的詞語語義。

2 詞頻的穩定性度量

本文基于歷時語料,使用統計分析方法即詞頻和信息熵度量詞語穩定性。衡量詞語穩定程度的參數U(公式1)和信息熵(公式4)作為衡量詞語穩定性的指標,其中衡量詞語穩定程度的參數U反映詞語在語料中出現的平均頻次及詞語隨時間波動等因素[5],即:

式(1)中,fˉ表示詞語出現的平均頻次,計算公式如(2)所示,stdev(f)代表詞語出現的頻次標準差,計算公式如(3)所示。

其中,式(2)與式(3)中的n為詞語統計頻次f的個數。

詞語穩定度參數U值與詞語在歷史語料庫中出現的平均頻次成正比,與詞語出現頻次的標準差成反比,根據U值的排序,判斷詞語的穩定性。

信息熵作為衡量詞語穩定性的指標,描述詞語的不確定性的數量,熵越大,不確定性越大。H(X)代表詞語的信息熵,即:

式(4)中,p(x)為詞語x每一年的概率,即詞語在每一年出現的頻次與該詞語在歷年出現總頻次的比值,R為該詞歷年出現情況的集合。

3 詞義的穩定性度量

與傳統語言模型相比,本文基于歷時語料,采用神經語言模型獲取更深層次的詞義信息。神經語言模型依賴的一個核心概念就是詞向量,而詞向量是用一個向量來表示一個詞,一定程度上可以刻畫詞之間的語義距離。利用上下文信息進行詞表示,具有相同(類似)上下文信息的詞應該具有相同(類似)的詞表示即詞向量。我們使用Mikolov等提出的Word2vec模型中的Skip-gram模型訓練詞向量。Skip-gram模型是通過語料庫中每個詞預測周圍的詞語,Skip-gram的輸入是當前詞的詞向量,而輸出是周圍詞的詞向量。

詞語在詞義上彼此接近同樣在詞向量空間里也相近,通過余弦距離表示詞語在向量空間里的距離,從而得到詞語詞義相近的詞。定義詞語w從時間y1到時間y2的語義穩定性指數(Sense Stability Index,SSI),計算公式如(5)所示。

4 實驗與分析

實驗考察1946-2005年度的《人民日報》詞語穩定性,包括詞頻穩定性和詞義穩定性度量。利用中科院ICTCLAS漢語分詞系統對60年《人民日報》進行分詞,在分詞結果基礎上度量詞語穩定性。同時,利用詞頻穩定性和詞義穩定性指標與2012年版《漢語水平詞匯與漢字等級大綱》(簡稱HSK詞匯大綱)詞語等級進行比較。

4.1 詞語的詞頻穩定性實驗與分析

通過spearman相關系數比較詞語穩定度U與信息熵的相關程度,計算得到詞語穩定度U值與信息熵的spearman相關系數值為0.98,顯著性水平p<0.001。詞語穩定度U值和信息熵高度相關,選擇其一即可,本文采用詞語穩定度U值度量詞頻穩定性。spearman相關系數的計算公式如(6)所示。

式(6)中,di為信息熵和詞語穩定度的排行差分集合,N為詞語的個數。

度量詞語的詞頻穩定性,統計1946-2005年度《人民日報》中每年的詞頻,計算每個詞語的平均頻次fˉ和詞語出現的頻次標準差stdev(f),根據公式(1)計算出衡量詞語穩定程度的參數U,將U值進行排序,選取數值排名靠前的10個詞語,如表1所示。根據詞語的詞頻穩定性U值大小,統計每個穩定度階段詞語的個數,如表2所示,詞頻穩定參數階段的U值越大,其詞語的詞頻穩定性越高,而其包含的詞語個數越少,說明使用量大的漢語穩定性不高,其穩定性容易受歷史事件等影響。

表1 U值排名靠前的詞語

詞語穩定度參數U值與詞語在歷史語料庫中出現的平均頻次成正比,詞語的平均頻次反應在語料中使用該詞語的頻繁程度,而與詞語出現頻次的標準差成反比,標準差反應該詞語頻次波動程度,在歷年語料中詞語分布越不穩定,標準差越大,U值越小,比如和年度突發事件的詞語標準偏差很大,參數U就會把這些詞語排除在外。本文針對1946-2005年度的《人民日報》,“部隊”“干部”“列隊”這些詞語在早期就被頻繁使用,隨著時間的推移,這類詞語的使用頻次一直穩定且幅度較為平穩,所以U值排名較高,詞語比較穩定。

表2 詞語詞頻穩定度分布表

4.2 詞語的詞義穩定性實驗與分析

度量詞語的詞義穩定性,使用Word2vec模型中的Skip-gram模型對每一年《人民日報》語料訓練詞向量,模型參數設置為窗口大小為2,向量維度為200維。每個詞語在每一年的詞向量通過余弦距離計算,選取與其距離最近的K=100個詞語,本文選擇2005年與1946年作為時間y1到時間y2,根據公式(5)計算得到語義穩定性指數(SSI),將SSI值進行排序,選取數值排名靠前的10個詞語,如表3所示。根據詞語“只有”在60年《人民日報》中語義分布畫出曲線變化圖,將2005年作為y2,1946-2004年中每一年作為y1,計算SSI值,如圖1所示。

根據表3中語義穩定性指數SSI值排名,發現SSI值較高的詞語中虛詞居多,這符合虛詞的語義穩定特征,根據“只有”的語義變化曲線,分布平穩,因此,該詞語的穩定性較高。而SSI值較低的詞語的詞義穩定性隨時間發生變化,選取詞語“透明”(SSI=0),畫出“透明”在60a《人民日報》中語義分布畫出曲線變化圖,如圖2所示。

根據圖2顯示,詞語“透明”在1997年左右SSI值變化幅度巨大,說明該詞語的詞義發生巨大變化,根據“透明”在2005年和1998年的語義相似詞語的交集:“公正,公開,陽光,公平,有序,無色,專賬,參與權,整潔,暗箱,自由,嚴格,一望,明亮”,表明“透明”詞義發生隱喻變化,產生抽象的新詞義,指的是市場、政府和法律等的公開化;起初,“透明”的詞義是玻璃,水和其他物理事物的性質。因此,“透明”的詞義穩定性低。

表3 SSI值排名靠前的詞語

圖1 詞語“只有”60年的語義變化曲線

圖2 詞語“透明”60年的語義變化曲線

4.3 詞語的穩定性指標與HSK詞匯大綱等級比較

《漢語水平詞匯與漢字等級大綱》(簡稱HSK詞匯大綱)的詞語具有等級劃分,根據詞語的常用度分為1~6個等級。利用本文提出的詞頻穩定性指標U值和詞義穩定性指標SSI值對HSK詞匯進行詞頻穩定性和詞義穩定性度量,將詞匯U值和SSI值按照HSK的等級劃分為6個區間,分別對每個區間的U值和SSI值求均值,如表4所示,計算公式如(7)(8)所示。

式(7)(8)中,n為每個區間所求U值和SSI值詞語的個數。

表4 詞語穩定性與HSK詞匯大綱比較

HSK詞匯等級越低其常用性就越高,根據表4所示HSK等級低的詞語的U值和SSI值高,因此,這些詞語的穩定性就高、常用性高。因此,可以利用本文提出的度量詞語穩定性指標對HSK詞匯大綱中的詞匯進行更新,若某些詞語的詞頻穩定參數U或詞義穩定性指數SSI低于上述標準,就可以過濾HSK中過時的詞匯或者更新其等級,實現HSK的半自動更新。例如,詞語“政府”在HSK詞匯大綱里的等級為5,根據本文提出的詞語穩定性指標計算出U值為1.758,SSI值為0.09,明顯大于表中所求的值。所以,可以考慮調低其在HSK詞匯大綱里的等級。

5 結語

本文提出基于歷時語料的詞語穩定性度量方法,包括詞頻穩定性和詞義穩定性兩方面。在詞頻穩定性度量中,得出了詞頻穩定參數與信息熵兩個統計指標的一致性結論。在詞義穩定性度量中,引入了深度學習中的詞向量方法。在60年人民日報歷時語料基礎上,對詞語穩定性度量結果進行了定量考察。最后,嘗試把詞語穩定性度量結果應用于HSK詞匯等級大綱的分析與調整。

詞語穩定性作為詞語的一個重要屬性,也可以為詞匯語義研究的目標詞選擇提供依據,可以從使用最穩定的那些詞作為切入點開始某一項研究任務。詞義的歷時演變將是下一步研究的重點,詞語的穩定性可以表明哪些詞發生了變化,但具體怎樣變化、變化的模式是什么需要進一步研究。

鄭州大學信息工程學院研究生鄭一對本文的數據處理和實驗分析等工作有重要貢獻。

[1]Aitchison J.Language Change:Progress or Decay?[J].Language in Society,1983(2):411.

[2]國家漢語水平考試委員會辦公室考試中心.漢語水平詞匯與漢字等級大綱[M].北京:經濟科學出版社,2001.

[3]王治敏,楊爾弘.面向漢語教學的常用動詞計量研究[J].語言教學與研究,2012(1):1-6.

[4]荀恩東,饒高琦,謝佳莉,等.現代漢語詞匯歷時檢索系統的建設與應用[J].中文信息學報,2015(3):169-176.

[5]王治敏.基于時間跨度的漢語教學常用詞表統計研究[J].華文教學與研究,2010(4):49-55.

[6]Kulkarni V,Alrfou R,Perozzi B,et al.Statistically Significant Detection of Linguistic Change[J].Computer Science,2014:625-635.

[7]Kim Y,Chiu Y,Hanaki K,et al.Temporal Analysis of Language through Neural Language Models[J].Computer Science,2014 (3):153-178.

[8]FBK-irst,Trento,Popescu O,et al.Strapparava.2013.Behind the Times:Detecting Epoch Changes using Large Corpora[A]// International Joint Conference on Natural Language Processing,2013:347-355.

Measuring Word Stability Based on a Diachronic Corpus

Zhang Weihua
(School of Electrical Engineering,Zhengzhou University,Zhengzhou Henan 450001)

Word is the smallest grammatical unit that can be used independently while lexicon is the foundation of language teaching.To improve the effectiveness of Chinese teaching,it is of great significance to develop a scientific vocabulary that reflects the reality of language life and the laws of human cognition.Based on a diachronic corpus, This paper measured the stability of words from two aspects,word frequency and word meaning,to provide a reference for the construction of Chinese vocabulary.This paper made a statistical correlation analysis of the two word frequency stability measures,and introduced word embeddings into the word sense stability measure.Quantitative analysis of word stability distribution was carried out based on the diachronic corpus.After investigation of the HSK vocabulary level outline,it showed that the computed word stability could correlate well with the vocabulary levels,and provided a good knowledge source for the updating and adjustment of the outline.

diachronic corpus;word stability;word frequency stability;word sense stability;HSK vocabulary outline

TP391.1

A

1003-5168(2017)04-0056-04

2017-03-25

張衛華(1963-),女,大專,研究方向:圖書情報。

猜你喜歡
詞匯
2021年本刊一些常用詞匯可直接用縮寫(二)
2021年本刊一些常用詞匯可直接用縮寫(一)
本刊可直接用縮寫的常用詞匯
一些常用詞匯可直接用縮寫
山東醫藥(2020年34期)2020-12-09 01:22:24
本刊可直接用縮寫的常用詞匯
一些常用詞匯可直接用縮寫
山東醫藥(2017年35期)2017-10-10 02:45:28
一些常用詞匯可直接用縮寫
山東醫藥(2017年33期)2017-10-09 12:31:41
詞匯小達人
一些常用詞匯可直接用縮寫
山東醫藥(2014年48期)2014-12-02 04:34:34
一些常用詞匯可直接用縮寫
山東醫藥(2014年34期)2014-12-02 04:33:52
主站蜘蛛池模板: 国产精品毛片在线直播完整版 | 国产97视频在线| 国产高清不卡| 国产在线自在拍91精品黑人| аⅴ资源中文在线天堂| 日韩高清在线观看不卡一区二区| 亚洲一区免费看| 欧美日韩精品一区二区在线线| 欧洲高清无码在线| 久久影院一区二区h| 久久综合色天堂av| 亚洲国产系列| 国产白浆一区二区三区视频在线| 99这里精品| 日本成人不卡视频| 欧洲成人免费视频| 国产乱子伦手机在线| 久热精品免费| 自拍中文字幕| 97人妻精品专区久久久久| 日本免费a视频| 2021天堂在线亚洲精品专区| 国产成人精品一区二区三区| 亚洲色偷偷偷鲁综合| 五月天福利视频| 99视频在线免费观看| 亚洲人人视频| 国产全黄a一级毛片| 日本伊人色综合网| 午夜国产小视频| 亚洲综合精品第一页| 免费无码AV片在线观看国产| 日韩精品亚洲人旧成在线| 亚洲免费毛片| 搞黄网站免费观看| 国产毛片高清一级国语 | 爆操波多野结衣| 97色伦色在线综合视频| 干中文字幕| 亚洲免费福利视频| 亚洲一区二区三区国产精华液| 国产精品入口麻豆| 免费人欧美成又黄又爽的视频| 亚洲精品欧美重口| 日韩国产黄色网站| 成年看免费观看视频拍拍| 久久精品视频亚洲| 亚洲成a人片77777在线播放| 日本黄网在线观看| 国内精品久久久久久久久久影视| 欧美日韩一区二区在线免费观看| 一区二区三区国产精品视频| 成人va亚洲va欧美天堂| 国产极品美女在线观看| 日本精品一在线观看视频| 日韩欧美高清视频| 92午夜福利影院一区二区三区| 亚洲午夜天堂| 欧美国产精品拍自| 人人爱天天做夜夜爽| 成人第一页| 激情爆乳一区二区| 午夜视频免费试看| 欧美全免费aaaaaa特黄在线| 亚洲综合色区在线播放2019| 狠狠操夜夜爽| 国产精品久久精品| v天堂中文在线| 自拍中文字幕| 亚洲高清国产拍精品26u| 亚洲一区色| A级全黄试看30分钟小视频| 欧亚日韩Av| 欧美黄网在线| 青青草原国产一区二区| 国产精品吹潮在线观看中文| 亚洲欧美一区二区三区麻豆| 色天天综合| 男女性午夜福利网站| 国产原创演绎剧情有字幕的| 日韩国产 在线| 久久综合丝袜日本网|