999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于詞頻分布的齊夫定律朝鮮語適用性研究

2018-02-05 18:22:58王萌
小說月刊 2017年12期
關(guān)鍵詞:排序

王萌

摘 要:本文主要通過對朝鮮語文本語料的詞頻統(tǒng)計和分析,列出詞頻統(tǒng)計表,繪出齊夫?qū)?shù)分布曲線,并與齊夫定律的分布曲線相比較,判斷出吻合度,對齊夫定律進(jìn)行朝鮮語適用性的驗證研究。

關(guān)鍵詞:詞頻;排序;齊夫定律;朝鮮語適用性

1 詞頻的定義與發(fā)展

(1)表達(dá)意義的基本原子單位是詞。例如house一詞使人腦海里浮現(xiàn)一幅景象:一幢有房頂?shù)拈L方形建筑。當(dāng)house一詞出現(xiàn)在一篇文本中時,讀者便會依據(jù)其上下文去聯(lián)想“房子”的意象。所謂詞頻是一種用于情報檢索與文本挖掘的常用加權(quán)技術(shù),用以評估一個詞對于一個文件或者一個語料庫中的一個領(lǐng)域文件集的重要程度。字詞的重要性隨著它在文件中出現(xiàn)的次數(shù)成正比增加,但同時會隨著它在語料庫中出現(xiàn)的頻率成反比下降。

(2)詞語頻次的觀念古已有之。1898年,德國語言學(xué)家凱定在5000名速記人員和800名合作者的幫助下,手工統(tǒng)計了以報刊為主的14個語料來源的資料,所統(tǒng)計的總詞匯量達(dá)10,910,777條,而其中頻次在4以上的詞共有79716個。這些統(tǒng)計結(jié)果被編纂成了世界上第一部頻率詞典“Haufigkeits Worter buch der Deutschen Sprache”(《德語頻率詞典》),這也被普遍認(rèn)為是第一次現(xiàn)代意義上的以統(tǒng)計調(diào)查方法完成的詞匯研究工作。美國教育學(xué)家與心理學(xué)家桑代克先后于1921年和1944年編寫了《教師二萬詞詞書》和《教師三萬詞詞書》,對英語的詞匯作了大量的頻率統(tǒng)計工作①。我國在1930年王文新對包括三種版本的國語教科書等在內(nèi)的共910417字的語料進(jìn)行了統(tǒng)計和分析,首先把詞語分為單詞單音詞和復(fù)詞復(fù)音詞兩種,并分別統(tǒng)計了這兩種詞語所出現(xiàn)的頻次及其各自所占的比率。統(tǒng)計結(jié)果,復(fù)詞出現(xiàn)的詞次為214,558詞次,復(fù)詞總詞數(shù)為6411個,復(fù)詞中頻次最高的詞出現(xiàn)的頻次為3513次,最低的為1次②。

2 齊夫定律概述

(1)美國哈佛大學(xué)教授喬治·金斯利·齊夫通過研究詞語頻次與詞語等級之間的關(guān)系,揭示了詞頻現(xiàn)象的內(nèi)在形式化規(guī)律。在1935年齊夫在艾思杜、貢東、朱斯等學(xué)者研究的基礎(chǔ)上通過對文獻(xiàn)詞頻規(guī)律的研究,認(rèn)為:若把一篇較長的文章中每個詞出現(xiàn)的頻次從高到低進(jìn)行遞減排列,即頻率最高的詞序號為1,頻率次之的詞序號為2,以此類推。每個單詞的序號r與其使用頻次f的乘積接近為一常量c。即r×f=c如果用橫坐標(biāo)表示詞序號r,縱坐標(biāo)表示相應(yīng)的頻次f,就可以得到一條雙曲線,即齊夫分布曲線;如果公式r×f=c寫成logf=logc-logr,就得到了使用頻次的對數(shù)和序號之間的線性關(guān)系,即為齊夫分布對數(shù)曲線,圖像接近與一條直線。

(2)英國語言學(xué)家哈特曼和斯托克對齊夫定律的解釋則是“齊夫定律是詞的分布和頻率的總描述f×r=c,其中f為頻率,r為序號。之后齊夫得出了c的值為0.1,因而認(rèn)為是一個常數(shù)。但后來經(jīng)過驗證發(fā)現(xiàn)c值有波動的范圍,在0到0.1之間。

3 齊夫定律的朝鮮語適用性研究

本文的統(tǒng)計樣本語料為十九大報告韓文版中的最前面兩個段落。統(tǒng)計手段為人工分詞,輔以計算機(jī)計數(shù)。分詞時所依據(jù)的原則是:根據(jù)朝鮮語自身的語言特點,以齊夫定律理論為基礎(chǔ),以保留詞語語義的完整性為前提。此段語料共有2084個單詞,其中漢字詞有1382個,固有詞有702個。

通過上述的詞頻統(tǒng)計表和齊夫?qū)?shù)分布曲線可以看出,除了排名5以下的低頻詞外,頻次f與詞級r的乘積均比較平穩(wěn),基本圍繞著一個常數(shù)上下波動,齊夫?qū)?shù)分布曲線也大致呈現(xiàn)出直線的趨勢,可見統(tǒng)計結(jié)果中的詞頻分布呈現(xiàn)出較為明顯的齊夫分布規(guī)律。結(jié)果表明如果除去少數(shù)出現(xiàn)頻率少的詞語,朝鮮語文本完全地符合齊夫定律,齊夫定律同樣適用于朝鮮語。

注釋:

① 馮志偉.齊普夫定律的來龍去脈[J].情報科學(xué),1983

② 王文新.小學(xué)分級詞匯研究[J].教育研究.國立中山大學(xué)教育學(xué)研究所,1922,31.

參考文獻(xiàn):

[1] 許文霞.齊普夫定律的實踐和理論基礎(chǔ)[J].圖書館建設(shè),1984,(1).

[2] 鄧洛華.詞頻分析[J].武漢大學(xué)學(xué)報(人文科學(xué)版),1987,(1).

[3] 沈關(guān)龍.齊普夫定律與專題文獻(xiàn)標(biāo)題詞頻的研究與應(yīng)用[J].情報理論與實踐,1988,(2).

[4] 十九大報告全文.延邊日報[N].2017

猜你喜歡
排序
排排序
排序不等式
作者簡介
名家名作(2021年9期)2021-10-08 01:31:36
作者簡介
名家名作(2021年4期)2021-05-12 09:40:02
作者簡介(按文章先后排序)
名家名作(2021年3期)2021-04-07 06:42:16
恐怖排序
律句填空排序題的備考策略
節(jié)日排序
刻舟求劍
兒童繪本(2018年5期)2018-04-12 16:45:32
作者簡介(按文章先后排序)
名家名作(2017年2期)2017-08-30 01:34:24
主站蜘蛛池模板: 色妺妺在线视频喷水| 婷婷六月天激情| 九九热在线视频| 亚洲国模精品一区| 日韩毛片在线播放| 欧美日韩一区二区三| jizz国产在线| 91视频精品| 亚洲视频a| 成人免费网站久久久| 欧美中文字幕在线播放| 久久综合结合久久狠狠狠97色| 四虎影院国产| 在线视频亚洲色图| 99精品热视频这里只有精品7| 99久久国产精品无码| 四虎精品国产永久在线观看| 亚洲丝袜中文字幕| 国产无码制服丝袜| 老司国产精品视频91| 欧美视频二区| 免费国产黄线在线观看| 熟妇丰满人妻av无码区| 9999在线视频| 日日噜噜夜夜狠狠视频| 国产成人综合亚洲网址| 不卡无码网| 久久综合久久鬼| 久久精品日日躁夜夜躁欧美| 久久精品只有这里有| 久久www视频| 精品视频免费在线| 国产精品v欧美| 亚洲丝袜第一页| 中国毛片网| 永久在线精品免费视频观看| 久久不卡国产精品无码| 72种姿势欧美久久久大黄蕉| 国产高清毛片| a毛片免费在线观看| 亚洲欧美色中文字幕| 99国产精品免费观看视频| 少妇极品熟妇人妻专区视频| 亚洲AV成人一区二区三区AV| 亚洲无码在线午夜电影| 91精品国产麻豆国产自产在线| 天天躁日日躁狠狠躁中文字幕| 一级片一区| 色综合日本| 无码精油按摩潮喷在线播放| 香蕉久人久人青草青草| 婷婷综合在线观看丁香| 爆操波多野结衣| 夜色爽爽影院18禁妓女影院| 国产精品女同一区三区五区| 九九九久久国产精品| 米奇精品一区二区三区| 精品国产毛片| 色首页AV在线| 午夜国产大片免费观看| 精品一区二区三区视频免费观看| 成人夜夜嗨| 亚洲Aⅴ无码专区在线观看q| 成人午夜视频免费看欧美| 8090成人午夜精品| 亚瑟天堂久久一区二区影院| 波多野结衣爽到高潮漏水大喷| 国产精品99久久久久久董美香| 亚洲中文在线看视频一区| 99伊人精品| 亚洲色图欧美激情| 久久久精品国产亚洲AV日韩| 亚洲精品另类| 国产成人综合网| 91在线视频福利| 色悠久久久久久久综合网伊人| 免费啪啪网址| 91在线视频福利| 国产91特黄特色A级毛片| 国产主播一区二区三区| 亚洲成A人V欧美综合天堂| 久久久久久国产精品mv|