999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

網(wǎng)絡(luò)藏文詞頻統(tǒng)計(jì)調(diào)查分析

2011-12-31 00:00:00馬偉
絲綢之路 2011年10期

[摘要]互聯(lián)網(wǎng)時(shí)代,人類語言的發(fā)展更加迅速,語言的發(fā)展更直接地反映在詞匯的運(yùn)用中。互聯(lián)網(wǎng)時(shí)代針對藏文網(wǎng)絡(luò)語言的定量研究,能夠?yàn)檎Z言學(xué)相關(guān)研究帶來更為可靠的數(shù)據(jù)依據(jù)。本文通過使用計(jì)算機(jī)詞頻統(tǒng)計(jì)軟件,用統(tǒng)計(jì)計(jì)量的研究方法,針對藏文網(wǎng)絡(luò)中的用詞情況進(jìn)行了初步調(diào)查分析。

[關(guān)鍵詞]藏文詞頻;網(wǎng)絡(luò)語言;詞匯運(yùn)用

[中圖分類號]H214 [文獻(xiàn)標(biāo)識碼]A [文章編號]1005-3115(2011)010-0085-02

藏語是我國藏族使用的語言,屬漢藏語系藏緬語族,藏族的發(fā)展受到中國乃至世界的矚目,藏語的發(fā)展也受到各方面的關(guān)注。隨著藏文信息技術(shù)的不斷發(fā)展,藏文網(wǎng)絡(luò)的發(fā)展已經(jīng)有了可喜的進(jìn)步。針對網(wǎng)絡(luò)上大量的藏文文本資源,我們可以通過建立相應(yīng)的語料庫,對語料庫中的詞匯通過計(jì)算機(jī)技術(shù)進(jìn)行詞頻等方面的研究,其意義不言而喻。藏文網(wǎng)絡(luò)詞頻統(tǒng)計(jì)等工作,可以為藏語言文字研究提供有力的科學(xué)數(shù)據(jù),為藏文詞典編纂、藏語言規(guī)范化、藏語言教學(xué)等方面提供一定的參考。網(wǎng)絡(luò)語言文字調(diào)查研究工作,還可以為網(wǎng)絡(luò)輿情分析提供可參考的數(shù)據(jù),對網(wǎng)絡(luò)上出現(xiàn)的不良信息可以及時(shí)預(yù)警和處理。如何對網(wǎng)絡(luò)上海量的信息通過獲取建立語料庫,并對語料中的詞匯進(jìn)行統(tǒng)計(jì)方面的分析,從而得出一個(gè)調(diào)查結(jié)果,是本文需要解決的問題。

一、藏文網(wǎng)絡(luò)資源的采集與預(yù)處理

(一)采集對象的確定

自2000年零點(diǎn)世界上第一個(gè)藏文文字網(wǎng)站——同元藏文網(wǎng)站開通,藏文網(wǎng)頁在互聯(lián)網(wǎng)中逐步增多?,F(xiàn)在,藏文網(wǎng)站上的內(nèi)容已經(jīng)相對豐富,數(shù)據(jù)量大,信息正在走向全面化。比如中國西藏信息中心使用了三種語言來發(fā)布內(nèi)容,其中有20多個(gè)專題欄目、150多個(gè)資訊欄目。除了文本信息外,還擁有數(shù)萬幅精美圖片以及大量的影音文件可供網(wǎng)友下載瀏覽?,F(xiàn)在藏文網(wǎng)頁的主要內(nèi)容有兩類:一類是新聞,另一類是旅游信息。新聞類藏文網(wǎng)頁在網(wǎng)絡(luò)上的數(shù)量居首位。由于現(xiàn)在的藏文網(wǎng)站中藏文的編碼方式和碼位都不統(tǒng)一,為了避免不同編碼而需要進(jìn)行統(tǒng)一編碼,筆者在選擇網(wǎng)站時(shí)主要考慮了采用同元編碼的網(wǎng)站。

在現(xiàn)有藏文網(wǎng)站中,影響比較廣泛、新聞量比較大的網(wǎng)站主要有新華網(wǎng)西藏頻道http://xizang.news.cn/、中國西藏信息中心藏文網(wǎng)站 http://ti.tibet.cn以及中國西藏新聞網(wǎng)http://tb.chinatibetnews.com/。這三個(gè)網(wǎng)站每天都有新聞方面的更新,內(nèi)容較其他網(wǎng)站更加翔實(shí),可供下載的文本數(shù)量多。所以,在網(wǎng)站選擇上,本文選擇了這兩個(gè)大網(wǎng)站作為主要的下載站點(diǎn),而在內(nèi)容上選擇了新聞類網(wǎng)頁作為主要調(diào)查對象。

(二)藏文網(wǎng)絡(luò)資源的采集

抓取網(wǎng)頁就是要把互聯(lián)網(wǎng)上的數(shù)據(jù)下載到本地計(jì)算機(jī),想隨心所欲的抓取到自己需要的頁面,需要通過網(wǎng)頁爬蟲軟件去實(shí)現(xiàn)這一目的。在本次藏文網(wǎng)絡(luò)用詞使用情況調(diào)查中,筆者通過網(wǎng)而爬蟲軟件總共下載到了新華網(wǎng)西藏頻道http://xizang.news.cn/、中國西藏信息中心藏文網(wǎng)站 http://ti.tibet.cn以及中國西藏新聞網(wǎng)http://tb.chinatibetnews.com/三個(gè)網(wǎng)站中的3571個(gè)藏文網(wǎng)頁文件,共計(jì)173兆。

(三)藏文網(wǎng)絡(luò)資源的預(yù)處理

抓取下來的網(wǎng)頁,多數(shù)為超文本標(biāo)記頁面,這些網(wǎng)頁上眾多的網(wǎng)絡(luò)信息,除了網(wǎng)頁中的主題外,比如文本類的新聞內(nèi)容,還有導(dǎo)航條和雜亂的廣告信息以及版權(quán)信息等,通常稱這些與主題無關(guān)的內(nèi)容為“噪音”,而調(diào)查中所需要的只是網(wǎng)頁中的文本,而所有的網(wǎng)頁當(dāng)中都有或多或少的噪聲數(shù)據(jù),因此,網(wǎng)頁的凈化處理在整個(gè)調(diào)查研究工作中成為不可或缺的關(guān)鍵步驟。網(wǎng)頁去噪就是通過分析超文本標(biāo)記網(wǎng)頁結(jié)構(gòu),找到需要抽取內(nèi)容的準(zhǔn)確位置,之后把需要的內(nèi)容從有噪音的網(wǎng)頁中抽取出來,從而達(dá)到凈化網(wǎng)頁,提取純文本的目的。

目前,能做到將超文本標(biāo)記文檔中去掉超文本標(biāo)記,抽取文本的軟件很多,在實(shí)驗(yàn)當(dāng)中選擇的超本文到純文本的轉(zhuǎn)換器,是一個(gè)轉(zhuǎn)換超文本標(biāo)記文檔為純文本格式的免費(fèi)小工具。它不僅可以移除標(biāo)記,并且可以重新定義文本格式以獲取更可讀的結(jié)果。支持批量處理的功能更是對大量網(wǎng)頁的處理提供了事半功倍的幫助。但是這個(gè)軟件軟換后還是沒有處理干凈,在使用這個(gè)軟件抽取文本的過程中發(fā)現(xiàn),有一部分網(wǎng)頁的標(biāo)記轉(zhuǎn)換為文本文件后沒有移除,運(yùn)用絕對查找替換軟件,它可以批量處理這些沒有被移除掉的標(biāo)記,將他們從文本文件中刪除。在整個(gè)網(wǎng)頁的凈化處理過程中,通過兩個(gè)軟件,獲得了比較理想的純文本文件。

由于從網(wǎng)頁上獲得的純文本文件為未經(jīng)加工的生語料,還不能為后期詞匯使用情況調(diào)查所用,而藏文和中文有個(gè)共同點(diǎn)就是句子中詞語和詞語之間沒有專門的分隔符,所以要做藏文詞匯的統(tǒng)計(jì)和調(diào)查工作,第一步就需要將生語料進(jìn)行分詞。在基于大規(guī)模語料庫做自然語言信息處理方面,分詞技術(shù)至關(guān)重要?!安卣Z自動分詞研究是藏語自然語言處理的關(guān)鍵技術(shù)之一,也是語言智能化處理的基礎(chǔ)工程。只有對藏語句子正確無誤的分詞,才有可能實(shí)現(xiàn)對藏語自然語言的理解?!?現(xiàn)在,有關(guān)分詞的方法有很多種,如最大匹配算法、最小匹配算法等,關(guān)于藏文分詞的研究也有了很大進(jìn)步。最大匹配算法是最常用的分詞方法,它是基于所給定的詞表而進(jìn)行的基于規(guī)則的分詞方法,本次調(diào)查中的分詞方法就是采用了基于規(guī)則的分詞方法。其中分詞所使用的詞表主要使用了藏漢大辭典中約89132條詞匯。

在詞頻統(tǒng)計(jì)中所說的詞是指語料中由分詞模塊已經(jīng)分隔好的藏文詞或短語,分詞模塊將符合條件的字符串導(dǎo)入詞頻表格中,這樣就獲得了語料中所有的藏文詞匯,分別查詢每一個(gè)詞匯在預(yù)料中出現(xiàn)的次數(shù),也就獲得了詞的頻度。

通過分詞及詞頻統(tǒng)計(jì)軟件,筆者將先前獲得的網(wǎng)絡(luò)語料進(jìn)行了初步的分詞,并將詞頻表導(dǎo)出為微軟的表格文件,微軟辦公軟件中的表格數(shù)據(jù)處理文件是一個(gè)功能十分強(qiáng)大而且非常易用的數(shù)據(jù)統(tǒng)計(jì)工具,可以在其中做出相應(yīng)的藏文網(wǎng)絡(luò)用詞調(diào)查報(bào)告。

二、藏文網(wǎng)絡(luò)用詞的使用情況

(一)調(diào)查內(nèi)容

本次的調(diào)查對象主要是藏文網(wǎng)絡(luò)語料中的詞。對這些詞的調(diào)查項(xiàng)目主要有頻次、頻率、累加頻率等。其中頻次即每一調(diào)查對象在所有語料中出現(xiàn)的次數(shù);文本數(shù)指語料中包含該調(diào)查對象的文本個(gè)數(shù);頻率即每一調(diào)查對象的頻次與整個(gè)語料所含調(diào)查對象總次數(shù)的比值;累加頻率指所有調(diào)查對象按照頻次降序排列,每一調(diào)查對象的頻次同其前調(diào)查對象出現(xiàn)的總次數(shù)與整個(gè)語料所含調(diào)查對象總次數(shù)的比值。本次統(tǒng)計(jì)沒有甄別文本中的新詞。

(二)調(diào)查結(jié)果

第一,共處理了 3020 個(gè)文件;第二,共有 18864 個(gè)詞,指不同的藏文詞匯種數(shù);第三,總計(jì) 2102777 詞次,指全部語料中藏文詞出現(xiàn)的總次,計(jì)2102777 字次;第四,總計(jì) 5210541 字次,指全部語料中所有字符的總量,共計(jì)5210541字符次。

藏文網(wǎng)絡(luò)用詞高頻詞的使用情況為,前111字覆蓋率達(dá)50%;當(dāng)覆蓋率達(dá)90%時(shí),使用詞匯2253個(gè)。覆蓋率與字?jǐn)?shù)的關(guān)系見表1。

(三)有關(guān)齊普夫法則的調(diào)查分析

齊普夫在自己的著作中,闡述了自己發(fā)現(xiàn)的一個(gè)統(tǒng)一原理,即最小精力付出原理,它在本質(zhì)上是人類活動的基礎(chǔ)。最小精力付出原理認(rèn)為人類將會盡可能最小化他們可能的平均工作率。而這一法則在語料庫語言學(xué)中得到了應(yīng)用,本文將語料庫中所有的詞按照出現(xiàn)次數(shù)的多少進(jìn)行順序排列,發(fā)現(xiàn)一個(gè)詞出現(xiàn)的頻度和它所在排列位置的關(guān)系,這種關(guān)系合乎齊普夫法則,即存在一個(gè)常數(shù),使得頻度和位置相乘得出的值保持在一個(gè)恒定的數(shù)值上。

通過對網(wǎng)絡(luò)預(yù)料庫中前1000個(gè)詞的實(shí)驗(yàn)數(shù)據(jù),做出了如表2所示的詞匯排列位置和常數(shù)值之間的關(guān)系表,通過這個(gè)表可以看出,在排列位置低于200的情況下,這個(gè)常數(shù)值是不穩(wěn)定的,曲線偏離度較大,而在200~1000的位置上,常數(shù)值恒定在250000~300000的數(shù)值區(qū)間。

筆者繼續(xù)觀察了位置在10000以后的常數(shù)值情況,通過觀察數(shù)據(jù),可以看出在排列位置偏低時(shí)常數(shù)值低于恒定在250000~300000的數(shù)值區(qū)間,而在位置偏高時(shí),發(fā)現(xiàn)常數(shù)值在大于10000以后發(fā)生了比較大的偏離。

三、小結(jié)

藏文網(wǎng)絡(luò)在用詞方面的調(diào)查分析為藏語言文字研究提供了一定的科學(xué)數(shù)據(jù),為藏文詞典編纂、藏語言規(guī)范化、藏語言教學(xué)等方面提供參考。本文從詞頻出發(fā)對藏文三大網(wǎng)站中出現(xiàn)的詞匯做出了較為細(xì)致的統(tǒng)計(jì)和分析,用統(tǒng)計(jì)數(shù)據(jù)客觀反映了網(wǎng)絡(luò)詞匯的實(shí)際情況。一方面為藏文網(wǎng)絡(luò)用詞用語調(diào)查提供了一個(gè)可擴(kuò)充的語料庫;另一方面也為藏文網(wǎng)絡(luò)詞匯的發(fā)展?fàn)顩r做了統(tǒng)計(jì)語言學(xué)方面的調(diào)查。需要說明的是,進(jìn)行藏文網(wǎng)絡(luò)在用詞方面的調(diào)查,由于受到調(diào)查技術(shù)等方面的限制和經(jīng)驗(yàn)的不足,文章還有許多不盡如人意之處,有待在今后的工作、學(xué)習(xí)中繼續(xù)改進(jìn)。

主站蜘蛛池模板: 欧美日本在线一区二区三区| 亚洲欧美在线精品一区二区| 人人爱天天做夜夜爽| 亚洲黄网在线| 这里只有精品免费视频| 国模在线视频一区二区三区| 久久综合色视频| 免费一级毛片在线观看| 日韩一区二区在线电影| 国产伦精品一区二区三区视频优播 | 玩两个丰满老熟女久久网| 亚洲综合久久成人AV| 国产一级特黄aa级特黄裸毛片 | 天天操精品| 午夜福利视频一区| 国产日韩欧美成人| 亚洲va在线∨a天堂va欧美va| 亚洲精品大秀视频| 国产在线自在拍91精品黑人| 久久亚洲国产一区二区| 午夜日本永久乱码免费播放片| 中字无码精油按摩中出视频| 欧美成人一区午夜福利在线| 亚洲性日韩精品一区二区| 孕妇高潮太爽了在线观看免费| 波多野结衣视频网站| 成人在线观看一区| 国产办公室秘书无码精品| 人妻无码中文字幕第一区| 在线视频亚洲色图| 午夜激情婷婷| 国产在线观看精品| 91精品啪在线观看国产91九色| 青青草国产精品久久久久| 91精品啪在线观看国产91九色| 国产丝袜91| 亚洲综合色婷婷| 在线观看视频99| 黄色网在线| 婷婷六月激情综合一区| 91丝袜乱伦| 特级精品毛片免费观看| 亚洲精品片911| 毛片三级在线观看| 亚洲国产日韩一区| 被公侵犯人妻少妇一区二区三区| 精品国产成人av免费| 午夜性刺激在线观看免费| 中文字幕资源站| 成人综合在线观看| 一级在线毛片| 国产精品永久久久久| 97国产在线视频| 亚洲欧美不卡视频| 福利一区在线| 国产综合另类小说色区色噜噜| 亚洲精品少妇熟女| 日韩国产高清无码| 伊人色婷婷| 久久香蕉欧美精品| 99在线免费播放| 熟妇丰满人妻| 亚洲成a人在线播放www| 亚洲最大福利网站| 国产亚洲成AⅤ人片在线观看| 国产高清国内精品福利| 香蕉久人久人青草青草| 久久9966精品国产免费| 91精品在线视频观看| 夜色爽爽影院18禁妓女影院| 国产精品成人免费视频99| 亚洲欧美不卡| 最新国产成人剧情在线播放| 久久综合AV免费观看| 精品伊人久久久久7777人| 欧洲精品视频在线观看| 天堂在线亚洲| 国产成人精品优优av| 国产在线一区二区视频| 97精品久久久大香线焦| 国产精品久久久久久久伊一| 欧美亚洲激情|