999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

關于常用字覆蓋率統計算法的研究

2020-05-22 13:57:10阿不都克里木玉素甫王亮亮
計算機技術與發展 2020年5期
關鍵詞:文本

阿不都克里木·玉素甫,楊 琴,王亮亮

(1.新疆教育學院 現代教育技術中心,新疆 烏魯木齊 830043;2.新疆教育云技術與資源實驗室,新疆 烏魯木齊 830043;3.新疆教育學院 信息科學與技術學院,新疆 烏魯木齊 830043)

0 引 言

常用字是現代漢語中經常用到的字,即字頻和使用度最高的字。隨著社會的發展,常用字的使用頻率也在不斷的變化。而常用字最基本的選字原則就是根據字的使用頻度,選取使用頻度高的字。除此之外還有其他的選字原則,如:根據字的使用分布選取分布均勻的字,選取構字能力和構詞能力強的字,根據漢字的實際使用情況斟酌取舍等。目前計算機選字主要采用統計字頻的方法,并以字頻高低逐一排序。字頻指的是漢字的使用頻率,即某個漢字在抽樣統計資料里出現的次數在統計總字數中所占的比例。字頻統計對識字教學、字書編纂以及漢字的機械處理和信息處理等都十分重要。1988年1月,國家語委和國家教委聯合發布《現代漢語常用字表》[1],共收錄常用字3 500個,其中常用字2 500個,次常用字1 000個。1988年3月發布《現代漢語通用字表》[1]共收錄通用字7 000個(包括《現代漢語常用字表》的3 500字),這兩種表都是以字頻的高低來排序的。為了了解常用字在文本中的使用情況,以計算機信息處理的方式來獲取統計信息,并且本研究作為新疆高校教育資源安全審查信息化系統研究項目的基礎研究部分,主要研究了常用字在電子文本中的覆蓋率統計,使用率統計和字頻統計的數學算法以及計算機程序算法,并根據得出的研究方法研發常用字覆蓋率統計分析系統,最后做一個統計實驗,即分別通過《現代漢語常用字表》中的頻度最高的581個常用字[2],1 000個常用字和2 500個常用字對電子文本進行統計分析,并獲取覆蓋率、使用率、字頻統計信息,以此了解文本中常用字的使用情況。

1 覆蓋率統計算法的優化

覆蓋率統計的主要任務就是統計出給定文本中常用字的覆蓋情況,根據統計信息結果就可以知道常用字在文本中的覆蓋率或者說是比率。為此在前期研究中[3]首先將電子文本中非漢字元素取出后,再對所剩下的漢字元素進行統計分析。但是在計算機處理中該方法還不是很實用。因為為了先抽取文本中除了漢字以外的元素,對于計算機來說需要先定義大量字符元素,以便計算機可以識別并分類。如:數字、各種符號以及其他未知符號等。這對實現計算機程序算法帶來了一些困難,也有可能由于程序無法識別文字字符產生統計誤差等問題。因此對前期所使用的數學公式進行優化處理,以便適用于計算機程序算法[4-6]的實現。

1.1 覆蓋率統計數學算法

覆蓋率是閱讀教材里被包含的在字表里的漢字與閱讀教材里的全部漢字的比率[7]。在優化后的算法中不再對文本中的非漢字字符進行統計和抽取操作,而是直接對文本中的漢字字符[8]進行統計,這也更符合計算機的處理。具體數學表達式如式(1)所示。

(1)

其中,F為常用字在電子文本中的出現次數,L為文本的長度;C為常用字,Ci為常用字表中下標為i的漢字,N為常用字字數;T為電子文本,Tj為電子文本中下標為j的漢字。出現次數F主要是通過常用字和電子文本中的漢字逐一對比后獲取的統計結果,即當Ci=Tj時,X(Ci,Tj)=1,當Ci≠Tj時,X(Ci,Tj)=0,X函數的值將會累計計算,運算結束后作為F的值。

1.2 覆蓋率統計程序算法的實現

(1)程序處理流程。

根據式(1)可以通過計算機程序來實現覆蓋率統計。首先將程序處理流程定義如下:

第一步:統計出文本中漢字的個數L。

第二步:統計常用字在文本中的出現次數F,具體流程如圖1所示。

圖1 常用字出現次數統計流程

該流程圖中進行循環操作將對常用字和電子文本中的漢字逐一進行對比,符合條件C[i]=T[j]時X的值加1,不符合時先判斷j

第三步:根據式(1)計算覆蓋率。

(2)程序算法的實現。

根據式(1)和程序處理流程,覆蓋率統計核心Java[9-11]程序算法如下:

intX; //統計常用字在文本中的出現次數

public int getCiShu_tongji(String text) {//獲取出現次數的函數

X=0; //出現次數賦值為0

for (inti=0;i

for (intj=0;j

if (C[i].equals(T.charAt(j)+""))

{X++;}

}}

return X; //返回出現次數的值 }

(3)程序統計流程示例。

下面將通過一個簡單示例來說明程序覆蓋率統計的過程,首先需要一個常用字表和文本。為了簡化,只抽取了頻度最高的14個常用字。具體覆蓋率統計示例如下:

常用字:的,一,是,不,了,在,有,人,這,上,大,來,和,我

文本:這些是不是你的?

可以算出文本長度L的值為7,常用字N的值為14。那么首先計算常用字在文本中的出現次數F,具體流程如表1所示。

表1 覆蓋率統計流程示例

上述表1所示,常用字與文本中的漢字逐一對比后的常用字出現次數F的值為5,那么根據覆蓋率統計公式計算結果如下:

2 使用率統計算法

常用字使用率是指電子文本中所出現的常用字在常用字中的比率。

2.1 使用率統計數學算法

通過統計電子文本中的常用字使用率,可以了解到文本中所使用的常用字使用比率,具體數學表達式如式(2)所示。

(2)

其中,G為文本中常用字使用次數(該值不計算重復出現的常用字),N為常用字數,Ci為常用字表中下標為i的漢字,Tj為電子文本中下標為j的漢字。電子文本中使用次數G是通過常用字與電子文本逐一對比后獲得的結果,但與式(1)的出現次數F還有一定區別。G在統計過程中不計算重復出現的常用字,因為常用字與電子文本漢字對比時,只要有一個符合條件,它就代表該常用字已經使用,因此無需與下一個文本漢字對比。即當Ci=Tj時,Y(Ci,Tj)=1且j=L,當Ci≠Tj時,Y(Ci,Tj)=0。j=L表示一旦符合條件將文本T的下標j賦值為文本長度L,此時就會重新開始從下一個常用字進行對比,避免了重復計算,保證了統計結果的準確性。

2.2 使用率統計程序算法的實現

(1)程序處理流程。

根據式(2)使用率程序處理流程定義如下:

第一步:獲取常用字字數N。

第二步:計算文本中的常用字使用次數G,流程如圖2所示。

圖2 常用字使用次數統計流程

圖2中單個常用字C[i]在循環對比過程中如果滿足條件C[i]=T[j],首先將Y的值加1,再用break命令結束內循環,這樣就可以保證每個常用字統計結果不重復。然后i的值加1,再從下一個常用字C[i]開始統計。

第三步:根據式(2)計算使用率。

(2)程序算法的實現。

以下為使用率統計核心算法。

intX; //統計常用字在文本中的個數

public int getShiYong_tongji(String text) {//獲取使用次數的函數

Y=0; //使用次數賦值為0

for (inti=0;i

for (intj=0;j

if (C[i].equals(T.charAt(j)+ ""))

{Y++;

break; }

}}

returnY;//返回出現次數的值 }

3 字頻統計算法

字頻是指每個常用字在文本中的出現頻度[12-14]。

3.1 字頻統計數學算法

為了計算字頻,首先需要統計每一個常用字在文本中的出現次數,然后再將每個漢字的出現次數除以文本長度,具體字頻統計數學表達式如式(3)所示:

(3)

其中,Pi為每個常用字在文本中的出現次數,Ci為常用字表中下標為i的漢字,Tj為電子文本中下標為j的漢字。每次對比后X(Ci,Tj)累計值作為Pi的值,再計算下一個常用字Pi的值,即當Ci=Tj時,X(Ci,Tj)=1,當Ci≠Tj時,X(Ci,Tj)=0,直到j

3.2 字頻統計程序算法的實現

(1)程序處理流程。

字頻統計程序流程如圖3所示。

圖3 常用字字頻統計流程

在此流程中首先還是要對單個常用字C[i]進行逐一對比,如果滿足條件C[i]=T[j],X的值加1并將該值賦給負責存儲每個常用字頻度的數組P[i],然后判斷下一個條件j

(2)程序算法的實現。

字頻統計核心程序算法如下:

intX; //統計每個常用字在文本中的個數

int[]P=new int[N];//該數組用于獲取下標為i的常用字在文本中的使用次數。

public int[] getPinDu_tongji(String text) {

X=0; //使用次數賦值為0。

for (inti=0;i

for (intj=0;j

if (C[i].equals(T.charAt(j) + ""))

{X++;}

}

P[i]=X; //將使用次數X的值賦給數組P

X=0;}

returnX; //返回出現次數的值 }

4 常用字覆蓋率統計分析系統

4.1 系統框架

服務器操作系統:CentOS 7;

使用編程語言:Java,JavaScript,XML[15-16];

使用開發工具:Eclipse;

系統框架:主要采用B/S架構。

4.2 系統功能

系統可以根據輸入的文本進行統計分析,可以統計文本中常用字的覆蓋率、使用率、字頻等??筛鶕枰x擇目標常用字,即可以選常用581、1 000、2 500個常用字表對文本進行統計分析。圖4為常用字覆蓋率統計分析系統的字頻統計功能界面。

圖4 常用字在文本中的字頻統計

5 常用字統計實驗

為了測試系統,以四大名著和新華網、人民網共116篇文章作為統計對象,分別統計分析了字頻最高的581個常用字、1 000個常用字和2 500個常用字在這些統計對象中的覆蓋率、使用率以及字頻,具體統計結果如表2所示。

表2 常用字統計分析

那么再來看一下統計對象中常用字字頻的情況。在統計結果中只抽取了使用頻度最高的前10個漢字,具體統計結果如表3所示。

表3 字頻統計

從表3中可以看出,根據不同的統計對象常用字的使用頻度也會有所不同。

6 結束語

對常用字在教育資源電子文本中的覆蓋率統計,使用率統計,頻度統計相關的統計算法進行了研究,并結合相關程序算法,以計算機程序的方式來實現一個常用字覆蓋率統計分析系統,并通過統計分析系統對四大名著和新華網、人民網116篇文章中所使用的常用字進行了統計分析。結果表明常用字在文本中的覆蓋率和使用率相當高,即581個常用字在文本中的覆蓋率平均在68.9%以上,1 000個常用字在文本中的覆蓋率平均在81.4%以上,2 500個常用字在文本中的覆蓋率平均在96%以上,并且常用字在不同統計對象文本中的使用頻度也會有所不同。因此常用字不管是在生活中還是在工作中都無處不在,對人們的學習、生活、工作起著至關重要的作用。

猜你喜歡
文本
文本聯讀學概括 細致觀察促寫作
重點:論述類文本閱讀
重點:實用類文本閱讀
初中群文閱讀的文本選擇及組織
甘肅教育(2020年8期)2020-06-11 06:10:02
作為“文本鏈”的元電影
藝術評論(2020年3期)2020-02-06 06:29:22
在808DA上文本顯示的改善
“文化傳承與理解”離不開對具體文本的解讀與把握
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學隱喻
從背景出發還是從文本出發
語文知識(2015年11期)2015-02-28 22:01:59
主站蜘蛛池模板: 亚洲日本www| 欧美自拍另类欧美综合图区| 国产福利小视频在线播放观看| 午夜福利亚洲精品| 国产精品亚洲精品爽爽| 亚洲精品自在线拍| 国产毛片高清一级国语| 呦女亚洲一区精品| 国产在线观看一区精品| 最新亚洲人成网站在线观看| 久久久久亚洲Av片无码观看| 中国黄色一级视频| 亚洲人成影院午夜网站| 亚洲日韩AV无码一区二区三区人| 无码中文字幕乱码免费2| 51国产偷自视频区视频手机观看| 欧美不卡二区| 国产真实乱子伦精品视手机观看| 欧美亚洲国产精品第一页| 亚洲AⅤ永久无码精品毛片| 国产精女同一区二区三区久| 国产美女人喷水在线观看| 日本一本正道综合久久dvd| 国产精品视频公开费视频| 人妻少妇乱子伦精品无码专区毛片| 免费无码网站| 国产真实二区一区在线亚洲| 久久人人爽人人爽人人片aV东京热| 欧美自慰一级看片免费| 久久大香伊蕉在人线观看热2 | 国产成人狂喷潮在线观看2345| 九九免费观看全部免费视频| 成人福利在线免费观看| 日韩av电影一区二区三区四区 | 四虎国产精品永久一区| 四虎影视无码永久免费观看| 四虎影院国产| 国产在线精彩视频论坛| 91无码人妻精品一区| 四虎亚洲精品| 黄片在线永久| 999在线免费视频| 中文字幕亚洲精品2页| 日本三级欧美三级| a级毛片在线免费| 国产迷奸在线看| a级毛片免费播放| 激情六月丁香婷婷四房播| 欧美国产在线看| 99视频在线免费观看| 欧美精品v| 亚洲va精品中文字幕| 色天天综合| 免费毛片全部不收费的| 四虎国产永久在线观看| 中文字幕资源站| 在线精品亚洲国产| 婷婷六月天激情| 亚洲色欲色欲www网| 亚洲综合激情另类专区| 国产无码在线调教| 波多野结衣在线一区二区| 中国毛片网| 精品成人一区二区三区电影| 一区二区影院| 午夜国产精品视频| 亚洲最大福利视频网| 97国产在线观看| 99在线观看精品视频| 成人精品午夜福利在线播放| AV在线天堂进入| 熟女成人国产精品视频| 久久永久视频| 久青草国产高清在线视频| 欧美一级在线看| 在线观看av永久| 亚洲热线99精品视频| 久爱午夜精品免费视频| 日韩AV无码免费一二三区| hezyo加勒比一区二区三区| 91精品专区国产盗摄| 福利小视频在线播放|