999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于國內(nèi)現(xiàn)存文本語料庫規(guī)范化的現(xiàn)狀研究及改進

2016-11-11 02:57:12孫溫穩(wěn)
河南科技 2016年11期
關(guān)鍵詞:規(guī)范化可視化文本

孫溫穩(wěn)

(鄭州師范學(xué)院信息科學(xué)與技術(shù)學(xué)院,河南 鄭州 450044)

基于國內(nèi)現(xiàn)存文本語料庫規(guī)范化的現(xiàn)狀研究及改進

孫溫穩(wěn)

(鄭州師范學(xué)院信息科學(xué)與技術(shù)學(xué)院,河南鄭州450044)

當(dāng)前國內(nèi)對于文本可視化的研究還停留在初級階段,存在著許多方法處理文本語料庫。隨著科學(xué)技術(shù)的不斷發(fā)展,網(wǎng)絡(luò)變得越來越普及,人們可以從網(wǎng)絡(luò)上獲得大量的文本資料信息,本文主要針對如何獲取序列化、規(guī)范化的漢語的語料庫提出了一種新的框架。

語料庫;工具包;文本規(guī)范化

1 文本可視化概述

目前國內(nèi)對于文本可視化的研究還處在初級階段,主要停留在新技術(shù)的發(fā)展和新系統(tǒng)開發(fā)等方面。對于文本集合可視化系統(tǒng),先通過文本采集模塊、中文分詞模塊、特征詞權(quán)重計算模塊和XML文件組織模塊構(gòu)成本地數(shù)據(jù)庫,然后通過可視化圖形界面模塊與本地數(shù)據(jù)庫的接口交互,對用戶的檢索關(guān)鍵詞圖形化地顯示結(jié)果。其中,文本采集模塊在互聯(lián)網(wǎng)上搜集網(wǎng)頁文本,將采集到的文本作為原始數(shù)據(jù)源傳入中文分詞模塊;中文分詞模塊,對文本采集模塊中得到的文本內(nèi)容進行分詞處理,獲得以詞為單位的語料,并統(tǒng)計詞頻,保存在本地文本,供后續(xù)的詞語權(quán)重計算模塊讀取詞頻信息計算權(quán)重;詞語權(quán)重計算模塊,用于對分詞后的結(jié)果進行特征抽取即特征詞權(quán)重的計算,將計算結(jié)果連同對應(yīng)的特征詞,以及所在文本的標題交給XML文件組織模塊;可視化圖形界面模塊以上述XML文件組織模塊保留在本地的結(jié)果數(shù)據(jù)為基本語料庫,通過與用戶的交互取得用戶命令,并顯示出結(jié)果。

2 文本語料庫規(guī)范化概述

文本可視化涉及到信息采集,隨著科學(xué)技術(shù)的逐步發(fā)展,網(wǎng)絡(luò)也變得越來越普及。而絕大部分信息就分布在遍及世界各地大大小小的網(wǎng)站上,所以如何從互聯(lián)網(wǎng)上獲取信息并進行規(guī)范化就變得迫在眉睫。本文著重講述提出一個新的框架用來處理和規(guī)范多語種文本語料庫,為了擴大語料庫的來源,可以直接創(chuàng)建互聯(lián)網(wǎng)的接口,將網(wǎng)頁作為語料庫的直接來源[1]。

文本語料庫收集需要一個加工步驟才能構(gòu)成所需要的序列,這種序列可用于語音的識別和對話,比如在感知空間用多種方式交互的語音處理等。XML被構(gòu)想成為一門獨立的語言,其可提供一種可能性在同一個文件中能存儲多種語音。對一種已知的語言,且對于相同的一個語句,可以一樣地保存多種語言層次的分析。比如一篇文獻的整體包括作者、標題、日期、正文等,正文部分可被劃分成為一些段落和一些語句。我們可保存這些原始的語句,然后將這些語句進一步劃分詞、音節(jié)、短語;將文本信息格式化成XML的形式,其將為我們提供一種適用于文本文件的模本化、序列化的形式,這種形式將帶來一系列的好處,快速、便利地開發(fā)和使用。比如,當(dāng)需要增加、修改、提取一些新的模本時,將會變得非常容易。而且這些模本將會使從一種語言變成另一種語言變得非常容易。文本信息以標準化、模塊化的形式存在,一方面能繼承一些工具集中處理、加工的特性,另一方面將能夠快速、特定地適用于其他工具的處理。當(dāng)一種語言翻譯成另一種語言時,可以繼承兩種語言一些共有的部分,而且使得每種語言固有的模塊進行匹配[2]。

本文提出了一種通用XML格式的文本語料庫和介紹了一些工具轉(zhuǎn)換,規(guī)范多語種文本語料庫。更具體地說,在工作中,一個基于XML的文本語料庫是一套文件,包括描述(作者、標題、等)和文字內(nèi)容。文件的內(nèi)容將分解成段落和句子。在句子層面把原來的句子(因為這是寫在源文件)進一步分解成為短語、詞、語素、音節(jié)等,當(dāng)然也涉及一些額外的信息,如引理、詞性或類。

3 語言GAWK編寫程序的應(yīng)用

將原始的中文網(wǎng)頁轉(zhuǎn)化成為一個可行的電子語料庫,這需要編寫許多應(yīng)用程序來實現(xiàn)。所有程序都是使用語言GAWK編寫程序來實現(xiàn)的,包括文件的過濾、處理、加工、轉(zhuǎn)化成XML形式等。同樣的一件工作,以gawk程式來寫會比用其他程式語言來寫短很多。下面介紹所需要做的一些工作。

3.1將原始的文本信息轉(zhuǎn)換成為結(jié)構(gòu)化的文件

中文網(wǎng)頁的編碼一般使用GB2312,而我們的工作環(huán)境是LINUX,它不能處理使用編碼GB2312的文件,所以進行編碼的轉(zhuǎn)換,由GB2312轉(zhuǎn)換為UTF-8。可使用iconv命令將一種編碼形式轉(zhuǎn)換成另一種形式。具體的工作中可以創(chuàng)建一個工具箱,在工具箱內(nèi)創(chuàng)建許多文件,這些文件分別實現(xiàn)不同的功能最終可以將原始的語料庫逐步規(guī)范成所需要的序列化的語料庫。下面分別介紹這些文件的功能,其中HtmltoText.awk將輸入的文件utf-8編碼格式的HTML文件轉(zhuǎn)換成為一個特定的格式化的XML文件,在XML文件中可以建立許多標簽分別用來存放網(wǎng)頁上不同類別的信息。比如,中文網(wǎng)頁上導(dǎo)航欄上的信息可以放在XML文件中的標簽中,再者“<>< >‘表示網(wǎng)頁上一個新的段落開始,’<>”表示網(wǎng)頁上一個新的句子開始。具體目標文件內(nèi)容格式如下所示(以網(wǎng)頁作為原始的HTML文件)。

3.2將結(jié)構(gòu)化的文件進一步進行其他形式的轉(zhuǎn)換

Text2XML.awk將上一步生成的XML文件(exple.1)進一步規(guī)范化。在上一個步驟中將網(wǎng)頁上的內(nèi)容分成了許多段落,在這個階段中將每一個段落分離成為多個句子。可在XML文件中繼續(xù)添加一些標簽,如標簽中放置被分離的句子。SplitOrig2Wd.awk可將上一步分離出的句子再進一步分割成每一個中國字符,為了實現(xiàn)這個功能可向這一階段生成的目標文件中增添一系列的標簽如,將每個字加入到這些標簽中。如、等。Stick.awk根據(jù)已創(chuàng)建Lexique-cn.vocab中文詞典文件(這本詞典主要包括2個字的詞匯象中國、美國、經(jīng)濟等之類常用詞匯)將已經(jīng)分割成的中文字符(也就是每一個字)粘貼成詞匯。這一步在執(zhí)行過程中,有一個重要的規(guī)則需要用到,粘貼成一個詞的順序是以每一個字出現(xiàn)在原始句子中的先后順序為前提的。要粘貼成2個字的詞匯,如果一個句子中包含“ABC”,而字典中既有“AB”這個詞,也有“BC”這個詞匯,那么在粘貼成詞匯時,選擇的是前者即“AB”,而不是后者即“BC”。Num2Letter.awk要將上一步所產(chǎn)生的目標文件當(dāng)中的阿拉伯?dāng)?shù)字轉(zhuǎn)換成為中文形式,比如50轉(zhuǎn)換成為伍拾等。Remove.awk鑒于詞匯,一些文字中的標點符號,可以從文檔中移除。

上面所建立的工具包主要應(yīng)用于對中文文本語料庫的規(guī)范化,也可以對工具包進行擴展用于加入其他一些功能或者是對其他的一些語言進行規(guī)范化。可針對其他語言與漢語的不同之處,對程序進行相應(yīng)的修改,很容易就能獲取一個新的模塊用以處理其他語言。目前存在著許多方法處理文本語料庫,但是本文描述的該工具包可獲得一個完整、清潔和統(tǒng)一版本不同語言的文本語料庫。

[1]Brigitte Bigi,Viet-Bac Le.Normalisation et alignement de corpus fran?ais etvietnamiens:Format et Logiciels[J].JADT,2008(9):199-207.

[2]Habert B,F(xiàn)abre C,Issac F.De l'écrit au numérique:constituer,normaliser,exploiter lescorpus électroniques[J].Paris:InterEditions-Masson,1998.

Research and Improvement on the Current Situation of the Standardization of the Existing Text Corpus in China

Sun Wenwen
(Information Science&Technology College,Zhengzhou Normal University,Zhengzhou Henan 450044)

The current domestic for text visualization research still stays in the primary stage,there are many ways to deal with text corpus.With the continuous development of science and technology,network has become more and more popular.We can get a lot of text information from the Internet,this paper focusedon how to obtain the serialization and standardization of the corpus of Chinese to propose a new framework.

corpus;toolkit;text normalization

TP311

A

1003-5168(2016)06-0019-02

2016-05-21

孫溫穩(wěn)(1974-),女,碩士,助理經(jīng)濟師,研究方向:人工智能。

猜你喜歡
規(guī)范化可視化文本
基于CiteSpace的足三里穴研究可視化分析
基于Power BI的油田注水運行動態(tài)分析與可視化展示
云南化工(2021年8期)2021-12-21 06:37:54
基于CGAL和OpenGL的海底地形三維可視化
在808DA上文本顯示的改善
“融評”:黨媒評論的可視化創(chuàng)新
傳媒評論(2019年4期)2019-07-13 05:49:14
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
價格認定的規(guī)范化之路
商周刊(2017年23期)2017-11-24 03:24:09
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學(xué)隱喻
狂犬病Ⅲ級暴露規(guī)范化預(yù)防處置實踐
高血壓病中醫(yī)規(guī)范化管理模式思考
主站蜘蛛池模板: 狠狠综合久久| 人人91人人澡人人妻人人爽| 亚洲综合久久成人AV| 久久久受www免费人成| 99热精品久久| 国产在线视频二区| 国产流白浆视频| 欧美自拍另类欧美综合图区| 国产成人亚洲无吗淙合青草| 九九精品在线观看| 成年人国产网站| 人妻无码一区二区视频| 国产欧美日韩专区发布| 国产91在线|中文| 农村乱人伦一区二区| 午夜精品久久久久久久99热下载 | 波多野结衣一区二区三区AV| 欧美一区二区自偷自拍视频| 熟妇无码人妻| 中文字幕久久波多野结衣 | 国产精品永久不卡免费视频| 亚洲天堂日本| 五月天香蕉视频国产亚| 国产av色站网站| 99精品国产高清一区二区| 8090成人午夜精品| 操国产美女| 国产欧美综合在线观看第七页| 国国产a国产片免费麻豆| 国产精品伦视频观看免费| 1024你懂的国产精品| 制服丝袜在线视频香蕉| 91精品网站| 国产欧美日韩综合在线第一| 久久久精品国产SM调教网站| 无码高潮喷水在线观看| 亚洲精品国产综合99| 日韩无码白| 免费在线不卡视频| 亚洲色精品国产一区二区三区| 免费大黄网站在线观看| 国产成人久久综合777777麻豆| 国产成人艳妇AA视频在线| 国产无人区一区二区三区| 久久久久久尹人网香蕉| 91国内外精品自在线播放| 精品久久久久久中文字幕女| 亚洲精品国产精品乱码不卞| 一区二区三区精品视频在线观看| 精品国产一区91在线| 美女亚洲一区| 久久特级毛片| 国产伦片中文免费观看| 国产精品亚洲一区二区三区z| 亚洲三级电影在线播放| 国产噜噜在线视频观看| 91精品国产一区| 日本尹人综合香蕉在线观看| 人人91人人澡人人妻人人爽| 亚洲中文字幕久久精品无码一区| 色精品视频| 国产毛片久久国产| 久久天天躁狠狠躁夜夜躁| 久久综合伊人 六十路| 日韩精品专区免费无码aⅴ| 精品久久久久久成人AV| 97成人在线视频| 国产福利在线观看精品| 国产精品99在线观看| 国产精品福利尤物youwu| 国产成人精品18| 蜜芽国产尤物av尤物在线看| 2022国产91精品久久久久久| 亚洲男人的天堂在线观看| 亚洲成人动漫在线观看| 精品视频一区在线观看| 色欲不卡无码一区二区| 中国一级特黄视频| 乱色熟女综合一区二区| 欧美色99| 中国黄色一级视频| 在线观看亚洲人成网站|