999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

語言節(jié)奏在話題追蹤中的研究與應用

2017-04-08 09:18:04何婕
數(shù)字技術與應用 2017年2期

何婕

摘要:語言節(jié)奏是語言中的重要特征,通過對語言節(jié)奏現(xiàn)象的分析,提出四種語言節(jié)奏:自然節(jié)奏,語法節(jié)奏,邏輯節(jié)奏和情感節(jié)奏。每種語言節(jié)奏都從相關方面反映了語言的特征,對語言特征進行提取達到話題追蹤的目的。本文闡述了各種語言節(jié)奏的提取方法和節(jié)奏特征的提取方法。實驗結果表面,在話題追蹤任務中應用效果良好。

關鍵詞:文本分析;語言節(jié)奏;蹤系統(tǒng)流程

中圖分類號:TP391.1 文獻標識碼:A 文章編號:1007-9416(2017)02-0127-01

現(xiàn)今,網(wǎng)絡中存在有豐富的信息和知識,信息的來源和量已經(jīng)不是人們關心的主要問題了,如何在海量的信息和知識中,快速定位和挖掘到感興趣的內(nèi)容,已然成為當前研究的一個熱點。本文在進行話題追蹤任務時,與以往的分析文本內(nèi)容和結構的方法不同,是從語言中的另外一種特征入手——語言節(jié)奏[1-2]。具體分析了文本語言表達中,存在的各種語言節(jié)奏。闡述了語言節(jié)奏的獲取方法和特征提取方法,提出了基于語言節(jié)奏進行話題追蹤的方法。

1 話題追蹤系統(tǒng)流程

話題追蹤任務的系統(tǒng)流程是,首先將待追蹤話題和待測報道文本進行模型化,然后對二者的模型進行相似度的比較,當兩者的相似度滿足判定閾值要求時,則可以判定待測文本屬于對應的話題[3]。但是話題追蹤任務不同于簡單的相似文檔比較。話題的主題內(nèi)容會隨著時間的發(fā)展而有所變化,因而,如何摒除內(nèi)容相似性比較在話題發(fā)展中的局限性。發(fā)現(xiàn)一定時間范圍內(nèi)同一話題的相關內(nèi)容,是當前研究的難點重點。

2 語言節(jié)奏性

語言節(jié)奏是語言中固有的一種特征,是人們進行語言文字表達相關內(nèi)容時,其中蘊含的有規(guī)律或者無規(guī)律的階段性的變化因素,既要能夠服務于抒發(fā)感情,表現(xiàn)主題,又要鏗鏘流暢,給人以共鳴。不僅語言文學藝術中存在紛繁復雜的語言節(jié)奏,在普通人的日常語言中也存在著語言節(jié)奏,狹義的語言節(jié)奏是指,語言中句子或者音節(jié)停頓的長短,音調(diào)的輕重緩急,起伏跌宕,循環(huán)往復,而產(chǎn)生的似音樂的節(jié)奏美感,多考慮的是語言的韻律[4]。

3 語言節(jié)奏的提取

語言節(jié)奏是文本的重要特征,能夠反映文本的多方面特征。快速科學的從文本中,獲取各種語言節(jié)奏,是亟待解決的重要問題。在此,就如何進行各種語言節(jié)奏的提取進行了系統(tǒng)的討論。

3.1 文字序列

文字序列是語言的文本體現(xiàn),是由文字符號和非文字符號組成的。設任意長度的文字序列是由兩部分內(nèi)容組成的,但含有文字符號(Word)和非文字符號(即標點和段落標記符號統(tǒng)稱為Punctuate),也就是說組成文字序列的符號wa取自兩種符號集合:Word,文字符號集合和Punctuate,非文字符號集合[5]。文字序列是由文字符號和非文字符號交替出現(xiàn)的,在文字序列中挖掘出一定的節(jié)奏特征,從而完成語言節(jié)奏的提取工作。

3.2 語言節(jié)奏獲取

語言節(jié)奏的獲取是對文字序列進行操作的,現(xiàn)以語言自然節(jié)奏的獲取為例闡述語言節(jié)奏的獲取方法。在獲取的過程中,先對文字序列進行掃描,若遇到非文字標記符號時,則構建其自然節(jié)奏單元NRU,并修改當前自然節(jié)奏碼NRC。到文章或者文字序列結束時,完成其自然節(jié)奏碼NRC構建,算法描述如下圖1所示。

因此,語言自然節(jié)奏碼實際上就是由一串數(shù)字以及停頓級別編碼構成的。語言中的其他節(jié)奏:語法節(jié)奏,邏輯節(jié)奏和情感節(jié)奏都是語言表達過程中的重要內(nèi)容。文本序列中的非文字符號,可以將語言中的自然節(jié)奏表達出來。文本中文字符號可以進一步的將語言中其他方面的節(jié)奏信息表達出來。語言中的文字符號中包含有兩種類型的詞類:實詞和虛詞。實詞可以說表達了語言中大部分的語義信息,即語言中實際內(nèi)涵信息是由廣大實詞來表達的。語言中的虛詞是做什么用的呢?通過研究和分析。語言中的虛詞,完成了語言中一大部分的其他方面特征表達[6]。

3.3 語言節(jié)奏特征提取

文本表達的內(nèi)容和情感上存在眾多差異,每一篇文檔的語言節(jié)奏具有一定的唯一性。通過對文本中存在的語言節(jié)奏進行分析,得知語言節(jié)奏是在時間序列上展開的,一篇文章中某一時刻語言節(jié)奏標記或者語言節(jié)奏單元的出現(xiàn),是與之前所有出現(xiàn)過的語言節(jié)奏標記和語言節(jié)奏單元概率相關的。因而,可以將語言節(jié)奏視為一個Markov過程,并進一步提取語言節(jié)奏的特征。由于每一類語言節(jié)奏中的節(jié)奏標記是有限的,所以在語言節(jié)奏Markov的過程中存在的狀態(tài)也是有限的,因此,狀態(tài)轉(zhuǎn)移矩陣的規(guī)模就不會很大,對于文本分析的工作是非常有利的,至此完成了語言節(jié)奏特征的提取過程。

4 結語

通過實驗驗證,語言節(jié)奏的特征分析在文章話題同一性發(fā)現(xiàn)中同樣具有良好的效果。通過將一個時間段的多個話題的多篇文檔,組織在一起,提取語言節(jié)奏并進一步分析語言節(jié)奏特征。對于語言節(jié)奏而言,通過語法節(jié)奏、情感節(jié)奏等綜合特征可以大大提高文章話題同一性的發(fā)現(xiàn),實現(xiàn)不同文章的話題分類。

參考文獻

[1]郭慶琳,李艷梅,唐琦.基于VSM的文本相似度計算的研究[J].計算機應用研究,2008(11):3256-3258.

[2]金博,史彥軍,滕弘飛.基于語義理解的文本相似度算法[J].大連理工大學學報,2005(2):291-297.

[3]楊華,姬東鴻,陳波.基于話題相關的文檔集的無向基本要素網(wǎng)絡的連通性探討[J].中文信息學報,2015(4):103-110.

[4]鄧莎莎.支持決策研討的文本分析方法研究[D].上海交通大學,2013.

[5]陳釩.語言節(jié)奏提取及其在文本分析中的應用[D].天津大學,2011.

[6]陳釩,馮志勇.語言自然節(jié)奏在文本分類中的研究與應用[J].計算機工程與應用,2012(30):28-32.

主站蜘蛛池模板: 丁香五月激情图片| 思思热在线视频精品| 国产成人成人一区二区| 欧美亚洲日韩中文| 91精品国产综合久久香蕉922| 热久久国产| 国产农村精品一级毛片视频| 久久国产精品麻豆系列| 91在线无码精品秘九色APP| 毛片卡一卡二| 好吊妞欧美视频免费| 国产精品香蕉在线| 午夜性爽视频男人的天堂| 精品无码一区二区三区电影| 欧美中出一区二区| 亚洲欧洲日韩国产综合在线二区| 亚洲欧美日韩成人高清在线一区| 亚洲人成日本在线观看| 69视频国产| 亚洲三级片在线看| 国产午夜福利片在线观看| 一区二区三区国产| 福利国产微拍广场一区视频在线| 色香蕉网站| 国产精品视频白浆免费视频| 91在线国内在线播放老师| 国产呦视频免费视频在线观看| 91年精品国产福利线观看久久| 免费无码网站| 手机精品视频在线观看免费| 国产欧美日韩视频怡春院| 日韩毛片免费观看| 中文无码影院| 欧美亚洲激情| 天天激情综合| 精品91在线| 免费毛片全部不收费的| 国产亚洲精品在天天在线麻豆 | 毛片久久久| 国产毛片高清一级国语| av一区二区人妻无码| 亚洲成人在线免费| 伊人成色综合网| 青草娱乐极品免费视频| 亚洲人视频在线观看| 亚洲色图另类| 国产精品自在线天天看片| 日本欧美一二三区色视频| 亚洲精品图区| a色毛片免费视频| 美女亚洲一区| 国产高清国内精品福利| 国产成人高清精品免费| 天天色天天综合| 国产后式a一视频| 白丝美女办公室高潮喷水视频| jizz亚洲高清在线观看| 日本a∨在线观看| 无码aaa视频| 国产在线观看91精品亚瑟| 一级全黄毛片| 22sihu国产精品视频影视资讯| 综合五月天网| 国产成人精品高清在线| 四虎成人精品| 亚洲免费播放| 日韩精品一区二区深田咏美| 欧美精品亚洲精品日韩专区va| 国产成人免费| 激情视频综合网| 午夜日本永久乱码免费播放片| 成人福利一区二区视频在线| 在线中文字幕网| 国产99视频在线| 亚州AV秘 一区二区三区| 在线永久免费观看的毛片| 亚洲中文字幕无码爆乳| 免费福利视频网站| 国产精品3p视频| 国内精品九九久久久精品| 国产啪在线91| 在线观看av永久|