何婕

摘要:語言節(jié)奏是語言中的重要特征,通過對語言節(jié)奏現(xiàn)象的分析,提出四種語言節(jié)奏:自然節(jié)奏,語法節(jié)奏,邏輯節(jié)奏和情感節(jié)奏。每種語言節(jié)奏都從相關方面反映了語言的特征,對語言特征進行提取達到話題追蹤的目的。本文闡述了各種語言節(jié)奏的提取方法和節(jié)奏特征的提取方法。實驗結果表面,在話題追蹤任務中應用效果良好。
關鍵詞:文本分析;語言節(jié)奏;蹤系統(tǒng)流程
中圖分類號:TP391.1 文獻標識碼:A 文章編號:1007-9416(2017)02-0127-01
現(xiàn)今,網(wǎng)絡中存在有豐富的信息和知識,信息的來源和量已經(jīng)不是人們關心的主要問題了,如何在海量的信息和知識中,快速定位和挖掘到感興趣的內(nèi)容,已然成為當前研究的一個熱點。本文在進行話題追蹤任務時,與以往的分析文本內(nèi)容和結構的方法不同,是從語言中的另外一種特征入手——語言節(jié)奏[1-2]。具體分析了文本語言表達中,存在的各種語言節(jié)奏。闡述了語言節(jié)奏的獲取方法和特征提取方法,提出了基于語言節(jié)奏進行話題追蹤的方法。
1 話題追蹤系統(tǒng)流程
話題追蹤任務的系統(tǒng)流程是,首先將待追蹤話題和待測報道文本進行模型化,然后對二者的模型進行相似度的比較,當兩者的相似度滿足判定閾值要求時,則可以判定待測文本屬于對應的話題[3]。但是話題追蹤任務不同于簡單的相似文檔比較。話題的主題內(nèi)容會隨著時間的發(fā)展而有所變化,因而,如何摒除內(nèi)容相似性比較在話題發(fā)展中的局限性。發(fā)現(xiàn)一定時間范圍內(nèi)同一話題的相關內(nèi)容,是當前研究的難點重點。
2 語言節(jié)奏性
語言節(jié)奏是語言中固有的一種特征,是人們進行語言文字表達相關內(nèi)容時,其中蘊含的有規(guī)律或者無規(guī)律的階段性的變化因素,既要能夠服務于抒發(fā)感情,表現(xiàn)主題,又要鏗鏘流暢,給人以共鳴。不僅語言文學藝術中存在紛繁復雜的語言節(jié)奏,在普通人的日常語言中也存在著語言節(jié)奏,狹義的語言節(jié)奏是指,語言中句子或者音節(jié)停頓的長短,音調(diào)的輕重緩急,起伏跌宕,循環(huán)往復,而產(chǎn)生的似音樂的節(jié)奏美感,多考慮的是語言的韻律[4]。
3 語言節(jié)奏的提取
語言節(jié)奏是文本的重要特征,能夠反映文本的多方面特征。快速科學的從文本中,獲取各種語言節(jié)奏,是亟待解決的重要問題。在此,就如何進行各種語言節(jié)奏的提取進行了系統(tǒng)的討論。
3.1 文字序列
文字序列是語言的文本體現(xiàn),是由文字符號和非文字符號組成的。設任意長度的文字序列是由兩部分內(nèi)容組成的,但含有文字符號(Word)和非文字符號(即標點和段落標記符號統(tǒng)稱為Punctuate),也就是說組成文字序列的符號wa取自兩種符號集合:Word,文字符號集合和Punctuate,非文字符號集合[5]。文字序列是由文字符號和非文字符號交替出現(xiàn)的,在文字序列中挖掘出一定的節(jié)奏特征,從而完成語言節(jié)奏的提取工作。
3.2 語言節(jié)奏獲取
語言節(jié)奏的獲取是對文字序列進行操作的,現(xiàn)以語言自然節(jié)奏的獲取為例闡述語言節(jié)奏的獲取方法。在獲取的過程中,先對文字序列進行掃描,若遇到非文字標記符號時,則構建其自然節(jié)奏單元NRU,并修改當前自然節(jié)奏碼NRC。到文章或者文字序列結束時,完成其自然節(jié)奏碼NRC構建,算法描述如下圖1所示。
因此,語言自然節(jié)奏碼實際上就是由一串數(shù)字以及停頓級別編碼構成的。語言中的其他節(jié)奏:語法節(jié)奏,邏輯節(jié)奏和情感節(jié)奏都是語言表達過程中的重要內(nèi)容。文本序列中的非文字符號,可以將語言中的自然節(jié)奏表達出來。文本中文字符號可以進一步的將語言中其他方面的節(jié)奏信息表達出來。語言中的文字符號中包含有兩種類型的詞類:實詞和虛詞。實詞可以說表達了語言中大部分的語義信息,即語言中實際內(nèi)涵信息是由廣大實詞來表達的。語言中的虛詞是做什么用的呢?通過研究和分析。語言中的虛詞,完成了語言中一大部分的其他方面特征表達[6]。
3.3 語言節(jié)奏特征提取
文本表達的內(nèi)容和情感上存在眾多差異,每一篇文檔的語言節(jié)奏具有一定的唯一性。通過對文本中存在的語言節(jié)奏進行分析,得知語言節(jié)奏是在時間序列上展開的,一篇文章中某一時刻語言節(jié)奏標記或者語言節(jié)奏單元的出現(xiàn),是與之前所有出現(xiàn)過的語言節(jié)奏標記和語言節(jié)奏單元概率相關的。因而,可以將語言節(jié)奏視為一個Markov過程,并進一步提取語言節(jié)奏的特征。由于每一類語言節(jié)奏中的節(jié)奏標記是有限的,所以在語言節(jié)奏Markov的過程中存在的狀態(tài)也是有限的,因此,狀態(tài)轉(zhuǎn)移矩陣的規(guī)模就不會很大,對于文本分析的工作是非常有利的,至此完成了語言節(jié)奏特征的提取過程。
4 結語
通過實驗驗證,語言節(jié)奏的特征分析在文章話題同一性發(fā)現(xiàn)中同樣具有良好的效果。通過將一個時間段的多個話題的多篇文檔,組織在一起,提取語言節(jié)奏并進一步分析語言節(jié)奏特征。對于語言節(jié)奏而言,通過語法節(jié)奏、情感節(jié)奏等綜合特征可以大大提高文章話題同一性的發(fā)現(xiàn),實現(xiàn)不同文章的話題分類。
參考文獻
[1]郭慶琳,李艷梅,唐琦.基于VSM的文本相似度計算的研究[J].計算機應用研究,2008(11):3256-3258.
[2]金博,史彥軍,滕弘飛.基于語義理解的文本相似度算法[J].大連理工大學學報,2005(2):291-297.
[3]楊華,姬東鴻,陳波.基于話題相關的文檔集的無向基本要素網(wǎng)絡的連通性探討[J].中文信息學報,2015(4):103-110.
[4]鄧莎莎.支持決策研討的文本分析方法研究[D].上海交通大學,2013.
[5]陳釩.語言節(jié)奏提取及其在文本分析中的應用[D].天津大學,2011.
[6]陳釩,馮志勇.語言自然節(jié)奏在文本分類中的研究與應用[J].計算機工程與應用,2012(30):28-32.