數(shù)學(xué)之美與熵在語言處理中的作用

2016-03-04 02:18:33吳偉豪

新教育時(shí)代電子雜志(學(xué)生版) 2016年14期

關(guān)鍵詞：語言數(shù)學(xué)信息

吳偉豪

（中央民族大學(xué) 100081）

數(shù)學(xué)之美與熵在語言處理中的作用

吳偉豪

（中央民族大學(xué) 100081）

數(shù)學(xué)是解決信息檢索和自然語言處理的最好工具。它能非常清晰地描述這些領(lǐng)域的實(shí)際問題并且給出漂亮的解決辦法。每當(dāng)人們應(yīng)用數(shù)學(xué)工具解決一個(gè)語言問題時(shí)，總會(huì)感嘆數(shù)學(xué)之美。簡單的數(shù)學(xué)模型能解決復(fù)雜的語音識(shí)別、機(jī)器翻譯等問題，它把一些復(fù)雜的問題變得如此的簡單。經(jīng)過模型的建立，復(fù)雜的語音識(shí)別問題居然能如此簡單地被表述、解決，我們不得不由衷地感嘆數(shù)學(xué)模型之妙。

數(shù)學(xué)之美語言處理熵

展現(xiàn)合理之美的黃金分割，彰顯對(duì)稱和諧之美的二次曲線，體現(xiàn)代數(shù)簡潔之美的各種猜想定理，凸顯優(yōu)雅之美的幾何立體圖形。這些無一不使得這個(gè)世界更加自然或者更為便捷。

不管索引如何復(fù)雜，查找的基本操作仍然是布爾運(yùn)算。布爾運(yùn)算把邏輯和數(shù)學(xué)聯(lián)系起來了。它的最大好處是容易實(shí)現(xiàn)，速度快，這對(duì)于海量的信息查找是至關(guān)重要的。它的不足是只能給出是與否的判斷，而不能給出量化的度量。[1]

直到信息熵的出現(xiàn)才解決了對(duì)信息的量化度量問題。一條信息的信息量大小和它的不確定性有直接的關(guān)系。變量的不確定性越大，熵也就越大，把它搞清楚所需要的信息量也就越大。因此，所有搜索引擎在內(nèi)部檢索完畢后，都要對(duì)符合要求的網(wǎng)頁根據(jù)相關(guān)性排序，然后才返回給用戶。

我們?cè)絹碓揭庾R(shí)到了在信息時(shí)代之中，信息對(duì)于我們?nèi)粘Ｉ畹挠绊憽o可否認(rèn)，我們的生活早已無法離開信息了，方方面面都與之有著密切的聯(lián)系。從馬爾可夫模型在語言處理中的應(yīng)用，到怎么度量信息；從統(tǒng)計(jì)數(shù)據(jù)模型，再到信息論在信息處理中的應(yīng)用；從信息指紋及其應(yīng)用，再到布爾代數(shù)和搜索引擎的索引。[2]

數(shù)學(xué)早已經(jīng)根植在信息領(lǐng)域之中，并且密不可分了。

以現(xiàn)在比較常見的信息與計(jì)算科學(xué)專業(yè)來說，該專業(yè)是以信息領(lǐng)域?yàn)楸尘埃瑪?shù)學(xué)與計(jì)算機(jī)信息管理相結(jié)合的交叉學(xué)科專業(yè)。因此該專業(yè)不僅要求有一部分的計(jì)算機(jī)尤其是編程的素養(yǎng)，同時(shí)也對(duì)學(xué)習(xí)者的對(duì)于信息的辨識(shí)處理能力有比較高的要求，這也正是現(xiàn)在這個(gè)時(shí)代的趨勢(shì)所向。

對(duì)于數(shù)學(xué)而言，最基礎(chǔ)的是理解，最好的是領(lǐng)悟，最難的是運(yùn)用吧。數(shù)學(xué)作為一門工具性應(yīng)用性極強(qiáng)的學(xué)科，早已發(fā)展數(shù)千年，從結(jié)繩計(jì)數(shù)至今，信息傳播途徑也有翻天覆地的變化。

我們?cè)诿總€(gè)地方都能感覺到信息撲面而來，這種大的趨勢(shì)也無法阻擋。既然如此，我們只有提升自己，在以后的生活之中，多注意身邊的事物，弄清楚他們?cè)诟顚哟芜\(yùn)用的是什么，我們能在這些地方用上什么。在之前我也從未想過，甚至在Google搜索引擎方方面面上，數(shù)學(xué)也能被運(yùn)用得如此之多。數(shù)學(xué)之美，美在巧妙運(yùn)用信息，使我們的生活更簡單。

接下來則是數(shù)學(xué)之美中的一個(gè)典型例子，熵在語言處理之中的作用。而究竟什么是語言處理中的“熵”呢？不同于我們?cè)诨瘜W(xué)這門學(xué)科中接觸的熵，化學(xué)中的熵是體系的混亂的程度的定義，形象來說就是混亂度。而我們現(xiàn)在所要講述的則是日趨繁復(fù)的現(xiàn)象，我們稱之為語言的“熵”。為了能夠更好地表情達(dá)意，人們不斷創(chuàng)造新的語言成分，語言從簡單粗陋走向豐富精密，這就是語言處理中的“熵”。

從信息論的角度來看，用自然語言交際的過程，就是從語言的發(fā)送者通過通訊媒介傳輸?shù)秸Z言的接收者的過程。當(dāng)接收者一旦接收到語言符號(hào)之后，這種不確定度便被消除，這時(shí)，語言的接收者就從所接收到的語言符號(hào)中獲得了一定量的信息，不確定消除的程度越大，獲得的信息也就越多，獲得的信息就越多。所以說得到的信息量恰好等于被消除的熵，也就可以通過測出語言符號(hào)的熵來了解到該語言符文所負(fù)荷的信息里的多少。

我們發(fā)現(xiàn)，熵在語言處理之中不僅可以通過這些特性來描述語言的復(fù)雜程度，還能進(jìn)行漢語消歧，識(shí)別漢語中的人名地名，建立統(tǒng)計(jì)語言模型，對(duì)漢語句子進(jìn)行分析，識(shí)別漢語中的隱喻現(xiàn)象等各項(xiàng)實(shí)用簡便的處理。

我們同時(shí)也了解到，現(xiàn)在運(yùn)用最普遍的方法是建立與已知事實(shí)一致的模型，對(duì)未知因素不作任何假設(shè)的最大熵方法。在1992年，最大熵方法首次被運(yùn)用于自然語言處理。后來于1996年，貝格等人提出了解決條件最大熵方法的兩個(gè)基本任務(wù)，特征選擇和模型選擇的基本算法。隨后最大熵模型被運(yùn)用于語言模型，這種語言模型開始可以對(duì)長距離依存關(guān)系進(jìn)行考慮。也因?yàn)檫@種方法可以盡可能地保持均勻分布，更方便地引入有用的特征。令我驚訝的是，單單一個(gè)熵的概念便能引出這么多的應(yīng)用。

聯(lián)系前文，從Google搜索引擎說起。在進(jìn)行搜素引擎開發(fā)時(shí)，如何智能地識(shí)別使用者的意思顯得尤為重要。例如，不同的詞可以表達(dá)相同的意思，同一個(gè)詞也可以表達(dá)為多個(gè)意思，對(duì)一個(gè)概念的描述也可以有多個(gè)角度，同一個(gè)詞在不同領(lǐng)域也會(huì)有不同的意思。此時(shí)熵的作用就凸顯了出來，對(duì)用戶所鍵入的語言文字進(jìn)行處理。根據(jù)最大熵方法和信息源的熵，對(duì)鍵入的文字進(jìn)行劃分、識(shí)別、消歧、消除等多項(xiàng)操作進(jìn)行不確定性的消除。當(dāng)然信息檢索也包括去除停止詞、取詞根、詞性標(biāo)注、句法分析、命名實(shí)體識(shí)別、指代消解這些具體層面的自然語言處理方法技術(shù)

信息系統(tǒng)的運(yùn)動(dòng)過程是由無序性、不確定性（高熵值）向有序性、確定性（低熵值）方向發(fā)展的。因此，信息在系統(tǒng)運(yùn)動(dòng)過程中，可以看作是負(fù)熵，是消除系統(tǒng)混亂，從而達(dá)到信息有序的量。信息熵越大，無序性和不確定性就越大，包含的信息量也越多，而信息熵的大小又與隨機(jī)事件發(fā)生的概率成反比。而與信源的熵成反比的冗余度”是對(duì)信息的確定性、有序性和可預(yù)見程度的計(jì)量，信源的熵值越高，冗余度越小，反之，信源熵值越小，冗余度越大。因此如果冗余度過大，將會(huì)增多不確定性，同時(shí)也會(huì)使得人工智能等接收端出錯(cuò)概率大幅多增加。這同時(shí)也提醒著我們?cè)谌粘Ｉ钣绕涫菍?duì)事物進(jìn)行說明時(shí)，要減少冗余度，最終達(dá)成熵減的目的。

在語言處理之中，為了得出我們所需要的字段，接收端對(duì)文字進(jìn)行的處理，一步步減少語言文字中的熵，將不確定性消除到最低程度。故此借助最大熵及其改進(jìn)方法進(jìn)行盡可能多的優(yōu)化就顯得尤為必要，對(duì)熵的運(yùn)用也將越來越多。不過，值得一提的是，對(duì)于熵的運(yùn)用還是有待進(jìn)一步從速度性能的層面進(jìn)行提高，當(dāng)今我們?nèi)匀皇芟抻诖恕Ｈ绻軌虼蚱七@個(gè)束縛，“熵”在語言處理方面也將會(huì)有更為廣泛的應(yīng)用前景。

[1]馬奎香. 數(shù)學(xué)之美[J]. 科技視界,2012,(30):151+153.

[2]李嫦虹. 感受數(shù)學(xué)之美[J]. 衡水學(xué)院學(xué)報(bào),2010,(04):73-75.