吳偉豪
(中央民族大學 100081)
數學之美與熵在語言處理中的作用
吳偉豪
(中央民族大學 100081)
數學是解決信息檢索和自然語言處理的最好工具。它能非常清晰地描述這些領域的實際問題并且給出漂亮的解決辦法。每當人們應用數學工具解決一個語言問題時,總會感嘆數學之美。簡單的數學模型能解決復雜的語音識別、機器翻譯等問題,它把一些復雜的問題變得如此的簡單。經過模型的建立,復雜的語音識別問題居然能如此簡單地被表述、解決,我們不得不由衷地感嘆數學模型之妙。
數學之美 語言處理 熵
展現合理之美的黃金分割,彰顯對稱和諧之美的二次曲線,體現代數簡潔之美的各種猜想定理,凸顯優雅之美的幾何立體圖形。這些無一不使得這個世界更加自然或者更為便捷。
不管索引如何復雜,查找的基本操作仍然是布爾運算。布爾運算把邏輯和數學聯系起來了。它的最大好處是容易實現,速度快,這對于海量的信息查找是至關重要的。它的不足是只能給出是與否的判斷,而不能給出量化的度量。[1]
直到信息熵的出現才解決了對信息的量化度量問題。一條信息的信息量大小和它的不確定性有直接的關系。變量的不確定性越大,熵也就越大,把它搞清楚所需要的信息量也就越大。因此,所有搜索引擎在內部檢索完畢后,都要對符合要求的網頁根據相關性排序,然后才返回給用戶。
我們越來越意識到了在信息時代之中,信息對于我們日常生活的影響。無可否認,我們的生活早已無法離開信息了,方方面面都與之有著密切的聯系。從馬爾可夫模型在語言處理中的應用,到怎么度量信息;從統計數據模型,再到信息論在信息處理中的應用;從信息指紋及其應用,再到布爾代數和搜索引擎的索引。[2]
數學早已經根植在信息領域之中,并且密不可分了。
以現在比較常見的信息與計算科學專業來說,該專業是以信息領域為背景,數學與計算機信息管理相結合的交叉學科專業。因此該專業不僅要求有一部分的計算機尤其是編程的素養,同時也對學習者的對于信息的辨識處理能力有比較高的要求,這也正是現在這個時代的趨勢所向。
對于數學而言,最基礎的是理解,最好的是領悟,最難的是運用吧。數學作為一門工具性應用性極強的學科,早已發展數千年,從結繩計數至今,信息傳播途徑也有翻天覆地的變化。
我們在每個地方都能感覺到信息撲面而來,這種大的趨勢也無法阻擋。既然如此,我們只有提升自己,在以后的生活之中,多注意身邊的事物,弄清楚他們在更深層次運用的是什么,我們能在這些地方用上什么。在之前我也從未想過,甚至在Google搜索引擎方方面面上,數學也能被運用得如此之多。數學之美,美在巧妙運用信息,使我們的生活更簡單。
接下來則是數學之美中的一個典型例子,熵在語言處理之中的作用。而究竟什么是語言處理中的“熵”呢?不同于我們在化學這門學科中接觸的熵,化學中的熵是體系的混亂的程度的定義,形象來說就是混亂度。而我們現在所要講述的則是日趨繁復的現象,我們稱之為語言的“熵”。為了能夠更好地表情達意, 人們不斷創造新的語言成分, 語言從簡單粗陋走向豐富精密, 這就是語言處理中的“熵”。
從信息論的角度來看, 用自然語言交際的過程, 就是從語言的發送者通過通訊媒介傳輸到語言的接收者的過程。當接收者一旦接收到語言符號之后, 這種不確定度便被消除,這時,語言的接收者就從所接收到的語言符號中獲得了一定量的信息,不確定消除的程度越大,獲得的信息也就越多,獲得的信息就越多。所以說得到的信息量恰好等于被消除的熵,也就可以通過測出語言符號的熵來了解到該語言符文所負荷的信息里的多少。
我們發現,熵在語言處理之中不僅可以通過這些特性來描述語言的復雜程度,還能進行漢語消歧,識別漢語中的人名地名,建立統計語言模型,對漢語句子進行分析,識別漢語中的隱喻現象等各項實用簡便的處理。
我們同時也了解到,現在運用最普遍的方法是建立與已知事實一致的模型,對未知因素不作任何假設的最大熵方法。在1992年,最大熵方法首次被運用于自然語言處理。后來于1996年,貝格等人提出了解決條件最大熵方法的兩個基本任務,特征選擇和模型選擇的基本算法。隨后最大熵模型被運用于語言模型,這種語言模型開始可以對長距離依存關系進行考慮。也因為這種方法可以盡可能地保持均勻分布,更方便地引入有用的特征。令我驚訝的是,單單一個熵的概念便能引出這么多的應用。
聯系前文,從Google搜索引擎說起。在進行搜素引擎開發時,如何智能地識別使用者的意思顯得尤為重要。例如,不同的詞可以表達相同的意思,同一個詞也可以表達為多個意思,對一個概念的描述也可以有多個角度,同一個詞在不同領域也會有不同的意思。此時熵的作用就凸顯了出來,對用戶所鍵入的語言文字進行處理。根據最大熵方法和信息源的熵,對鍵入的文字進行劃分、識別、消歧、消除等多項操作進行不確定性的消除。當然信息檢索也包括去除停止詞、取詞根、詞性標注、句法分析、命名實體識別、指代消解這些具體層面的自然語言處理方法技術
信息系統的運動過程是由無序性、不確定性(高熵值)向有序性、確定性(低熵值)方向發展的。因此, 信息在系統運動過程中,可以看作是負熵, 是消除系統混亂, 從而達到信息有序的量。信息熵越大, 無序性和不確定性就越大, 包含的信息量也越多, 而信息熵的大小又與隨機事件發生的概率成反比。而與信源的熵成反比的冗余度”是對信息的確定性、有序性和可預見程度的計量,信源的熵值越高, 冗余度越小, 反之, 信源熵值越小, 冗余度越大。因此如果冗余度過大,將會增多不確定性,同時也會使得人工智能等接收端出錯概率大幅多增加。這同時也提醒著我們在日常生活尤其是對事物進行說明時,要減少冗余度,最終達成熵減的目的。
在語言處理之中,為了得出我們所需要的字段,接收端對文字進行的處理,一步步減少語言文字中的熵,將不確定性消除到最低程度。故此借助最大熵及其改進方法進行盡可能多的優化就顯得尤為必要,對熵的運用也將越來越多。不過,值得一提的是,對于熵的運用還是有待進一步從速度性能的層面進行提高,當今我們仍然受限于此。如果能夠打破這個束縛,“熵”在語言處理方面也將會有更為廣泛的應用前景。
[1]馬奎香. 數學之美[J]. 科技視界,2012,(30):151+153.
[2]李嫦虹. 感受數學之美[J]. 衡水學院學報,2010,(04):73-75.