


摘要:信息論發展的80多年中在通信、計算機、統計等諸多領域取得了廣泛應用;深度學習興起的10多年間在圖像識別、醫學診斷、路線規劃、語音識別等領域取得了巨大成功。最近幾年,深度學習和信息論發展出了新的交叉學科,采用信息論的觀點度量深度學習引發了學術界廣泛關注。本文在總結深度學習和信息論領域之后分析了簡單網絡的互信息,提出星座圖對互信息壓縮的影響。
關鍵詞: 深度學習;信息論;人工智能
中圖分類號:TP393? ? ? 文獻標識碼:A
文章編號:1009-3044(2022)11-0082-02
能夠思考的機器長久以來都是人類的夢想。在中國,相傳遠古時期就有高度智能的七香車可以不要操控自動駕駛,“此車乃軒轅黃帝破蚩尤于北海,遺下此車,若人坐上面,不用推引,欲東則東,欲西則西——乃傳世之寶也。”在國外,希臘神話中記載,皮革馬利翁在雕刻人像時,精力和熱情感動了神靈,人像獲得了生命,能夠思考和認知。
人類一直渴望用信息論[1]來度量機器學習(神經網絡和深度學習[2]) ,1988年,Linsker首次提出“最大化信息量”的原則,并且用幾個簡單的例子進行證明。此后Van der Oord和Hjelm都在無監督學習領域進行了嘗試。Shwartz-Ziv & Tishby,Saxe,Achille & Soatto對于深度學習進行了信息論分析。互信息在可逆映射下光滑不變,具有實際的物理意義和單位--比特,所以學術界一直渴望用互信息來度量機器學習。
1 深度學習發展歷程
最近150年來,機器學習在圖像識別、語音識別、醫學診斷、路線規劃等領域得到了廣泛的應用,尤其是在抽象思維領域,機器學習取得了巨大的成功。最著名的案例當數1997年“深藍”擊敗國際象棋世界冠軍卡斯帕羅夫,然而抽象思維恰恰是計算機的特長,國際象棋具有明確的規則,棋盤共有64個深色與淺色相間的格子,每方十六枚棋子共計三十二枚,而且棋子的走法十分有限。設計國際象棋的算法是基于簡潔的規則描述,非常適合計算機運算。這也是人工智能最大的挑戰,很多問題無法正式描述。
2016年,阿爾法圍棋機器人擊敗多位世界冠軍,圍棋界公認阿爾法機器人已經超過人類的最高水平。圍棋同樣高度抽象,棋盤有361個點位,只有黑色白色兩種棋子,可以簡潔地向計算機描述。圍棋比國際象棋復雜,于是也較晚才獲得成功。阿爾法機器人的工作原理采用深度學習算法,最終版的埃爾法機器人已經徹底放棄了人類棋譜,通過自我博弈逐漸提高。深度學習大約有三個發展階段:第一階段,1940―1960年深度學習被稱作cybernetics,1980―1990年深度學習被稱作connectionism,2006年以來正式命名深度學習。
對于人類來說最為困難的,抽象、嚴格描述的問題對于機器卻極為簡單,計算機雖然早就在棋類上徹底擊敗人類,但是近年才在圖像識別、語音識別上達到人類的一般水平。日常生活中人類形成了大量的主觀和直覺的知識,無法嚴格描述。所以人工智能面臨的巨大挑戰就是如何向機器傳遞主觀、直覺、不嚴格的知識。
然而早期的人工智能并沒有廣泛應用,面臨的最大問題是特征選擇的困難。比如一輛白色的馬在黑夜中看起來是黑色的馬,而且馬的形狀非常依賴于觀察角度。再比如口音會非常影響語音,從原始素材中提取適當的特征非常困難。
深度學習[3]可以很好地解決上述問題。典型的深度學習模型僅僅是輸入映射到輸出的數學函數,看起來無解的問題,比如圖像識別需要處理大量像素。深度學習通過把目標映射分解成多層的簡單映射,引發了學術界高度的關注。深度學習把輸入,比如像素,作為可見層,然后連接了大量的隱藏層,深度學習算法會從可見層中提取有用的信息到隱藏層。比如假設可見層是輸入像素,第一個隱藏層可以對比相鄰的像素來搜索圖像中的“邊”,第二個隱藏層可以搜索“角”,第三個隱藏層可以搜索物體的“部分”,以此類推,可以逐漸識別出物體。
簡單概括,人工智能中一種方法是機器學習,其中近年發展的部分是深度學習。深度學習用層次化的網絡連接起不同的概念,抽象的概念建立在簡單的概念之上,人工智能、機器學習、深度學習之間的關系如圖1所示。
2 信息論發展歷程
信息論主要解決兩類問題,第一類是數據壓縮速率,第二類是數據傳輸速率,所以很多人認為信息論是通信的分支,其實信息論的范圍很廣,對于熱力學、計算機科學、統計學、概率論都有貢獻。典型的量值中,熵是描述隨機變量的最低復雜度,互信息是噪聲通信的最大速率。
1940年左右,人們對蘇通信中的誤碼率存在著較多誤解,當時人們普遍認為增加傳輸速率必然提高誤碼率,降低誤碼率的唯一方式是增大信噪比。Shannon首次提出了信道容量的概念,信道容量只和信道的物理特性有關,通過編碼可以實現信道容量內的任何速率。Shannon進一步提出任何隨機過程,比如語音,都有熵作為本質屬性,也是壓縮的下限。只要熵不超過信道容量,幾乎無差錯的可靠通信可以實現。
隨后擁有理論基礎的信息論得到飛速發展,1950年發現漢明碼,隨后發現Fano碼,Huffman碼。1963年發現卷積的viterbi碼。1973年發現Lempel-Ziv編碼。1982年發現調制編碼技術TCM。1993年發現turbo碼,1998年發現時空編碼。21世紀人們開始重新審視LDPC編碼。隨著人類計算能力的提高,LDPC碼在實際中取得重大應用,接近信息論極值。信息論和多個領域都有交叉。信息論最初就是從電子工程的通信中誕生,通信中廣泛地應用信息論。信息論又進而發展到網絡信息論階段,試圖分析多點通信間的理論問題,雖然仍然缺乏完善的理論。
3 信息論在深度學習中的應用
學術界很早就開始嘗試信息論在深度學習中的應用。互信息具有優越的特性:可逆映射下光滑不變,具有實際的物理意義和單位--比特。但是同時也有巨大的缺陷:解析的計算互信息是幾乎不可能,而從樣本中估計互信息也很困難。
所以學術界普遍采用了分集的方法來簡化計算,尤其在分集較少的情況下,計算效率很高。本文采用的方法是熵估計,用其他分布來逼近目標分布再用蒙特卡洛法數值計算。在2017年Shwartz-Ziv & Tishby提出了信息瓶頸的觀點,認為神經網絡的訓練會引起互信息的壓縮降低。然而,確定性神經網絡中,采用常用函數比如tanh和sigmoid,互信息是常數或者無窮,所以Shwartz-Ziv&Tishby觀察到的波動很有可能是測量誤差。
面對如此嚴峻的困難,可以選擇最簡單的例子進行探索。假設只有一個神經元,輸入為[X=X-?X+={-3,-1,1,3},X-={-3},X+={-1,1,3}],輸出為Y,噪聲為Z。噪聲Z如從高斯分布[Z~N(0,β2)],采用tanh()函數則Y=tanh(wkX+b)+Z,那么網絡中的信息量[I(X,Y)=I(X,tanh(wkX+b)+Z)=I(tanh(wkX+b),tanh(wkX+b)+Z)]正是高斯信道下的傳輸速率,星座點分別為[X-,X+]對應的[tanh(wkX+b)]。星座點之間距離越大則高斯噪聲產生的干擾越小,星座點之間距離越小則高斯噪聲產生的干擾越大。起始狀態w=0,四個星座點完全重疊,然后采用均方誤差和0.02的梯度進行神經網絡的訓練,隨著訓練次數的增加,星座逐漸分開,互信息逐漸增加,在兩千次訓練后互信息達到峰值隨后開始下降,因為星座點開始重合。因而星座圖會影響互信息的壓縮。
4 結論
深度學習和信息論領域發展多年后產生了學科交叉,采用信息論的觀點度量深度學習引發了學術界廣泛關注。本文在總結深度學習和信息論領域之后分析了簡單網絡的互信息,提出星座圖對互信息壓縮的影響。
參考文獻:
[1] (美)ThomasM.Cover,(美)JoyA.Thomas.信息論基礎[M].阮吉壽,張華譯.北京:機械工業出版社,2008.
[2] 邱錫鵬.神經網絡與深度學習[M].北京:機械工業出版社,2020.
[3] 焦李成,楊淑媛,劉芳,等.神經網絡七十年:回顧與展望[J].計算機學報,2016,39(8):1697-1716.
收稿日期:2021-05-30
作者簡介:郭揚(1988—) ,男,江蘇徐州人,講師,碩士,主要研究方向為人工智能、教育學。