深度學習的能與不能

2017-09-07 06:17:59于劍

中興通訊技術 2017年4期

于劍

摘要：深度學習技術的應用日漸廣泛，在語音、圖像、文本處理、搜索引擎、廣告推薦等領域都取得了巨大的成功。認為深度學習自身具有盲點，無法解決全部的機器學習問題，并指出了深度學習的優缺點，為深度學習的使用者提供了一定的理論指導。最后，還展望了深度學習的未來發展趨勢。

關鍵詞：深度學習；傻瓜型學習算法；專家型學習算法；白箱算法；黑箱算法；相關性；因果性

機器學習作為單獨的研究方向，應該說是在20世紀80年代第1屆國際機器學習大會（ICML）召開之后才有的事情。機器學習存在很多不同的定義，常用的有3個：第1個常用的機器學習定義是“計算機系統能夠利用經驗提高自身的性能”[1]，第2個常見定義是“學習就是一個基于經驗數據的函數估計問題”[2]，第3個常見的機器學習定義是 “提取重要模式、趨勢，并理解數據，即從數據中學習”[3]。這3個常見定義各有側重：第1個聚焦學習效果，第2個亮點是給出了可操作的學習定義，第3個突出了學習任務的分類。

雖然機器學習的定義晚至20世紀才出現，但是廣義上來說，機器學習任務，或者說學習任務，在人類出現伊始就已有之。在日常生活中，人們每天都面臨如何從自己采集的數據中提取知識進行使用的問題。比如：大的方面，需要觀察環境的變化來學習如何制定政策使得地球可持續發展；小的方面，需要根據生活的經驗買到一個可口的柚子或者西瓜，選擇一個靠譜的理發師等。在計算機出現以前，數據采集都是人直接感知或者操作的，采集到的數據量較小，人可以直接從數據中提取知識，并不需要機器學習。如：對于回歸問題，高斯在19世紀早期（1809）就發表了最小二乘法；對于數據降維問題，卡爾皮爾遜在1901年就發明了主成分分析（PCA）；對于聚類問題，K-means 算法最早也可追蹤到1953年[4]。但是這些算法和問題被歸入機器學習，也只有在機器收集數據能力越來越成熟，導致人類直接從數據中提取知識成為不可能之后才變得沒有異議。

在過去的30年間，機器學習從處理僅包含上百個樣本數據的玩具問題起步，一直發展到今天，已經成為了從科學研究到商業應用的標準數據分析工具，機器學習的研究熱點也幾經變遷。

1 機器學習發展簡史

機器學習最早的目標是從數據中發現可以解釋的知識，在追求算法性能的同時，強調算法的解釋性。早期的線性感知器、決策樹和最近鄰等算法可以說是這方面的典型代表作。但是，1969年Minsky 指出線性感知器算法不能解決異或問題[5]。由于現實世界的問題大多是非線性問題，而異或問題又可以說是非線性問題中最簡單的問題，由此可以推斷線性感知器算法的實際用處不大。這對于以線性感知器算法為代表的神經網絡研究而言可以說是致命一擊，直接導致了神經網絡甚至人工智能的第1個冬天。感知器算法的發明人、神經網絡先驅Rosenblatt 于1971年因故去世，則更加增添了這個冬天的寒意。

需要指出的是，很多實際應用并不要求算法具有可解釋性，比如：機器翻譯、天氣預報、打卦算命等。在這種需求下，如果1個算法的泛化性能能夠超過其他同類算法，即使該算法缺少解釋性，則該算法依然是優秀的學習算法。20世紀80年代神經網絡的復蘇，其基本思路即為放棄解釋性，一心提高算法的泛化性能。神經網絡放棄解釋性的最重要標志是其激活函數不再使用線性函數，而是典型的非線性函數，如Sigmoid函數和雙曲函數等，其優點是表示能力大幅提高，但相應的復雜性也極度增長。眾所周知，解釋性能好的學習算法，其泛化性能也要滿足實際需求，如果其泛化性能不佳，即使解釋性好，人們也不會選用。在20世紀80年代，3層神經網絡的性能超過了當時的分類算法，如：決策樹、最近鄰等，雖然其解釋性不佳，神經網絡依然成為當時最流行的機器學習模型。在神經網絡放棄解釋性之后，其對于算法設計者的知識儲備要求也放到了最低，因此神經網絡在20世紀80年代吸引了大批的研究者。

當然，也有很多實際應用要求算法具有可解釋性，如因果關系發現、控制等。應該說，同時追求解釋性和泛化性能一直是非神經網絡機器學習研究者設計學習算法的基本約束。一旦某算法既具有很好的解釋性，其性能又超過神經網絡，神經網絡研究就將面臨極大的困境，這樣的事情在歷史上也曾真實地發生過。1995年Vapnik提出了支持向量機分類算法，該算法解釋性好，其分類性能也超過了當時常見的3層神經網絡，尤其需要指出的是，其理論的分類錯誤率可以通過Valiant的概率近似正確（PAC）理論來估計。這導致了神經網絡研究的10年沉寂，有人也將其稱為人工智能的第2次冬天。在這期間，大批原先的神經網絡研究者紛紛轉向離開，只有少數人堅持研究神經網絡。這個時間段對于機器學習來說，顯然不是冬季。在這10年間，人們提出了概率圖理論、核方法、流形學習、稀疏學習、排序學習等多種機器學習新方向。特別是在20世紀末和21世紀初，由于在搜索引擎、字符識別等應用領域取得的巨大進展，機器學習的影響力日益興旺。其標志事件有：1997年Tom Mitchell 機器學習經典教科書的出現，2010年和2011年連續兩年圖靈獎頒發給了機器學習的研究者Valiant 和Pearl。

“三十年河東，三十年河西”。2006年以后，神經網絡突破了3層網絡結構限制，即所謂的深度學習，大幅提高了模型的表示能力，又適逢大數據時代相伴而生的高計算能力，神經網絡化身為深度學習，再次將分類能力提高到同時代其他模型無法匹敵的程度，有人將其稱為人工智能的第3次春天。在機器學習的許多應用領域，深度學習甚至成為機器學習的代名詞。雖然如此，時至今日，深度學習仍然只是機器學習的分支，無論其沉寂或者過熱，都不可能逆轉，而只能加速全部機器學習本身應用越來越普及，理論越來越深入的發展趨勢。

2 深度學習的適應范圍

理論上，神經網絡深度越大，其表示能力越高，但是深度學習對于計算能力和訓練數據的規模提出了極高的要求。2008年以前，計算機的計算能力和訓練數據規模不具備大規模進行深度學習研究的條件。隨著云計算、大數據的普及，具備了研究深度學習的外在技術條件。在2010年以后，人們通過采用新的激勵函數，如ReLU，以及Dropout[6]，Batch Normalization[7] 等新訓練方式，還有特別設計的新網絡結構Deep Residual Networks[8]等，逐漸克服了梯度消失或者發散問題，研究深度學習的內在技術條件也日漸成熟。這使得化名為深度學習的神經網絡研究進入了另1個春天。

雖然如此，深度學習在理論上并沒有突破以往神經網絡的理論架構。所有對于經典神經網絡的理論分析對于深度學習也依然成立。1986年，Rumelhart 等人提出了自編碼器，該模型可以用來對高維數據進行降維[9]。2006年，Hinton 等人在Science上發表了1篇文章，該文章通過改進的自編碼器學習算法構建了1種深層自編碼器[10]，自此深度學習的影響力日漸增大。常見的幾種典型的深度學習網絡包括：自編碼器、卷積神經網絡、循環神經網絡、長短時記憶網絡等。

感知器算法可能是最早的神經網絡算法，該算法顯然屬于典型的白箱算法，但是其表示能力有限，連異或問題也解決不了。為了解決異或問題，主流的神經網絡技術放棄了解釋性，在黑箱算法的道路上越走越遠。實際上，機器學習算法對于普通人來說，可粗分為兩類：一類是傻瓜型學習算法，即只要輸入一定，任何人都可得到同樣的結果，如主成分分析等算法；另一類是專家型學習算法，即使輸入相同，不同人由于參數設置不同，也會得到大不相同的結果。顯然，神經網絡學習算法是典型的專家型學習算法。

總而言之，機器學習有兩個基本任務。一是試圖發現輸入和輸出之間的因果關系，其主要功用是解釋，最終目的是控制，即一旦發生問題，必須找出問題發生的原因，這樣就可以通過控制學習算法輸入使得輸出滿足需要。解決此類任務的學習算法是白箱算法，要求解釋能力強。二是力圖發現輸入輸出的相關關系，其主要功用是預測，最終目的是驗證，即一旦做出判斷，就可以根據外界反應判斷預測是否準確，但是出現錯誤之后，并不要求根據輸入來追蹤錯誤發生的原因。解決此類任務的典型學習算法是黑箱算法，并不需要解釋能力。

真實現實生活中這兩類任務都是存在的。第1類任務，如各種高風險任務，包括無人駕駛（火車、飛機、汽車等）、醫療手術等，一旦發生錯誤，由于成本巨大，必須能夠分析出發生錯誤的原因，以避免類似錯誤再次發生。完成這類任務，不但需要提高完成任務的性能，更重要的是能夠發現輸入與輸出之間的因果關系，一旦發生錯誤，能追蹤學習算法發生錯誤的原因，顯然適宜解決此類問題的學習算法是白箱算法。第2類任務，如各種低風險甚至無風險性任務，包括搜素引擎、各種棋牌游戲等，顯然這類任務即使發生錯誤，后果也不嚴重，成本可以承擔，因此更重要的是提高其性能，特別是預測能力，而并不要求算法去解釋這些錯誤為什么會發生。

顯然，對于一個具體的學習任務，一旦白箱算法的性能超過黑箱算法，黑箱算法就再也不會是完成此類任務的優先考慮對象。但是，許多學習任務，由于具有極高的復雜性，難以設計1個性能滿足需要的白箱算法，黑箱算法由于放棄了解釋能力的約束而可能在性能上有較大優勢。如今深度學習的表示能力已經十分強大，2015年卷積神經網絡已經達到152層[8]，2016年卷積神經網絡達到了1 207層，迄今為止沒有任何一個白箱算法的表示能力可以與現今的深度學習相媲美。故可以預測，深度學習在不需要發現因果關系的學習任務上在可見的未來不再有被替代的可能。

另外需要指出的是，相關性的挖掘是目前大數據面臨的典型任務。甚至有人認為，在大數據時代，數據相關性的重要程度遠超數據因果性。由此可知，相關性任務在大數據時代應用廣泛。當前深度學習的快速發展和應用領域的日漸擴大，從側面證實了這一點。當然，這并不意味著不需要研究數據因果性，更不意味著數據因果性的消失。

3 結束語

深度學習不僅是目前熱度最高的人工智能研究方向，也是工業應用最廣泛的學習范式。在未來，隨著深度學習與特定相關性學習任務的耦合程度越來越高，可以想像深度學習會有更多的變型出現。但是解釋性的學習算法無論在工業界還是學術界同樣也不會被放棄。

參考文獻

[1] MITCHELL T. Machine Learning[M]. New York： MaGraw Hill， 1997

[2] VAPNIK V N. The Nature of Statistical Learning Theory[M]. New York： Springer， 1995

[3] HASTIE T， TIBSHIRINI R， FRIEDMAN J H. The Elements of Statistical Learning[M]. New York： Springer， 2003

[4] THORNDIKE R L. Who Belongs in the Family[J]. Psychometrika， 1953，18（4）：267-276

[5] MINSKY M， PAPERT S. Perceptons[M]. MA： The MIT Press， 1969

[6] HINTON G E， SRIVASTAVA N， KRIZHEVSKY A， et al. Improving Neural Networks by Preventing Co-Adaptation of Feature Detectors[J]. Computer Science， 2012， 3（4）： 212-223

[7] IOFFE S， SZEGEDY C. Batch Normalization： Accelerating Deep Network Training by Reducing Internal Covariate Shift[C]// Proceedings of the 32 nd International Conference on Machine Learning， 2015

[8] HE K， ZHANG X， REN S， et al. Deep Residual Learning for Image Recognition[C]// IEEE Conference on Computer Vision and Pattern Recognition. USA：IEEE， 2016：770-778. DOI： 10.1109/CVPR.2016.90

[9] RUMELHART D E， HINTON G E， WILLIAMS R J. Learning Internal Representations by Error Propagation[M]. Neurocomputing： Foundations of Research. MA：MIT Press， 1988：318-362

[10] HINTON G E， SALAHUTDINOV R R. Reducing the Dimensionality of the Data with Neural Networks[J]. Science， 2006， 313（9）： 504-507. DOI：10.1126/science.1127647