李敏
摘 要:人工智能是20世紀三大科學技術成就之一,數學是其關鍵的理論基礎,使其成為了一門規范的科學。以人工智能的萌芽期、誕生期、發展期為視角,介紹了人工智能典型數學基礎——布爾邏輯、概率論、可計算理論、模糊集理論、粗糙集理論、混沌與分形、核函數和主曲線、云模型、貝葉斯網等的發展簡史,并對人工智能的數學基礎發展趨勢做了展望。
關鍵詞:人工智能;概率論;可計算理論;不確定性推理
中圖分類號:TP39;TM74 文獻標識碼:A 文章編號:2095-1302(2017)07-00-04
0 引 言
人工智能、空間技術和原子能技術被稱為20世紀的三大科學技術成就,人工智能的研究開展是智能機器人技術、信息技術、自動化技術以及探索人類自身智能奧秘的需要[1]。科學界有一個共識,即智能化是管理、自動化、計算機以及通信等技術領域的新方法、新技術、新產品的重要發展方向。人工智能是由數學、哲學、心理學、神經生理學、語言學、信息論、控制論、計算機科學等多學科相互滲透而發展起來的綜合性新學科[2]。數學使人工智能成為一門規范的科學,是人工智能發展必不可少的基礎,在人工智能的各個發展階段都起著關鍵的作用。目前,關于人工智能數學發展史的研究綜述還很少。本文以人工智能發展的三個階段——萌芽期、誕生期、發展期為視角,介紹了人工智能的數學基礎發展史,并對其數學基礎的發展趨勢進行了展望。
1 人工智能萌芽期的數學基礎
1956年以前被稱為人工智能的萌芽期,在這個期間,布爾邏輯、概率論、可計算理論取得了長足的發展。布爾邏輯是英國數學家George Boole于19世紀中葉提出,典型的一元算符叫做邏輯非(NOT),基本的二元算符為邏輯或(OR)和邏輯與(AND),衍生的二元算符為邏輯異或(XOR)[3]。在Boole邏輯的基礎上,Frege發展出了一階邏輯,研究了命題及由這些命題和量詞、連接詞組成的更復雜的命題之間的推理關系與推理規則[4],從而出現了謂詞演算。這就奠定了人工智能抽取合理結論的形式化規則——命題邏輯和一階謂詞邏輯。
人工智能要解決各種不確定問題如天氣預測、經濟形勢預測、自然語言理解等,這需要數學為其提供不確定推理的基礎,概率理論則是實現不確定推理的數學基礎。概率理論源于17世紀,有數百年的發展。瑞士數學家Jacob Bernoulli證明了伯努力大數定理,從理論上支持了頻率的穩定性;P.S.Laplace和J.W.Lindeberg證明了中心極限定理;20世紀初,俄國數學家A.N.Kolmogrov逐步建立了概率的公理化體系;K.Pearson將標準差、正態曲線、平均變差、均方根誤差等統計方法用于生物統計研究,為概率論在自然科學中的應用做出了卓越的貢獻;R.Brown發現了布朗運動,維納提出了布朗運動的數學模型,奠定了隨機過程的基礎;A.K.Erlang提出了泊松過程,成為排隊論的開創者[5]。概率論、隨機過程、數理統計構成了概率理論,為人工智能處理各種不確定問題奠定了基礎。
支持向量機是人工智能的主要分類方法之一,其數學基礎為核函數。1909年,英國學者James Mercer用Mercer定理證明了核函數的存在[6]。可計算理論是人工智能的重要理論基礎和工具,建立于20世紀30年代。為了回答是否存在不可判定的問題,數理邏輯學家提出了關于算法的定義(把一般數學推理形式化為邏輯演繹)??梢员挥嬎悖褪且业揭粋€解決問題的算法[7]。1900年,David Hilber提出了著名的“23個問題”,其最后一個問題:是否存在一個算法可以判定任何涉及自然數的邏輯命題的真實性。1931, Kurt Godel證明了這一問題,確實存在真實的局限——整數的某些函數無法用算法表示,即不可計算。在不可計算性以外,如果解決一個問題需要的計算時間隨著實例規模呈指數級增長,則該問題被稱為不可操作的,對這個問題的研究產生了計算復雜性。計算復雜性是討論P=NP的問題,這個問題到現在都是計算機科學中最大的未解決問題之一[8]。關于P與NP問題有很多定義,較為典型的一種定義是在確定圖靈機(人工智能之父——英國數學家圖靈1937年提出的一種機器計算模型,包括存儲器、表示語言、掃描、計算意向和執行下一步計算)上能用多項式求解的問題是P問題,在非確定圖靈機上能用多項式求解的問題是NP問題[9]??捎嬎阈院陀嬎銖碗s性為人工智能判斷問題求解可能性奠定了數學基礎。
2 人工智能誕生期的數學基礎
1956年,麥卡錫、明斯基、香農和羅切斯特等學者召開了達特莫斯會議,該會議集聚了數學、心理學、神經生理學、信息論和電腦科學等研究領域的年輕精英。該會議歷時兩個月,學者們在充分討論的基礎上,首次將人工智能作為一門新學科提出來。1956年至1961年被稱為人工智能的誕生期?;煦缡侨斯ぶ悄懿淮_定推理的新的數學理論基礎,最早來源于物理學科的研究。學術界認為,第一位發展混沌現象的學者是法國數學家物理學家龐加萊,他發現了天體動力學方程的某些解的不可預見性,即動力學混沌現象。以科爾莫戈夫、阿諾德和莫澤三個人命名的KAM定理被認為是創建混沌理論的標志[10]。在概率論的基礎上,出現了條件概率及貝葉斯定理,奠定了大多數人工智能系統中不確定推理的現代方法基礎[5]。
3 人工智能發展期的數學基礎
1961年之后,被稱為是人工智能的發展期。在這期間,人工智能在機器證明、專家系統、第五代計算機、模式識別、人腦復制、人腦與電腦連接以及生物智能等領域取得了很多理論和實踐成果。所有的成果都離不開數學知識的支撐,人工智能的數學基礎在這個時期也取得了長足的發展。
混沌與分形為人工智能的不確定推理打開了新的思路,在人工智能的發展期,混沌與分形完成了理論的發展和應用研究的開展。1963年,美國氣象學家E.N.Lorenz在研究耗散系統時首先發現了混沌運動,在他當年發表的論文“確定性非周期流”中解釋了混沌運動的基本特征,介紹了洛倫茲吸引子和計算機數值模擬研究混沌的方法;1971年,法國的D.Ruelle和荷蘭的F.Takens首次用混沌研究湍流,發現了一類特別復雜的新型混沌吸引子;1975年,華人學者李天巖和導師J.Yorke對混沌的數學特征進行了研究,標志著混沌理論的基本形成;1979年,E.N.Lorenz在美國科學促進會的一次演講中提出了著名的“蝴蝶效應”,使得混沌學令人著迷、令人激動,激勵著越來越多的學者參與到混沌學的理論和應用研究中來。1989年,R.L.Devney 給出了混沌的數學定義:設X是一個度量空間,f是一個連續映射,如果f滿足以下三個條件則稱為X上的混沌。
(1)f是拓撲傳遞的;
(2)f的周期點在X中稠密;
(3)f對初始條件敏感。
混沌理論在復雜問題優化、聯想記憶和圖像處理、模式識別、網絡通信等諸多領域都有成功的運用。Yamada T 將混沌神經網絡用于TSP問題優化中,結果混沌神經網絡表現出強大的優化性能[11]?;煦缋碚撛诼撓胗洃浀膽蒙巷@示出優越的性能,可應用于信息存儲、信息檢索、聯想記憶、圖像識別等方面[12]。模式識別是人工智能的主要研究問題之一,混沌學在此領域也有成功的應用,Kyung Rung[13]將混沌回歸神經網絡應用于朝鮮口語數字和單音節語音識別,與常規的回歸神經網絡相比,新方法的效果更佳。李緒[14]等將混沌神經網絡模型應用于手寫體數字識別和簡單圖像識別,實驗顯示,混沌神經網絡對手寫體識別正確率和可靠度高達90%以上。
1967年,法國數學家B.B.Mandel brot 提出了分形學的里程碑問題——英國海岸線有多長?成為人類研究分形幾何的開端[15],分形理論是對歐氏幾何相關理論的拓展和延伸。1968年,Madndelbrot 和Ness提出了分形布朗運動,并給出了離散分形布朗隨機場的定義[16]。Peleg S于1984年提出了雙毯覆蓋模型[17],這是對Mandel brot在估計英國海岸線長度時的一種推廣?;诜中蔚睦碚摵退枷?,人們抽象出一種方法論——分形方法論[17],該理論在人工智能領域的典型應用是用于網絡流量分析。1993年以來,陸續有許多這方面的研究成果出現。通過對局域網高分辨率的測量分析,leland[18]發現以太網流量表現出自相似的分形性質。進一步深入研究發現,在較小的時間尺度上,網絡流量體現出更復雜的變化規律,由此出現了多重分形的概念[19]。分形理論用于實現網絡流量智能分析,已經有很多成功的案例,如TCP流量的擁塞控制[20],Internet 流量建模[21]。陸錦軍等還提出了網絡行為的概念[22],用于研究大規模網絡上觀測到的尺度行為。
扎德對不確定性就是隨機性這一長期以來的觀點提出了挑戰,認為有一類不確定性問題無法用概率論解決。1965年發表了論文Fuzzy Sets,創立了模糊集合論[23]。除了傳統的屬于或不屬于一個集合之外,模糊集認為集合之間還有某種程度隸屬于的關系,屬于的程度用[0,1]之間的數值表示,該數值稱為隸屬度。隸屬度函數的確定方法大致有6種形態,包括正態(鐘形)隸屬度函數、嶺形隸屬函數、柯西隸屬函數、凸凹型隸屬函數、隸屬函數以及線性隸屬函數[24]。1978年,在模糊集的基礎上,扎德提出了可能性理論,將不確定理解為與概率不同的“可能性”,與之對應的可能性測度也是一種集合賦值方法[25]。聚類在人工智能領域有大量應用,是模糊集研究的較早的一個方向[26]。模糊集理論在人工智能領域的典型應用還有數據選擇[27]、屬性范化[28]、數據總結等[29]。
離開了隸屬度或隸屬函數的先驗信息,模糊集合運算難以進行,粗糙集理論研究了用不確定本身提供的信息來研究不確定性。上世紀80年代初,粗糙集的奠基人波蘭科學家Pawlak[30]基于邊界區域的思想提出了粗糙集的概念并給出了相應的定義。粗糙集從知識分類入手,研究在保持分類能力不變的情況下,經過知識約簡,推出概念的分類規則,最后獲得規則知識。粗糙集隸屬度函數的定義有多種形式,典型的是Yao Y Y在1998年用三值邏輯進行的定義[31]。粗糙集理論的核心基礎是從近似空間導出上下近似算子,典型的構造方法是公理化方法。1994年,Lin T Y最早提出用公理化方法研究粗糙集[32],之后不少學者對公理化方法進行了完善和改進。粗糙集在人工智能領域的應用主要體現在知識獲取[33],知識的不確定性度量[34]和智能化數據挖掘[35]等方面。
傳統的模糊數學存在隸屬度、可能測度與概率區分不是絕對分明的問題,目前,已經無法滿足很多領域對不確定推理的需要。在發現狀態空間理論以及云與語言原子模型后,1993年,李德毅院士在其文獻《隸屬云和語言原子模型》[36]中首次提出了云的概念,并逐步建立了云模型。云模型通過3個數字特征,即期望Ex,熵En和超熵He實現定性概念到定量數據間的轉化,并以云圖的方式表現出來,比傳統的模糊概念更直觀具體。1995年,李德毅等人在其文獻隸屬云發生器中系統化的提出了云的概念[37]。1998年,該課題組在一維云的基礎上進一步提出了二維云的數學模型和二維云發生器的構成方法[38]。2001年,杜鹢提出了基于云模型的概念劃分方法——云變換[39]。2003年,李德毅課題組提出了逆向云算法[40]。2004年至2007年,該課題組進一步完善了云模型的數學基礎和數學性質,將云模型抽象到更深層次的普適性空間。云模型在人工智能的多個領域都有成功的應用,包括定性知識推理與控制,數據挖掘和模式識別。如1999年,李德毅將云模型用于倒立擺的控制[41];2002年,張光衛建立了基于云模型的對等網信任模型[42];2001年,岳訓等人將云模型用于Web數據挖掘[43];2003年,田永青等人基于云模型提出了新的決策樹生成方法[44];2009年,牟峰等人將云模型用于遺傳算法的改進[45]。
貝葉斯網絡起源于條件概率,是一種描述變量間不確定因果關系的圖形網絡模型,是目前人工智能,典型用于各種推理的數學工具。最初的貝葉斯網絡時間復雜度很大,限制了其在實際工程中的應用。1986年,PEARL提出的消息傳遞算法為貝葉斯網提供了一個有效算法[46],為其進入實用領域奠定了數學基礎。1992年,丹麥AALBORG大學基于貝葉斯網開發了第一個商業軟件(HUGIN)[47],可實現貝葉斯網的推理,使貝葉斯網真正進入實用階段。1997年,Koller和Pfeffer[48]將面向對象的思想引入貝葉斯網,用于解決大型復雜系統的建模問題。將時間量引入貝葉斯網則形成了動態貝葉斯網[47],動態貝葉斯網提供了隨時間變化的建模和推理工具。貝葉斯網絡節點兼容離散變量和連續數字變量則形成了混合貝葉斯網,混合貝葉斯網在海量數據的挖掘和推理上有較大優勢[49]。貝葉斯在人工智能領域的應用主要包括故障診斷[50],系統可靠性分析[51],航空交通管理[52],車輛類型分類[53]等。
4 結 語
人工智能科學想要解決的問題是讓電腦也具有聽、說、讀、寫、思考、學習、適應環境變化以及解決各種實際問題的能力。布爾邏輯、概率論以及可信計算理論為人工智能的誕生奠定了數學基礎,這些數學理論經歷了上百年的發展,已經比較成熟?;煦缗c分形、模糊集與粗糙集、云模型等人工智能的數學理論是近30年發展起來的,為不確定性人工智能奠定了數學基礎,但還存在很多問題需要解決。就混沌與分形來說,其理論體系還不成熟,其應用在復雜問題的優化、聯想、記憶等方面將更有生命力;對于粗糙集來說,其理論研究可以從粗糙集的擴展方面進行,并在相關模型下進行應用研究;就云模型來說,如何揭示其理論上的優勢以及和其他相關模型的聯系與區別,以及如何實現數值域和符號域共同表達的云模型都是值得研究的問題。貝葉斯網是人工智能領域目前最有效的推理工具,將來的研究應集中在概率繁殖算法的改進、混合貝葉斯網以及動態貝葉斯網的擴展研究等方面。
參考文獻
[1] George F luger.Artificial Intelligence structures and strategies for complex problem solving, Fifth Edition[Z].Pearson Eduation, 2005.
[2] George F.Luger.人工智能——復雜問題求解的結構和策略[M].史忠植,張銀奎,等,譯.北京:機械工業出版社,2006.
[3]呂家俊,朱秋月,孫耕田.布爾代數[M].濟南:山東教育出版社,1982.
[4] MOLODTSOV D.Soft Set theory-first results [J].Computers and Mathematics With Applications,1999,37(4-5):19-31.
[5]王梓坤.概率論基礎及其應用[M].北京:北京師范大學出版社,1995.
[6] Mercer J. Functions of Positive and negative type and their connection with the theory of integral equations. Philosophical Transactions of the Royal Society of London[Z].1909,209:415-446.
[7] Deutsch D,Jozsa R,Rapid solution of problems by quantum computation[J].Proc R Soc London A,1992,439:553-558.
[8]杜立智,符海東,張鴻,等.P與NP問題研究[J].計算機技術與發展,2013,23(1):37-42.
[9] Sahni S.Data Structures, Algorithms and Applications in C++[M].McGraw-Hill,1998.
[10]吳祥興,陳忠. 混沌學導論[M].上海:上??茖W技術文獻出版社,2001.
[11] Yamada T,Aihara K,Kotani M. chaotic Neural Networks and the Traveling Salesman Problems[C].Proc of Int Joint Conf on Neural Networks,1993.
[12]余群明,王耀南,柳青.混沌動力在智能信息處理中的應用[J].系統工程與電子技術,2001,23(5):97-101.
[13] Kyung Ryeu Jin,Sun Chung Ho. Chaotic Recurrent Neural Networks and Their Application to Speech Recognition[J].Neurocomputing ,1996,13(2-4):281-294.
[14]李緒,李光,汪樂.嗅覺混沌神經網絡的研究和應用[J].傳感技術學報,2004,17(2):179-184.
[15]孫霞,吳自勤,黃畇.分形原理及其應用[M].北京:中國科學技術大學出版社,2003.
[16]斯林.利用分形方法提取遙感影像空間結構信息的應用研究[D].北京:中國林業科學研究院,2000.
[17] Peleg S,Narorand J,Hartley R.Multiple resolution texture analysis and classification[J].IEEE Trans PAM,1984,6(4):518-523.
[18]亢寬盈.分形理論的創立發展及科學方法論意義[J].科學管理研究,1998,16(6):56-59.
[19] Leland W E,Taqqums,Willenger W,et al. On the self-similar nature of ethernet traffic[J].IEEE/ACM Transactions on Networking( Extending Version),1994,2(1):1-15.
[20]叢鎖,韓良秀,劉巖,等.基于離散小波變換的網絡流量多重分形模型[J].通信學報,2003,24(5):43-48.
[21]陸俊秀,山秀明,任勇.TCP 流量的多尺度分析[J].數據采集與處理,2004,19(1):5-9.
[22]鄭建華,曹陽,劉翀,等.Internet流量預報研究[J].計算機工程,2003,29(3):129-130.
[23] Zadeh L A. Fuzzy Sets[J]. Information and Control,1965(8):338-353.
[24]李洪興,汪培莊.模糊數學[M].北京:國防工業出版社,1994.
[25]汪培莊,韓立巖.應用模糊數學[M].北京:北京經濟學院出版社,1989.
[26] Pal N,Pal K,Keller J.A new hybrid C-means clustering model[C].IEEE Proc of FUZZ,2004:179-184.
[27] Richard Jensen,Shen Qiang. Fuzzy rough data reduction with ant colony optimization[J].Fuzzy Sets and Systems,2005,149(1):5-20.
[28] Frederick E Petry ,Zhao Lei .Data mining by attribute generalization with fuzzy hierarchies in fuzzy databases[J].Fuzzy Sets and Systems,2009,160(15):2206-2223.
[29] Raschia G, Mouaddib N.SAINTETIQ:a fuzzy set-based approach to database summarization[J].Fuzzy Sets and Systems,2002,129(2):137-162.
[30] Pawlak Z. Rough Set [J].International Journal of Computer and Information Sciences, 1982, 11:341-356.
[31] Yao Y Y.Generalized rough set models[C].PolkowskiL Skow ron A eds.Rough Sets in knowledge Discovery, Heideberg: Physica-Verlag, 1998:286-318.
[32] Lin T Y, Liu Q. Rough approximate operators: Axiomatic rough set theory[C].Ziarko w p ed. Rough Sets ,Fuzzy Sets and knowledge Discovery,London:Springer-Verlag,1994.
[33]王國胤.Rough集理論與知識獲取[M].西安:西安交通大學出版社, 2001.
[34]梁吉業, 李德玉.信息系統中的不確定性與知識獲取[M].北京:科學出版社, 2005.
[35] Zhao J, Wang G Y.A data-driven knowledge acquisition method based on system uncertainty[C].Proceedings of the 4th IEEE International Conference on Cognitive Informatics. Irvine, USA, 2005:267-275.
[36]李德毅.隸屬云和語言原子模型[C].計算機智能接口與應用,1993:272-277.
[37]李德毅,孟海軍,史雪梅.隸屬云和隸屬云發生器[J].計算機研究與發展, 1995, 32(6):15-20.
[38]楊朝暉,李德毅.二維云模型及其在預測中的應用[J].計算機學報, 1998, 21(11):961-969.
[39]杜鹢,李德毅.基于云的概念劃分及其在關聯采掘上的應用[J].軟件學報,2001,12(2):196-203.
[40]呂輝軍,王曄,李德毅,等.逆向云在定性評價中的應用[J].計算機學報,2003,26(8):1009-1014.
[41]張飛舟, 李德毅.基于隸屬云發生器的智能控制[J].航空學報,1999,20(1):89-92.
[42] ZHANG Guang-wei, KANG Jian-chu, HE Rui.Towards a trust model with uncertainty for e-commerce systems[C].Proc of IEEE International Conference on e-Business Engineering,2005.
[43]岳訓,孫忠林.定性預測系統的建模方法[J].計算機工程, 2001,27(9):97-99.
[44]田永青,杜國寧,李志,等.基于云理論神經網絡決策樹的生成算法[J].上海交通大學學報, 2003, 37(Z1):113-117.
[45]牟峰,王慈光,袁曉輝.基于云模型的參數自適應蟻群遺傳算法[J].系統工程與電子技術, 2009, 31(7):1763-1766.
[46] Pearl J F.Propagation and structuring in belief networks[J].Artificial Intelligence,1986,29(3):241-288.
[47] Hugin Expert.The leading decision support tool[EB/OL].http://www.hugin.com.
[48] Koller D,Pfeffer A.Object-oriented Bayesian networks [C].Proceedings of the 13th Annual Conference on Uncertainty in Artificial Intelligence. Providence, Rhode Island,1997.
[49] Neil M,Tailor M. Inference in hybrid Bayesian networks using dynamic discretization[J].Statistics and Computing,2007,17(3):219-233.
[50] Heckerman D,Breese J S,Rommelse K.Decision –the –oretic trouble shooting[J].Communication of the ACM,1995,38(3):49-57.
[51] Torres-Toledano J G,Sucar L E.Bayesian networks for reliability analysis of complex systems lecture notes in computer science[C].Proceeding of the 6th Ibero-Amercian Conference on AI: Progress in Artificial Intelligence.London,1998:195-206.
[52] Neil M,Malcolm B,Shaw R.Modelling an air traffic control environment using Bayesian belief networks[C].Proceedings of Twenty-first International System Safety Conference,Ottawa,Canada,2003.
[53] Kafai M,Bhanu B.Dynamic Bayesian networks for vehicle classification in video[J].IEEE Transactions on Industrial Informatics,2016,8(1):100-109.