王國胤,李 帥,楊 潔
(重慶郵電大學(xué) 計算智能重慶市重點實驗室, 重慶 400065)
信息技術(shù)的迅猛發(fā)展開啟了人類通往信息時代的大門,人類進入了大數(shù)據(jù)時代,并正在向智能時代邁進。隨著信息技術(shù)的發(fā)展以及各個領(lǐng)域的數(shù)字化和信息化推進,每天都在不同的領(lǐng)域產(chǎn)生大量的數(shù)據(jù),如醫(yī)院、工廠、礦山、政府機構(gòu)、學(xué)校、社交網(wǎng)站、電子商務(wù)等[1]。據(jù)估計,人類從發(fā)明文字到公元2006年之間共積累了180 EB(1EB等于10億GB)的數(shù)據(jù),另據(jù)互聯(lián)網(wǎng)數(shù)據(jù)中心(IDC)估計,2011年全球數(shù)據(jù)總量已經(jīng)達到0.7ZB(1ZB等于1萬億GB),2015年全球數(shù)據(jù)總量達到8.6ZB,目前全球數(shù)據(jù)的增長速度在每年40%左右,預(yù)計到2020年全球的數(shù)據(jù)總量將達到40ZB[2-4]。數(shù)據(jù)的爆炸式增長潛藏著重大的科學(xué)價值和巨大的經(jīng)濟利益[5]:一方面,對大數(shù)據(jù)的分析處理可以促進人類對自然世界的認(rèn)識;另一方面,對大數(shù)據(jù)的挖掘利用可以轉(zhuǎn)化為經(jīng)濟價值的來源。例如,智能交通系統(tǒng)中,使用先進的智能技術(shù)對地面交通網(wǎng)絡(luò)進行實時、準(zhǔn)確、高效的綜合運輸管理;醫(yī)療診斷中,建立包括患者過敏史、用藥史、家族病史和基因在內(nèi)的醫(yī)療大數(shù)據(jù)檔案,為醫(yī)生診斷提供詳細的參考,幫助醫(yī)生開具準(zhǔn)確的處方;金融領(lǐng)域中,大數(shù)據(jù)的分析和挖掘能夠幫助投資者獲取新的市場機遇和預(yù)測。此外,跨行業(yè)、多領(lǐng)域的大數(shù)據(jù)關(guān)聯(lián)分析與挖掘產(chǎn)生的價值更加顯著,顯示出了大數(shù)據(jù)強大的生命力。對大數(shù)據(jù)進行充分的挖掘與分析已經(jīng)成為各國政府、金融界和學(xué)界關(guān)注的焦點:早在2007年,美國國家航空航天局(NASA)就在向美國能源部和美國國家科學(xué)基金會的建議中提到,在大規(guī)模跨領(lǐng)域、異構(gòu)數(shù)據(jù)中有巨大的機會發(fā)現(xiàn)新知識,并能提供有效的新方法幫助判斷和決策[6]。2012年,世界經(jīng)濟論壇將數(shù)據(jù)列為了與貨幣和黃金同等重要的一種新經(jīng)濟資產(chǎn)[7]。2016年,美國政府啟動了聯(lián)邦大數(shù)據(jù)研究和發(fā)展戰(zhàn)略計劃,旨在開發(fā)大數(shù)據(jù)技術(shù),開展大數(shù)據(jù)應(yīng)用,并培養(yǎng)下一代大數(shù)據(jù)科學(xué)家[8]。近年來,我國也逐漸加大對該領(lǐng)域的研究投入。2017年,國務(wù)院發(fā)布《新一代人工智能發(fā)展規(guī)劃》,要求以加快人工智能與經(jīng)濟、社會、國防為主線,以提升新一代人工智能科技創(chuàng)新能力為主攻方向,構(gòu)建開放協(xié)同的人工智能科技創(chuàng)新體系,把握人工智能技術(shù)屬性和社會屬性高度融合的特征,堅持人工智能研發(fā)攻關(guān)、產(chǎn)品應(yīng)用和產(chǎn)業(yè)培育“三位一體”推進,全面支撐科技、經(jīng)濟、社會發(fā)展和國家安全[9]。隨后,工信部發(fā)布《促進新一代人工智能產(chǎn)業(yè)發(fā)展三年行動計劃(2018—2020年)》,從推動產(chǎn)業(yè)發(fā)展的角度,結(jié)合“中國制造2025”,以信息技術(shù)與制造技術(shù)深度融合為主線,推動新一代人工智能技術(shù)的產(chǎn)業(yè)化與集成應(yīng)用,發(fā)展高端智能產(chǎn)品,夯實核心基礎(chǔ),提升智能制造水平,完善公共支撐體系[10]。
人工智能有三大學(xué)派:符號主義、聯(lián)結(jié)主義和行為主義。人工智能誕生之初,符號主義方法以專家知識驅(qū)動,模擬人類邏輯推演,在定理證明、國際象棋等復(fù)雜的智能活動中展現(xiàn)了巨大優(yōu)勢,但由于對專家知識的過分依賴,符號主義往往只能解決特定問題,泛化能力弱,在人工智能中的主導(dǎo)地位逐漸被聯(lián)結(jié)主義所取代。特別是進入大數(shù)據(jù)時代,隨著計算能力的飛速提升,以深度學(xué)習(xí)為代表的聯(lián)結(jié)主義方法廣泛地應(yīng)用在各領(lǐng)域,被認(rèn)為是處理大數(shù)據(jù)的最有效方法[11]。聯(lián)結(jié)主義方法認(rèn)為模擬人的智能要依靠仿生學(xué),特別是要模擬人腦建立腦模型。認(rèn)知科學(xué)對這一領(lǐng)域的發(fā)展起到了至關(guān)重要的作用,啟發(fā)了許多有效的機器學(xué)習(xí)模型。從不同層次逐級認(rèn)識世界是人類固有的一種認(rèn)知機制[14],在認(rèn)知計算中,被稱為粒計算。粒度最初是物理學(xué)的一個概念,指的是實質(zhì)粒子大小的平均度量。在這里,它被用來度量從不同層次結(jié)構(gòu)空間中分析和處理數(shù)據(jù)的信息量[15]。作為處理的對象,粒可以是全集中任意子集、對象、聚類和元素通過可辨識性、相似性和功能性聚集而成的單元[16]。在粒計算中,所有結(jié)構(gòu)化的或其誘導(dǎo)出的對象都稱為粒[17]。而用來表示和解釋問題或系統(tǒng)的結(jié)構(gòu)稱為粒結(jié)構(gòu)[18]。圖1表示了一個完整的粒結(jié)構(gòu),Layerk表示最細粒度層,其中的每一個點表示數(shù)據(jù)。粒計算具有廣闊的應(yīng)用背景,如特征選擇[19]和時間序列預(yù)測[20]等。
隨著數(shù)據(jù)的爆炸式增長,機器學(xué)習(xí)也面臨著許多挑戰(zhàn)[12-13]。其中,最大的問題就是如何解決大數(shù)據(jù)5V(volume,velocity,variety,value, veracity)特性導(dǎo)致的挑戰(zhàn)。例如,在數(shù)據(jù)獲取階段,原始數(shù)據(jù)中就包含大量的異質(zhì)數(shù)據(jù)、非結(jié)構(gòu)化數(shù)據(jù)以及不確定性數(shù)據(jù)等。尤其是在處理不確定性數(shù)據(jù)方面,傳統(tǒng)的機器學(xué)習(xí)往往認(rèn)為不確定性是一個隨機現(xiàn)象,而忽略了人類的模糊認(rèn)知機制,只能挖掘到確定知識,無法對不確定知識進行概括;在處理大型數(shù)據(jù)方面,傳統(tǒng)機器學(xué)習(xí)往往只注重對整體數(shù)據(jù)挖掘,而忽略了人類的分層認(rèn)知機制,只能挖掘到底層特征,不能挖掘到對高層特征。此外,當(dāng)前的機器學(xué)習(xí)研究,還沒能夠把不確定性這一物理世界與認(rèn)知過程的基本特征作為基礎(chǔ)問題進行深入研究,無法解決不確定性顯著、數(shù)據(jù)來源和分布廣泛(“獨立同分布”假設(shè)不再適用)等問題。
深度學(xué)習(xí)框架提供了一個解決以上問題的新方向。首先,它通過組合低層特征形成更加抽象的高層表示屬性類別或特征,以發(fā)現(xiàn)數(shù)據(jù)的分布式特征表示。這種分層結(jié)構(gòu)從全局上能夠解釋神經(jīng)網(wǎng)絡(luò)相鄰層之間的關(guān)系,以提高訓(xùn)練效果,但不能從局部上解釋每一個參數(shù)的物理意義;而在多層邏輯神經(jīng)網(wǎng)絡(luò)中,盡管局部上每一個神經(jīng)元的邏輯關(guān)系都可解釋,但全局上不能達到深度學(xué)習(xí)的規(guī)模。回歸問題的本原,本文從粒認(rèn)知計算的角度出發(fā),融合人類智能問題求解的多粒度思維機制、人類大腦“大范圍優(yōu)先”的認(rèn)知機制和智能控制系統(tǒng)中“智能計算前置”的信息處理機制,介紹一種知識與數(shù)據(jù)雙向驅(qū)動的多粒度認(rèn)知計算——數(shù)據(jù)驅(qū)動的粒認(rèn)知計算(Data-driven granular cognitive computing,DGCC)[21-22],如圖2中的三角形結(jié)構(gòu)所示。它結(jié)合了人類“大范圍優(yōu)先”的認(rèn)知機制,即“由粗到細”認(rèn)知過程,和機器學(xué)習(xí)系統(tǒng)“由細到粗”的信息處理機制。

圖2 DGCC的三角形結(jié)構(gòu)[21-22]Fig.2 Triangular structure of DGCC[21-22]
本文組織如下:第1節(jié)介紹認(rèn)知計算和粒計算的基本概念;第2節(jié)詳細介紹數(shù)據(jù)驅(qū)動的粒認(rèn)知計算模型(DGCC),討論DGCC模型中需要研究的科學(xué)問題;第3節(jié)分析幾個多粒度認(rèn)知計算的應(yīng)用案例;最后一節(jié)總結(jié)全文。
認(rèn)知科學(xué)[23-24]是揭示人類智能和行為的學(xué)科,重點研究在神經(jīng)系統(tǒng)和腦機制中,信息的表達、處理和轉(zhuǎn)化。認(rèn)知計算研究與人類思維方式一致的、統(tǒng)一的、普遍的計算方式[25],因此,認(rèn)知計算可以被認(rèn)為是建立在人工智能和信號處理基礎(chǔ)之上的學(xué)科。為了處理復(fù)雜的現(xiàn)實世界問題,通過對一些特殊的智能現(xiàn)象(如思維現(xiàn)象、生物現(xiàn)象、自然現(xiàn)象和社會現(xiàn)象等)的觀察,研究者開發(fā)出了許多智能計算模型和機器學(xué)習(xí)模型:模糊邏輯使得計算機能夠像人類那樣理解自然語言和進行邏輯推理[26];人工神經(jīng)網(wǎng)絡(luò)能夠模仿人腦的機制從經(jīng)驗數(shù)據(jù)中學(xué)習(xí)知識[27-31];演化計算模仿自然界的選擇和進化來尋找最優(yōu)解[32];群體智能算法模仿生物系統(tǒng)通過系統(tǒng)內(nèi)協(xié)同合作的方式尋找最優(yōu)解[33];人工免疫算法模仿生物免疫機制對多峰值函數(shù)進行多峰值搜索和全局尋優(yōu)[34];粒計算試圖模擬人類在不同層次上對現(xiàn)實世界進行感知的機制[35-36]。另有一些研究者試圖對人的思維模式和認(rèn)知機制設(shè)計出一套統(tǒng)一的計算模式[25]。相較于傳統(tǒng)系統(tǒng)而言,基于認(rèn)知科學(xué)設(shè)計的系統(tǒng)能夠構(gòu)建知識、學(xué)習(xí)知識、理解自然語言、邏輯推理、并與人類進行更加自然地交互[37]。
隨著人工智能和認(rèn)知科學(xué)的不斷發(fā)展,研究者們發(fā)現(xiàn)了人類智能的一個公認(rèn)特點:在對現(xiàn)實世界問題的認(rèn)知和處理時,人類往往采取從不同層次觀察和分析問題的策略,從不同層面上觀察和分析同一問題[38]。從哲學(xué)的觀點上來看,人類在對任何事物進行認(rèn)知、度量、形成概念和推理時,粒度思想都貫穿其中[38]。圖靈獎、諾貝爾經(jīng)濟學(xué)獎獲得者赫伯特·西蒙教授認(rèn)為,自然世界和人類社會中,復(fù)雜任務(wù)通常以層次結(jié)構(gòu)形式存在,即復(fù)雜任務(wù)由相互關(guān)聯(lián)的子任務(wù)組成,每個子任務(wù)亦具有層次結(jié)構(gòu),直到最低層次的基本任務(wù)[39]。1997年,Zadeh教授就指出粒計算是模糊信息粒化、粗糙集理論和區(qū)間計算的超集,是粒數(shù)學(xué)的子集[40]。粗糙集等理論提供了具體的粒計算模型,將粒與認(rèn)知計算中的分類、學(xué)習(xí)緊密聯(lián)系起來,使得粒計算成為一種快速增長的智能計算范例[35]。粒計算通常被認(rèn)為是在解決復(fù)雜問題中,所使用的粒化理論、方法、技術(shù)和工具的總稱。Bargiela和Pedrycz將粒計算視為用于分析和設(shè)計人工智能系統(tǒng)的一個概念和算法平臺[41]。Jankowski用粗糙近似對語法、語義等信息粒進行建模[42]。全集和鄰域系統(tǒng)的層次結(jié)構(gòu)能夠誘導(dǎo)出多粒度結(jié)構(gòu)。模仿人類在不同粒度層次上感受現(xiàn)實世界的能力,張鈴和張鈸提出了商空間理論,該理論能夠為了滿足特定問題的求解需要,對對象進行不同粒度層的抽象與轉(zhuǎn)換[36]。形式概念分析能夠從一組對象中自動推導(dǎo)出本體[43],概念格的粒結(jié)構(gòu)是該理論中知識約簡的重要手段[35,44]。姚一豫在上述研究成果基礎(chǔ)上,將粒計算歸納為圖3所示的相互補充、互為依賴的三角形關(guān)系[45-46]。基于定性概念和定量數(shù)據(jù)之間的關(guān)系,王國胤基于云模型提出了一種雙向認(rèn)知計算模型(BCC),用于表示和處理不確定概念的映射關(guān)系,將樣本視為概念的外延,使用云模型的三個參數(shù)(期望、熵、超熵)來表示概念的內(nèi)涵[47];徐計和王國胤提出了生成分層樹的一種自適應(yīng)聚類方[48]。

圖3 粒計算的三角形結(jié)構(gòu)[46]Fig.3 The granular computing triangle structure[46]
模擬人類認(rèn)知過程,使計算機具備智能處理能力,既可以依賴專家知識,使用形式化的邏輯系統(tǒng)進行推導(dǎo),也可以從數(shù)據(jù)出發(fā),用數(shù)學(xué)模型和算法進行計算。但人類的認(rèn)知與計算機的數(shù)據(jù)計算之間不一定是完全吻合的(見圖4)。因此,需要研究二者的原理與差異,融合優(yōu)勢,開發(fā)符合人腦認(rèn)知要求(解決實際問題)的智能計算模型。

圖4 計算與認(rèn)知之間的不一致性Fig.4 Discordance between computing and cognition
計算機的信息處理機制與人類的粒認(rèn)知機制有著巨大的不同。計算機的信息處理是以集合論、離散數(shù)學(xué)等一系列數(shù)學(xué)理論為基礎(chǔ)的,因此經(jīng)典的智能計算方法都是通過對原始數(shù)據(jù)分析和計算,提取有價值的信息,解決實際問題。如圖5所示,計算機在圖像識別過程中,從單個像素出發(fā),提取圖像特征,輸出分類結(jié)果。從粒計算的角度來看,像素(數(shù)據(jù))是最細粒度的,而特征(知識)是粗粒度的。傳統(tǒng)的機器學(xué)習(xí)、數(shù)據(jù)挖掘和知識發(fā)現(xiàn)模型都是一個“從細粒度到粗粒度(由細到粗)”的數(shù)據(jù)、信息和知識的轉(zhuǎn)變過程,存在語義代溝的缺陷。如:Olshausen使用一種稀疏編碼網(wǎng)絡(luò)模擬人腦視覺感受野V1層對人臉圖片的簡單特征提取。深度神經(jīng)網(wǎng)絡(luò)通過使用更復(fù)雜的網(wǎng)絡(luò)結(jié)構(gòu)和更多的連接層數(shù)解決更復(fù)雜的問題,能夠?qū)W習(xí)到更高層的特征[49-51]。2015年,Google公司推出的FaceNet,通過直接學(xué)習(xí)圖像到歐式空間中點的映射,進行人臉識別、人臉驗證和人臉聚類,識別率高達99.63%[52]。雖然深度學(xué)習(xí)取得的效果很明顯,但是其花費的代價非常高。

圖5 計算機“由細到粗”的信息處理機制Fig.5 Information process mechanism of computer: from finer granularity levels to coarser levels
中國科學(xué)院生物物理研究所陳霖院士等通過實驗研究發(fā)現(xiàn),人類認(rèn)知具有“大范圍優(yōu)先”的規(guī)律,視覺系統(tǒng)對全局拓?fù)涮匦杂葹槊舾衃53]。“大范圍優(yōu)先”的人類認(rèn)知規(guī)律,是一個“從粗粒度到細粒度(由粗到細)”的變換過程。如圖6,人類可以通過寥寥數(shù)筆的漫畫來認(rèn)出一個動物。人類通常將復(fù)雜問題分解成不同粒度層次上的子問題,通過“大范圍優(yōu)先”的認(rèn)知機制,首先在粗粒度層次上對問題求解,實現(xiàn)對復(fù)雜問題的整體把握,再根據(jù)問題求解的需要進行逐步的細化,逐步切換到較細粒度上進行更加深入的分析求解,這一過程稱為多粒度漸進式分解求解機制。分解求解機制可以將復(fù)雜問題轉(zhuǎn)化為簡單問題,將抽象問題轉(zhuǎn)化為具體問題,不確定性問題轉(zhuǎn)化為確定性問題。復(fù)雜問題轉(zhuǎn)化為簡單問題,就是將一個復(fù)雜問題表示為多個相對簡單問題的組合。抽象問題轉(zhuǎn)化為具體問題,就是將一個問題在高層粒度空間的抽象表示,轉(zhuǎn)化為在低層粒度空間的具體表示。人類的這種“由粗到細”的漸進式認(rèn)知機制,是一種決策行動分解機制,即將對一個問題的認(rèn)知行為分解成不同階段,在每一個階段都能得到一個相應(yīng)的認(rèn)知結(jié)果。目前,人類的這種“由粗到細”的漸進式認(rèn)知機制研究,在許多領(lǐng)域取得了成功。Choi等人設(shè)計了一種長文檔快速查詢的方法,用一個快速的、粗粒度的模型找到查詢的相關(guān)區(qū)域,再使用遞歸神經(jīng)網(wǎng)絡(luò)(RNN)詳細分析,得出精確的結(jié)果[54]。Fang等人提出了一種融合全局特征和重要局部特征的多粒度框架,處理智能交通系統(tǒng)中車輛識別的問題,通過粗粒度特征上的車輛分類,再從細粒度特征上對車輛進行識別,提高了車輛識別的速度和準(zhǔn)確度[55]。Pavlakos等人使用一種“由粗到細”的有監(jiān)督框架,融合高維數(shù)據(jù)特征,進行迭代運算,實現(xiàn)單張圖片預(yù)測三維人體姿態(tài)[56]。張凱兵等人提出了一種“由粗到細”的方法對單幅圖像進行超分辨率重建[57]。呂健勤等人提出了一種基于粗粒度搜索的人臉對齊框架,對包含不同形狀的形狀空間進行粗略的搜索,并使用粗粒度結(jié)果來約束后續(xù)細粒度上的搜索方案,通過漸進式分解和自適應(yīng)搜索機制,避免了優(yōu)化中陷入局部最優(yōu)的情況[58]。Cao等人提出了一種“由粗到細”的潛在指紋匹配算法,平衡了準(zhǔn)確性和魯棒性[59]。鄧偉輝和王國胤等提出了一種二維高斯云的時間序列粒化表示方法,將一個復(fù)雜的時間序列相似性度量任務(wù)分解成若干個“求解一維高斯云相似性”的子任務(wù),實現(xiàn)了計算復(fù)雜度低、可理解性強的復(fù)雜任務(wù)多粒度分解求解[60]。隨著人工智能的發(fā)展和社會需求的不斷提升,機器學(xué)習(xí)、數(shù)據(jù)挖掘和知識發(fā)現(xiàn)已經(jīng)從處理單一的、簡單的、確定的實際問題轉(zhuǎn)變?yōu)樘幚矶嘣摹?fù)雜的、不確定的問題。因此,如何借鑒人類在觀察、分析和求解問題時的“由粗到細”的漸進式分解求解機制,建立滿足時限約束條件的逐步細化的漸進式多粒度計算模型,逐漸成為人工智能面對的關(guān)鍵問題。

圖6 人類認(rèn)知機制:“由粗到細”Fig.6 Human cognition: from coarser granularity levels to finer levels
在某些條件的限制下(如時間、經(jīng)濟等),人類往往不能一開始就認(rèn)識到實際問題的全貌,轉(zhuǎn)而從問題的某個局部出發(fā)求解,再根據(jù)限制條件的變化繼續(xù)求解,最終求得全局解。這一“由局部到全局”、“由細到粗”的漸進式問題求解機制,也是人類的一種自然行為模式。例如,在醫(yī)療診斷中,醫(yī)生碰到急診病人,往往先根據(jù)初步的局部檢查結(jié)果采取應(yīng)急手段穩(wěn)定病人病情,然后再對病人進行全面檢查,準(zhǔn)確判斷病情,進一步對癥下藥。這一求解機制可以保證在限制條件下,得到當(dāng)前的局部最優(yōu)解,很大程度上降低了決策代價。生物學(xué)上的“非條件反射”、自動化領(lǐng)域的“智能計算前置”和機器學(xué)習(xí)中的“貪心算法”都是這類“由細到粗”的求解機制。除此之外,如果從相互不依賴的局部開始對問題進行求解,又不會影響彼此的結(jié)果,這將使得“并行計算”成為可能,從而更大限度降低決策的時間代價。一些領(lǐng)域的研究工作中已經(jīng)成功借鑒了“由細到粗”的粒度計算思想。Aluru用智能計算前置的思想,提出了一種適用于序列比較的平行算法,將任務(wù)分配到每個處理器上進行計算,降低了空間復(fù)雜度[61]。Marcu提出了一種數(shù)據(jù)驅(qū)動的、自下而上的文本處理方法,該方法通過修辭關(guān)系的局部一致性約束實現(xiàn)文本的全局一致性[62]。Ferragina提出了一種對字符串前綴編碼進行漸進式匹配的預(yù)搜索算法,提高了搜索效率[63]。Oh等人提出了一種新的S3D圖像質(zhì)量評估算法,該算法在一個深度卷積神經(jīng)網(wǎng)絡(luò)模型中加入一個聚合層,將局部模型訓(xùn)練出的特征自動聚合到全局上,克服了已有方法的局限性[64]。在處理時態(tài)數(shù)據(jù)的異常檢測問題中,Benkabou等人提出了一種聚類與檢測同時進行的嵌入式方法,對局部聚類實例加權(quán)處理后進行異常檢測,再將檢測結(jié)果推廣到全局[65]。徐計和王國胤等人提出了一種基于密度峰值聚類的多粒度聚類模型,為用戶高效地提供當(dāng)前有效解,并且提供了一種基于局部密度粒度尋優(yōu)的算法,該算法的復(fù)雜度與數(shù)據(jù)集的規(guī)模呈線性關(guān)系,提高了粒度尋優(yōu)的效率[66-67]。由此可見,通過這種“由局部到全局”、“由細到粗”的漸進式問題求解機制,可以在當(dāng)前條件的限制下求出問題的可行解,提供決策和指導(dǎo)行為。面對如今快速增長的大數(shù)據(jù)環(huán)境,數(shù)據(jù)信息是不完備的、動態(tài)的,需要在一定時限下做出相應(yīng)決策,及時提供滿足客戶需要的有效解。因此,如何借鑒這種“由細到粗”、“由局部到全局”的漸進式問題求解機制,研究滿足時限約束條件的多粒度漸進式擴張計算模型,也將成為未來大數(shù)據(jù)研究的重要發(fā)展方向。
解決計算機“由細到粗”信息處理機制與人類“由粗到細”認(rèn)知機制的矛盾,將是研究新型認(rèn)知啟發(fā)的智能計算模型需要解決的一個關(guān)鍵問題。數(shù)據(jù)驅(qū)動的粒認(rèn)知計算(DGCC)實際上是從數(shù)據(jù)出發(fā),以人類認(rèn)知事物的分層(多粒度)機制為基礎(chǔ)的計算框架。從認(rèn)知計算來看,數(shù)據(jù)是知識的外延,知識是數(shù)據(jù)的內(nèi)涵,兩者之間是抽象與具象的關(guān)系;從粒計算來看,數(shù)據(jù)是知識在最細粒度上的表現(xiàn),知識是數(shù)據(jù)在粗粒度上的描述,兩者之間是粒度層次切換的關(guān)系,如圖7所示。

圖7 數(shù)據(jù)與知識在DGCC中的關(guān)系Fig.7 The relationship between data and knowledge in DGCC
對事物認(rèn)知和問題求解,人類具有定性和定量雙向推理的能力,特別是對于不確定性信息的處理,人類的邏輯推理比計算機的處理更為靈活和高效。張鈸院士指出[68],人類在問題求解中具有天生的知識驅(qū)動能力、對不確定性問題的處理優(yōu)勢和對全局整體的感知能力,傳統(tǒng)機器學(xué)習(xí)具有在數(shù)據(jù)分析處理中的數(shù)據(jù)驅(qū)動能力、高速計算的優(yōu)勢以及對誤差的泛化能力,二者結(jié)合是未來信息處理的發(fā)展趨勢。人機系統(tǒng)理論創(chuàng)建者之一的Fitts教授對人和機器內(nèi)在的優(yōu)缺點進行詳細分析,發(fā)現(xiàn)二者的優(yōu)缺點呈一種互補關(guān)系,指出通過融合二者優(yōu)點可以產(chǎn)生性能更優(yōu)良的人機系統(tǒng)[69]。潘云鶴院士認(rèn)為將數(shù)據(jù)驅(qū)動機器學(xué)習(xí)方法與人類的常識先驗與隱式直覺有效結(jié)合,可以實現(xiàn)可解釋、更魯棒和更通用的人工智能[70]。鄭南寧院士指出由于人類面臨的許多問題具有不確定性、脆弱性和開放性,任何智能程度的機器都無法完全取代人類,這就需要將人的作用或人的認(rèn)知模型引入到人工智能系統(tǒng)中,形成混合-增強智能的形態(tài),這種形態(tài)是人工智能或機器智能的可行的、重要的成長模式[71]。早在2000年,Dubois就提出了一種處理數(shù)據(jù)與知識的雙模態(tài)邏輯系統(tǒng)[72],并給出了完備性證明,從而實現(xiàn)了模糊邏輯框架下數(shù)據(jù)驅(qū)動與知識驅(qū)動的融合。Skowron提出了一種基于感知計算的交互式信息系統(tǒng),建立了基于交互式粒計算(Interactive granular computing,IRGC)的不完備、不確定信息處理模型[73]。Todorovski提出了一種融合知識驅(qū)動和數(shù)據(jù)驅(qū)動的動態(tài)系統(tǒng)模型框架,將專家知識轉(zhuǎn)化到對候選模型進行選擇[74]。在電力系統(tǒng)檢測中,Zhou將部分專家知識與配電網(wǎng)絡(luò)數(shù)據(jù)融合,建立了一種新型的事件檢測方法,將未標(biāo)記數(shù)據(jù)和部分標(biāo)記數(shù)據(jù)相結(jié)合,彌補了監(jiān)督學(xué)習(xí)、半監(jiān)督學(xué)習(xí)和學(xué)習(xí)隱藏結(jié)構(gòu)之間的差距[75]。盡管人類的邏輯推演、抽象化等能力強于計算機,知識驅(qū)動能夠彌補數(shù)據(jù)驅(qū)動中某些缺陷,但囿于人類的思維定勢及心理狀況,人類知識往往伴隨一定程度的主觀性(如模糊),不能全面、客觀地反映數(shù)據(jù)自身所表現(xiàn)出的特征,因此,人機系統(tǒng)還應(yīng)融合客觀反映數(shù)據(jù)特征的知識。
人機模型中知識與數(shù)據(jù)共同驅(qū)動的認(rèn)知計算與DGCC中二者的雙向認(rèn)知計算有本質(zhì)不同。在知識與數(shù)據(jù)共同驅(qū)動的人機模型中,知識來自人類的總結(jié),知識和數(shù)據(jù)呈現(xiàn)一種平行結(jié)構(gòu),二者在認(rèn)知過程中是互補關(guān)系。在DGCC中,知識與數(shù)據(jù)是一種層次結(jié)構(gòu),從低粒度層次向高粒度層次的變換由數(shù)據(jù)驅(qū)動,而從高粒度層次向低粒度層次的變換由知識驅(qū)動(如圖8)。
建立數(shù)據(jù)驅(qū)動的粒認(rèn)知計算模型,實現(xiàn)數(shù)據(jù)與知識雙向驅(qū)動和變換,有下述3個方面的科學(xué)問題需要研究。

圖8 DGCC中知識與數(shù)據(jù)的雙向驅(qū)動Fig.8 Bidirectional driven of knowledge and data in DGCC
2.1.1 數(shù)據(jù)、信息與知識的多粒度表達 在傳統(tǒng)的多粒度認(rèn)知計算模型中,數(shù)據(jù)、信息和知識是被區(qū)別對待的,數(shù)據(jù)在最底層,信息在中間層,知識在高層。而在數(shù)據(jù)驅(qū)動的粒認(rèn)知計算中,將數(shù)據(jù)作為知識的一種編碼格式[75],需要構(gòu)造一個通用的多粒度結(jié)構(gòu)對數(shù)據(jù)、信息和知識進行表達,形成一個分層的多粒度空間對三者進行編碼。
2.1.2 多粒度空間中的不確定性變換 一般來說,高粒度層上的概念(信息和知識)比低粒度層上的概念(信息和知識)更具有不確定性。在大數(shù)據(jù)環(huán)境下,由于低粒度層是對對象的局部進行描述,在低粒度層數(shù)據(jù)抽象為高粒度層信息的過程中,通常伴隨著不確定性的增長。反之,在從高粒度層向低粒度層變換的問題求解過程中,解的不確定性也可能相應(yīng)增加。
2.1.3 多粒度信息知識空間的動態(tài)演化機制 現(xiàn)實世界的系統(tǒng)往往是動態(tài)的。智能信息系統(tǒng)的數(shù)據(jù)、信息和知識也是動態(tài)的。因此,需要研究多粒度知識空間中的動態(tài)演化機制來處理動態(tài)數(shù)據(jù)、信息和知識。
2.2.1 多粒度聯(lián)合計算模型與問題求解機制 數(shù)據(jù)、信息和知識在同一個多粒度空間中進行編碼,可以并行地解決問題。例如,一個公司每天都在不同粒度層上同時作決策。對于不同粒度層上獨立或者相互依賴的決策,需要構(gòu)造多粒度空間聯(lián)合計算和決策機制。
2.2.2 變粒度有效漸進式計算方法 通常,在高粒度層上花費較小的時間代價能夠形成“較粗”的解,而在低粒度層上形成“更精確”的解則要花費較大的時間代價。因此,許多復(fù)雜問題可以首先在高粒度層上求出“較粗”的解,再在低粒度層上求出較精確解,這一有效的方法被稱為變粒度漸進式計算。
2.2.3 智能計算前置 在一些實際應(yīng)用中,并不是所有數(shù)據(jù)在開始時就全部可用,此時,需要根據(jù)低粒度層上僅有的部分?jǐn)?shù)據(jù)做出初步的局部決策,再根據(jù)更多的數(shù)據(jù)輸入,在較高粒度層上形成改善的全局決策。
2.2.4 多粒度分布式機器學(xué)習(xí) 數(shù)據(jù)、信息和知識在同一個多粒度空間中進行編碼,因此,可以進行并行和分布式的學(xué)習(xí),而不需要逐層學(xué)習(xí)。
2.3.1 人類認(rèn)知機制與機器信息處理機制的融合 向上算子和向下算子是數(shù)據(jù)驅(qū)動的粒認(rèn)知計算中的兩種基本算子,分別模擬了人類“由粗到細”的認(rèn)知機制和計算機“由細到粗”的信息處理機制,作為雙向認(rèn)知計算的一種推廣,需要設(shè)計一種融合雙向算子功能、便于多粒度空間層次轉(zhuǎn)換的計算模型。
2.3.2 帶遺忘的多粒度聯(lián)想記憶機制 計算機的信息儲存機制是機械的,信息在刪除后不能使用。而人腦中存在著遺忘與回憶的機制,可以通過一類雙向認(rèn)知計算模型實現(xiàn)[76]。在數(shù)據(jù)驅(qū)動的多粒度認(rèn)知計算中,向上算子能夠通過信息從低粒度層到高粒度層的轉(zhuǎn)換來模擬人類的遺忘過程,向下算子能夠通過信息從高粒度層到低粒度層的轉(zhuǎn)換來模擬人類的聯(lián)想回憶過程。
不確定性是人類認(rèn)知過程的一個主要特性。云模型是一種重要的不確定性知識表示模型,它使用了3個參數(shù)(期望、熵、超熵)對知識進行描述,融合人類認(rèn)知過程中隨機與模糊這兩種不確定性,實現(xiàn)知識內(nèi)涵與外延的相互轉(zhuǎn)換。相較于概率模型中的高斯混合模型(GMM),云模型的優(yōu)勢在于使用含混度刻畫知識的穩(wěn)定性,使得聚類過程能夠仿照人類的認(rèn)知,生成不同粒度層上的知識,并通過含混度的約束選擇統(tǒng)一的、被廣泛接受的知識。圖9是通過云模型對ArnetMiner平臺上988 645位用戶年齡數(shù)據(jù)形成的多粒度概念[47]。可以看出,在第一層上形成的5個概念相互之間重疊嚴(yán)重、含混度高,而在第三層上形成的3個概念重疊少、含混度低,符合人類對年齡概念的認(rèn)知。

圖9 云模型形成的ArnetMiner用戶多粒度概念[47]Fig.9 Multi-granularity concept of ArnetMiner users formed by cloud model[47]
聚類是一種重要的數(shù)據(jù)粒化手段,層次聚類方法能夠充分反映數(shù)據(jù)的多粒度結(jié)構(gòu),不同粒度層上的數(shù)據(jù)聚類能夠模仿人類的認(rèn)知模式,形成不同粒度層上的概念。密度峰值方法是一種高效的聚類算法,它通過計算數(shù)據(jù)點的局部密度和高密度點間距離的乘積,選擇聚類中心點進行聚類。相較于傳統(tǒng)聚類算法,該算法的聚類過程不需要進行迭代運算,在線性復(fù)雜度下能夠?qū)崿F(xiàn)數(shù)據(jù)的快速聚類,可以應(yīng)用在流媒體圖像識別、動態(tài)網(wǎng)絡(luò)識別等許多在線學(xué)習(xí)的場景。此外,它也能對任意形狀數(shù)據(jù)進行層次聚類。圖10是對人工數(shù)據(jù)集5Spiral上的層次聚類結(jié)果[48],可以看出,選擇不同的“階躍”點,能夠形成不同粒度層上的聚類,并且根據(jù)聚類結(jié)果能夠形成新的數(shù)據(jù)點,該結(jié)果與人工聚類結(jié)果基本一致。這一過程對數(shù)據(jù)的描述本質(zhì)上是“由細到粗”數(shù)據(jù)驅(qū)動的認(rèn)知過程,而對知識的表達則是“由粗到細”的知識驅(qū)動認(rèn)知過程。

圖10 5Spiral數(shù)據(jù)集上的密度峰值多粒度聚類[48]Fig.10 DenPEHC on the dataset "5Spiral"[48]
三支聚類(three-way clustering)是符合人類不確定性認(rèn)知的一種聚類方法。它將傳統(tǒng)聚類問題中元素與集合的關(guān)系拓展為屬于、不屬于以及不確定三種情況,模仿人類在限制條件(時間、經(jīng)濟等)下,用不確定性聚類結(jié)果代替?zhèn)鹘y(tǒng)的確定性聚類結(jié)果的行為,從而提高聚類效率。從DGCC的角度看,三支聚類是一種“由細到粗”的計算方式。隨著網(wǎng)絡(luò)信息技術(shù)的發(fā)展,各行各業(yè)產(chǎn)生的海量高維復(fù)雜數(shù)據(jù)越來越多,屬性維度的上升導(dǎo)致計算量呈現(xiàn)指數(shù)級增長,于洪等人提出了面向高維數(shù)據(jù)的動態(tài)隨機投影三支聚類模型[77]。它利用動態(tài)高斯隨機投影方法,將原始數(shù)據(jù)集投影到多個不同粒度子空間中進行三支聚類,再將各粒度層的聚類結(jié)果進行匯總,得到全局聚類。由于不同粒度空間中,高斯隨機投影的數(shù)據(jù)聚類與全局?jǐn)?shù)據(jù)聚類的誤差不同,多粒度動態(tài)投影三支聚類有效地平衡不同子空間的聚類結(jié)果與聚類時間。
在工業(yè)流程管控中,企業(yè)的各級管理層時刻都要面對不同的決策問題。面對工業(yè)流程中的大量數(shù)據(jù),各級管理者往往根據(jù)個人經(jīng)驗做出決策,這不僅忽視了流程中的全局信息,也使得決策過分依賴個人經(jīng)驗,缺乏統(tǒng)一標(biāo)準(zhǔn)。通過多粒度知識表達模型構(gòu)建流程工業(yè)知識的多粒度結(jié)構(gòu)和動態(tài)演化模型,利用多源、深度信息構(gòu)建多粒度聯(lián)合決策模型,可以實現(xiàn)不同粒度層次的協(xié)同決策,完成流程工業(yè)知識的自動化(圖11)。例如,在工業(yè)電解鋁過程控制中,對工業(yè)大數(shù)據(jù)的屬性進行不同粒度層的約簡,通過粒度尋優(yōu)方法找出最優(yōu)粒度層屬性[78]。

圖11 基于大數(shù)據(jù)的流程工業(yè)知識自動化Fig.11 Big Data-based fluid process industries knowledge automation
水質(zhì)檢測是衡量水資源質(zhì)量的一項重要方法。依據(jù)水質(zhì)檢測數(shù)據(jù)預(yù)測水質(zhì)變化趨勢是與人類生活休戚相關(guān)的一項工程。目前,水質(zhì)檢測的關(guān)鍵數(shù)據(jù)是來自于陸、水、空等多方位檢測平臺,因此,水質(zhì)預(yù)測是一個跨領(lǐng)域、多層次的系統(tǒng)工程。基于水質(zhì)檢測大數(shù)據(jù),嚴(yán)胡勇等人提出多維云粗糙集混合模型對數(shù)據(jù)進行多粒度建模和預(yù)測[79]。該方法能夠降低數(shù)據(jù)規(guī)模,提取定性規(guī)則,定量分析水體富營養(yǎng)化的平均值、均勻性和穩(wěn)定性,相較于其他方法,該模型在對云貴高原湖泊富營養(yǎng)化的預(yù)測中獲得了更準(zhǔn)確的預(yù)測結(jié)果(圖12),是水富營養(yǎng)化信息系統(tǒng)的一個很有前景的替代方案,為公用事業(yè)管理部門和操作人員提供了水質(zhì)富營養(yǎng)化的一個定量預(yù)測方法。

圖12 云貴高原湖泊營養(yǎng)狀態(tài)云圖[79]Fig.12 Nutrient status of lake in Yunnan-Guizhou plateau[79]
時間序列預(yù)測是一種基于歷史觀測數(shù)據(jù)時序統(tǒng)計的規(guī)律,對事物發(fā)展趨勢做出預(yù)測判斷的方法。在股票市場預(yù)測、天氣預(yù)報和交通流量預(yù)測等領(lǐng)域有著廣泛的運用。相較于傳統(tǒng)時間預(yù)測模型,模糊時間預(yù)測模型能夠更加方便地處理內(nèi)涵模糊以及不完整數(shù)據(jù),適應(yīng)性更強。結(jié)合多粒度聯(lián)合求解機制的模糊時間序列預(yù)測[80],首先通過自動聚類算法在數(shù)據(jù)的主因子和其他次要因子上形成不同長度的聚類區(qū)間,然后針對每個因子,采用模糊趨勢邏輯關(guān)系類(FTLRG)構(gòu)建模糊趨勢矩陣預(yù)測每個粒度層上的模糊趨勢。最后,使用粒子群優(yōu)化(PSO)算法將每個粒度層上的趨勢預(yù)測結(jié)果進行整合,得到數(shù)據(jù)的全局趨勢預(yù)測。它能夠在不確定性問題中得到高精度的預(yù)測結(jié)果。如圖13,用多粒度模糊時間序列分別對1991年至1999年間的臺灣加權(quán)股價指數(shù)(TAIEX)進行預(yù)測,其結(jié)果在目前流行的時間序列預(yù)測方法中均方根誤差(RMSE)最小,最為合理。

圖13 不同時間序列模型對1991年至1999年間TAIEX預(yù)測結(jié)果的RMSE比較[80]Fig.13 Comparison of the average RMSEs for different models for forecasting TAIEX from 1991 to 1999[80]
模仿人類的認(rèn)知機制,構(gòu)造智能計算模型是人工智能研究的重要方法。本文介紹了一種基于人類認(rèn)知機制的知識與數(shù)據(jù)雙向驅(qū)動的多粒度計算模型——數(shù)據(jù)驅(qū)動的粒認(rèn)知計算模型(DGCC),將兩種相互矛盾的認(rèn)知機制,即“大范圍優(yōu)先”的人類認(rèn)知機制和數(shù)據(jù)驅(qū)動的“由細到粗”的計算機信息處理機制相結(jié)合。并從3個方面分析討論了數(shù)據(jù)與知識雙向驅(qū)動、雙向變換的9個科學(xué)問題。從實際應(yīng)用案例分析中可以看到,對于多粒度空間描述(3.1~3.3)和聯(lián)合求解(3.4~3.6)方面已經(jīng)有一些較為成熟的研究結(jié)果,但對于人機認(rèn)知機制結(jié)合方面仍有待進一步研究。人類認(rèn)知除了具有多粒度認(rèn)知機制外,還具有復(fù)雜信息轉(zhuǎn)化、經(jīng)驗學(xué)習(xí)、概念化、直覺、聯(lián)想記憶等特點,如何使智能系統(tǒng)具備和人類相似的認(rèn)知行為能力,將是未來人工智能發(fā)展的方向。知識與數(shù)據(jù)雙向驅(qū)動的多粒度認(rèn)知計算為大數(shù)據(jù)的知識發(fā)現(xiàn)研究提供了一個有效的粒認(rèn)知計算框架,目前已經(jīng)應(yīng)用在一些實際生活問題中,如聚類、圖像處理、時間序列預(yù)測等。本文所討論的知識與數(shù)據(jù)雙向驅(qū)動的多粒度認(rèn)知計算模型將有助于研究者提出新的大數(shù)據(jù)智能計算模型與系統(tǒng)。