——“2015大數據價值實現之路高峰論壇”主題報告"/>
999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

大數據認知
——“2015大數據價值實現之路高峰論壇”主題報告

2015-02-17 09:16:16李德毅

李德毅

(中國人工智能學會,北京 100876)

《》

大數據認知
——“2015大數據價值實現之路高峰論壇”主題報告

李德毅

(中國人工智能學會,北京 100876)

從作詩、語言翻譯、語音識別、保險、人臉識別等方面深入淺出地闡述了大數據認知的方法學。大數據標志數據密集型科學的新時代的到來,大數據時代是小模型、小定律、交叉學科的時代。大數據認知的突破口在于聚類。提倡利用云加端的形態和深度學習,研究制造神似形不似的云機器人。介紹了駕駛服務云機器人、語言機器人,提倡研發機器駕駛腦,展示了無人駕駛客車的研究成果,以及團隊正在進行的智能車的6類試驗與評估,倡導研究者做實踐中的研究,少做研究中的實踐。

大數據;聚類;腦認知;云機器人

各位大家好!我想講一個認知的課題。我們知道現在認知科學很興旺,我們把它叫做cognitive science。那么大數據認知呢?這是我今天要講的題目。

1 大數據認知方法學

1.1 數據認知案例

先講一講大數據認知方法學,講一個數據認知的案例。

寫詩是一項創造性的活動,大家認為是很智能的。人們熟讀眾多詩歌,記住了針對各種意境的大量“字串”。需要時,觸景生情,把腦中的“字串”按既定的一些規矩取出來,就成了一首新詩。我們常說“熟讀唐詩三百首,不會寫詩也會吟”。數據多了,文字的碎片多了,就可以寫詩了,但是要寫得好,很難。詩歌要講語境,要講押韻,但是對于計算機來說,規矩越多越適合計算機寫。對四聲和押韻有嚴格要求的五言絕句就是一個例子。例如,李白一生寫詩1 010首,把李白的所有詩句進行“機械切割”后放在一個庫里,如果按照押韻的方式將這些切割后的字串組成數據集,并作索引,依據 “仄仄平平,平平仄平。平平仄仄,仄仄平平”的規律讓李白作詩來紀念毛主席誕辰一百周年,結果也是蠻有意思的。比方說,毛主席是1893年12月26號生日,用18來檢索第一句,用93檢索第二句,12檢索第三句,依次類推,所做的詩是 “秀玉竟不還,西湖哀苦寒。風樓留不住,夜郎醉不眠”,見圖1。這就是不確定人工智能的魅力所在。所以數據認知離我們不遠,就在我們身邊。把數據挖掘出來,就可以反映價值。

圖1 實例

1.2 大數據特點

大數據來源于人類測量、記錄和分析世界的渴望和無盡的追求。隨著信息技術,尤其是傳感器、通信計算機和互聯網的迅猛發展和應用,人類獲取信息的手段越來越多,速度大大加快,層次和尺度更為精細,人聯網和物聯網又使得人和物都成為數據源。這樣一來,大數據成為網絡時代人類社會的重要資產,它標志著一個時代的到來。

統計學和概率在當前發揮著巨大的作用。我們經過十幾年的努力,又把它回歸到概率和統計學中。大數據造就了野蠻翻譯,甚至窮舉翻譯。我剛才講Google和百度的成功首先是搜索引擎的成功。在今年的計算機科學大會上,我會強調一個認知,叫記憶認知,而不是計算認知。智能里面的記憶很重要,所以如果計算機速度很快,容量足夠大,我們也可以用數據來做成一個野蠻翻譯或者窮舉翻譯。這里面就要回答一個根本的哲學問題,是形而上,還是形而下?形而上謂之學,形而下謂之器。器就是工具。是先有語言學,還是先有語言?是先有語音學,還是先有語音?科大訊飛超腦的成功,需要我們語言學家的反思,對語音重視了嗎?語音心理學里面有一個最大定律,就是在溝通的時候,語義只占7%,語調、肢體要占更多的比例。語調很重要,所以我們開論壇、看新聞和看PPT是不一樣的。

Google作為互聯網運營商的成功主要是大數據搜索引擎、排序算法和在線群體智能的成功。在搜狗的統計排名中鍵入LDY,得到的結果肯定是李德毅而不是林黛玉,這是什么原因?滿足了小眾。所以大家討論大數據價值實現,一定要把自己放進去。大數據是網絡時代的一種客觀存在。大數據本身,既不是科學也不是技術。各行各業的大數據,規模從TB到PB到EB到ZB,以3個數量級的階梯迅速增長,是使用傳統工具難以認知、具有更大挑戰的數據。

Google各種語言之間的轉換服務每天超過10億次。我們看到微軟在網上有一個東西,一個西班牙的學者和一個美國的中學生,進行2種語言的對話,對方說的是西班牙語,這邊聽到的是英語,但是是對方的語音。照相機尤其是Google眼鏡,可用7種語言對圖標或者菜單進行即刻的逼真翻譯。為什么可以做到這樣?因為對話模式由32種語言的翻譯機器人來回溝通。所以出去旅游到了哪個機場、哪個地鐵中心,不用擔心,就好像自己國家一樣。大數據造就了Google高度、準確的自動實時翻譯。這就是大數據的力量。

按照維基百科的定義,大數據是常規軟件無法處理的。今年IEEE國際數據工程大會(ICDE)的最大亮點是將10年最佳論文授予2014年圖靈獎獲得者Micheal Sronebraker的論文“One size fits all”。該論文回答了大數據時代的一個基本問題:“是繼續構建通用數據庫系統,還是構建特定負載面向特殊目標的系統?”作者支持后者。這件事對我們這些把大數據看成資產的人有很大的教育意義。大數據標志著一個新時代的到來。這個時代的特征不只是追求豐富的物質資源,也不只是無所不在的互聯網帶來的方便的多樣化信息服務,同時還包含區別于物質的數據資源的價值發現和價值轉換,以及由大數據帶來的精神和文化方面的嶄新現象。

1.3 大數據認知的突破口是聚類

“物以類聚,人以群分”,這是人類幾千年來認識世界和社會的基本能力。依托云計算的大數據認知的突破口,我個人認為是聚類。聚類是認知學科作為“學科的學科”要解決的首要問題。認知科學要有所突破,首先要在大數據聚類上有所突破。當今社會或宏觀或微觀的任何價值發現無不借助大數據分析的結果。因此,聚類成為發現大數據資產價值的第一步。搜索引擎和排序算法首先都要解決聚類問題。大數據聚類的挑戰性表現在并行計算、深度計算、抽樣技術、增量學習、近似計算、在線學習、跨模態融合、時序關聯等方面。大數據聚類表現形式是多層次、不確定和變粒度特性的。什么是粒度,就是用多大尺度來看待事情。

圖靈獎獲得者說:“人類走過了幾千年的實驗科學,幾百年的理論科學,幾十年的計算科學之后,迎來了數據密集型科學的新時代。”舉一個保險行業在大數據認知方法學方面的例子。保險公司對車險客戶的傳統聚類分為4類:A:連續兩年沒有出車禍的;B:最近一年沒有出車禍的;C:過去一年出了1次車禍的;D:過去一年出了2次及以上車禍的。如果經常出車禍,保險費就會高一些。但是隨著汽車成為雙駕雙控輪式機器人和成為大數據發生器以后,每一次駕駛、每一次維修、每一次行程,甚至每一次剎車都記錄在案。利用大數據聚類,保險公司可對一個車況好、駕駛習慣好、常走線路事故率低、不勤開車的特定客戶給予更大優惠,而對風險太高的客戶報高價甚至拒絕??傊?,能夠給出包括保險費支付方式在內的個性化解決方案,這就顛覆了保險公司的傳統商業模式。大數據聚類成為保險公司的核心競爭力。

1.4 大數據認知的方法學

再講講關系數據庫。人臉聚類的傳統方法是先結構化,用幾何結構的特征將人臉放入關系數據庫中。將雙眼間距、鼻梁高度等人臉特征變為數據。這種方法存在的一個問題就是人臉屬于隱私,有時無法獲取。另外,到底需要多少個結構特征才能完整表現人臉特征?結構化人臉大數據聚類的局限性在于其本質上僅是幾何結構的聚類,形式化約束太強,忽略了聚類的不確定性、聚類的多樣性、聚類過程中簡單的群體交互性、聚類樣本的可獲得性,缺少聚類結果的評價標準(群體認知的共性),尤其是表情、年齡、膚色、基因、性別、婚姻等太多因素。所以,如果有企業能夠從一張全家福里面找出兒媳婦或者女婿來,我覺得這個產業就能賺錢。

在實驗科學、理論科學和計算科學時代,任何學科的公理系統,即形式化理論,更多地依靠學科奠基人的天才歸納而成,并取得共識。學科重點在解釋,形成邏輯推論,即公理系統的定理和推論,可以認為是“大定律、大模型、小數據”時代,數據圍繞模型和程序轉。真正的發明在程序。

大數據認知對形式化方法提出了挑戰。公理、模型、程序要圍繞著數據轉,形成數據定義的系統。大數據時代一切靠數據說話,數據可能是“學科”的原生態的碎片化,數據價值就是從數據中期待被發現的“學科”。任何學科的形式化理論要更多地依賴大數據,服從大數據,數據中隱含的真理性會創造出新學科,這樣一些學科往往是交叉學科。大數據時代是小模型、小定律、交叉學科的時代,要樹立程序和模型圍繞數據轉的思想。通常一個好的模型或者算法是基于小數據樣本,例如計算復雜度是數據規模N的二次或者三次方,計算能力是沒有問題的。但是在大數據樣本學習中,需要的計算資源就要相差千萬倍甚至更多,那個曾經好的算法只能到此為止了。

實踐中的研究可能勝過研究中的實踐。要更多關注有意義的小眾(精確定位客戶群),眾多的小眾構成大眾。通過大數據聚類即時發現價值,充分認識大數據中的不確定性和價值隱蔽性,跨界構建基于統計的可變視角和可變尺度的全新發現狀態空間,用大數據的規模來彌補單個數據的誤差,保證發現價值的精準性。

2 云機器人

云計算已經被全世界所重視,國務院專門下發云計算信息產業指導意見,最近又下發了“互聯網+”行動的指導意見。云計算帶來了什么?智能手機用人工智能的觀點來看就是一個機器人,一個智能代理。對于機器人與人,當前更應該關注研發神似形不似的云機器人。云機器人依托云計算優勢,重在認知,體現在端設備上是感知和行動。先研發語言和圖像豐富、認知復雜、動作相對簡單的特定領域的云機器人比較好。如導航機器人,其智商和情商容易取得小眾的共識。因此,研發云機器人成為大數據認知的又一個突破口。

云計算和大數據催生了云機器人。語言、文本、歌曲、劇本等都可以通過一個虛擬機器人來產生形象、情感、動作、語音、語調、風格等。例如,高德的導航機器人做了郭德綱版和林志玲版。

在云計算方面當前的一個熱點是深度學習。深度學習以卷積神經網絡為代表,相比最早的淺學習,它是在更高階上提取精細特征參數。深度學習是一套靈活、復雜而又簡單的形式化模型框架,依靠不同且更深度的神經網絡中的大量參數的確定去處理不同的問題,參數量可高達十幾億個,參數的精度依靠大數據量訓練得以保證,適合端到端學習。在云計算數據中心,采用成千上萬臺“CPU+GPU”服務器架構做混合的大規模數據的并行訓練,可確定幾十億個參數的人工神經網絡模型,將其用于語音識別、人臉識別等已經獲得明顯成效。

深度學習吸收了云計算和大數據的紅利?;ヂ摼W、云計算、物聯網和大數據可以有力支撐云機器人如何說、如何看、如何想,而解決機器人如何動作的“智能制造2025”迎來了我國機器人的春天。

我希望嘗試這種機器人。將北京市路口簡單的攝像頭定位成路口機器人交警,根據限號情況,壓線就扣分、罰款。企業界的朋友們,為什么不做這件事呢?將導航機器人加入數據,變成導游機器人。我們做的雙駕雙功能輪式機器人在醉酒時是代駕機器人;若不會開車,就變成教練機器人。未來我們希望做交通事故仲裁機器人交警和特種車輛服務機器人。當人們移動生活品質提高后,可以在車上做高考輔導聊天機器人,喜歡詩人的話在車上安裝機器詩人汪國真,喜歡鄧麗君的歌聲,那我們就編個機器歌手鄧麗君。也可以做手語交互機器人,以及和癡呆病患者聊天的機器人。大數據是原生態、腳踏實地的。語言大數據的價值發現,不是要找到更好的形式化方法來反映語言的豐富和高雅,而是利用語言數據明確特定的情景,消除混亂的輸出。

3 大數據認知的實踐

上面講的是大數據價值發現的實現之路,下面講講我自己做過的東西,研發機器駕駛腦(大數據認知的實踐)。

當前人工智能不是要人工造出一個生物意義的人腦?,F在大家對神經網絡很感興趣,但是卷積神經網和生物神經網完全是兩個概念。我們現在最迫切的是要利用大數據的認知做一個特別明確的智能,好比聊天機器人。輪式機器人要顛覆的不是汽車,而是汽車的人工孤立駕駛,提高移動生活品質。我們研發了一個不帶情緒的機器人。最近Google宣布其研制了相當于人類75年駕齡的機器人。75年駕齡的水平是什么,尚未清楚。腦認知如何度量,仍然尚未清楚。狼孩在狼群里長大,無法具有人的心理,錯過了大腦學習語言和文字的最佳生長發育期,例如一些弱智兒童,就是大腦在成長期受到了一些傷害。我個人認為,包括駕駛在內的所有技巧、技能都是后天學習的,語言、指示、文明、傳承等都是后天學習的。因此,要研究腦認知的后天屬性,就要建立人腦認知的成長機制,從認知能力水平上理解大腦的工作機理,研發和人腦特定認知能力相當的機器腦,例如機器駕駛腦。

腦認知的外在表現是如何說和如何看,即語言認知和圖像認知。腦認知的內涵包括3個方面:計算認知、記憶認知和交互認知,因此要把人腦的計算認知、記憶認知和交互認知放在一個板卡上。開車造成事故的最大原因是注意力不集中,情緒是根本,于是我們開始研究腦認知的本質。我個人認為腦認知的本質是概率認知、統計認知。腦對客觀世界的認知往往需要多次反復,在“反復感知-認知-行動”的過程中形成相對穩定的認知,形成不確定性中的基本確定性。腦認知的核心是記憶認知。是記憶能力重要還是計算能力重要?按照大數據的觀點,我個人認為記憶能力更重要。

概念的形成過程、判斷的形成過程、推理的形成過程就是思維的過程,是對多感知信息的覺悟,即認知計算(也稱計算認知)。腦認知也是計算認知。在人腦算法中,只有一種算法:相似度計算。腦認知的一個重要特點是腦的不同區域、不同力度的認知可以往返跳躍,并行處理。大腦皮質中形成的先驗知識(粗粒度)和海馬體中當前學習和思維的問題(中粒度),以及視覺神經中殘留的感覺和觀察(細粒度)可同時發生交互和關聯,反映為在不同尺度空間的靈活轉換。所以豐富的感覺記憶、較豐富的工作記憶大腦皮質中的長期記憶又進一步被簡約了。感覺記憶、工作記憶和長期記憶隨著一次次認知而演化。也許在腦區里沒有明確的分界面,只是我們理解腦認知功能的人為劃分而已,只是我們要形式化腦功能以便于機器實現而已。

我們用1個或者幾個CPU和GPU,再加上FPGA,再加上幾個ASIC芯片,能不能做一個板卡插入汽車中,變成一個機器腦。既要表現學習能力,又要表現思維能力;既要表現模仿類比,又要表現歸納演繹;既有技能,又有知識。我們的板卡就要做到這3條。我們把雷達(激光雷達、紅外雷達、超聲雷達、毫米波雷達),攝像頭(感知周邊環境,七八個,包括看前景和看車道線、交通指示板等),再加上GPS、地圖,形成一個以駕駛員認知為核心的駕駛態勢。在腦認知中有很多記憶,比如哪個路段是事故多發路段,哪個路段容易下雨,把它拿來作交換,形成一個駕駛態勢認知。我認為駕駛的認知比較簡單,駕駛的技能十分重要,所以著力點是要把車子改造好,保證車子動力學特性。這就是我們駕駛腦感知、認知和行為的綜合。

2015年4月20日進行了無人駕駛汽車演示,2015年5月課題組在鄭州進行了無人駕駛客車演示。目前我們正在進行的智能車6類試驗和評估:包括智能車電磁頻譜兼容性評估、智能車架構開放性評估、模塊的獨立性評估、駕駛智能魯棒性評估、人機交互友好性評估和智能車自主學習能力評估。

4 結束語

研究告訴我們多做實踐中的研究,這就是大數據時代的狀況。科學在大數據時代怎么做?我今天用我的認知講了幾個基本問題:基于數據的算法(程序要圍著數據轉)、基于數據的聚類、基于數據的搜索引擎、基于數據的工程(數據定義的工程或者網絡)、基于數據的趨勢。這些都是對我們新的啟示。

謝謝大家!

本文根據“2015大數據價值實現之路高峰論壇”上李德毅院士主題報告錄音整理。

[1] Newton I.自然哲學之數學原理[M].王克迪,譯.武漢:武漢出版社,1992.

[2] Handy C.Beyond Certainty: The Changing World of Organization[M].Pennsylvania: Harvard Business School Publishing,1998.

[3] 王梓坤.概率論基礎及其應用[M].北京:北京師范大學出版社,1995.

[4] 李洪興,汪培莊.模糊數學[M].北京:國防工業出版社,1994.

[5] Pawlak Z.Rough sets[J].Int’l Journal of Computer and Information Sciences,1982,11(5):341-356.

[6] Gau W L,Buehrer D J.Vague sets[J].IEEE Trans.on Systems,Man and Cybernetics,1993,23(2):610-614.

[7] 李德毅,孟海軍,史雪梅.隸屬云和隸屬云發生器[J].計算機研究和發展,1995,32(6):16-21.

[8] 李德毅.知識表示中的不確定性[J].中國工程科學,2000,2(10):73-79.

[9] 邱菀華.管理決策與應用熵學[M].北京:機械工業出版社,2002.

[10]李德毅,劉常昱.論正態云模型的普適性[J].中國工程科學,2004,6(8):28-34.

[11]Ruelle D.機遇與混沌[M].劉式達,梁爽,李滇林,譯.上海:上海科技教育出版社,2001.

[12]苗東升,劉華杰.混沌學縱橫論[M].北京:中國人民大學出版社,1993.

[13]王梓坤.論混沌與隨機[J].北京師范大學學報,1994,30(2):199-202.

[14]王興元.復雜非線性系統中的混沌[M].北京:電子工業出版社,2003.

[15]孫霞,吳自勤.分形原理及其應用[M].合肥:中國科學技術大學出版社,2003.

[16] Wang X F,Chen G R.Complex networks: Small-World,scale-free and beyond[J].IEEE Circuits and Systems Magazine,2003,3(1):6-20.

[17]陸汝鈐.世紀之交的知識工程與知識科學[M].北京:清華大學出版社,2001.

[18]Crick F.驚人的假說[M].汪云九,齊翔林,吳新年,等,譯.長沙:湖南科學技術出版社,2003.

[19]王甦,汪安圣.認知心理學[M].北京:北京大學出版社,2003.

[20]李德毅,淦文燕,劉璐瑩.中國人工智能進展[M].北京:北京郵電大學出版社,2003:6-14.

[21] Zipf G K.Psycho-Biology of Languages[M].Cambridge: MIT Press,1965.

[22] Ford K,Hayes P.On computational wings: Rethinking the goals of artificial intelligence[J].Scientific American Presents,1998,9(4):78-83.

[23] Hearst M,Hirsh H.AI’s greatest trends and controversies[J].IEEE Intelligent Systems,2000,15(1):8-17.

(責任編輯 楊黎麗)

Big Data Cognition: Keynote Lecture of “2015 Forum of Big Data Value Realization Road”

LI De-yi

(Chines Association for Artificial Intelligence, Beijing 100876, China)

This paper deeply elaborated the big data cognitive methodology with simple explanation with the introduction of poetry writing, language translation, the voice recognition, insurance, face recognition and so on. Big data symbolizes the coming of new era of data-intensive science and the big data age is the era of little model, little’s law and interdisciplinary. The breakthrough of big data cognitive lies in the cluster. Using the shape and depth of cloud and end to study is advocated and the research manufacturing of cloud robots which may like in spirit but do not like in form are advocated. He introduced the driving service cloud robots and robot language, and promoted development of brain machine driving, and demonstrated the research achievements of unmanned buses and the ongoing six class testing and assessment of the smart car of his team and advocated researchers to do more in practice, and less research in practice.

big data; cluster; brain cognition; cloud robotics

2015-07-22 作者簡介:李德毅(1944—),男,江蘇泰縣人,中國工程院院士,歐亞科學院院士,中國人工智能學會理事長,主要從事計算機工程、復雜網絡和智能駕駛等方面的研究。

李德毅.大數據認知 ——“2015大數據價值實現之路高峰論壇”主題報告[J].重慶理工大學學報:自然科學版,2015(9):1-6.

format: LI De-yi.Big Data Cognition: Keynote Lecture of “2015 Forum of Big Data Value Realization Road”[J].Journal of Chongqing University of Technology:Natural Science,2015(9):1-6.

10.3969/j.issn.1674-8425(z).2015.09.001

TP18

B

1674-8425(2015)09-0001-06

主站蜘蛛池模板: 欧美午夜性视频| 97国产在线视频| 免费国产在线精品一区 | 亚洲欧美日韩中文字幕在线一区| 原味小视频在线www国产| 日韩精品一区二区三区swag| 噜噜噜久久| 欧美一级色视频| 亚洲成人动漫在线| 日韩国产亚洲一区二区在线观看| 亚洲区第一页| 99精品视频在线观看免费播放| 久久成人国产精品免费软件 | а∨天堂一区中文字幕| 伊人福利视频| 91啦中文字幕| 国产精品一区二区无码免费看片| 国产伦片中文免费观看| 国产福利2021最新在线观看| 国产精品久久久久无码网站| a毛片免费看| 国产精品香蕉在线观看不卡| av无码久久精品| 呦系列视频一区二区三区| 手机精品视频在线观看免费| 一级毛片免费播放视频| 亚洲第一综合天堂另类专| 国内精品一区二区在线观看 | 草草线在成年免费视频2| 国产亚洲男人的天堂在线观看| 黄片一区二区三区| 国产成人1024精品| 狠狠色狠狠综合久久| 天天色天天操综合网| 福利一区在线| 日韩a在线观看免费观看| 中文无码伦av中文字幕| 久久这里只有精品66| 一本大道香蕉中文日本不卡高清二区| 国产91小视频在线观看| 青青操视频免费观看| 乱人伦中文视频在线观看免费| 亚洲男人天堂网址| 欧美精品伊人久久| 国产精品久久久久久久久久98 | 亚洲国产天堂在线观看| 三上悠亚一区二区| 人妻丰满熟妇αv无码| 国产黑丝视频在线观看| 91久久大香线蕉| 色综合久久无码网| 五月婷婷综合在线视频| 亚洲精品国产精品乱码不卞 | 久久国产香蕉| 国产内射一区亚洲| 亚洲AV电影不卡在线观看| 萌白酱国产一区二区| 国产簧片免费在线播放| 亚洲欧美综合在线观看| 国产网友愉拍精品| 免费一级毛片不卡在线播放 | 无码中字出轨中文人妻中文中| 成人伊人色一区二区三区| 国产欧美日韩另类精彩视频| 久久婷婷人人澡人人爱91| 日韩免费成人| 欧美福利在线| 久久黄色免费电影| 天天综合色网| 国产成人1024精品| 狠狠色成人综合首页| 日本欧美精品| 国产亚洲精品无码专| 国产国拍精品视频免费看| 欧美三级日韩三级| 久久久久亚洲AV成人网站软件| 狠狠综合久久久久综| 国产精品刺激对白在线| AV在线麻免费观看网站| 一级毛片免费高清视频| 国产成人精品在线1区| 中文字幕人成乱码熟女免费|