吳信東 何進 陸汝鈐 鄭南寧
從大數據到大知識:HACE+BigKE
吳信東1,2何進1陸汝鈐3鄭南寧4
大數據面向異構自治的多源海量數據,旨在挖掘數據間復雜且演化的關聯.隨著數據采集存儲和互聯網技術的發展,大數據分析和應用已成為各行各業的研發熱點.本文從大數據的本質特征開始,評述現有的幾種大數據模型,包括5V,5R,4P 和HACE定理,同時從知識建模的角度,介紹一種大數據知識工程模型BigKE來生成大知識,并對大知識的前景進行展望.
大數據,知識挖掘,異構,碎片化知識,在線學習
引用格式吳信東,何進,陸汝鈐,鄭南寧.從大數據到大知識:HACE+BigKE.自動化學報,2016,42(7):965-982
隨著互聯網的不斷發展,我們可以收集和獲取的數據以不可預計的速度增長.盡管數據的收集、存儲和處理技術還在不斷進步并日趨成熟,但基于如此復雜的數據背景,我們仍然面臨著許多分析和處理數據的問題與挑戰.因此,大數據的分析及其應用成為了一大科研熱點.對大數據的本質特征的概括始于2001年美國高德納公司(Gartner Group)的分析師Laney等提出的3V特征[1].之后IT業界的科技大廠IBM對其進行了應用并加以擴充,獲得了4V或5V:包括了大數據巨大的數據量(Volume)、快速的分析和處理速度(Velocity)、多樣化的數據種類和數據來源(Variety)、對商業領域巨大的價值(Value)和其隱藏知識的真實性(Veracity)[2].大數據廣闊的應用背景,使其不僅在科研領域,乃至于在商業、政治、經濟、醫療和文化等多領域內,都在引發和領導一場變革.
在網絡2.0時代,用戶已經從被動的信息接受者轉變為主動的創造者.一些數字可以說明這個事實:美國每年的線上零售交易記錄數量、推特網的發帖數量、各大物理實驗室和天文望遠鏡觀測記錄值,就足以產生大約1.2ZB的電子數據,由此,美國國家科學基金會(National Science Foundation,NSF)在大數據領域的投入也日益增多[3].我們再從數據產生速度來看:全球范圍內,每一秒產生約2.9百萬封電子郵件,同時,Youtube網上可以上傳2.88萬小時的視頻數據.這些數據信息,足夠一個用戶晝夜不息地看上幾年.
這些來自商業、天文、科學和工程等多領域的可用數據規模不斷擴大,數據從數兆兆字節(Terabyte,TB)到數千兆字節(Peta-byte,PB)的爆炸式增長,對數據和信息的獲取、存儲和處理提出了新的要求.在網絡2.0和工業5.0時代的共同作用下,我們應當注意到,這個龐大的數據量有很大一部分是數據和信息在向知識的轉化過程中生成的,這實際上就是我們主張的大數據知識工程的基本思路.文獻[4]中所說的“知識自動化”這一詞源于Fish于2012年出版的Knowledge Automation一書[5],這和我們的大數據知識工程的基本思路是一致的.人類直接生產的數據形成的網絡流量不足大部分網站流量的37%,大部分的網絡數據流量是數據和信息在向知識轉化過程中生成的二次數據.這種二次數據形成的過程可以理解為基于知識的服務(Knowledge-based services,KBS),這與基于位置的服務(Location-based services,LBS)、基于信息的服務(Information-based services)、基于情報的服務(Intelligence-based services),以及基于任務的服務(Task-based services)相類似[4].大數據的自動化產生,大數據技術的廣泛應用對有用知識的自動產生和獲取提出了進一步的要求:更高水平的大數據知識工程,更好的“惡意(Malicious)”過濾機制以及更合理的知識評價體系.
近幾年,人們對“大數據”一詞似乎不再是那么陌生.在數據挖掘和人工智能等科研領域內,大數據的擴散速度隨著相關研究的增多而加快.研究者們逐漸認識到,具有大數據特征的數據資源,除去其固有的龐大的信息量,似乎還可以挖掘出無法用我們現有的計算標準得出的隱含的“大知識”,這些有用的知識我們無法快速、高效地處理和分析,因此產生了一系列新的問題和挑戰.值得注意的是,大數據的價值絕不僅僅是巨大的數據量而已,雖然僅憑數據集的擴充,確實能提升現有的統計和分析工作的精確度.但是,對于大知識的發現和表示,僅僅通過提升對龐大數據的收集和存儲能力是不足夠的,這些數據還包含對數據表示等方面的可伸縮性、數據分析算法本身的改進需求[6].
海量數據的收集和大數據知識發現技術可以應用到多個領域.在科學研究方面,目前國內外的天文學研究中海量數據的收集和應用已經非常普遍.舉例來說,美國斯隆數字巡天項目(Sloan digital sky survey,SDSS)中所產生的海量的天文數據遠遠超出了預期,至今其所收集的數據已多達140TB之多[7].專業的科研領域內,除了天文學的大量觀測數據的應用,移動終端等傳感器產生的大數據也頗為重要:大數據地理信息系統(Geographic information system,GIS)的構建、地震的勘探、雷達等非結構化信息的應用價值都不容小覷.從政府推進力度來看,美國將大數據作為事關國家戰略和國家核心競爭力的問題,并于2012年3月推出了“大數據的研究與發展倡議”,這也讓人看到了大數據應用廣闊的前景.除去科研工作,文化領域也受到了大數據的影響.微軟紐約研究院的經濟學家David Rothschild利用大數據技術,成功預測了2013年24個奧斯卡獎項中的19個,這一實例成為人們津津樂道的話題.2014年,David Rothschild再次成功預測第86屆奧斯卡24個獎項中的21個,大數據知識的價值由此可見一斑.除了各行業領域內的應用,大數據精準的預測和分析手段、對用戶的行為模式和偏好行為的挖掘、對商業和金融決策的意義,以及在信息安全方面都能給現有的數據和信息處理模式帶來變革.
然而,利用現有的數據處理手段,我們無法發揮出大數據真正的價值,大數據的本質特征為我們在分析和應用上帶來了一系列的問題.大數據帶來的挑戰問題,已經不僅僅是單純意義上的數據規模的巨大,還包含了對大數據分析技術的改進問題,從而滿足越來越多樣化的對個性化服務和知識導航的需求.接下來我們需要考慮的是如何從海量的數據中提取和分析出有價值的知識,這也是對大數據進行研究的重要意義之一.
從數據量來說,大數據龐大的數據量已經無法通過已有模型和計算平臺簡單處理,面對大數據的數據規模,我們無法單純依靠并行計算和硬件方面的提升去突破計算平臺上的瓶頸.例如,網絡、電視、報紙等眾多數據來源產生了不同結構的異構數據,我們的首要挑戰就是從這些看似雜亂無章的數據中提取出真正對我們后面的工作和預測有價值的數據信息,選擇合適的過濾機制[8].面對鋪天蓋地的數據資源,我們需要的不再是通篇的文字、聲音或者是圖像信息,數據的規模和數量在不斷增長,但無用數據的存在導致數據的價值并不會成比例增長.針對這個問題,現有的篩選機制對大數據的提取和分析顯得尤為困難和低效.由此,在大數據環境下的數據的預處理和清洗也具有更高的要求.數據的清洗過程既要過濾無用的數據,也要保留對大知識提取有用的信息.對大數據的知識處理來說,通過一個穩定高效數據計算和清洗平臺,經過數據預處理過程,得到高質量的數據集合進行下一步分析是關鍵的一步.
從大數據的產生和獲取來源來說,盡管網絡規模的擴張為我們獲取信息帶來了便利,但復雜網絡結構和獲取信息途徑的多樣化,使得數據的異構問題日益凸顯.異構數據在數據的存儲和表示上產生了困難,單一的數據表示和存儲已經無法滿足需求.數據的分析工作的價值遠遠高于簡單的定位和識別,數據間復雜的語義聯系以及不同結構的數據,需要我們尋找一種標準化的數據的表示方式.標準化的數據表示形式的定義本身就存在相當大的挑戰,這也會涉及到在對異構數據的集成過程中需要對大規模數據集進行數據的轉換[9].以社交網絡中的大數據分析為例,通過對網絡結構的刻畫形式的改進,我們集成多個網站上的異構自治信息源,可能包括用戶發送的微博、評論或者是上傳的圖片、音頻等信息,足以描繪出一個合理的網絡結構描述數據間的語義關聯.
從我們分析大數據的最終目的來說,落實到實際應用上,我們關心的是大數據能夠提供的服務,這些服務需要分析數據間的結構和關聯,面對簡單的數據,數據之間不存在動態的演化,相應的知識挖掘和數據關聯就易于發現和表示.因此,從以數據流形式到來的大數據中獲取知識,到近期的大數據知識工程模式,都具有實時數據處理和更新數據的動態演變內容的需求,其所得到的知識相較于單一數據也更具價值.舉例來說,包括社區智能需求和提升個性化服務[10]等以大數據知識為基礎的導航服務,在社會服務和個性化需求上具有更精準的導向.
通過大數據知識工程,我們旨在獲取大數據中的“大知識”:大知識從異構、自治的大數據開始,挖掘包括數據流和特征流的多源海量數據以發現數據對象之間復雜且演化的關聯,通過大數據知識工程,以用戶需求為導向,提供具有個性化和實時使用價值的知識服務.大知識源于大數據,通過大數據知識工程的方法進行提取和處理.數據流和特征流有別于傳統的單個靜態數據源,以流的形式快速到來的大數據對實時性具有很高的要求,數據之間的關聯性和特征形成的特征流數據提出了新的數據挖掘和處理問題.因此,為了獲取大知識,我們需要了解大數據的本質特征和現有的大數據的一些挑戰問題.
針對大數據的幾大本質特征,研究者們提出了幾種目前被廣泛接受的大數據模型,包括5V、5R、4P和HACE定理.這幾個模型分別從不同的角度提出了在進行大數據分析和處理的過程中需重點關注的挑戰,其中HACE還對大數據挖掘提出了一種可行的多層框架.IBM的5V模型著眼于大數據的核心特征,注重以先進技術提高大數據的質量以得到有價值的知識,每個V的維度都包含大數據工作中某一方面的嚴峻挑戰[11].5R模型從大數據的管理建模的角度,注重大數據對于商業決策和商業回報的價值,同時它也是本文介紹的大數據知識工程模型BigKE的支撐[12].4P醫學模型基于現有的4P醫學模式,包含預測性(Predictive)、預防性(Preventive)、個體化(Personalized)和參與性(Participatory)四個維度[13].4P醫學模型在強調專家知識的重要性的同時,著眼于社會網絡和個人信息的參與性.然而,專家知識和新加入的社會與個人因素同樣產生了異構自治數據源和碎片化知識提取的問題,這為大數據的數據集成以及碎片化知識的融合提出了新的技術要求[14].大數據的HACE定理考慮了大數據的本質特征,包含了海量、異構、分布和分散式控制的自治源、數據間復雜和演化的關聯等大數據的典型特征[15],但是HACE定理也沒有提出系統地解決碎片化知識的非線性融合問題的方法.
針對以上現有的大數據模型及其存在的問題,本文從知識建模的角度介紹大數據知識工程模型BigKE.該模型針對海量異構數據中的碎片化知識的非線性融合問題,提出了從數據流和特征流的在線學習為開端,利用非線性知識融合手段形成有價值的知識圖譜,并以此為基礎以滿足需求為導向的知識服務的三層知識工程框架.BigKE模型能夠一定程度上應對大數據特征帶來的知識工程的挑戰,從而在碎片化知識中提取出有價值的大知識,最終滿足大數據用戶的個性化需求.
本文安排如下:第1節介紹大數據的本質特征和知識工程的研究進展,包括對現有的5V模型、5R模型、4P醫學模型和HACE定理進行闡述,這一節中對HACE定理的大數據多層處理框架做較為詳細的介紹.第2節,介紹大數據知識工程的概念,并對大數據背景下知識工程研究中的挑戰問題做一些闡述.第3節中,我們從知識建模的角度,詳細介紹一種大數據知識工程模型BigKE.第4節中,我們總結現有的大數據模型以及大數據知識工程模型BigKE,討論BigKE模型后大知識的挑戰問題和應用前景.最后,我們對從大數據到大知識的過程做出總結.
1.1大數據的本質特征
隨著云計算、互聯網、各種移動設備與物聯網的發展和普及,大數據已經成為一個耳熟能詳的概念.互聯網的擴張,使得人人都能感受到大數據的存在,但各個領域對“究竟什么是大數據”或者“具備怎樣特征的數據可以稱為大數據”的問題,都有各自不同的定義和理解.早在20世紀90年代,被稱為“數據倉庫之父”的Bill Inmon就開始關注大數據了,只是當時的大數據還被稱作海量數據.維基百科和國際數據公司(International Data Corporation,IDC)對大數據分別做出了各自的闡述[16-17].簡而言之,大數據是無法在合理的時間內,利用我們現有的數據處理手段,對其進行諸如存儲、管理、抓取等分析和處理的數據集合.
隨著大數據科研項目的深入展開,我們對大數據的定義,以及對大數據蘊含的知識價值的認識,從最初單純意義的“大體量”逐漸有了更深層次的闡述.實際上,大數據之“大”包含了數量與其蘊含的知識的價值兩個方面,大數據知識的目標和價值體現在對數據進行分析和處理之后,加工后的數據在商業、科學、工程、教育、醫療和整個社會領域內的決策有著重要的導向意義[18].
為了從大數據中獲取有價值的知識,我們首先需要了解大數據的特征.大數據的本質特征與大數據的來源密切相關.首先值得關注的是大數據的大數據量.隨著互聯網、云計算、物聯網等技術的發展,網絡空間中數據的規模不斷增加,數據的計量從GB、TB、PB增長到EB和ZB的規模.IDC研究報告顯示,全球大數據的數量規模在未來50年內會增加50倍,管理數據倉庫的服務器的數量將增加10倍以適應于大數據數量規模的50倍增長[19].在此之前,由于數據的來源和數據的形式較為單一,數據的獲取、存儲和挖掘的方法也相對比較單一,從數據中獲取知識的工作的復雜度也沒有提升.大數據的處理和知識發現與獲取,對算法的實時性具有較高的要求,這也是由于大數據的海量特征.實時處理的數據計算方法通常和流式計算相結合,并且采用查詢分類計算以提高響應的性能.而傳統的批處理計算和復雜數據挖掘計算則是非實時計算,這就無法與大數據的海量特征相適應,對大數據的處理和計算平臺有了新的要求和挑戰.
隨著多種新型的數據獲取渠道的出現,不僅僅是音頻、視頻、廣播、電視等多種媒體的混合,包括復雜的網絡在內的信息來源,都顯示出大數據的一個典型特征:異構和多維度.高維大數據的分布還產生了稀疏子空間聚類的問題.大數據在高維通常分布在多個低維子空間的并上,因此高維的數據在適當字典下的表示具有稀疏性[20].這需要我們尋找到合適的處理高維數據的聚類和分類的方法.舉個例子來說,如果發生了一個熱門的新聞事件,那么在網絡、電視、報紙等多個平臺上就會引發熱議.大眾對于事件的評價標準和意見各不相同,信息和數據產生的形式可能是微博、視頻、音頻等.不同的信息源產生的數據一般沒有使用統一的數據收集、記錄、存儲和表達形式,這使得異構的大數據在處理的過程中產生了諸多問題與挑戰,對數據的轉換和集成提出了更高的要求.
多樣化的數據來源產生了大數據的異構性問題,當大數據投入到實際應用之中,各個數據源在產生和收集數據的時候相互獨立,如同互聯網中的自治系統,能夠自主地決定本網絡中使用何種路由協議一樣.這樣的數據特征顯示出大數據的另一個本質特征:分布式和分散式控制的自治數據源.這些自治的數據源沒有集中式控制,能夠自主地決定產生和收集的數據存儲和表示的形式.這在一定程度上使得數據之間的關聯度有所下降,也在一定程度上提升了數據和用戶信息的安全性.但這些自治源仍然帶有分布式和分散式控制.隨著云計算和云終端的普及,分布式控制方面的應用融入到生活的各個方面,同樣也保障了對于大數據驚人的規模增長同步的數據處理和分析能力的提升[21].在工業運用上,以太網的計算機分散式控制也在電力系統上得到了應用[22].分散式控制過程中數據的安全提升了、數據處理的簡便性增加了,這使得在復雜的大數據環境和數據規模較大的控制環境下,能夠很好地適應數據分析和處理的需要.
同樣,由于大數據龐大的數據規模及其數據源的異構性和自治性,數據間的關聯顯得更為復雜,隨著時間的推進,數據之間的關聯也會發生演化.網絡環境下的大數據信息則顯得更加難以發現,數據下隱藏的關鍵信息可能會有所重合,并隨著時間的推進發生演化.大數據之間復雜和演化的關聯的發現和早期集中式控制的信息系統有著明顯的區分,數據的內容無法再簡單地由幾個給定的特征值表示出來,異構的數據無法統一其表示形式,因而數據關聯的發現和處理難度大大提升.大數據的這一特征在社交網絡中得到了充分的表現,用戶之間敵對或者友好的關系,為我們對數據的聚合和分類提供了可能性[23].社交網絡擁有龐大的用戶群,每日產生大量的圖片和文字信息,網絡上充斥著各種形式不一的文本和音視頻信息.微博、推特、豆瓣等常見的社交平臺上朋友圈之間和粉絲之間的聯系隱藏了各種有用的信息,包括事件的預測、真實性等.用戶在搜索引擎中搜索的信息,也如實反映出了社交網絡中數據的流動和演化傾向.
1.2大數據特征:5V模型
2001年,Gartner公司的數據分析師Laney首次從大數據特征的角度明確定義了大數據,強調了大數據的3V特征,即海量(Volume)、快速(Velocity)與多樣化(Variety)[24].在3V的理論基礎上,IBM公司相繼提出了大數據的4V和5V模型,新加入了大數據的真實性(Veracity)與價值(Value)維度[2,25].IBM的這種5V模型同樣是著眼于大數據的本質特征,反映出大數據規模巨大、數據的產生速度極快、數據的結構和框架不一致、數據的安全和隱私問題.因此,我們需要更優良的數據運算方法和平臺,以面對快速產生的數據流數據并給予更快的實時響應.數據的有效性和真實性依賴于數據的質量,高效地對數據和數據中的知識進行評估對此至關重要,質量較好的數據對我們后期提取大知識和做出個性化服務具有重要意義,高質量的數據和知識也能夠體現大數據的價值所在.有效的數據管理和分析使得我們能夠做出更好的商業決策,甚至在醫療、隱私保護等多個領域都可以得到應用.最經典的實例莫過于“谷歌流感趨勢(Google flu trends,GFT)”,Google利用其用戶的搜索數據,準確預測了流感趨勢的產生,其預測的速度和準確度都遠遠高于美國疾病控制與預防中心(Centers for Disease Control and Prevention,CDC)檢測報告的結果[26].谷歌的某些搜索關鍵詞可以很好地表示流感疫情的現狀,GFT的工作原理就是利用經過匯總的谷歌搜索數據來估測流感疫情.
5V模型較之于3V模型更著眼于使用先進的技術以提高數據的質量并且能夠更加充分地探索大數據.“真實性(Veracity)”[27]和“價值性(Value)”[28]結合了3V特征顯然更加全面.IBM公司對大數據特征的概括和應用更多的是在商業決策領域,它更多地關注依據大數據知識做出的商業決策,對于提高商業收益是否有現實的指導意義和價值.但是,即使是如同谷歌的流感預測這樣典型的大數據應用實例,也不會對決策產生完全的保障.其主要原因不是由于大數據的價值被高估,而是因為人們對大數據價值所在產生了誤解:大數據價值不在于其“大小”,而是利用創新的數據分析方法來處理和分析數據[29].同樣地,大數據的價值不僅在于“大”也在于“數據”的價值.而大數據的價值往往伴隨著稀疏性的特點,從3V模型到5V模型的擴充,也反映出不當的大數據挖掘和處理所隱藏的陷阱.接下來我們更多需要考慮的是在數據的分析和提取中,利用更好的數據分析算法來提升數據的真實性和價值.雖然5V模型對大數據的特征做了很好的闡釋,但是對于大數據本質特征所導致的問題和挑戰并沒有做出過多的描述和給出解決思路.
1.3大數據管理與商用------5R模型
從大數據中獲取知識的過程,如果采用數據管理的視角,可以得到5R模型.5R模型由Stidston提出[12],包括對大數據相關的(Relevant)、實時的(Real-time)、真實的(Realistic)、可靠的(Reliable)以及投資回報(Return on investment,ROI)五大特征的闡述.從5R模型的內容來看,它和5V模型具有類似的地方.它們都著眼于大數據的本質特征,相比較而言,5R是基于商業用途而提出,它對于大數據的五大特征的描述是基于數據管理在商業上的應用進行闡釋.從數據管理的角度來看待大數據,其關鍵在于數據的組織形式.大數據的海量多源異構特征已經得到了普遍的認可,針對這些特征,采取一種怎樣的數據組織形式以提升數據收集、存儲、處理和應用的效率,獲取對商業發展與決策具有價值的“知識”,是5R模型中提出的需要解決的問題.數據的組織和管理形式經歷過人工管理、文件系統和數據庫系統的發展歷程,對傳統數據的組織已經滿足用戶的使用需求.但是在大數據的背景下,傳統的關系型數據庫技術對以數據流形式到來的巨型數據已經不再適應.
基于5R模型背景下的大數據管理系統的研究也成為一個熱點并取得了一定的進展.舉例來說,Google在網絡規模的數據量下,其采取的數據管理和分析方法—谷歌文件系統(Google file system,GFS)[30]具有較簡單的思想.GFS為客戶端提供相似的操作系統水平上的字節抽象,它對于非常大的文件的內容可以在眾多的計算機之間跨平臺共享,且不需要創建共享集群,這就使得硬件的消耗大大降低[31].
值得關注的是5R模型中的投資回報(ROI).許多的大數據項目最初關注的重點只是數據本身的利用,而沒有認識到對數據的利用怎么與整個商業計劃相適應,忽略了數據之下的知識的價值[32].尤其是對于投資回報(ROI)的關注顯得很匱乏,大數據項目中數據的來源和知識的獲取應當提供最低的成本計劃,以對最終獲取的知識進行價值評估.對于一些數據層次本身就具有非常高的價值的項目,項目本身就具有大數據的特征.如果缺少了投資回報的評估,我們就無法得知數據的價值與從某一個大數據項目中獲取知識的項目的可行性,無法評估在知識獲取的過程中所花費在人力、軟硬件等方面的投資是否具有意義.
5R模型提出的大數據管理的實時性要求(Real-time)也是大數據分析的一個方向,它和5V模型中的Velocity相契合.在第1.1節中提及了大數據的本質特征含有分布式的特點.在大數據的數據管理結構中,目前普遍使用到的是分布式的文件系統和分布式數據庫,其中,Hadoop distributed file system(HDFS)是比較具有代表性的分布式文件系統[33],其較高的容錯性適于部署在廉價的機器上,和傳統的分布式文件系統有著顯著的區別,它為用戶提供高吞吐量的數據訪問,同時,HDFS也面向流數據處理[34],這些都利于我們在大數據規模下進行數據分析和處理工作,高速處理海量數據成為了可能,大數據管理的實時性要求得到了一定程度的滿足.
1.44P醫學模型
知識工程概念的提出為專家系統(Expert system,ES)奠定了理論基礎.專家系統(ES)作為人工智能(Artificial intelligence,AI)的一個分支,自19世紀60年代中期被提出以來,已經被大量運用到工程、科學、醫學預測、商業等方面.專家系統的基本思想是依賴于專業的知識,對個性化應用做出預測等行為[35].然而,隨著大數據時代的到來,僅依賴傳統專家系統的領域知識提取大規模的異構數據集中的有價值信息,這種方式的效率已經不能滿足用戶的需要.基于大數據背景的知識工程,為了提供更加智能的個性化服務,在提取大知識的算法設計中,需要考慮用戶的社交和個人信息.
以大數據背景下的普適醫療應用為例.普適醫療(Pervasive healthcare)[36]借助普適計算技術,形成覆蓋服務區域內各個醫療機構、家庭和個人的信息網絡.信息化的推進使得電子病歷等一系列電子數據顯現出大數據的特征,同一種疾病的發病原因的多樣化、同一種疾病采取多樣化的治療方法,這些海量的異構醫療數據中同樣隱藏著有價值的醫療知識.針對這一問題,4P醫學模型[37]隨之產生了.在醫學領域,4P醫學模式的內容包含了預測性(Predictive)、預防性(Preventive)、個體化(Personalized)以及參與性(Participatory)四個維度.這種新型的醫學模式更強調病人個人,以及周圍親屬、朋友的參與和主動性,強化個體生活行為對治療和預防過程的干預.由4P醫學模型引申到大數據環境下,我們發現對于個性化服務的設計和分析來說,用戶個人的行為因素、用戶的參與度對用戶數據的影響、數據的來源和專家知識的參與,這三者是同樣重要的.可以說,4P醫學模型的提出背景離不開大數據.
我們將4P醫學模型與現有的大數據應用項目對比,可以看出,個體行為的重要性日益凸顯,病人的經歷和治療過程也成為知識的重要組成部分.同4P醫學模型提出的“個體化”與“參與性”相對應,現代醫學強調因人制宜,包含了概念更新、理論框架的構建以及實踐應用等一系列的創新舉措,這為從新的角度切入個體化診療的實現提供了可能[38].在注重用戶個體性的同時,我們也可以發現不同個體之間的相似性,利用標簽和聚類等數據處理手段,將特定的用戶和特定的行為表現相對應,發現大數據下多個用戶的相似的行為模式,發現不同的個體與某一特定癥狀的相關性,從而提高普適醫療信息管理和服務系統的準確性.
與現有的醫療系統相比較,在大數據的背景下,4P醫學模型對個性化醫療服務顯然要更加適用,它所提出的四個角度,同大數據的本質特征也是相對應的.專家系統對領域知識的依賴,使得數據的來源過于單一,會產生一系列的問題.4P醫學模型中的“預測性”和“預防性”兩個維度強調了先進醫療手段的重要性[39].然而對于普適醫療系統的應用來說,個性化的服務更注重專家知識要和病人個體信息一致.4P醫學模型將個性化的服務與預測相結合,從而為病人提供基于大數據的個性化健康建議,同時,在診斷和治療過程中的數據也被同時記錄下來.這種普適的個性化醫療服務已經漸漸滲透到生活中,使得大數據和個人生活的關聯顯得不再遙不可及.
基于4P醫學模型,具備個性化診療功能的醫療系統的實現,其核心技術在于融入了個性化的知識圖譜.專家系統相對個性化醫療系統而言,數據和信息相對結構化,雖然信息的處理和分析在一定程度上達到了較高的自動化水平,但個性化知識的自動獲取、分析和傳播將會是更高的挑戰.目前,網絡空間里的許多信息系統正在越來越多地體現出“人”的智能.這一趨勢必然導致對大數據知識工程的更高要求.
為了向醫療服務提供者和醫療服務消費者提供有價值的和個性化的醫療服務,需要挖掘海量醫療數據中的醫療知識,這也是普適醫療信息管理與服務的關鍵技術與挑戰問題.4P醫學模型的啟發性意義在于對病人的個人信息和異構的醫療信息源的處理,以基于社會計算的普適醫療信息管理與服務體系(Pervasive medical information management and service systems,PMIMSS)為例,現代的醫療服務模式涉及到醫療信息共享與集成、醫療知識發現與服務、醫療服務質量評價機制、個性化醫療服務推薦機制以及人與醫療信息系統交互的可信機制[36].這類系統的架構以及關鍵技術的出發點和設計理念,與大數據的本質特征相匹配,并且與知識工程的個性化服務推薦的目標相一致.
除了PMIMSS,還有其他個性化醫療服務的應用實例包含4P醫學模型的思想.比如,醫療服務的移動客戶端漸漸普及,研究人員利用移動客戶端的平臺發布一系列的健康激勵措施,發送提醒大眾關于疾病的預防等普適醫療信息[40].如果從用戶的客戶端中抽取有用的信息,這些信息可能涉及運動頻率、體重、社交活動等多方面的信息,獲取用戶個人信息是碎片化的,如何利用數據庫中的專家知識對不同的用戶信息進行有效的分析將會是知識集成的關鍵.大數據在普適醫療的應用,從技術層面來看,其關鍵技術依賴于個人、社交信息以及專家知識等多源異構的大數據知識的融合[41].再比如,患有某種特定疾病的病人會形成社交圈或者社區媒體,病人們在社交網絡中交換彼此的治療進展或者患病信息,這些信息作為整個社區的經驗在社交網絡中被分享.大數據在病人和醫生、病人和病人、醫生與醫生之間傳播并產生一定的演化,形成復雜的數據聯系[42].同時,這些涉及用戶個人信息的數據,需要結合已有的專業知識進行綜合分析,從而給出準確的預測和醫療建議.專家知識可能來自于專家的建議、醫學著作和臨床數據,而用戶個人信息的來源則更加多樣化.對這些大數據中所獲得的大知識的提取與融合,需要的大數據算法面對的是多源多樣化的數據.
1.5HACE定理
大數據的HACE定理指出,大數據始于異構(Heterogeneous)、自治(Autonomous)的多源海量數據,旨在尋求探索復雜的(Complex)和演化的(Evolving)數據關聯的方法和途徑.5V模型和5R模型介紹了大數據的本質特征,4P醫學模型是大數據與普適醫療結合的實例.接下來,我們從大數據的本質特征介紹HACE定理提出的一種多層的大數據處理框架,該多層框架分別從大數據的來源、大數據的復雜的數據結構以及數據之間的關系這三方面來描述[15].從大數據的來源來看,異構和自治是大數據中多個數據源的最本質特征,如盲人摸象中的每個盲人、物聯網中的各個傳感器和萬維網上每位作者和讀者,他們可能用不同的語言(中文、英文等)、不同的媒體形式(文本、圖像等)和不同的表現形式(如英國英文的31/12/15和美國英語的12/31/15)來描述和處理他們各自的信息.大數據分析的最本質目標是探索異構、自治的多源海量數據中復雜且隨時間和空間演化的數據關聯.
依據HACE定理對大數據特征的闡述,可以形成一個大數據的三層構架(見圖1).HACE定理的創新在于,它把大數據的處理框架從單層擴展為多層.HACE定理給出的多層處理架構關注對大數據的運算、大數據之間的語義聯系和應用知識、大數據的挖掘算法設計[42].HACE定理給出的多層大數據處理框架本質上涵蓋了分析大數據的科學方法,下面我們給出每一層的細節介紹.
在構架的第一層中關注的是大數據計算平臺.對大數據的知識挖掘與分析,首先是大數據計算的存儲和計算問題.在傳統的處理方法中,為了提升數據的運算能力,我們可以從計算機硬件的方面加以改進:利用密集型的計算單元,或者是依賴高性能計算機提高抓取和計算大數據的能力.在小規模和中型規模的數據量下,我們可以僅通過硬件的提升來改進數據存儲和計算的能力,并達到數據的實時處理.在大數據的海量多源異構的特點下,傳統的思路行不通了.舉個例子,多個數據源中數據的采樣和聚集就為我們的挖掘工作生成了一定的困難,憑借少量計算機和傳統的并行運算無法處理.無論是采取流水線作業達成時間上的并行計算,還是采用多個處理器達成空間上的并行,雖然它們已經在諸如稀疏矩陣和迭代算法的運用中得到普及[43],但對于大數據來說,數據的稀疏性表現在一個較高的維度空間,傳統的并行算法并不是很有效,尤其是對于以流數據形式到來的數據,實時處理是非常困難的.

圖1 大數據處理框架的修改版[15]Fig.1 A big data processing framework updated form[15]
在HACE定理的第1層數據挖掘平臺中,提出使用帶有高計算性能的集群計算機(Cluster computers).與中小規模數據集上的計算平臺相比,集群計算機上的每個計算節點都可以并行處理計算任務,使得單個計算機的計算量有所降低,從而減小對每個計算節點的硬件的依賴性.利用這種結構的最典型的并行計算工具是MapReduce.谷歌的MapReduce模型是為了并行計算而提出的一種編程框架,它將一個大規模的數據集上的計算任務拆分成多個小任務,使得大規模數據集上的計算變得更加高效[44].傳統的數據存儲和處理工作,使用最廣泛的是關系型數據庫結構.但是大規模的數據下,許多有用的信息隱藏在非結構化數據中,諸如郵件、微博、視頻等.在這方面可以運用的技術包括NoSQL和谷歌提出的“大表”(BigTable)[45]. BigTable用分布式數據庫存儲系統管理大規模數據,它將數據結構簡化為鍵值之間的一種映射關系,使得數據規模的大小和計算的延遲時間在BigTable中都得到了滿足.
HACE定理的第2層架構是大數據的語義和應用知識,包含數據共享與隱私、領域和應用知識的問題.第1層架構提出了集群式的大數據計算平臺,解決了對流數據存儲的計算問題之后,我們需要分析大數據中的隱含知識.在對大數據下隱含知識的分析過程中需要數據的共享.從數據的安全性來說,由于大數據中包含大量的敏感信息,或者是用戶的一些不合法的數據操作,都會影響到數據共享的效果,并帶來一些信息隱私的問題.個人信息包含在大數據中,也會引發關于數據可信度的度量和評估問題[46].大數據自治的分布式和分散式控制與數據的隱私有密切的聯系,為解決這一問題,目前已經產生了一些適用于分布式的文件系統.還是以Google的GFS文件系統為例,該文件系統基于一臺主機和若干個備有Linux操作系統的PC機群構成了一個集群系統.GFS系統對于用戶從主機上得到的Metadata,從相應的位置產生通信過程從而獲取文件數據[47].分布式文件系統的產生,激勵了諸如Hadoop和Hive這樣的數據平臺的產生,數據倉庫的數據處理在不斷優化的程序中得到了更好的處理和分析.
在HACE定理的第2層架構中,為了保護個人隱私信息,同時提高所提取知識的可信度,HACE主要提供了兩種解決思路:從數據存儲角度,對訪問數據的權限進行限制可以一定程度上提高數據的可信度并減少對數據的誤操作;從信息共享的渠道來看,對數據的一部分特征進行匿名化,使得數據中包含敏感信息的部分不被公開或者進行一些模糊處理,同樣也可以起到保護隱私的目的[48].舉例來說,現有的關于數據匿名化的方法中,使用最多的是k匿名方法[49],用戶通過對數據表的匿名工作指定一個k值,限定發布的數據存在某些標識符與其他k-1個具體個體沒有方法區分開來,從而保護了個體數據的隱私.其次,第2層架構需要考慮領域和應用知識[50],它們能幫助我們辨別已收集到的大數據中哪些模式是用戶希望去發現和使用的.例如,在醫療系統中對病人的數據信息進行分析時,通過領域和應用知識可以識別我們需要的數據特征是諸如病人的血型、病史等信息,從而刻畫出有效的矩陣或者其他的數據特征表達方式,同時為后期的數據挖掘工作清洗掉一部分無用的數據,得到正確的數據語義聯系.
HACE的第3層從三個方面提出了大數據挖掘算法:局部學習和多信息源的模型融合、稀疏不確定和不完整的數據挖掘、挖掘復雜的動態數據.在網絡數據的分析中,出于保護數據隱私的考慮,我們無法將從多個站點獲取的局部數據簡單地集成為一個集中式的站點.因此,大數據挖掘算法的設計存在許多挑戰:由局部數據特征到全局數據特征的轉變,稀疏的、不確定的和不完備的大數據需要有更高更快的實時性和準確性,同時我們可能還要對缺失和不準確的數據進行填充[19].從數據建模的角度,現有的文本模型,包括向量空間模型(Vector sapce model,VSP)[51]、潛在語義分析(Latent semantic analysis,LSA)[52]、知識圖譜(Knowledge based graph)[53]等,都各有優劣,比如,在知識工程中知識圖譜就能較好地表示實體之間的聯系.但這些基本模型無法滿足動態環境中對整體大數據的特征刻畫.
同時,大數據之間的復雜的數據關聯也隨著動態數據而演化.當數據流數據發生變化時,我們需要考慮現有的數據結構是否適應于新的數據描述,數據特征和數據變量在發生實時的變化.對動態數據的挖掘,對數據的變化如果只采取從頭運行挖掘算法的方式,就無法兼顧到實時處理的問題,顯然在動態數據中這不是一個有效的策略.同時,數據的動態改變導致了數據間關系的演化,使得數據的規則和已獲得的知識圖譜無法匹配.
當然,大數據的興起不僅帶來了挑戰,同時也促進了各領域的變革和發展.例如,研發針對社交網絡之間的復雜聯系以及演化關系的管理系統[54[56].
1977年,在第五屆國際人工智能會議(IJCAI 77)上,美國斯坦福大學計算機科學家費根堡姆(Feigenbaum)首次提出了知識工程(Knowledge engineering)的概念.知識工程的概念提出之后,人工智能的原理與方法在知識系統領域發揮了重大的作用.知識工程包括五大活動:對知識的獲取、驗證、表示、推論以及對知識的解釋.在知識的基礎上,知識工程通過這五大活動構建專家系統和各種智能系統[57].相對于知識管理技術,知識工程關注的是知識產生和驗證過程的動態變化,它的創新性更強、對數據的操作更加復雜,并且涉及多個相關領域的知識交叉.在知識工程的五大活動中,知識的獲取具有更大的難度.
在大數據時代,利用知識工程的思想和方法,對大數據進行獲取、驗證、表示、推論和解釋,通過挖掘出的知識來形成解決問題的專家系統,是本文所倡導的大知識,也稱為大數據知識工程[39].在大數據時代的背景下進行知識工程活動具有諸多挑戰.這主要是由于大數據的本質特征導致的,涉及到異構、自治的海量多源數據,隱藏在數據下的知識難以管理和發現.下面分析一些大數據對知識工程的挑戰問題.
首先,大數據知識工程需要對獲取的數據進行合理的存儲和表示,清晰的數據存儲形式更有利于發現數據的有用特征,剔除一些無用的數據屬性.從數據本身來看,大數據知識工程涉及大量的非結構化數據,其數據結構多以數據流的形式到來.數據流數據是一種由實時、連續、有序的數據組成的序列,它是一種動態變化的數據.與傳統的靜態結構化數據相比,數據流數據具有連續、快速、難以預測數據趨勢等特點[58].考慮到大數據特征,數據的存儲要求具有三個變化:1)數據量升至PB級;2)數據分析需求從常規分析轉向深度分析(Deep analytics);3)硬件平臺從高端轉向中低端[59].從數據的表示來看,已有的數據模型包括聚類分析、決策樹、分類方法、頻繁模式挖掘等.常見的聚類分析方法是通過尋找數據點的k個中心點來獲取數據間的距離總和的最小值[60].對數據流數據的易變特點產生的概念漂移問題,已有使用k棵隨機決策樹組成的基分類器的雙層窗口的分類算法[61].對數據流的頻繁模式挖掘,往往存在實時性較差且查詢粒度粗的問題.而采用快速啟發式的方法可以兼顧到對數據流數據的實時處理和更細的查詢粒度[62].這些模型在提取和刻畫數據特征方面各有優劣,但它們都針對的是靜態的數據,對大數據的表示和數據建模難以適應.
同數據流相對應的是特征流的問題.含有特征流的應用中,無法預知整個特征空間的相關知識.特征流是在時間上連續到來的特征序列,隨著特征數量的不斷增加,訓練集的個數可能是固定的[63]、也可能在變化之中[64].在線特征的選擇具有三大挑戰問題:1)特征的規模和數量隨著時間不斷增長;2)巨大的特征空間具有未知和規模無限大的可能性;3)整個空間的特征過于龐大,為了學習整個空間的特征,學習算法無法從最初處理整個特征集.這三大挑戰問題,同大數據的海量有著密切的關系.傳統的特征選擇面對有規律增長的特征數量,可以不必對特征流加以考慮.但大數據為特征的選擇增加了新的難度,從而引發了新的研究熱點.針對特征流的問題,在現有的特征選擇算法的基礎上,對特征之間的相關性和特征冗余加以考慮,能夠提高特征選擇的效率,基于特征更為精確和清晰的表示方式[65].
除了大數據的存儲和表示方面的挑戰,我們需要考慮的是大數據中知識的獲取.考慮到大數據的多源異構的特征,數據源通常還含有自治性質,數據的獲取通常是從局部的數據源中獲取碎片化的知識[15].對觀測到的數據,現有的標準在線學習算法大都使用線性擬合的方式,多源的數據使得獲得的知識往往成碎片化,碎片化知識的融合無法通過線性擬合完成.大數據對知識工程的又一挑戰是碎片化知識的刻畫和融合.從碎片化知識的獲取來說,現有的擬合方式無法對碎片化數據特征的分布形成合適的擬合,甚至會產生過度擬合的問題[66].其次,現有的在線學習方法,尤其是基于Kernel算法的在線學習,隨著數據量的上升,模型的參數設置會變得很復雜.比如,使用表示定理(The representation theorem)[67]可知Kernel函數的數量隨著觀測值的上升呈現出線性增長,這樣數據分析和處理的復雜度就會提升.然而,相應的一個使用機器學習分析大數據的好處是,許多的數據樣本是可獲得的,相應的減小了過度擬合的可能[68].
除此以外,對數據的訓練時間或者使用批處理來處理觀測值的時候,我們對在線學習的響應時間是有要求的,如果響應時間過長,那么由于數據隱藏的信息可能會隨著時間演化,則我們得到的信息也許就會對我們在生產、生活、商業決策方面的應用產生誤導.基于處理大規模高維數據的目的,目前已經提出了多種有效的算法.大數據環境下的知識發現所需要的算法,需要避免輸入數據時在數值或者特征上的冗余,否則數據的維度會過高.同時在學習的過程中不斷更新以降低計算的復雜度,對于高維的數據,我們還可以使用在線增量學習方法,實現模型和函數的足夠的精確度和近似過程具有足夠的泛化[69].從碎片化知識的融合來看,碎片化知識的融合是為了從單個數據源的局部數據中獲取整個大數據集合的全局數據特征.碎片化知識的融合使用現有的線性融合方法會產生一些問題,例如,如果我們采用基于形式化邏輯的知識融合[70],知識融合的過程中會被局部知識的表示形式限制,對于結構化數據這樣的融合方式沒有問題,但在非結構化的數據中,提取出的碎片化知識不具有統一的數據結構和形式.大數據環境下,為了獲取數據中的知識,我們可以采用在線學習的方式.在線學習面對數據流數據,對流中可能出現的概念漂移問題能有效地解決[71].它不僅僅是把碎片化知識“拼湊”在一起,而是從碎片化知識之間的關聯得到新的全局知識,這和對單數據源的批處理有所區別.
在大數據的知識工程中,還存在著一些數據可用性的挑戰.我們這里所探討的大數據的可用性,包含數據的一致性、完整性、精確性、時效性和實體統一性五個方面[72].舉例來說,提高數據的可用性可以增強銀行卡的安全性.如果數據庫中存在同一用戶的數據主體的不統一,例如說同一張銀行卡的某一段較小的時間間隔內,發生了兩筆空間位置距離較遠的消費記錄,則可能存在欺詐消費或者是銀行卡被盜刷的可能.同樣,數據隱私的問題也會影響到數據的可用性.為了保護個人數據的隱私,大規模數據集中可能對部分敏感字段采取匿名的方法,但是這樣也使得數據的使用風險增加和巨大的信息損失.為了在數據的隱私和數據的可用性之間尋找平衡,研究人員提出了多種方法,例如軌跡匿名算法[73-74],通過對用戶的軌跡數據的匿名化,同時融入對時間、位置、速度和方向等外在的軌跡特征信息,以及對軌跡中鄰近位置的改變,來刻畫出軌跡數據之間的相似度.
大數據的知識工程旨在形成對個性化服務有價值和指導作用的專家系統.從融合的碎片知識,我們可以用知識圖譜表示大數據中隱藏的大知識.知識圖譜的節點表示碎片化的知識,連接節點的邊我們可以看作是碎片化之間的關聯.我們需要應對的問題是如何量化這些邊和節點的關系,尤其是在動態變化的大數據關系中,已得到的知識圖譜結構也會產生變化.現有的算法需要從頭推算整個數據的結構并更新知識圖譜,這種做法相當耗費時間.并且,在海量數據中形成的知識圖譜,由于我們無法對每個觀測數據都做到保留,經過數據處理和清洗的大數據集形成的知識圖譜,必然存在諸如數據值的丟棄、噪聲[75]、不平衡數據[76]等問題.因此,大數據的知識工程需要對獲取的知識的真實性提出評估機制和演化關系的更新標準.
大數據知識工程還應考慮知識自動化帶來的問題.互聯網、大數據、云計算等技術的發展,雖然帶來了更好的數據處理和分析手段,但許多數據和信息管理應用中仍然存在數據過載的問題.大數據知識工程最終希望提供以需求為導向的知識服務,但過載數據的存在降低了服務的可用性和精確性.知識的自動化指的不是知識本身自動產生,但可以誘發知識的傳播、獲取、分析、影響、產生等方面的重要變革[77].知識的自動化是信息自動化的自然延伸和提高,對于具有較大不確定性、冗余性、不一致性的數據和社會信息,僅依靠人類的智力很難對海量大數據進行更有效分析[78].采用以數據作為驅動的方法,將物理空間產生的數據和虛擬空間產生的數據結合起來進行分析,將會更有利于解決數據的過載.
基于第2節中大數據對知識工程中的各種挑戰問題,本節介紹一種由吳信東等在2015年提出的大數據知識工程模型BigKE[39](見圖2).該模型用以解決碎片化知識建模與多數據源的在線學習、碎片知識的非線性融合、需求驅動下的自動化知識導航問題.BigKE模型采用一種三層次的知識建模方法,最終獲取個性化的知識導航服務.下面分別從該模型的三個層次來進行介紹.
3.1多源異構數據中的碎片化知識建模
與傳統的知識工程比較,大數據知識工程著重于提取碎片化知識,同領域專家知識相結合,不同于傳統的知識工程只基于領域專家的專家知識.這是因為大數據來源于多源的異構數據,數據中存在不確定、不完整和異構的問題.同領域知識相比較,碎片化知識的精確度有所降低,但由于它對于有個人偏好的專家知識的依賴度降低了,換個角度說,碎片化知識的無偏性和效率也就提高了.碎片化知識隱藏在多源異構的自治源下,從這樣的數據源中發現知識是一項富有挑戰和趣味性的工作.以社交媒體為例,2012年10月,美國總統奧巴馬和羅姆尼州長之間的總統辯論在2小時內就引發了超過1000萬條的推特信息[79].如此龐大的信息數量中,隱藏著復雜的語義關系,每個用戶的評論行為和情感傾向相互獨立但又相互影響,這和大規模數據集的自治性相符合.隨著數據量的不斷增大,數據的來源、數據的結構、數據之間的關聯難以使用現有的知識工程技術進行整合.如何分析用戶的行為變化和用戶行為之間的相互影響,成為了一個大數據知識工程問題.

圖2 大數據知識工程模型—BigKE[39]Fig.2 Big data knowledge engineering—BigKE[39]
BigKE模型的第一步采用合適的模型對多數據源中的碎片化數據進行建模.從多數據源中獲取的碎片化知識對評估數據的可靠性和數據質量有重要的作用.為了更好地表示數據的特征,BigKE利用在線學習方法,同時考慮“數據流”和“特征流”,因為大數據知識工程首先需要關注的是數據的獲取和存儲[80].在第2節中我們討論了大數據對于知識工程提出了數據存儲方面的挑戰,在BigKE模型中,目前可以利用的諸如并行數據庫和MapReduce技術的混合架構[59].對于快速到來的數據,其中含有大量的時間和空間信息,這些時空信息可能隱藏數據的有用特征,對流數據的處理需要選擇動態的模型來刻畫數據的特征.所以同傳統的知識工程相比,動態大數據的知識提取是一個重要方面.對數據流數據的知識工程已經取得一部分進展,例如,針對數據流數據的算法研究和數據模型的改進工作[81],以及數據流數據的聚類算法研究[82].
對在線獲取的碎片知識,還需要評估數據的可靠性.這是因為在處理大規模數據的過程中無法對所有的數據進行建模,采用的數據抽樣方式對數據的可信度產生了影響,同時,傳統的數據學習方法和建模方式無法處理在大數據環境下的概念漂移問題.數據的精確度和可靠性評估可以通過對數據的來源來進行排序和評價,在對碎片化數據進行篩選和清洗時,選擇具有較高質量的數據.關注特征流的在線學習方法和傳統的在線學習方法相比,不再僅僅是關注所處理的數據的處理順序,而是對不斷增長的大數據的數據量、巨大的數據的特征空間等都有所關注[39],這樣提取出來的碎片化知識具有更高的精確度和可信度.其次,碎片化知識建模時,概念漂移的問題對數據的影響也需要注意.概念漂移發生時,現有的數據對象的統計性質可能會隨著時間的推進產生變化,那么我們運用的模型如果是固定不變的,所得到的碎片化知識的真實性會產生偏差.我們需要算法和模型具有自適應性,以得到我們需要的碎片化知識[83].概念漂移的情況下,可能對數據的存儲和記憶需要設置時間值,用以保障對數據特征的存儲和描述是最新的.
除了考慮大數據的來源,BigKE還著眼于數據挖掘和融合的方法來評估數據的質量.通過改變傳統的學習思路,BigKE在進行大數據的碎片化知識建模時,采用協同學習(Co-learning),這樣可以利用具有相似數據特征的數據之間的聯系,從相似的數據中互相評價和調用信息,以達到提高數據質量的目的,同時對于碎片化建模的模型質量也會有所提升.碎片化知識建模的重要性是不言而喻的.舉個例子來說,如果一個健身的手機APP想要為用戶提供合適的健身計劃,需要結合這位用戶在飲食、運動能力、作息時間甚至是疾病歷史等多方面的信息,涉及到的時間軸和空間軸的刻畫是很復雜的,況且涉及到用戶個人隱私的信息,諸如個人收入,有時候是難以獲得真實完整的數據.在這樣的情況下,對碎片知識的建模挑戰不僅來源于數據模型的挑戰,還涉及到數據的可靠性和完整性等問題.
3.2從局部知識到全局知識------碎片化知識融合
通過對碎片化知識的建模和語義封裝,我們得到了BigKE第一階段的產物,即用合適的模型表示的碎片化知識.為了進一步得到整個大數據集的全局知識,BigKE需要對碎片化知識進行非線性融合.多源異構的數據環境下,BigKE采用知識圖譜對碎片化數據進行表示.將大數據知識工程同傳統知識工程相比較,后者先對收集提取出的知識進行聚合得到全局的知識,進而在全局知識上進行一系列的知識推斷工作,前者與它的區別在于通過推斷工作,得到現有的局部的碎片化知識中可能沒有表現出的有用信息.BigKE對碎片化知識的融合具有兩個創新點:1)考慮到碎片化知識的融合無法采用簡單的線性處理方式;2)將碎片化知識之間的關聯表示,轉化成知識圖譜的子圖來處理.
BigKE采用知識圖譜來表示和融合碎片化知識具有許多優點.首先,由于碎片化知識之間的動態的和演化的語義關聯,傳統的線性融合方法和模型無法反映出局部知識之間的聯系.碎片化知識之間的關系是復雜的,其復雜性來源于數據源的異構性,異構導致了不同的碎片化知識具有不同的記錄、存儲和表示的形式.而知識圖譜給出了局部知識到全局知識的統一的表示形式,這使得碎片化知識的融合過程更加簡便.其次,知識圖譜的點與點之間的路徑可以看做不同的碎片化知識之間可能的關聯,這為個性化服務的實現提供了實現的可能性.舉個例子來說,目前的搜索引擎和購物網站可以通過用戶的搜索和瀏覽記錄,推薦給用戶相關的新聞網頁或者是相關的物品.諸如亞馬遜的相關商品推薦和微博上可能認識的用戶的推送信息[84].每個用戶的記錄是局部的,關于用戶的需求的發現由此轉變為尋找知識圖譜中用戶的碎片化知識的相鄰節點,或者是路徑導航.
采用知識圖譜來進行碎片化知識的非線性融合時,我們除了要應對復雜的異構數據,還需要處理好碎片化知識之間固有的語義聯系.例如,對同一事件的討論,從微博、微信、推特等不同的社交網站上獲得的碎片化知識可能包含的是同一種意見傾向,或者是存在敵對的意見,那么進行知識融合時我們需要在知識圖譜中有所體現.通過知識圖譜表示的知識的節點和所連接的尚在演化的關系中需要作出相應的調整.因此,我們需要關注的是,碎片化知識融合時這些聯系和節點的表示[85].BigKE模型中對碎片知識的融合,需要對現有的子圖進行一定的篩選,碎片化知識反映出的局部信息是多數據源的自治性的一種表現,這些局部的信息對獲取全局知識的重要性,也需要通過子圖的可信度來刻畫.
與現有的推薦網站和個性化服務有所不同,大數據知識工程模型BigKE的知識圖譜結構需要動態更新,這是碎片化知識之間復雜的動態聯系所導致的.BigKE對碎片化知識的融合過程同樣引入了評估機制.BigKE模型的第1層中,需要評估的是所獲得數據的質量,在知識融合的過程中,評估的是知識圖譜的可靠性.這是由于碎片化知識的復雜關系同樣受到漂移的影響,由此帶來了關系的演化.評估這些碎片化知識之間的關聯可以提升所得到的知識圖譜的精確度,對后期知識導航奠定基礎,評估的標準可以參考碎片化知識聯系的關系強度等來表述.舉例來說,在不同的關系中,關系強度可以被描述為顯式的強度或隱式的強度關系[86].碎片化數據之間的關聯被表示為知識圖譜的邊,通過對數據間關聯的強度刻畫,能夠動態更新知識圖譜的邊,從而刻畫出大數據中動態的數據關聯.
3.3個性化知識導航
大數據知識工程的最終目標是提供以用戶需求為導向的知識服務.BigKE模型通過對碎片化知識的非線性融合得到了大數據的全局知識,為了將從大數據中獲取的知識應用到知識服務中,需要考慮用戶的社交信息等個性化的信息,并需要合適的方法對用戶的個性化查詢提供精確的推薦和導航服務.前兩小節中提到的知識圖譜,其節點和邊對應的是知識的單元和知識之間的語義關聯,提供知識服務可以看作尋找某兩點之間的最佳路徑.我們利用用戶需求作為導向,使用知識圖譜中的連接關系,尋找用戶節點包含內容之間的關系.
個性化服務的一個案例是病人之間的同病不同源,因而在4P模型里需要不同的治療方案。在數據挖掘技術快速發展的時代,我們應該站到數據科學發展的最前沿,積極探索將全新的數據分析技術和個性化服務相融合的方法.類似地,已經成功應用到網絡學習等系統中的知識導航服務,是根據對文本語境和瀏覽記錄等數據的分析,尋找到最感興趣的另一個知識節點[87].以社交網絡為例,我們可以從客戶端的瀏覽器中獲取細節信息,就是用戶選擇瀏覽的鏈接列表及其運行的時間[88].其他可獲取的一些信息的類型,還包括用戶從某一鏈接到另一網站的路徑消耗時間.這些信息可以用來形成用戶的個性化查詢,從而我們可以找到最短路徑的鏈接來預估用戶需求從而做出合適的推薦和導航服務.發現路徑后,對從知識圖譜中提取出的路徑結構還要加以適當的整理工作.
對用戶的個性化需求和查詢要求,BigKE模型在知識圖譜上直接進行推斷工作,從而進行用戶未來可能行為的預測.這也是大數據知識工程和傳統知識工程的一個區別.前者注重的是預測未來,后者注重的是管理和使用已獲取的數據和知識.但由于龐大的數據量和知識圖譜規模的巨大化,在數據維度過高時會產生問題,使得新知識圖譜的構建和導航服務的質量下降,因而,發現算法采取近似手段是必要的.同時,對所提供知識導航服務的用戶,其潛在需求往往需要結合到上下文感知、協同過濾等技術[89].開發和應用知識導航算法時,上下文感知技術向我們提供調整知識系統運行的可能,尤其是涉及到移動設備等的知識導航服務,上下文感知技術能夠大大提高所獲取的知識的可用性,提升知識導航服務的價值.協同過濾技術同樣是為了降低知識導航的模糊性,提升個性化服務的準確度,基于用戶的系統通過對推薦和導航服務預測工作的評價,可以獲得更優良的精度評價指標.
對用戶的需求和個性化查詢,BigKE基于知識圖譜給出的結果,還需要用一種直觀、簡便的形式展現給用戶,以提高知識服務的可用性和可操作性.例如,用戶總是希望手機推薦的熱點新聞是以簡潔的標題和某一張新聞圖片結合的方式呈現的,如果推薦系統只是將推薦的內容以長文本的形式推送給用戶,那么就會降低用戶的閱讀興趣,從而使獲取的大知識被用戶忽略.
與5V模型、5R模型、4P醫學模型和HACE相比較,BigKE具有它的優越性.面向海量多源的動態數據,BigKE考慮到大數據的異構和自治特征,提供基于互聯網的知識服務.5V模型、5R模型和4P醫學模型提煉出的大數據特征,在大數據知識工程中為大數據中的“大”知識的存儲和分析工作提供了導向,但它們沒有強調大數據中數據流和特征流的處理方式.對數據流數據的碎片化知識提取和非線性融合可以依靠BigKE的第1層和第2層得到.4P醫學模型強調用戶個人信息的參與,這需要對基于互聯網的大數據流之間的語義關系建立合適的模型.BigKE對碎片化知識的語義封裝能夠提供更可靠的個人信息及它們之間的演化關系的表示,體現出大數據動態的特點.HACE定理給出了處理大數據的多層框架,BigKE在它的基礎上對大數據挖掘形成的知識圖譜提出了個性化服務的導航,更有利于和具體的應用實例結合.盡管BigKE同已有的大數據模型相比具有自身的優勢,但涉及到大知識的發現和挖掘,仍具有進一步的挑戰.
大數據知識工程模型BigKE旨在解決大數據對知識工程提出的挑戰,本節我們討論BigKE中幾個挑戰問題和可能的應用場景.
挑戰1.碎片化知識的非線性融合.首先,在BigKE的第2層,碎片化知識生成于異構自治的多源數據.這些數據沒有統一的數據表示形式,這些碎片化知識也缺乏統一的邏輯結構,所以知識融合起來十分困難.傳統的知識工程處理的信息通常含有一定的邏輯和統一的格式,而BigKE面對多種形式的數據,諸如微博、短信息、傳感器數據、音視頻和郵件等,這項挑戰工作也正在形成一個研究熱點.現有的數據融合方法大多采用的是有偏估計,例如,利用多傳感器的有偏估計,可以將數據的融合近似的收斂于無偏的估計,從一定程度上提高數據融合的精確度[90].將異構的碎片化知識進行融合時,為了形成統一的知識圖譜形式,我們無法兼顧到所有的信息,因此必然存在對數據和信息的取舍問題,如果單純采用加權和閾值的形式決定融合過程中對信息的丟棄,則融合后的全局知識的精度會下降.因此,我們需要一個合適的機制來選擇在碎片化知識融合的過程中,對數據信息的取舍做出判斷,期望在盡可能保留原有信息以提高知識圖譜的準確度,同時也能夠以一種簡便的形式表現出用戶需要的知識.
挑戰2.大知識圖譜的動態更新.大數據知識工程與傳統知識工程的一大區別在于大數據知識工程具有預測未來趨勢的要求.大數據不斷地到來,現有的知識圖譜無法一勞永逸地表現出每時每刻的數據特征.大數據的數量可能呈現驚人的增長速度,現有數據之間的關聯隨著時間的推移也會產生變化.碎片化知識的關聯隨著原始數據關聯的變化而變化,表現在知識圖譜中可能是某個節點的消失和新節點的產生,以及一些新產生的邊的構建.知識圖譜的動態更新主要涉及到兩大問題:1)如何設置合理的時間點更新現有知識圖譜,2)如何確定對某一數據關聯的取舍問題.第1個問題可采用事先設置好的時間閾值,以當前時間點為起始,到達規定的閾值范圍時,則重新掃描數據集構建新的知識結構.這樣的方式雖然可以提高所得到的知識的質量,但是大規模數據集的重新掃描過于耗費時間,不滿足對大數據知識工程的時間要求.因此,相比較于采用事先設置的固定時間閾值,BigKE的后續工作可以考慮對時間閾值的動態設置.設置掃描時間閾值的動態指標可以參考新的數據到來的速度,根據新數據產生的多少來調整更新算法運行的時間間隔.針對第2個問題,BigKE的挑戰在于要建立一個數據關聯度的評估評價機制,因為現有的數據關聯,無論是數據節點還是聯系,都會隨著新數據的到來和時間的推移發生變化.在進行知識圖譜更新時,為了確定一條現有的邊的保留或者丟棄,現有的數據關聯強度算法很少考慮到大數據的動態性,接下來的工作需要考慮對數據關聯強度的評價機制中加入動態的因素.
挑戰3.基于集成和拆解的知識重組.BigKE的核心思想是集成碎片化數據,產生新的知識面向個性化服務.然而,碎片有大有小,有些大碎片必須首先分割成小的碎片以后才能有效集成.這就是粒度問題.人們一般不認為一本完整的書是知識碎片.然而,在浩如煙海的書庫前面,一本書就可以看成是一個知識碎片.一篇文章可能會被看成是知識碎片.然而,如果分開考察它所包含的許多定理,以及這些定理所組成的知識體系,那么文章本身又不是碎片了.因此.是碎片還是知識,是相對而非絕對的.如何分拆,如何重組?如何根據重組的目標來分拆?既是技術問題,也是科學問題.
挑戰4.海量碎片化知識的約化表示.海量并不能完全刻畫大數據,但是大數據一定是海量的,而且大數據存在著不確定、不完整、含噪音的數據質量問題。我們不能在要用到大數據時每次都臨時到網上去找,所以必須考慮大數據和從大數據中生成的碎片化知識的海量存儲和管理問題.在許多的相關技術中,大數據及其碎片化知識的存儲、訪問和利用可以采取約化表示.約化的含義是把同一知識的復雜表示A轉換為簡單表示B,使得B的容量大大小于A,但是B已經包含了A的絕大部分有用信息,已經可以在絕大部分場合代替A“出場”.一個實例是機器學習中的流形學習,它的主要作用是降維,把高維數據降為低維數據而不影響,或很少影響其特征性質.該方法在各種模式識別中有重要應用.
挑戰5.BigKE的分布式實現.高效的大數據知識工程一定要走分布式處理的道路,不僅是為了存儲和管理,更重要的是為了計算效率.我們在前文中提到了一種可能的選擇是采用Map-Reduce方法.該方法的核心在于把大數據分拆成許多小塊數據,分配到許多節點上,通過分布式方式計算后再集成其結果.但這個方法也不是萬能的.對解決某些問題來說,例如統計問題,其結果可能會不理想.除了前文已經提到的把大量分散模塊的數據合并計算可能會模糊了某些統計閾值以外,還可能出現統計值不正確的問題,徐宗本院士指出,Hadoop類型的大數據回歸算法,只有在滿足所謂“一致相合”條件下才能提供合理結果[91].這樣的挑戰是我們在把大數據集成為知識時必須應對的.
挑戰6.個性化用戶行為的建模.大數據中的大知識為我們提供了個性化的大知識服務,個性化大知識服務的關鍵在于對個人和社交信息的建模.由于BigKE提出大數據的知識工程需要直接在知識圖譜上進行知識的推斷,那么接下來的工作重點應該著眼于過濾和選擇算法的實時性.在知識圖譜上的直接推斷可能會產生幾個相類似的結果,除了知識圖譜的結構在隨著時間變化,用戶的需求也會產生變化,所以,BigKE模型面對的另一大挑戰問題是對用戶行為的建模.通過聚集個人和社交的信息,知識圖譜可望涵蓋用戶的行為和情感傾向,由此BigKE可以對用戶未來的行為做出推斷,從而動態地改善現有的知識服務質量.從協同過濾或上下文感知的過濾和選擇機制開始,加入用戶行為的推斷,這樣給出的結果帶有實時性,但同時對BigKE的挑戰又進一步提升了,因為多一個考慮的維度,帶有需求驅動的大數據算法的編譯效率可能就會下降很多,訓練集和測試集的劃分也會對算法的效率有所影響,因此BigKE的后續工作還涉及到大數據算法效率的提升.
大知識面向國民經濟的主戰場,在各個科技領域都會有著廣泛的應用.下面我們分析幾個大知識的應用場景.
應用場景1.動態網絡大詞典.本文在第1節中已經對大知識給出定義.大知識所具有的海量、異構和多源的特性源于大數據的來源.將大知識應用到動態詞典的建立和更新中具有廣闊的前景.動態詞典是相對于傳統的靜態數據而言,詞典的建立和更新是動態的,其動態性體現在隨著社會和網絡語言知識的變化,在較短的時間間隔內動態詞典能夠更新詞匯的內容和語言的規范.從文本語言中抓取即時的語料庫,實現動態詞典的動態特征.事實上,無論是文本數據挖掘還是動態詞典的建立,都需要對語料庫加以動態的擴充和更新來不斷適應伴隨數據流和特征流到來的新數據.除了對語料庫的動態更新,網絡動態詞典所應用的大知識還能體現詞匯的關聯和兼容.這是由于大知識來源于異構的大數據,從多種媒體抓取的詞語信息,需要經過加工和融合形成新的詞語信息對語料庫進行更新.異構的多源信息是否能產生新的大知識,取決于對新知識的評估體系,評估內容應當包含新知識與當前已有詞匯信息的重合度比較和關聯性分析,以降低動態詞典內知識的重合和冗余.大知識應用在動態詞典的建立和更新中,除了有上述的兩個關鍵問題,考慮動態詞典的內容,還應當包含有方言的相關知識.大知識的多源特征決定了它應當涵蓋盡可能多和廣的信息,應用在動態詞典中,表現為詞匯的覆蓋范圍需要考慮到時間和空間兩個因素.時間維度上表現為詞典的動態更新,空間維度上表現為詞典的內容考慮到地域的不同,則應當涵蓋盡可能多的方言知識.
應用場景2.網絡新聞的動態跟蹤和總結.大知識應用到多源新聞分析領域,具有新的應用前景,可以做新聞的動態跟蹤和總結.在互聯網2.0時代,可供獲取的新聞信息增長過快,然而新聞的數量快速增長的同時,并沒有使得新聞的質量同步提升,重復閱讀的信息耗費了用戶大量的時間.新聞事件中的大知識,應當伴隨時間軸清晰地梳理和表示出新聞事件的多個主題,包括對頻繁發生的新聞事件的當前關注焦點和后期演變形式的跟蹤,以便用戶更加全面和具有針對性地獲取新聞中重要的本質.新聞的動態跟蹤和總結基于大量的新聞網頁和文本,利用詞共現圖的構建提取出用戶感興趣的新聞中的多個主題,對與新聞事件相關的多個主題建立各自的摘要集合,從而生成各主題的動態跟蹤和總結.在整個新聞主題的抓取和動態跟蹤過程中,產生了大量的知識.在這個應用背景下,大知識表現為與用戶感興趣的新聞最具相關性的新聞主題和摘要總結.動態的新聞跟蹤在考慮新聞查詢和新聞相關性的基礎上,考慮新聞文檔中的多個主題,針對同一個新聞事件,建立了更加清晰的主題演化過程的展示和更加全面的新聞內容的總結.
應用場景3.普適醫療信息的管理與服務.在醫療應用方面,大知識的應用具有廣闊的前景.大知識與普適醫療的結合,可以建立和動態更新醫療推薦系統.通過分析用戶的個人信息,包括地理位置、個人病史和社交偏好等,實時更新用戶附近的醫院、藥房等醫療保障系統的信息.在某一時刻,用戶根據需要查詢當前針對某一病癥可獲得的最佳診斷和治療方案.查詢信息表現為現有的病癥表現和疼痛程度等,個性化推薦信息可以包括距離最近和治療效果最佳的藥房和醫院等信息.這一過程需要大知識作為普適醫療系統的支撐.醫療數據中在地理、多種類醫療器械和軟件上的分布,由此導致的異構性造成了信息集成的困難.同時,利用收集到的醫療數據挖掘出有價值的醫療知識成為了能否提供準確的推薦信息的關鍵.病人的病史分析和現有醫療知識圖譜的比對是否精準,也需要通過用戶的評價系統不斷加以改進.
應用場景4.萬維網就業培訓.與普適醫療類似,個性化的推薦服務中大知識還可以滲透到網上創業培訓當中.基于萬維網的就業信息,可以構建大型的知識圖譜,其子圖的劃分可以參考就業的種類選擇、求職人的文化水平以及地域劃分等.就業技能的數據包含多個職業分類,數據的來源也各不相同,含有地域性的差異,由此導致了數據的集成和融合問題.比如,在農業發達地區,對種植指導專家崗位的需求遠遠大于漁業和工商業發達地區.那么網上就業培訓系統需要依據用戶的地理信息進行數據的篩選和過濾,結合用戶的個人就業傾向和現有的崗位的地理位置,進行就業培訓內容的推薦.事實上,個人通過網上就業培訓系統學習就業技能時,系統根據用戶所提出的限定條件,反饋出的信息是從已有的大知識圖譜中尋找針對某一問題的映射,為用戶提供市場分析和技能培訓.
例如,某個本科即將畢業的計算機專業的學生希望策劃一份上海的軟件開發工作,該學生已具備的知識可能有高等數學和數據結構等基礎知識,但某一符合他就業期望的崗位還需要具備高級編程語言的技能.通過將大知識圖譜中的某一針對性映射同用戶個人的知識圖譜進行比對,可以發現相似的節點以及缺失的節點,從而尋找到用戶就業需要學習的技能,提高知識學習導航的準確性.網上就業培訓的關鍵在于個人圖譜和大知識圖譜的比對以及大知識圖譜的構建,這些關鍵問題隨著大知識應用范圍的擴大會成為進一步的挑戰.
應用場景5.自動編輯和出版.上面提到的挑戰3,如果能夠很好地解決,則自動知識編輯的前景就可以實現.例如:要求計算機根據庫中的一萬本計算機科學電子書,自動編輯下列新書:計算機科學百科全書、計算機軟件教程、大數據發展史要、計算機專業大學生用操作系統習題集等.從長遠來看,只要我們有一個數量巨大、組織合理、不斷更新的“知識碎片庫”,那么編輯和出版新書以滿足各種社會需求就不再是一個大量耗費人力和財力的事業.
應用場景6.智慧城市的動態認知與決策.面向智慧城市及城市重大事件管理的實際需求,大數據知識工程可以針對城市大數據在自然屬性、地理屬性、時間屬性、社會屬性以及交互行為等方面的異構、自治、多介、高維、低質等特點,發現伴隨時空維度推進下蘊含的內在關聯語義一致性,實現復雜關系的動態認知和演化計算,探索多源感知信息的多層次關聯、語義提取與融合分析的機制和方法,實現多源異構城市數據的緊耦合.智慧城市的動態認知可以進行跨時空城市感知數據的關聯推理和深度挖掘,研究多維(時間、空間、屬性、語義)數據分析的城市重大事件管理方法,包括同類、異類城市事件的相關性分析、以及預測未來一段時間內同地區發生類似事件的可能性,對城市群體行為或個別重大事件數據進行理解與分析,建立城市行為動力學理論體系.智慧城市的動態決策可以通過城市重大事件的交互式臨場分析,實現協同感知下城市大數據的推理模型,研究城市行為事件間相互作用、滲透和擴散的物理模型,以揭示城市行為涌現、傳播和演化機制,對面向公共安全的敏感事件進行語義理解、檢測跟蹤和預測預警.智慧城市的動態認知與決策基于數據和知識的聯合驅動以及多模態數據的關聯增強技術,采用多源信息的視覺轉換機制和自適應交互可視化方法,旨在推進人機智能的深度耦合,實現“數據—信息—知識”階進式服務,從而實現大數據時代的大知識精細化城市模擬及管理.
從大數據中獲取有價值的大知識具有許多問題和挑戰,這與大數據的本質特征密不可分.由大數據的HACE定理,我們了解到大數據異構和自治的本質特征,其分布式和分散式控制的特點,以及大數據之間復雜和演化的關聯.大數據的本質特征使得知識工程存在諸多挑戰,利用傳統的數據分析和處理手段無法解決這些問題.現有的幾種大數據模型,包括5V,5R,4P和HACE定理,在解決大數據知識工程的問題和挑戰中具有各自的優劣.本文從知識建模的角度介紹一種大數據知識工程模型BigKE,BigKE模型從大數據源中提取碎片化知識,進而對這些碎片化知識進行非線性的知識融合,最終根據用戶的需求作為導向,提供個性化的大知識服務.將BigKE模型和一些現有的大數據模型相比較,BigKE通過其三層架構給出了現有大數據模型提出的一些挑戰問題的解決思路.為了從大數據中獲取更高質量的大知識,BigKE模型還有許多有價值的后續工作,主要針對BigKE中無法解決的挑戰給出后續工作的方向.大知識的進一步挑戰與其廣泛的應用前景密切相關,在動態網絡大詞典的構建、新聞的動態跟蹤和總結、普適醫療、網上就業培訓、自動編輯和出版、以及智慧城市的動態認知和決策等應用場景中,大知識還大有可為.
致謝
HACE定理和BigKE模型是文獻[15,39]的合作者們共同研究的成果,本文的討論和展望也得益于同這些作者和其他大數據知識工程方向合作者的廣泛交流,這里對國內合肥工業大學、西安交通大學、中國科學院數學所、中國科學技術大學、華東師范大學、廣西師范大學、百度和國外眾多單位的同行和合作研究者們一并表示感謝.
References
1 Beyer M A,Laney D.The importance of“Big Data”:a definition[Online],available:https://www.gartner.com/doc/ 2057415,February 17,2016
2 Marr B.Big data:the 5 Vs everyone must know[Online],http://www.linkedin.com/pulse/20140306073407-648 75646-big-data-the-5-vs-everyone-must-know,January 21,2016
3 Mervis J.Agencies rally to tackle big data.Science,2013,336(6077):22-22
4 Wang Fei-Yue.Software-deined systems and knowledge automation:a parallel paradigm shift from Newton to Merton. Acta Automatica Sinica,2015,42(1):1-8(王飛躍.軟件定義的系統與知識自動化:從牛頓到默頓的平行升華.自動化學報,2015,42(1):1-8)
5 Fish A N.Knowledge Automation:How to Implement Decision Management in Business Processes.USA:Wiley,2012.
6 Fern′andez A,Del R′?o S,L′opez V,Bawakid A,Del Jesus M J,Ben′?tez J M,Herrera F.Big data with cloud computing:an insight on the computing environment,MapReduce,and programming frameworks.Wiley Interdisciplinary Reviews: Data Mining and Knowledge Discovery,2014,4(5):380-409
7 Kent S M.Sloan digital sky survey.Science with Astronomical Near-Infrared Sky Surveys.France:Springer,1994.27-30
8 Labrinidis A,Jagadish H V.Challenges and opportunities with big data.Proceedings of the VLDB Endowment,2012,5(12):2032-2033
9 Knoll A,Meinkoehn J.Data fusion using large multi-agent networks:an analysis of network structure and performance. In:Proceedings of the 1994 IEEE International Conference on MFI′94,Multisensor Fusion and Integration for Intelligent Systems(MFI).Las Vegas,NV:IEEE,1994.113-120
10 Nature Editorial.Community cleverness required.Nature,2008,455(7209):1-1
11 Che D R,Safran M,Peng Z Y.From big data to big data mining:challenges,issues,and opportunities.In:Proceedings of the 18th International Conference on Database Systems for Advanced Applications.Wuhan,China:Springer,2013.1-15
12 Stidston M.Business leaders need R′s not V′s:the 5 R′s of big data[Online],available:https://www.mapr.com/blog/ business-leaders-need-r%E2%80%99s-not-v%E2%80%99s-5 -r%E2%80%99s-big-data#.U2qmcq1dWIU,December 21,2015
13 Wang Ji,Wang Qi.Chinese constitution research and the practice of 4P medical model.Chinese Journal of Integrated Traditional and Western Medicine,2012,32(5):693-695(王濟,王琦.中醫體質研究與4P醫學的實施.中國中西醫結合雜志,2012,32(5):693-695)
14 Auffray C,Charron D,Hood L.Predictive,preventive,personalized and participatory medicine:back to the future. Genome Medicine,2010,2(8):57-57
15 Wu X D,Zhu X Q,Wu G Q,Ding W.Data mining with big data.IEEE Transactions on Knowledge and Data Engineering,2014,26(1):97-107
16 Wikipedia.Big data[Online],available:https://en.wikipedia.org/wiki/Big data#Definition,December 12,2015
17 IDC 權威定義大數據概念:滿足 4V 標準 [Online],available: http://www.d1net.com/bigdata/news/237143.html,December 12,2015
18 Tien J M.Big data:unleashing information.Journal of Systems Science and Systems Engineering,2013,22(2):127-151
19 Wang Yuan-Zhuo,Jin Xiao-Long,Cheng Xue-Qi.Network big data:present and future.Chinese Journal of Computers,2013,36(6):1125-1138(王元卓,靳小龍,程學旗.網絡大數據:現狀與展望.計算機學報,2013,36(6):1125-1138)
20 Wang Wei-Wei,Li Xiao-Ping,Feng Xiang-Chu,Wang Si-Qi. A survey on sparse subspace clustering.Acta Automatica Sinica,2015,41(8):1373-1384(王衛衛,李小平,馮象初,王斯琪.稀疏子空間聚類綜述.自動化學報,2015,41(8):1373-1384)
21 Armbrust M,Fox A,Griffith R,Joseph A D,Katz R H,Konwinski A,Lee G,Patterson D A,Rabkin A,Stoica I,Zaharia M.Above the Clouds:A Berkeley View of Cloud Computing,Technical Report UCB/EECS-2009-28,EECS Department,University of California,Berkeley,2009
22 Blaabjerg F,Teodorescu R,Liserre M,Timbus A V. Overview of control and grid synchronization for distributed power generation systems.IEEE Transactions on Industrial Electronics,2006,53(5):1398-1409
23 Leskovec J,Huttenlocher D,Kleinberg J.Signed networks in social media.In:Proceedings of the 2010 SIGCHI Conference on Human Factors in Computing Systems.New York:ACM,2010.1361-1370
24 Zikopoulos P,Eaton C.Understanding Big Data:Analytics for Enterprise Class Hadoop and Streaming Data.USA:McGraw-Hill Osborne Media,2011.
25 The four V′s of big data[Online],available:http://www.ibmbigdatahub.com/sites/default/files/infographic file/4-Vsof-big-data.jpg,January 21,2016
26 Lazer D,Kennedy R,King G,Vespignan A.The parable of google flu:traps in big data analysis.Science,2014,343(6176):1203-1205
27 IBM.What is big data?[Online],available:http://www-01.ibm.com/software/data/bigdata/what-is-big-data.html,December 2,2015
28 Barwick H.The“four Vs”of big data.Implementing information infrastructure symposium [Online],available: http://www.computerworld.com.au/article/396198/December 2,2015
29數據并非越大越好:谷歌流感趨勢錯在哪兒了?[Online],available:http://www.guokr.com/article/438117/,December 2,2015
30 Ghemawat S,Gobioff H,Leung S T.The Google file system. In:Proceedings of the 19th ACM Symposium on Operating Systems Principles.New York:ACM,2003.29-43
31 Dean J,Ghemawat S.MapReduce:simplified data processing on large clusters.In:Proceedings of the 6th Symposium on Operating Systems Design and Implementation.Berkeley,CA,USA:USENIX Association,2004.137-149
32 Big data solution offering[Online],available:http://mike2. openmethodology.org/wike/BigDataSolutionOffering,November 28,2015
33 White T.Hadoop:The Definitive Guide(2nd Edition). USA:Yahoo Press,2010.1-4
34 Gupta P,Kumar P,Gopal G.Sentiment analysis on Hadoop with Hadoop streaming.International Journal of Computer Applications,2015,121(11):4-8
35 Liao S H.Expert system methodologies and applications—a decade review from 1995 to 2004.Expert Systems with Applications,2005,28(1):93-103
36 Wu Xin-Dong,Ye Ming-Quan,Hu Dong-Hui,Wu Gong-Qing,Hu Xue-Gang,Wang Hao.Pervasive medical information management and services:key techniques and challenges.Chinese Journal of Computers,2012,35(5):827-845(吳信東,葉明全,胡東輝,吳共慶,胡學鋼,王浩.普適醫療信息管理與服務的關鍵技術與挑戰.計算機學報,2012,35(5):827-845)
37 Auffray C,Chen Z,Hood L.Systems medicine:the future of medical genomics and healthcare.Genome Medicine,2009,1(1):2-2
38 Luo Xu,Chen Bo,Luo Li-Ya,Zhang Hong-Yan,Wu Hao,Li Jing-Bo.Discussion on reconstructing hospital healthcare management under 4P medical conception.Chinese Hospitals,2014,18(7):61-63(羅旭,陳博,羅莉婭,張宏雁,吳昊,李景波.4P醫學理念下醫院健康管理體系重構思考.中國醫院,2014,18(7):61-63)
39 Wu X D,Chen H H,Wu G Q,Liu J,Zheng Q H,He X F,Zhou A Y,Zhao Z Q,Wei B F,Li Y,Zhang Q P,Zhang S C,Lu R Q,Zheng N N.Knowledge engineering with big data.IEEE Intelligent Systems,2015,30(5):46-55
40 Klasnja P,Pratt W.Healthcare in the pocket:mapping the space of mobile-phone health interventions.Journal of Biomedical Informatics,2012,45(1):184-198
41 Vassis D,Belsis P,Skourlas C,Pantziou G.Providing advanced remote medical treatment services through pervasive environments.Personal and Ubiquitous Computing,2010,14(6):563-573
42合肥工業大學吳信東:大數據Processing Framework多層架構[Online],available:http://www.csdn.net/article/2012-07-27/2825305,December 7,2015
43 Petersen W P,Arbenz P.Introduction to Parallel Computing.Oxford:Oxford University Press,2004.
44 Corbett J C,Dean J,Epstein M,Fikes A,Frost C,Furman J J,Ghemawat S,Gubarev A,Heiser C,Hochschild P,Hsieh W,Kanthak S,Kogan E,Li H Y,Lloyd A,Melnik S,Mwaura D,Nagle D,Quinlan S,Rao R,Rolig L,Saito Y,Szymaniak M,Taylor C,Wang R,Woodford D.Spanner:Google′s globally-distributed database.ACM Transactions on Computer Systems,2012,31(3):Article No.8
45 Chang F,Dean J,Ghemawat S,Hsieh W C,Wallach D A,Burrows M,Chandra T,Fikes A,Gruber R E.BigTable:a distributed storage system for structured data.ACM Transactions on Computer Systems,2008,26(2):Article No.4
46 Peel M,Rowley J.Information sharing practice in multiagency working.ASLIB Proceedings,2010,62(1):11-28
47 Wang M D,Li B,Zhao Y X,Pu G G.Formalizing Google file system.In:Proceedings of the 20th IEEE Pacific Rim International Symposium on Dependable Computing(PRDC). Singapore:IEEE,2014.190-191
48 Cormode G,Srivastava D.Anonymized data:generation,models,usage.In:Proceedings of the 2009 ACM SIGMOD International Conference on Management of Data.Providence,RI:ACM,2009.1015-1018
49 Sweeney L.k-anonymity: a model for protecting privacy.International Journal of Uncertainty,Fuzziness and Knowledge-Based Systems,2002,10(5):557-570
50 Kopanas I,Avouris N M,Daskalaki S.The role of domain knowledge in a large scale data mining project.Methods and Applications of Artificial Intelligence.Thessaloniki,Greece:Springer,2002.288-299
51 Salton G M,Wong A,Yang C S.A vector space model for automatic indexing.Communications of the ACM,1975,18(11):613-620
52 Deerwester S C,Dumais S T,Furnas G W,Landauer T K,Harshman R.Indexing by latent semantic analysis.Journal of the American Society for Information Science,1990,41(6):391-407
53 Freedman E G,Shah P.Toward a model of knowledgebased graph comprehension.Diagrammatic Representation and Inference.Callaway Gardens,GA,USA:Springer,2002. 18-30
54 Aral S,Walker D.Identifying influential and susceptible members of social networks.Science,2012,337(6092):337-341
55 Centola D.The spread of behavior in an online social network experiment.Science,2010,329(5996):1194-1197
56 Strassel S,Adams D,Goldberg H,Herr J,Keesing R,Oblinger D,Simpson H,Schrag R,Wright J.The DARPA machine reading program—encouraging linguistic and reasoning research with a series of reading tasks.In:Proceedings of the 7th International Conference on Language Resources and Evaluation.Valletta,Malta:European Language Resources Association,2010.986-993
57 Studer R,Benjamins V R,Fensel D.Knowledge engineering:principles and methods.Data and Knowledge Engineering,1998,25(1-2):161-197
58 Pan Yun-He,Wang Jin-Long,Xu Cong-Fu.State-of-the-art on frequent pattern mining in data streams.Acta Automatica Sinica,2006,32(4):594-602(潘云鶴,王金龍,徐從富.數據流頻繁模式挖掘研究進展.自動化學報,2006,32(4):594-602)
59 Wang Shan,Wang Hui-Ju,Qin Xiong-Pai,Zhou Xuan.Architecting big data:challenges,studies and forecasts.Chinese Journal of Computers,2011,34(10):1741-1752(王珊,王會舉,覃雄派,周火亙.架構大數據:挑戰、現狀與展望.計算機學報,2011,34(10):1741-1752)
60 Guha S,Mishra N,Motwani R,O′Callaghan L.Clustering data streams.In:Proceedings of the 41st Annual Symposium on Foundations of Computer Science.Redono Beach,USA:IEEE,2000.359-366
61 Zhu Qun,Zhang Yu-Hong,Hu Xue-Gang,Li Pei-Pei.A double-window-based classification algorithm for concept drifting data streams.Acta Automatica Sinica,2011,37(9):1077-1084(朱群,張玉紅,胡學鋼,李培培.一種基于雙層窗口的概念漂移數據流分類算法.自動化學報,2011,37(9):1077-1084)
62 Zhang Xin,Li Xiao-Guang,Wang Da-Ling,Yu Ge.A highspeed heuristic algorithm for mining frequent patterns in data stream.Journal of Software,2005,16(12):2099-2105(張昕,李曉光,王大玲,于戈.數據流中一種快速啟發式頻繁模式挖掘方法.軟件學報,2005,16(12):2099-2105)
63 Wu X D,Yu K,Ding W,Wang H,Zhu X Q.Online feature selection with streaming features.IEEE Transactions on Pattern Analysis and Machine Intelligence,2013,35(5):1178-1192
64 Zhang Q,Zhang P,Long G D,Ding W,Zhang C Q,Wu X D. Towards mining trapezoidal data streams.In:Proceedings of the 2015 IEEE International Conference on Data Mining(ICDM′15).Atlantic City,NJ,USA:IEEE,2015.1111 -1116
65 Wu X D,Yu K,Wang H,Ding W.Online streaming feature selection.In:Proceedings of the 27th International Conference on Machine Learning.Haifa,Israel,2010.1159-1166
66 Kivinen J,Smola A J,Williamson R C.Online learning with kernels.IEEE Transactions on Signal Processing,2004,52(8):2165-2176
67 Kimeldorf G,Wahba G.Some results on Tchebycheffian spline functions.Journal of Mathematical Analysis and Applications,1971,33(1):82-95
68 Zhou Z H,Chawla N V,Jin Y C,Williams G J.Big data opportunities and challenges:discussions from data analytics perspectives[Discussion forum].IEEE Computational Intelligence Magazine,2014,9(4):62-74
69 Vijayakumar S,D′Souza A,Schaal S.Incremental online learning in high dimensions.Neural Computation,2005,17(12):2602-2634
70 Hunter A,Summerton R.Fusion rules for context-dependent aggregation of structured news reports.Journal of Applied Non-Classical Logics,2004,14(3):329-366
71ˇZliobait˙e I.Learning under concept drift:an overview.Computer Science— Artificial Intelligence[Online],available:http://arxiv.org/abs/1010.4784,May 31,2015
72 Li Jian-Zhong,Liu Xian-Min.An important aspect of big data:data usability.Journal of Computer Research and Development,2013,50(6):1147-1162(李建中,劉顯敏.大數據的一個重要方面:數據可用性.計算機研究與發展,2013,50(6):1147-1162)
73 Samarati P,Sweeney L.Protecting privacy when disclosing information:k-anonymity and its enforcement through generalization and suppression.In:Proceedings of the 1998 IEEE Symposium on Research in Security and Privacy.Palo Alto,CA:IEEE,1998.1-19
74 Wang Chao,Yang Jing,Zhang Jian-Pei.Research on trajectory privacy preserving method based on trajectory characteristics and dynamic proximity.Acta Automatica Sinica,2015,41(2):330-341(王超,楊靜,張健沛.基于軌跡特征及動態鄰近性的軌跡匿名方法研究.自動化學報,2015,41(2):330-341)
75 Wu X D,Zhu X Q.Mining with noise knowledge:erroraware data mining.IEEE Transactions on Systems,Man,and Cybernetics— Part A:Systems and Humans,2008,38(4):917-932
76 He H B,Garcia E A.Learning from imbalanced data.IEEE Transactions on Knowledge and Data Engineering,2009,21(9):1263-1284
77王飛躍.邁向知識自動化[Online],available:http://www.cas. cn/xw/zjsd/201401/t201401034009925.shtml,June 1,2016
78 Deng Jian-Ling,Wang Fei-Yue,Chen Yao-Bin,Zhao Xiang-Yang.From industries 4.0 to energy 5.0:concept and framework of intelligent energy systems.Acta Automatica Sinica,2015,41(12):2003-2016(鄧建玲,王飛躍,陳耀斌,趙向陽.從工業4.0到能源5.0:智能能源系統的概念、內涵及體系框架.自動化學報,2015,41(12):2003
79 -T2w0it1t6e)r Blog.Dispatch from the Denver debate[Online],available:http://blog.twitter.com/2012/100dispatch-reomdenver-debate.html,October 1,2012
80 Chun D X,Jun C J,Zhong C Y,Chao T M,Cong P.Data engineering in information system construction.In:Proceedings of the 2012 IEEE Symposium on Robotics and Applications(ISRA).Kuala Lumpur:IEEE,2012.135-137
81 Aggarwal C C.Data Streams:Models and Algorithms(Advances in Database Systems).US:Springer,2007.
82 Silva J A,Faria E R,Barros R C,Hruschka E R,de Carvalho A C P L F,Gama J.Data stream clustering:a survey. ACM Computing Surveys,2013,46(1):Article No.13
83 Patil P D,Kulkarni P.Adaptive supervised learning model for training set selection under concept drift data streams. In:Proceedings of the 2013 International Conference on Cloud and Ubiquitous Computing and Emerging Technologies.Pune:IEEE,2013.36-41
84 Hakkani-T¨ur D,Heck L,Tur G.Using a knowledge graph and query click logs for unsupervised learning of relation detection.In:Proceedings of the 2013 IEEE International Conference on Acoustics,Speech,and Signal Processing. Vancouver,BC:IEEE,2013.8327-8331
85 Dantas J R V,Farias P P M.Conceptual navigation in knowledge management environments using NavCon.Information Processing and Management,2010,46(4):413-425
86 Xu C J,Li A P,Liu X M.Knowledge fusion and evaluation system with fusion-knowledge measure.In:Proceedings of the 2nd International Symposium on Computational Intelligence and Design.Changsha,China:IEEE,2009.127-131
87 Shahabi C,Zarkesh A M,Adibi J,Shah V.Knowledge discovery from users web-page navigation.In:Proceedings of the 7th International Workshop on Research Issues in Data Engineering.Birmingham:IEEE,1997.20-29
88 Baldauf M,Dustdar S,Rosenberg F.A survey on contextaware systems.International Journal of Ad Hoc and Ubiquitous Computing,2007,2(4):263-277
89 Herlocker J L,Konstan J A,Terveen L G,Riedl J T.Evaluating collaborative filtering recommender systems.ACM Transactions on Information Systems,2004,22(1):5-53
90 Yue Yuan-Long,Zuo Xin,Luo Xiong-Lin.Improving measurement reliability with biased estimation for multi-sensor data fusion.Acta Automatica Sinica,2014,40(9):1843-1852(岳元龍,左信,羅雄麟.提高測量可靠性的多傳感器數據融合有偏估計方法.自動化學報,2014,40(9):1843-1852)
91 Xu C,Zhang Y Q,Li R Z.On the feasibility of distributed kernel regression for big data.Statistics[Online],available:http://arxiv.org/abs/1505.00869,May 31,2016

吳信東長江學者,“千人”計劃特聘教授,IEEE Fellow,AAAS Fellow.合肥工業大學計算機與信息學院教授.美國佛蒙特大學計算機與科學系教授.1993年獲得英國愛丁堡大學人工智能博士學位.主要研究方向為數據挖掘,知識庫系統,萬維網信息探索.本文通信作者.
E-mail:xwu@hfut.edu.cn
(WU Xin-DongProfessor at the College of Computer Science and Information Engineering,Hefei University of Technology;professor in the Department of Computer Science,the University of Vermont.He received his Ph.D.degree from the University of Edinburgh in 1993.His research interest covers data mining,knowledge based systems,and Web information exploration.Corresponding author of this paper.)

何進合肥工業大學計算機與信息學院碩士研究生.2015年獲得安徽財經大學計算機科學與技術系學士學位.主要研究方向為數據挖掘和大數據分析.
E-mail:flyingfish93319@126.com
(HE JinMaster student at the College of Computer Science and Information Engineering,Hefei University of Technology.She received her bachelor degree from Anhui Finance and Economics University in 2015.Her research interest covers data mining and big data analytics.)

陸汝鈐中國科學院院士.1959年獲得德國耶拿大學數學系學士學位.主要研究方向為知識工程,基于知識的軟件工程,人工智能.E-mail:rqlu@math.ac.cn
(LU Ru-QianMember of the Chinese Academy of Sciences.He received his bachelor degree from the University of Jena(Germany)in 1959.His research interest covers knowledge engineering,knowledge based software engineering,and artificial intelligence.)

鄭南寧中國工程院院士,IEEE Fellow,西安交通大學教授.1985年獲得日本慶應大學工學博士學位.主要研究方向為模式識別,機器視覺與圖像處理.
E-mail:nnzheng@mail.xjtu.edu.cn
(ZHENG Nan-NingMember of the Chinese Academy of Engineering,IEEE Fellow,and professor at Xi′an Jiaotong University.He received his Ph.D.degree from Keio University(Japan)in 1985.His research interest covers pattern recognition,machine vision,and image processing.)
From Big Data to Big Knowledge:HACE+BigKE
WU Xin-Dong1,2HE Jin1LU Ru-Qian3ZHENG Nan-Ning4
Big data deals with heterogeneous and autonomous multi-sources,and aims at mining complex and evolving relationships among data.With the fast development of data collection,data storage and networking technologies,big data analytics has become a hot topic for research and development in various fields.This paper starts with the essential characteristics of big data,reviews existing popular models for big data,including 5V,5R,4P and the HACE theorem. Also,from the viewpoint of knowledge modeling,this paper introduces BigKE,a big data knowledge engineering model for big knowldedge,and discusses the challenges and opportunities of big knowledge research and development.
Big data,knowledge mining,heterogeneity,fragmented knowledge,online learning
10.16383/j.aas.2016.c160239
Wu Xin-Dong,He Jin,Lu Ru-Qian,Zheng Nan-Ning.From big data to big knowledge:HACE+BigKE. Acta Automatica Sinica,2016,42(7):965-982
2016-03-03錄用日期2016-05-31
Manuscript received March 3,2016;accepted May 31,2016
國家重點基礎研究發展計劃(973計劃)(2013CB329604),國家自然科學基金(61229301),教育部長江學者和創新團隊發展計劃“多源海量動態信息處理”(IRT13059)資助
Supported by National Basic Research Program of China(973 Program)(2013CB329604),National Natural Science Foundation of China(61229301),and the Program for Changjiang Scholars and Innovative Research Team in University(PCSIRT)of the Ministry of Education of China(IRT13059)
1.合肥工業大學計算機與信息學院合肥230009中國2.佛蒙特大學計算機科學系伯靈頓VT05405美國3.中國科學院數學與系統科學研究院北京 100190中國4.西安交通大學人工智能與機器人研究所西安710049中國
1.School of Computer Science and Information Engineering,Hefei University of Technology,Hefei 230009,China2.Department of Computer Science,University of Vermont,Burlington VT05405,USA3.Institute of Mathematics,Academy of Mathematics and Systems Science,Chinese Academy of Sciences,Beijing 100190,China4.Institute of the Artificial Intelligence and Robotics,Xi′an Jiaotong University,Xi′an 710049,China