郝冉
(中認國證(北京)評價技術服務有限公司 北京市 100020)
維基百科上這樣定義大數據:在一定的時間內無法使用常規方式進行內容抓取、管理和分析處理的數據集合。大數據的“大”有兩層含義,一是指數據量大,還指數據類型多種多樣。隨著社會信息化程度逐漸提高,市場競爭、社會發展分析等多方面都要依仗大數據來推進,從數據中挖掘出其背后的信息已成為目前各國重要的研究方向。為了提高對海量數據的處理效率,云計算、粒計算等相關技術隨之出現,這些技術的應用使得數據充分發揮了它的作用,來源于社會并服務于社會。2020 年中國通信院大數據白皮書預測:2035 年全球數據總量將達到2142ZB。
各國各地區都已經意識到不斷增長的各種數據中蘊含著豐富的實際意義,與此同時,信息行業的技術工作者們也感受到了來自龐大數據的巨大挑戰,目前以往的技術手段和性能已經很難滿足對當前數據量的處理要求,因此使得人們需要不斷在數據存儲、數據處理、計算機模型與性能等多個相關領域進行探索和提高,以達到盡可能快速高效地將這些龐大的數據中蘊藏的價值充分挖掘出來,使其發揮作用促進社會與科技的不斷進步。
粒計算作為一種更為有效的方法論,主要是為了建立以外部環境為基礎,以用戶為中心的一種思想,從而簡化人們對于物理與虛擬世界的認知,并在此基礎上,用適當粒度的“粒”作為中間環節從而求得整個問題的解,相較于對完整問題進行求解的過程而言,以合適的粒度的“粒”作為處理對象可以有效地提高求解效率。
大數據是社會高度信息化后出現的一種概念,指的是通過對海量真實數據進行收集和分析后得出有利于社會發展的信息,達到透過數據發現本質的目的。目前人們常說的大數據的3V 特性指的是大數據的Volume(量大)、Velocity(增長快)和Variety(數據結構多樣),通常情況下大數據的大小至少要達到GigaBytes,目前每天至少有2.5EB 的數據增加,數據結構囊括文本信息、音視頻、傳感器信號等。由于大數據的3V 特性,使得他的發展面臨了極大的挑戰,主要包括以下幾點:
(1)數據的存儲與檢索:大量數據的出現使得存儲與檢索變得困難,即使存儲技術的水平一直在不斷提升,但面對源源不斷增加的數據,再高的磁盤容量和再低的存儲成本都無法滿足需求,無限制地存儲所有數據也會對資源造成浪費,給電力系統帶來壓力。與此同時,海量的數據導致數據檢索速度下降,檢索難度大大增加,無法及時有效地獲取所需數據,這也違背了信息化時代背景下大數據研究的意義。
(2)通信效率:網絡在某種程度上催生了大數據的產生和發展,但海量數據使得網絡傳輸壓力激增,對網絡設施的要求越來越高,增加了人力和物力成本。
(3)數據處理:存儲大數據并不是大數據存在的意義,挖掘其背后有價值的信息才是大數據研究的本質。對大數據的處理流程包括獲取、清晰、集成、分析和解釋,不斷增加的海量數據導致每一步的工作難度都在增加。
(4)安全與隱私:因數據涉及各方面隱私,收集并存儲數據最需要考慮到的就是注意保護數據安全性,避免影響正常社會運轉的事情發生。
上述幾種挑戰大多交織關聯,并非獨立存在,因此使得對大數據的研究充滿挑戰與魅力,吸引了來自計算機、通信網絡、信息安全等各行各業的工作人員對提升大數據處理、解決當前困境進行研究。雖然大數據的出現為研究人員帶來了許多挑戰,但也為社會發展提供了前所未有的機遇,大數據是與人力、物力不同的一種新的促進生產發展的因素,是當前社會進行科學研究和提供服務不可獲取的一部分。充分合理對大數據進行研究,挖掘其背后真正有用的信息,可以為社會各界帶來巨大的幫助。
目前有關于大數據的處理研究主要有4 各方面,如圖1所示。
信息領域各方面的研究人員針對體量不斷增大的大數據所帶來的挑戰都在從不同的方向尋求更為有效的解決方案,從事計算機系統結構方面的研究人員李國杰認為,要想提高大數據的處理效率,就要對計算機系統結構進行革命性的重構工作,從以往的以計算為主數據為輔的方式轉變為以數據為中心以處理為輔的方式,通過減少數據的傳遞來提高大數據處理的效率。從事編程語言工作的研究人員梅宏認為,對編程模型和編程語言進行重構也可以有效地提高大數據處理效率。而懷進鵬所提出的Inexact(近似性)、Incremental(增量性)、Inductive(增量性),三者構成的3I 特性非常直觀地反映了針對大數據的3V 特性需要對數據處理進行的改革。
大數據處理算法主要關注以下幾個方面:數據的傳輸、數據的訪問、數據的挖掘以及機器學習等相關內容針對大數據所進行的改進與提升。自有大數據的概念以來,信息技術領域的相關技術人員對大數據的處理進行了各種嘗試,如表1 所示。
數據挖掘主要有兩種方式,一種是以數據為基礎,將大數據數據流通過采樣、負載、草圖等方式轉化為為常規的數據集合,另一種方式以目標為基礎,通過對現有的算法模型進行優化或是改革技術來處理大數據數據流,主要包括近似算法、算法輸出粒度等。
開源大數據處理平臺是大數據處理分析的基礎組成部分,為了更加便捷有效、直觀地對大數據進行處理,一大批來自高校、開源社區以及相關企業的人員們基于大數據處理的算法開發出大數據處理平臺,并且不斷對其進行迭代更新,逐步提高平臺的性能,使其更高效、更廣泛地服務于大數據處理的相關工作。當下大數據處理平臺主要有以下幾種:
(1)文件系統:HDFS;
(2)大規模并行數據查詢引擎:Cloudera Impala;
(3)靜態數據分析工具:Pig/Shark 等;
(4)數據流分析工具:Storm 等;
(5)內存加速集群計算系統:Spark 等。
大數據的來源是社會生活的方方面面,因此大數據中所蘊含的價值也可以服務于社會的方方面面。在生物科學領域,2013 年Marx 在雜志上曾介紹說,利用計算機和軟件工具對大數據進行分析,生物學家則可以不直接接觸活體就可以對基因組測序等進行研究;Turk-Browne 曾在2013 年的《Science》雜志上發表過一篇以人腦功能交互為基礎的大數據方面的文章,文章中指出人腦功能的復雜性:神經分布廣泛、神經過程影響因素復雜,交互隨著認知改變、交互可能具有很高的維度。在治安管理方面,美國加州大學的學者曾在2012 年建立了一個針對犯罪活動的預測平臺,以以往發生的數千萬起案件為數據基礎,找出案件和日期、天氣、節日、交通等相關事物的關系,利用大數據分析對這些案件信息進行挖掘,以此優化調整警察管理方案,在警力同等的情況下使當地盜竊案件發生的概率下降了19%。
粒計算是指以粒結構為基礎進行思考、對問題求解和信息處理模式的一種理論、技術和工具的統稱,粒計算在當前的智能信息處理方面占據了重要的地位。站在人工智能的角度上來看,粒計算通過模擬人類對大規模問題進行考量和處理的方式,以解決實際產生的問題出發,選用滿意度更高的較優解,而不是使用完全不考慮現實情況的精確最有解,來完成對問題的處理并提高解決效率。站在大數據分析與處理的角度上來看,粒計算采取粒化復雜信息的方式對其復雜程度進行簡化,基本單元由樣本信息縮小為信息粒,這樣做可以有效提高計算效率。粒計算主要包括以下幾個方面:數據的粒化、粒化數據的發現、融合和推理等研究內容。以大數據復雜問題為基礎,粒計算方式建模的主要表現有以下幾個方面。
我國著名科學家錢學森先生曾在他的論文中提出這一觀點:“簡單系統是指沒有層次或只有一個層次結構的事物,復雜巨系統指的是具有很多子系統種類并且層次結構多,相互之間的關聯關系很復雜的系統。每一個復雜系統都具有一定的層次結構。”生物工程領域的Friedman 曾指出在細胞網絡和蛋白質網絡等復雜結構生物范圍的大數據中都存在著多層次的特性。大數據中的數據大多來自于層次結構復雜多樣的自然和人工系統的記錄,或者是由人類社會使用網絡的過程中產生,這就可以說明反映這些系統的大數據集合之間的關系必定也蘊含著與復雜系統相似的較為復雜的層次結構和相關聯性,這個特點就是大數據的復雜性與多粒度性。
挖掘數據背后的信息主要是為了用于給實際的生產生活提供參考和幫助,因此即使處理的是同一個數據集合,由于所需內容的角度不同或者是信息指導的內容不同,使得對數據進行挖掘的方向也會不同,因此數據挖掘與大數據類似,同樣具有多層次性與多粒度性。以旅游行業大數據挖掘為例,站在國家、地區層面上來看更關心的可能是旅游業對各地經濟發展的作用,國家政策對旅游業發展的影響,站在酒店從業者的角度來看更關心提供什么樣的服務可以更好地吸引顧客入住。由于需求不同,就要求數據挖掘要從不同的角度入手,并且還可以進行有效的融合和組裝,便于完成對數據挖掘的定制需求。
“大數據表示所有數據”這一理論在2021 年出版的一本名為《大數據時代大變革》的書中曾被提到。針對大數據的處理工作無法通過常規手段,使用常規工具在一段時間內完成,因此大數據挖掘工作的第一步就是將完整的大數據整體按照一定的規則或條件進行拆分,使其可以進行運算,這個過程就是對數據進行粒化,粒化后的數據更便于進行數據挖掘與分析。
由于大數據的復雜性使得對大數據進行建模往往會出現及其復雜的層次結構,所以對大數據進行挖掘的算法必須要可以按照不同任務不同需求從不同的角度抽選中與要求相關的部分,并以抽選部分為基礎對整體數據進行合理的推理演算以達到進行大數據挖掘的目的。
由于實際工作中對信息要求的快速及時,因此在進行數據挖掘時需要采用近似求解的方式。與以往的小數據集合不同,大數據的快速增長性對數據挖掘算法提出了極高的要求,在復雜性極高、噪聲大、混雜性大的情況下得出最優解幾乎是不可能完成的事情,因此選擇得出近似最優解就是一個很好的方式,而且近似解基本可以滿足實際生產生活的需要,就不必大費周章去求得精確最優解。
由上述分析可知,粒計算可以很好地解決大數據當前所面臨的問題,解決大數據結構層次復雜,處理整體數據困難,粒計算與大數據挖掘算法具有極高的吻合度,因此可以推斷出以及粒計算為基礎進行大數據挖掘與處理分析是今后非常有效地處理大數據問題的途徑之一。
美國研究人員曾在1979 年提出模糊信息粒化的概念,該研究人員認為人的認知能力主要可以概括為如下幾種類型:整體拆分成局部(粒化)、局部整合成整體(組織)和前因后果(因果)。我國學者曾于20 世紀90 年代初在其著作中提出“人類智能的一大特點就是可以從同一粒度上分析不同的事情,也可以從不同的粒度上分析同一件事情,并且可以以粒度為基礎求解。”這種能力就是人類在處理問題時的高超所在。自從粒計算的概念出現至今,許許多多的專家學者紛紛投身于此,致力于提升粒計算對數據處理分析和對現實問題幫助的能力,經過專家學者們的不斷努力以及各國政府的大力扶持,粒計算當前已取得了一些具有深刻意義的進展。粒計算的研究分布,如表2 所示。

表2:粒計算的研究領域分布
將完整的數據集合按照一定規則拆分為數據粒是粒計算的基礎工作,由于求解的方向不同或者用戶需求不同,拆分數據粒的規則就會有所改變,來保證拆分的數據粒可以更有效地服務于問題的求解。但是目前粒計算仍存在一些不足之處,比如沒有很好地完成大數據可計算性的需求,大部分是從單一特征出發,將不同特征之間的結果進行簡單地集成,并沒有從根本上對數據粒進行有機融合,無法確保語義一致性,沒有從根本上解決多模態特征的數據粒協作問題。從問題粒度到計算粒度的尋找方式如圖2。

圖2:問題粒度到計算粒度
多粒度模式包括數據集中的多個子數據,空間重的多個子空間,或是多個不同特征屬性的一種集合,也可以是對大規模復雜問題進行求解過程中得到的中間結果,多粒度反映一個問題的在不同角度或者是不同層次所關注的重點不同,多粒度模式的出現有效地提高了粒計算對于復雜問題處理的效率。當下,多粒度仍未成為一個專業術語,但各領域的研究學者已在許多領域以多粒度模式為基礎展開研究,并發現多粒度模式的優越性與高效性。
推理是人類獨有的一種依靠已知猜測推斷未知的特殊技能,主要是依靠人類的常識以現有數據為基礎根據一定的規律和科學的方法對未發生或未出現的事情進行推測的一種能力。推理是一種用于研究人類思維模式、思維規律和思維邏輯的科學。通過推理可以從已知得出未知。所以,粒計算的推理就是指利用當前數據粒的已知信息進行推理演繹推測出需要信息的技術。
在粒計算研究方面,近些年已經出現一些粒計算推理相關的研究成果。我國學者劉清以粗糙集為基礎研究了粒語言和決策規則粒用來進行粒計算方面的邏輯推理。Daphne 等人針對復雜的生物網絡結構提出的以特征間的關聯性為基礎而研究出的概率圖模型目前已是大數據處理工作中非常有效的一種研究思路。
雖然針對粒計算在大數據處理方面的研究已經有了非常良好的進展,但是目前仍然處在以單一粒度為基準的粒化推理階段,對于多粒度的考量還不夠完整,甚至是跨粒度間的粒計算推理情況,缺少針對多粒度或是跨粒度數據的有效處理模式,而多模態數據粒、跨粒度數據的推理又正好是求得大規模復雜問題的近似最優解的最佳方式,因此在粒計算推理方面仍有很長的一段路要走。
在粒計算領域利用信息粒替代樣本數據作為最小運算單位,將滿意近似解替代精確最優解,可以提高計算性能。近些年來針對提升大數據計算方面進行了許多的研究,但是針對粒計算的數據挖掘來說目前仍然面臨著來自兩方面的挑戰,一個是如何更加合理地進行數據粒化,得到更為優質的數據粒來保證算法得到的滿意近似解是有效的,另外一個是如何平衡計算效率和結果的關系,使得在保證計算效率和結果趨近于最優解的前提下,確保時效性。因此,在提升粒計算性能方面仍需對上述兩個方向進行更為細致地研究,便于日后將粒計算全面應用于大數據的處理分析中。
因大數據具有大規模性、多模態性、快速增長以及數據結構多樣性,對粒計算的要求就會更加嚴格,為粒計算的研究與發展提出了嚴峻的挑戰。在利用粒計算對大數據進行分析處理的過程中需要從以下幾個方面進行加強:數據結構多樣化模式下的數據粒化更為準確、面對不斷增長的數據量以及可能發生維度變化的數據進行及時有效的數據粒化、粒化后的數據進行有效的融合來更好地解決實際問題、合理的推理使得已有數據的價值增加、人類智慧與機器只能相結合。
粒計算模型是一種結構化求近似解的理論,可以非常有效地解決大數據處理問題中的不確定性,顯著降低大數據問題求解的復雜度,該模型的可重構性使得它可以在不同領域和不同數據中都可以非常快速地發揮處優勢,該特點與對大數據的處理要求十分吻合,因此粒計算是未來進行大數據處理分析的極具研究價值的思路之一。
文章從大數據當前面臨的挑戰、粒計算作為大數據的新的研究方向、粒計算的研究現狀等方面對基于粒計算的大數據處理分析進行了討論。高度信息化的時代背景下,大數據的處理分析必將成為為社會進步與發展提供有效幫助的科技手段,如何提高大數據的處理分析,提升粒計算的性能都是必須要考慮的問題,對解決實際問題有著重要的參考價值。不斷提高大數據的相關技術,對各行各業的發展都有著積極的意義。