厲蕊 陳素梅 陳豪
[摘 要]大數據已經是包羅萬象,滲透到社會發展的很多領域,并且還在不斷擴大中。大數據研究的難點在于提取數據,數據提取的核心在于網絡中的相關關系,而勢科學理論中的信息作用機制的“差別與聯系”也體現了相關關系。通過計算與比較各種數據維度的信息勢,就能有效認識大數據中各數據維度的相關關系,從而提高知識的提取能力。
[關鍵詞]大數據;數據挖掘;勢科學
doi:10.3969/j.issn.1673 - 0194.2017.24.088
[中圖分類號]TP311.13 [文獻標識碼]A [文章編號]1673-0194(2017)24-0-02
1 大數據概述
大數據泛指巨量的數據集,記錄了眾多信息主體的狀態、特征、行為、偏好和思想等方面,因可從中挖掘出有價值的信息而受到全世界關注。國外對大數據的權威定義為:由科學儀器、傳感器、互聯網電子商務、電子郵件、音視頻軟件和網絡點擊流等眾多數據源生成的大規模、多元化、復雜、長期的分布式數據集。IBM將大數據特性歸納為4V:大量化(Volume),多樣化(Variety),快速化(Velocity)和真實性(Veracity)。
大數據的主要用途為進行分析預測和輔助決策,在政府管理、公共服務、金融投資、商業分析和企業管理等領域都已經有廣泛應用。
大數據目前應用的主要場景有:驅動企業營銷創新,效率提升和策略優化,改善客戶體驗和實現實時化,個性化產品與服務創新以及進行風險監控;幫助政府對重點管理領域進行實時跟蹤和分析,提高監管和服務效率;對環境災害和傳染性疾病進行提前監測,做好災害預警防備和疾病防治。
人們平常說的大數據實際上只是簡稱,更準確的叫法應為大數據挖掘,不挖掘出大數據的價值大數據也就沒有用處、沒有意義。麥肯錫(McKinsey)指出大數據挖掘是繼云計算、物聯網之后IT產業又一次顛覆性的技術變革,大數據將是提高創新、競爭、生產力的下一個前沿陣地。
現階段,大數據研究與應用正從起步階段開始進入深化發展階段,但還有很多技術難題有待解決,支撐的理論和方法也不夠,研究遠遠落后于應用的需求。大數據挖掘需要處理的數據不僅龐大而且多源異構,有結構化數據、半結構化數據和非結構化數據,在類型上又分為數字、文字、圖片、文檔、網頁和視頻等不同種類,并以數據流的形式快速、動態地產生,導致大數據各數據維度之間的差異懸殊,并缺乏條理性,同時也難以清洗冗余數據,給大數據研究帶來了很大困難。如何從海量、碎片化的大數據中提取出知識點進行有效融合計算,并解決科研問題,是目前亟待解決的問題,也是當前的研究熱點和難點。
2 勢科學概述
勢科學是李德昌教授自創的科學理論,是以信息為基本元的科學理論,信息是研究一切自然和社會現象及原理的基本元素,勢科學總結信息的有序是知識,知識的有序是方法,方法的有序是智慧;知識不是簡單的數據累計,而是有序的可以指導實踐的信息。勢科學理論指出只有既有差別又有聯系的信息,才是有序的信息,才能從中提取出知識,再將知識融會貫通發現出規律從而解決復雜問題。
勢科學理論根植于我國傳統文化,也與西方自然科學理論的研究一脈相承,找到自然科學研究與社會科學研究的相同之處,在原理上也具有一致性,因此高度概括出核心概念“勢”。勢=差別×聯系=差別÷距離,勢即梯度、導數和斜率,勢科學的基本作用機制是勢增原理“聯系擴大差別,差別促進聯系”,差別最大即相反,聯系最大即相同,即相反又相同,則為對稱。對稱是自然界最普適、最高級的狀態,歸于對稱性原理的勢科學為研究人類社會發展,提供了具有普適性的動力學原理。勢科學理論在中國管理實踐、區域發展、企業治理和高等教育上已經取得了豐碩研究成果。
3 勢科學在大數據中的應用
3.1 勢科學視角看大數據
從勢科學視角看大數據近幾年的高速發展來源于:差別促進聯系,聯系擴大差別,“勢趨”不變,推動著大數據研究加速擴張和加速發展。另外,因為傳統基于小樣本數據挖掘出新的價值越來越難,在追逐創新的驅動下,針對大數據的挖掘順勢而來。在勢科學理論中,有序的消息稱為信息,信息量或信息勢代表著有序信息的數量,并定義“創新”是系統過程在信息勢作用下超過某個臨界值,發生非平衡相變和非線性分叉所產生。正是大數據挖掘出的價值具有的信息勢夠大,超過了某個臨界值,所以大數據挖掘被視為是重要創新并獲得廣泛追捧。因此在大數據研究中,首先要找到信息量大的數據維度并根據研究的問題提取出知識,再通過進一步分析挖掘出重要的信息,從而獲得更大的信息勢,產生出創新和帶來更大價值。
3.2 大數據重點研究相關關系
在小樣本數據挖掘中,必須有明確的因果關系作支撐,才能保證從小樣本數據中得到的規律和價值信息是正確的。但在大數據挖掘時,因為樣本規模巨大、涵蓋廣闊,沒有像小樣本數據中那樣以偏概全,所以僅需要分析大數據之間的相關關系,就能得到正確的結果。大數據主要也是研究相關關系,畢竟在大數據這種復雜系統中,要解決的問題也很復雜,更多時候是眾多相關因素共同作用下產生出的某種結果,同時因果關系只不過是相關關系中的特例。例如,股市的漲跌來自于宏觀經濟基本面、市場情緒和政策面等多種相關因素的共同作用,而不是受某幾個特定的因素決定走勢和結果。正因為股市受太多相關因素的共同作用,數據量大又變化快,股市漲跌才如此難以預測。
可見,相關關系分析對大數據研究意義重大。大數據挖掘本質就是從紛繁復雜的多維大數據中根據相關關系,用數學模型、算法對大數據進行計算,從而發現和總結規律,并投入實踐產生價值。勢科學研究的核心問題是信息作用機制,只有相互間有相關關系即存在信息阻尼,才能產生作用力,也是重點研究相關關系。勢科學最基本的概念是差別和聯系,具有高度邏輯性和對稱性,可以用來表示大數據各維度數據間的相關關系的不同側面。同時,勢增原理“差別促進聯系,聯系擴大差別”,也演繹出大數據中相關信息相互作用于結果的內在動力學原理。因此,勢科學理論很適合分析大數據內部的相關關系,通過深入準確分析相關關系,為從中提取出知識和解決科研問題帶來了很大幫助。
3.3 信息勢概念對大數據研究的作用
在大數據研究中,為了能得到理想結果,往往會將眾多不同來源的數據放在一起研究。此時如果只關注到數據的廣度,會造成數據維度太多,分散研究注意力,也會給研究帶來多余的問題,所以有必要消除冗余的數據廣度,專注于數據的深度。如果通過人為拍腦袋覺得去掉哪些維度數據,或是決定哪些維度數據更重要,這類做法對大數據研究來說很不嚴謹,也不科學。大數據科學的本意就是在黑箱中用科學理論和方法摸索大數據,挖掘出潛在價值,人為主觀地干涉越少越好。因此,在數據選取和主要性判斷上,需要用更科學的理論和方法處理。
在信息論中,信息被表達為負熵,負熵即意味著有序,有序構成梯度,而梯度就是勢,所以信息等于勢,信息勢等價于有效信息量。如果大數據中某個數據維度在與內部其他數據維度相關關系上,表現出差別較大而聯系又較緊,說明它的有效信息量更大即信息勢更大。信息勢更大的數據維度所包含的知識也就越多,就能為解決大數據科研問題提供更多的知識和更好的選擇,所起的作用也就更大。通過用信息勢來衡量大數據中數據維度相關關系大小,能夠幫助科研人員透過現象看到本質,更有效地從大數據中提取出有用的知識,助力挖掘出大數據價值。
4 結 語
勢科學的信息作用機制完美演繹了大數據內部相關關系的意義,通過勢科學分析大數據中數據維度的信息勢,能夠解析大數據網絡中復雜的關系結構,能使科研人員更好地研究大數據相關關系,找到大數據中蘊含的不同知識,從而能更好地解決科研問題,讓大數據產生出更大的價值。數據維度信息勢模型是建立在普適性的基礎上,在眾多不同類型的大數據研究中都能用來分析大數據中的相關關系和發現規律,并提取出知識。
對大數據和勢科學的交叉研究還需要繼續深入下去,研究者在以后的研究中可以利用勢科學相關理論,進行大數據知識融合、知識庫建設和復雜問題研究,形成“數據-信息-知識-智慧-決策”的一整套完整和科學的理論與方法體系,助力大數據挖掘不斷向前發展,讓大數據的價值更好地展現出來并惠及社會。
主要參考文獻
[1]李德昌.勢科學視域中管理系統的邏輯機制——從整體直覺到邏輯演繹的中國管理學研究[J].管理學報,2008(6).
[2]李德昌,張守鳳.基于信息本質的不確定性機制的中國管理實踐研究及評價——勢科學視角[J].管理學報,2012(8).