王秉


關鍵詞: 數據; 智能; 數據智能; 大數據; 人工智能
DOI:10.3969 / j.issn.1008-0821.2023.04.002
〔中圖分類號〕G201 〔文獻標識碼〕A 〔文章編號〕1008-0821 (2023) 04-0011-06
近年來, 隨著大數據和人工智能行業的快速發展及其廣泛融合應用, 如何真正從數據中形成智能從而使數據在實際應用中最大釋放數據價值, 成為了大數據和人工智能領域的重要研究和實踐課題[1] 。在此背景下, 數據智能概念由此誕生, 并已發展成為學術界和實踐界的一個熱詞[1-3] 。與大數據和人工智能概念相比, 數據智能是一個更為年輕的新概念[1] 。基礎不牢, 地動山搖。從研究邏輯角度講, 準確定義數據智能和明確其基本內涵是開展數據智能研究與實踐的邏輯起點和理論根基所在。但令人遺憾的是, 由于數據智能是一個新概念, 業界對其使用較為隨意, 多停留在簡單應用探討層面, 對其理解和認識尚較為膚淺或片面, 缺乏對數據智能的基本理論問題的解釋, 特別是缺乏對數據智能的準確定義和基本內涵的深度詮釋。可見, 亟待明確數據智能的定義和基本內涵。鑒于此, 本文在梳理現有數據智能概念的典型認識的基礎上, 提取關于數據智能概念的共性認識, 并提出數據智能的定義。在此基礎上, 提出數據智能的構成要素, 并解釋數據智能的多重含義。
1數據智能概念的典型認識梳理
目前, 盡管尚缺乏對數據智能的準確和統一定義, 但已有關于數據智能概念的部分界定。本文整理歸納現有的具有代表性的關于數據智能概念的認識, 具體如下。
1) Zhang L[2] 指出, 數據智能是指數據驅動的分析和相關應用, 這意味著數據類型、如何收集和處理數據以及如何使用數據都是數據智能的主要內容。
2) 根據百度百科[3] , 數據智能是指基于大數據引擎, 通過大規模機器學習和深度學習等技術,對海量數據進行處理、分析和挖掘, 提取數據中所包含的有價值的信息和知識, 使數據具有智能, 并通過建立模型尋求現有問題的解決方案以及實現預測等。
3) 根據2018 年10 月TalkingData 聯合中關村大數據產業聯盟、中國國際大數據大會組委會在第五屆中國國際大數據大會上發布的《2018 年數據智能生態報告》[1] , 所謂數據智能, 是指在機器學習、分布式計算等技術發展的基礎上, 數據逐漸呈現出高維度、高階態和異構性的形式, 能夠對海量數據進行分析、處理和挖掘, 并且通過建模與工程等方式來解決實際預測問題, 最終實現決策的行動。
4) 根據MBA 智庫·百科[4] , 數據智能是一個跨學科的研究領域, 從數據中提煉、挖掘和獲取具有揭示性和可操作性的信息, 從而為人們在基于數據制定決策或執行任務時提供有效的智能支持。
5) 基于管理的視角, 吳俊杰等[5] 認為, 數據智能是通過大規模數據挖掘、機器學習和深度學習等預測性分析技術, 對現實應用場景的內外部多源異質大數據進行處理和分析, 從中提取有價值的信息或知識, 并用于提升復雜實踐活動中的管理與決策水平。
6) 詹青龍等[6] 指出, 數據智能是利用分析工具和數據挖掘等智能技術對收集的海量數據, 加以智能化分析與處理, 將數據轉化成可操作的信息,發現洞見和趨勢, 從而改進決策與管理的一種方法。
7) 根據Media Update(它是一份國際化的在線出版物, 專門報道與南非媒體、營銷、公共關系和社交媒體行業相關的最新新聞和信息)從企業角度對數據智能的理解[7] , 數據智能是指通過收集與分析海量數據用以發現數據所蘊含的趨向和意義的過程, 這些洞見有助于企業識別市場中的機會。
8) 根據Sisense(它是一個知名的國際化商業智能平臺)對數據智能的理解[8] , 數據智能是使用方為了更好地理解所收集的信息以改進其服務或投資而使用的所有數據分析工具和方法。
9) 根據首屆數據智能與安全國際會議(Inter?national Conference on Data Intelligence and Security,ICDIS)的會議介紹信息[9] , 數據智能是指運用各種人工智能技術處理數據, 它特別強調數據的使用和與數據的交互, 它的目標是將數據轉化為信息,然后再將信息轉化為知識。
10) Wu B 等[10] 指出, 數據智能是一個跨學科研究領域, 結合了大規模數據處理、數據挖掘、機器學習、人機交互、可視化和其他技術, 它從數據中抽象、挖掘和獲取具有揭示性和可操作性的信息, 從而為人們基于數據做出決策或執行任務提供有效的智能支持。
11) Wu D D[11] 指出, 數據智能是對各種形式的數據進行分析, 以便公司可以使用這些數據來擴展其服務或投資。
12) 劉昕等[12] 提出數據智能就是平行數據。所謂平行數據, 是指智能數據集, 它由實際數據與虛擬數據構成, 根據實際數據經計算實驗產生虛擬大數據, 虛擬大數據由相關問題期望的解決方案引導, 聚焦生成小數據、小知識, 該小數據具有智能,直接面向解決實際問題。
2數據智能概念的共性認識提取及數據智能定義的提出
通過分析歸納上述關于數據智能概念的現有理解, 可總結提出關于數據智能概念的一些共性認識, 這可為提出數據智能的定義提供基本的邏輯思路和依據。概括看, 現有的關于數據智能概念的典型認識的共性特征主要體現在對數據智能的生成路徑、邏輯起點、基本指向、價值生成與釋放本質四大方面。
1) 數據智能的生成路徑基本遵循“從數據中找到關鍵有用信息, 從而使數據具有智能”。其中, 數據是符號的集合, 是表達客觀事實的未經加工的原始材料, 可回答“有什么”, 但它本身是沒用的[13-15] 。信息是被賦予意義和目標的數據, 對于信息用戶而言, 旨在找到對其有用的關鍵信息(一般指對決策有用的信息, 它包括信息鏈中的知識和情報[13-14] ), 即在對數據進行綜合、分析和提煉的基礎上獲得判斷、理解與預測, 可回答“是什么(如誰、何時、何地與多少等問題)” “為什么” 與“怎么辦”[13-15] 。智能是合理地運用關鍵有用信息并進行正確判斷和最佳決策的能力。數據智能概念的現有認識基本以數據為基礎, 按照由數據到關鍵有用信息的轉換, 以期從數據中分析、提煉、發掘和獲得具有揭示性與可操作性的信息, 把大量的雜亂數據提取為少量的關鍵信息, 把無用的數據變成有用的信息。同時, 數據智能是關鍵有用信息與智能的集合體, 二者相輔相成??梢姡?得到關鍵有用信息是數據智能的初始目標, 實現智能(即“使關鍵有用信息在決策中釋放價值”)是數據智能的終極目標[1] 。
2) 數據智能的邏輯起點是數據。根據上述對數據智能概念的各種認識, 數據智能離不開數據這一底座, 數據是生產數據智能的基礎原料。形象地講, 若將數據智能視為“礦產品”, 那么數據就是“原礦” (需說明的是, 數據和礦產的性質存在差異, 如礦產屬于不可再生資源, 而數據屬于可再生資源)。從數據的角度看, 數據智能的影響因素主要是數據的質和量兩大方面。其中, 借鑒礦石品位(礦石品位指單位體積或單位重量礦石中有用組分或有用礦物的含量)的概念, 數據的質可用數據品位來衡量。所謂數據品位, 是指單位數量的數據中有用信息(即“數據智能”)的含量, 即數據品位(用百分比表示)= 數據智能/ 數據總量。數據品位是衡量數據經濟價值的主要指標, 它直接影響數據分析挖掘效率。數據品位的主要影響因素包括數據的準確性、多樣性、及時性與應用場景范疇等, 提升數據品位的關鍵在于降低數據冗余(它是數據總量與數據智能的差值)。需注意的是, 數據品位概念是相對的, 隨著人類對數據需求的不斷增長和數據分析挖掘技術條件的不斷改善, 以前低品位的相對無用數據也可成為高品位的有用數據。同時, 數據的量是數據智能的基礎性影響因素, 擁有豐富的數據資源是挖掘和獲取數據智能的基礎。在當今大數據時代, 數據的量呈爆發式增長, 數據智能獲取起決定性作用的往往并非是數據量, 而是具有高品位的數據。例如, 目前, 由于很多組織的數據管理和分析挖掘能力不足, 導致它們已陷入“有用的數據智能缺失, 無用的數據泛濫” 的困境。
3) 數據智能的基本指向是支持和服務現實場景中的管理活動。數據智能的重要目的是從數據中尋找對管理有用的規律信息, 找到能指導管理實踐的原則和方法, 這是數據產生智能的主要途徑[5-6] 。也就是說, 數據智能的基本指向是為管理活動提供有價值的信息支持和服務, 特別是獲得科學準確的預測與決策, 它是直接針對管理問題和降低管理活動中的不確定的信息, 從而提升管理和決策水平[5-6] 。與一般的數據分析挖掘相比, 數據智能的核心目的是支持預測、決策與執行等管理活動, 而非分析挖掘或者可視化展示??梢?, 數據智能以數據為輸入, 以預測結果的產生、決策的制定和管理實務為輸出。也就是說, 數據智能一定是為了給管理人員提供洞察、預測、預警和決策等管理業務支持和服務, 讓數據在管理中發揮價值。因此, 數據分析挖掘需面向現實場景和問題, 使用數據抽象出現實場景和問題之中的隱性關系, 并形成關系發展的洞察、預測與預警等, 進而指導決策和執行活動。因而, 數據智能的初始產品的呈現載體是洞察、預測與預警等, 它們是具有可行動性, 是可以轉化為數據智能的最終產品(即決策)的。簡言之, 數據智能面向現實場景中的管理, 是實實在在能夠幫助和支持解決現實場景中實際問題的??梢?, 基于數據智能的管理結果就是衡量數據智能價值的直接指標。需注意的是, 實踐性是管理的本質屬性, 管理需面向具體現實場景才能開展并產生價值, 同樣,支持和服務管理的數據智能的產生和價值發揮亦需依賴于某一應用場景, 否則, 數據智能本身是泛化的, 是難以與現實問題相互聯系和對應的, 是難以在現實管理中應用落地和發揮作用的。
4) 數據智能的價值生成及釋放本質是挖掘和釋放數據的價值。數據智能源于數據, 它注重和強調如何從海量、結構類型多樣的數據中獲取、處理、挖掘、分析與提取真實且有價值的輔助管理活動的依據, 即對管理有用的信息資源??梢?, 數據智能的價值源于數據本身的價值, 從數據智能活動過程角度看, 數據智能本質是一個不斷挖掘和釋放數據的價值的過程。換言之, 數據智能旨在激活“沉睡的數據”, 釋放數據服務管理和提升管理水平的價值, 從而呈現數據的巨大力量。因此, 若想更多地挖掘和釋放數據的價值, 就需從數據中獲取更多的數據智能。換言之, 從數據中獲取的數據智能的量與數據價值的挖掘和釋放量成正相關關系。這里, 借鑒一般的冰山模型, 構建數據冰山模型,如圖1 所示。根據圖1, 水面上的“冰山” 部分屬于“看得見” 的數據智能, 水面下的“冰山” 部分屬于隱藏著的大量“看不見” 的數據。根據數據冰山模型, 提出在數據中獲得更多數據智能的3種基本策略。一是“冰山” 上浮策略, 通過擴大數據開放范圍, 擴大數據的應用和服務場景; 二是“水面” 下移策略, 運用相關技術過濾和清晰冗余數據與噪聲數據, 提高數據品位; 三是“浮冰”融化策略, 主要通過提升數據分析挖掘技術水平和能力來實現。
綜上所述, 提出具有普適性和概括性的數據智能的定義。所謂數據智能, 是指針對某一現實場景從數據中分析提取對管理有用的信息, 并用于服務和支持管理的能力。顯然, 該定義完全符合上文提出的數據智能的生成路徑、邏輯起點、基本指向,以及價值生成與釋放本質。
3數據智能的內涵
3.1數據智能的構成要素
根據上述數據智能的定義, 可提出構成數據智能的四大核心要素, 即場景、數據、分析與管理。關于數據智能的四大要素的含義, 上文已穿插做詳細解釋, 這里僅進行扼要解釋。其中, 場景指數據智能的應用或服務的場景, 場景來自實際的管理業務和情境, 應以管理需求為中心, 根據管理需求,將各個管理需求點場景化, 即做好數據智能應用的場景化。數據是指表達場景事實的符號集合, 包括來自場景內部和外部的數據, 它旨在以數字化為基礎, 把場景數據化。分析是指數據分析, 它的主要手段和工具是數據模型與算法。所謂數據模型, 是指將實際場景的管理問題轉換為數學問題, 數據智能分析服務平臺一般具有一個或多個成熟的數據模型, 它們可根據不同場景快速配置和適用。所謂算法, 是指求解模型的方法, 它可根據管理結果反饋不斷進行優化迭代, 即“算法的自我進化”。管理是數據智能的應用和服務目的, 即改進和提升管理水平。
數據智能的四大核心要素之間相互影響, 數據是數據智能生產和應用的基礎原料, 場景是數據智能生產和應用的載體, 分析是數據智能生產的路徑和手段, 管理(支持、服務和改進管理)是數據智能生產和應用的目標?;诖耍?構建數據智能要素的四面體模型, 如圖2所示。
3.2數據智能的多重含義
根據數據智能的定義, 本質上, 數據智能屬于一個總括性的術語, 具有多重含義。換言之, 可從不同維度出發回答“什么是數據智能” 這一問題。這里, 分別從思維、產品、過程、能力與工具技術的角度出發, 對數據智能的含義進行多維度解析。需說明的是, 這里分析數據智能的含義的各個維度是相互并列的關系。
1) 數據智能是一種思維: 數據智能是一種新思維。第一, 數據智能是一種數據化思維。在數據智能這一概念未誕生之前, 運用數據并不擅長解決需要人類智能來解決的問題, 但有了數據智能這一概念后只要換個思維便可解決這一問題, 其核心就是變人類智能問題為數據智能問題, 即把諸多智能型的問題轉化成數據智能的獲取和利用問題。第二,數據智能是一種數據智能驅動思維。數據智能概念的提出, 實現了數據驅動思維的升級, 即數據驅動的本質是數據智能的驅動。第三, 數據智能是一種精準思維, 它旨在找到對管理關鍵有用信息, 從而支撐實現精準管理。
2) 數據智能是一種產品: 數據智能的主要屬性是價值性和可用性, 即數據智能是一種具有價值的可用產品。數據智能作為一種產品, 是根據某一現實場景的管理需求生產出的可操作輸出, 是數據經分析處理生產出的產品, 它對管理具有直接或潛在的洞察和意義, 可識別出管理的機會、挑戰、優勢與劣勢, 并提出相應的管理新見解和新對策[5-6] 。簡言之, 數據智能是經過處理的數據產物, 是針對現實問題的預測結果和解決方案。
在現實中, 數據智能產品的表現形式有數據可視化產品、分類聚類產品、推薦引擎產品、指標體系產品與自動化運維產品等。數據智能產品是數據智能的媒介和呈現載體[1] , 好的數據智能產品至少應具備4 個基本特征, 即滿足管理的需求、好的品質(如質量、功能與服務等)、好的體驗和經濟實惠。數據智能作為一種產品, 表明數據智能具有顯著的經濟價值。同時, 要提升數據智能產品的經濟價值, 還需考慮數據智能產品的成本(包括生產成本與使用成本), 合理的成本是生產和使用數據智能的基本考量之一。
3) 數據智能是一種過程: 數據智能涉及一系列環節和活動, 可將它視為一種過程。就這一過程而言, 它具有多維含義。第一, 從信息鏈角度看,數據智能是通過數據收集和分析挖掘獲取可操作性和有用的信息的過程, 即它是使數據具有智能的過程。第二, 從管理角度看, 數據智能是管理場景和問題數據化的過程, 是運用數據智能驅動管理過程。第三, 從工作業務角度看, 數據智能是數據工作業務與管理工作業務不斷實現有機融合的過程。第四, 從投入產出角度看, 數據智能是利用數據輸入實現預期管理成效和結果的過程。概括看, 數據智能作為一種過程, 它是上述4 種過程的集合體。
4) 數據智能是一種能力: 從數據角度看, 數據智能是一種挖掘和釋放數據的價值的能力, 是一種數據分析挖掘能力(即算力)。從管理角度看,數據智能是一種分析和解決現實管理問題的能力(如對管理的理解和洞察), 是一種基于數據做出預測、決策或執行管理任務的能力。綜合數據和管理角度看, 數據智能是通過梳理數字化要素, 找到對管理有用的關鍵信息, 合理地應用關鍵有用信息進行正確判斷決策的能力, 并結合現實場景與實際管理要素使數據的價值落地生效。
同時, 數據智能作為智能的一種, 它具備智能所具備的一般能力, 主要包括感知能力、記憶和思維能力、學習和自適應能力, 以及決策能力[16] 。一是數據智能具有感知能力, 即具有全周期、全領域、全時空的狀態感知能力, 這是產生數據智能的前提與必要條件; 二是數據智能具有記憶和思維能力,即它可存儲感知到的數據并可借助思維(數據模型與算法)通過數據分析挖掘和關聯產生關鍵有用信息;三是數據智能具有學習和自適應能力, 即通過與管理場景的相互作用和反饋, 持續感知、同步分析、自我學習, 并產生新的數據智能, 使自身能夠適應環境變化; 四是數據智能具有行為決策能力, 即對外界的刺激作出反應, 實時為管理活動提供相應的信息支持和服務, 實現自動決策與精準執行。
5) 數據智能是一種工具技術: 首先, 數據智能是一種數據驅動的智能管理工具與技術, 它可將數據轉化為支持和服務管理的關鍵有用信息, 可幫助顯著提高決策水平與管理能力。其次, 數據智能是使用方為了有效地理解和使用所收集的數據以改進其管理而使用的所有數據智能分析工具和技術。數據智能分析工具和技術是大數據技術工具與人工智能技術工具的融合, 即主要利用人工智能的算法和技術對大數據進行挖掘分析[1] 。數據智能分析工具和技術往往由一系列大數據和人工智能技術組成, 主要包括大規模數據處理、數據挖掘、機器學習、人機交互、可視化和其他技術工具。在現實中, 數據智能技術工具通常集中在一個技術工具平臺(即數據智能平臺), 它的功能是收集、存儲和調用數據庫(面向特定場景和管理問題的數據集)、數據模型與算法等[1] 。
4結語
數據智能作為近年來學術界和實踐界的一個火熱的新概念, 是大數據和人工智能的深度融合與升華的新產物, 是大數據和人工智能領域的重大前沿課題。令人非常遺憾的是, 盡管近年來數據智能概念已得到高度關注, 但研究者和實踐者對數據智能的基本理論問題的關注與重視不足, 導致數據智能研究與實踐工作缺乏理論基礎, 且有誤入歧途的巨大風險。學術界作為理論研究的主力軍, 亟待回答數據智能的基本理論問題, 對夯實數據智能理論基礎做出應有的擔當和貢獻。針對數據智能的最基本理論問題(即何為數據智能), 本文在梳理現有的數據智能概念的相關認識的基礎上, 提取關于數據智能概念的共性認識, 提出數據智能的定義, 并基于此闡釋數據智能的內涵, 以期夯實數據智能的理論根基, 及時彌補目前數據智能基礎理論研究所存在的缺失。
筆者在涉獵數智和安全的交叉研究時, 數據智能作為一個基礎性概念, 愈發認識到了明確數據智能的基本定義和內涵的緊迫性與重要性。本文是筆者通過大量文獻、實踐調研總結和長時間思考撰寫完成的, 相信本文探討是數據智能相關研究者和實踐者所期待的內容, 可為當今如火如荼的數據智能研究與實踐工作助一臂之力。當然, 數據智能是一個新概念, 其內涵和外延是不斷發展變化的, 且不同學科領域或行業背景對其理解存在差異, 本文僅算是數據智能的定義與內涵方面的一篇拋磚引玉之作, 部分觀點或認識尚不夠深入成熟, 懇請各位讀者和同仁進行批評完善和交流討論, 共同為推動數據智能理論研究和實踐應用貢獻智慧。當然, 需明確指出的是, 實際上, 數據智能與數智技術、數智賦能、數智時代、數智環境等諸多概念密切相關,若是將數據智能概念展開分析極為復雜, 不是一篇研究能夠解決的問題。正因如此, 考慮到研究的針對性和深度及限于篇幅, 本文不涉及對數據智能與上述相關概念的聯系討論, 僅單純從數據智能這一術語本身出發去解讀數據智能概念, 數據智能與上述相關概念的聯系研究希望相關同仁或筆者有機會將另外撰文專門討論。