
摘要:采用網絡調查法、文獻研究法,首先梳理智慧數據定義的提出背景;然后分析了該概念在屬性、價值和方法三個維度的現狀;最后,對智慧數據定義中的主要分歧和現存困境進行了深入探討,并結合當前發展趨勢,對其未來的應用前景進行了展望,以期為進一步推動智慧數據理論與實踐發展提供支持。
關鍵詞:智慧數據;大數據;數智治理;術語定義
中圖分類號:N04; H083DOI:10.12339/j.issn.1673-8578.2025.02.005
Definition of the Term “Smart Data” and Related Issues//JIA Xiaoshuang, YAO Jing, ZHANG Zitong
Abstract: Using online survey and literature research methods, we first sort out the background of the definition of smart data; then analyze the current status of the concept in the three dimensions of attributes, values and methods; finally, we conduct an indepth discussion on the main differences and existing dilemmas in the definition of smart data, and in conjunction with the current development trend, we look forward to the prospect of its future application.
Keywords: smart data; big data; digital governance; definition of terms
0引言
隨著信息技術的迅猛發展和數字經濟的崛起,數據已成為推動社會各領域創新發展的核心資源。尤其是在大數據、人工智能、物聯網等新興技術的驅動下,數據不僅僅是簡單的資源,更是決策支持和智能化應用的關鍵要素。由此,“智慧數據”這一概念應運而生,成為學術界和產業界廣泛關注的熱點。然而,“智慧數據”的定義和內涵在不同領域、不同語境下存在模糊和諸多分歧。智慧數據不僅要求數據本身具備高質量、高關聯性和高價值,還要求能夠通過智能化處理實現數據的深度挖掘和高效應用。它不同于傳統的數據處理范式,而是強調數據的智慧化,即通過先進的技術手段將海量數據轉化為能夠支持復雜決策、促進創新發展的高價值數據。然而,當前對于智慧數據的定義、屬性和應用方法尚未形成統一共識,這一現狀影響了智慧數據在實際應用中的推廣與發展。
筆者分別以“智慧數據”“smart data”為關鍵詞在CNKI、Springer、Web of Science等數據庫檢索,經篩選后得到中文文獻98篇,外文文獻439篇(截至2024年7月31日)。已有研究呈現出重實踐、輕理論的特點,大多圍繞智慧數據與各自領域結合而產生的具體問題進行探討,廣泛涵蓋計算機科學[1]、信息資源管理[2]、交通運輸[3]、智慧城市[4]、農業生產[5]、法律[6]、醫療[7]等多個領域,顯示出不同學科對于智慧數據的共同關注。然而,以“智慧數據”概念作為對象的研究較少,僅有少數文獻通過大數據與智慧數據的對比給出了智慧數據的定義[8],對智慧數據的系統性定義與概念進行深入辨析的研究相對缺乏,這無疑導致智慧數據的理論基礎不夠完善,限制了其在實際應用中的推廣和深化。由于缺乏明確的理論框架,不同領域在實施智慧數據管理時,容易出現標準不統一、應用效果不一致的問題。此外,缺乏統一的概念定義和理論支持,也使得跨學科對話、交流與合作變得更加困難,阻礙了智慧數據在更廣泛領域的應用與創新。
基于此,本文將聚焦于智慧數據的術語定義及相關問題,深入識別其屬性、價值與方法中的“智慧”所在,考察當前術語定義中存在的分歧與困境,并對未來的發展方向做出展望,旨在為智慧數據概念的標準化和理論體系建設提供支持。通過對現有分歧的討論和現存困境的分析,本文將進一步展望智慧數據的未來發展路徑,為數字經濟的健康發展和數智治理的有效推進提供理論依據和實踐參考。
1“智慧數據”概念的提出背景
“智慧數據”概念的提出,源于大數據時代對數據處理和應用提出的新要求,是技術進步與應用需求相結合的產物。具體來說,“智慧數據”概念的提出背景可以從以下幾個方面來理解。
首先,大數據時代帶來全球數據量呈爆炸式增長。隨著信息技術的迅猛發展,尤其是互聯網、物聯網、云計算等技術的普及,全球數據量呈爆炸式增長。大數據已經成為現代社會的重要資源,甚至被作為生產要素[9]。然而,大數據本身并不等同于智慧數據,因其數量龐大、復雜多樣、增長迅速,傳統的數據管理和分析方法難以有效處理和利用這些數據,導致數據價值未能充分挖掘。
其次,智能化技術的發展推動數據處理能力提升。隨著數據規模的大幅增長,“數據噪聲(Data Noise)”等大數據問題日益嚴峻,人工智能、機器學習、深度學習、關聯數據、知識圖譜等數據處理技術的發展則能夠有效過濾噪聲,將大數據中的無序、冗余信息轉化為具有決策支持價值的高質量數據,突出有價值的數據,從而使這些數據可以被企業和政府有效地用于規劃、運營、監測、控制和智能決策[1]。“智慧數據”的概念也隨著智能化技術的發展被提出。
再次,行業與社會需求需要更高質量的數據支持。隨著各行業向智能化轉型,智慧數據的應用已廣泛滲透到醫療、金融、制造、零售等多個行業。總體上,不同行業對數據的需求日益復雜化,尤其是對精準度、實時性和智能化的要求更高。智慧數據應對這一需求,通過提高數據的質量和關聯性,助力智慧城市、智慧醫療等領域的決策和應用。2008年11月6日,IBM公司CEO彭明盛提出“智慧地球(Smart Planet)”,意指通過“互聯網”與“物聯網”的融合,實現更透徹的感知、更廣泛的互聯和更深入的智能化[10]。
最后,各種政策與標準的支持推動智慧數據的發展。一些國家和地區的政府也認識到數據質量的重要性,開始制定相關政策和標準,鼓勵企業和機構利用智慧數據進行創新。“智慧數據”相關的政策和標準涉及數據治理、數據安全等多個方面,尤其在智慧城市、智慧交通、智慧醫療等領域,例如ISO/IEC 38505《信息技術—IT治理—數據治理》系列標準、ISO/IEC 27001《信息安全、網絡安全和隱私保護—信息安全管理體系—要求》系列標準等。這些政策背景推動了智慧數據概念的進一步發展和應用,并隨著人工智能技術的進一步發展不斷升級。
2“智慧數據”概念的定義解析
為了最大程度地認識和把握“智慧數據”的定義,筆者采用網絡調查法、文獻研究法,對國內外有關定義進行檢索和梳理。研究發現,“智慧數據”的定義來源主要包括政策法規(S1)、研究文獻(S2)和網絡資料(S3)。經篩選后得出有效定義共計29個。其中,出自政策法規的定義5個(S1-N1至S1-N5),出自研究文獻的定義12個(S2-N1至S2-N12),出自網絡資料的定義12個(S3-N1至S3-N12)。采用系統化的編碼分析方法,對上述來源的定義進行關鍵詞識別和提取,得到如圖1所示的5個屬概念分類結果及其映射關系,占比情況如圖1所示。
智慧數據的屬性從“是什么”的層面揭示了智慧數據的本質特征和核心要素,智慧數據的價值從“為什么”的層面解釋了智慧數據之所以“智慧”的原因以及識別、生成、應用、推廣智慧數據的重要性,智慧數據的方法從“怎么做”的層面闡述了智慧數據的運作機制,以促使其在實踐中發揮價值。
2.1屬性:智慧數據的本質為何?
既有定義認為智慧數據的本質包括數據、方法、資源、集合、信息。
2.1.1以“數據”為屬概念的智慧數據定義
以“數據”作為“智慧數據”屬概念的定義占比超過一半,此類定義在數據屬性的基礎上強調“智慧”特征。一方面,以“數據”為屬概念的定義揭示了智慧數據與數據之間的聯系:在來源上,智慧數據來源于原始數據,通過對原始數據進行篩選、優化和處理,轉化為智慧數據;在目標上,兩者都是為了向用戶提供有價值的信息,數據是智慧數據的基礎,通過數據處理技術將數據轉化為智慧數據,從而更好地支持決策和操作。另一方面,“智慧數據”在一般數據的基礎上,在處理方式、結構語義、可操作性等方面更加具有“智慧”特征。其一,數據是未經處理、分析或優化的原始信息,智慧數據則是在收集時已經被準備和組織的數據,具備情境化、可認知、可預測、自描述等特性,經過篩選和處理,更適合用于高質量的分析和決策;其二,智慧數據具備自描述機制和語義結構,通常以RDF三元組等形式存在,能夠清晰地表達內容的語義屬性及特征;其三,智慧數據經優化和準備,可直接用于分析和決策,提高信息處理速度和決策質量。綜上所述,智慧數據是一個復雜且多層次的概念,涵蓋了從個人消費者到各類企業的數據應用場景,強調在客戶授權下的數據共享、安全和隱私保護,以及數據的分類、情境化、可認知和自描述性。
2.1.2以“方法”為屬概念的智慧數據定義
以“方法”為屬概念的“智慧數據”定義共同揭示了智慧數據作為數據驅動的數據處理方法的本質,強調了其在數據整合、精準化和戰略性分析方面的重要性和優勢。其一,智慧數據是綜合技術和流程集合。智慧數據集成了商業智能能力中心(BICC)等技術和流程,旨在從多源數據中提取最大價值,并支持數據的規范化和精準化。其二,智慧數據是基于商業智能(BI)進化的戰略性方法。智慧數據是BI的進化形式,通過“BI2.0”的新特征,包括數據整合、關聯和新技術應用,提升數據分析的戰略性和效率。其三,智慧數據是支持決策和行動的數據分析方法。智慧數據利用先進的分析功能和技術,減少數據分類時間,使用戶能夠更輕松地訪問和理解隱藏在大數據背后的基礎信息,從而提供有價值的見解和支持決策的數據分析方法。
2.1.3以“資源”為屬概念的智慧數據定義
以“資源”為屬概念的“智慧數據”定義強調智慧數據不僅提升了數據本身的質量和可用性,也擴展了數據在科研、創新和決策過程中的應用范圍和深度,從而體現了其作為寶貴資源的價值。其一,智慧數據的高級編碼與組織形態。智慧數據是信息資源的高級編碼和組織形態,具備高度結構化、語義化和關聯化的特征,以滿足新型研究范式對數據的要求。其二,智慧數據是科技情報大數據資源。智慧數據在科技情報領域中表現為高質量數據要素、豐富多樣的數據維度以及多源融合的信息網絡和智能認知的語義知識。其三,智慧數據面向具體應用場景服務。智慧數據建設于大數據基礎上,專注于具體應用場景,提供高效的數據支持,逐步形成規模化、結構化和規范化的智慧數據體系。
2.1.4以“集合”為屬概念的智慧數據定義
以“集合”為屬概念的“智慧數據”定義將智慧數據定義為信息、知識和語義三者的集合體。一方面,智慧數據不再是簡單的數據集合,而是更有意義的語義單元的集合體,融合了信息、知識和語義三者的特征。另一方面,智慧數據是從大數據中識別和分離出的小而有價值的信息集,這些信息集能夠針對特定問題或任務提供相關、正確且關鍵的數據支持。“集合”的屬性強調智慧數據不僅僅是數據的簡單聚合,而且在數據基礎上進行有效整合和加工,形成更加有意義和有價值的信息單元。這種集合體特性使智慧數據能夠提供精確、關鍵且有效的信息支持,以解決特定問題或完成特定任務。通過智慧數據的應用,可以有效地增強人類和機器在復雜決策和問題解決過程中的能力,從而實現更高效的業務運作和創新發展。
2.1.5以“信息”為屬概念的智慧數據定義
以“信息”為屬概念的“智慧數據”定義強調了智慧數據在信息流動和數據治理中的關鍵作用。其一,智慧數據是格式化的數字信息,不僅是原始數據集合,而且經過處理和整理,具備一定的結構和規范。其二,智慧數據不僅僅是靜態的信息集合,還可以應用于下游分析平臺,以支持更深入的數據挖掘和洞察。其三,智慧數據是行動和數據采集點。數據在傳輸和收集過程中涉及動態管理和控制,這些行動需要智慧數據的實時處理、傳輸優化或質量控制,以確保數據到達分析平臺時的完整性和準確性。
2.1.6智慧數據與大數據
從已有定義中可以發現智慧數據與大數據是兩個既密切相關又有所區別的概念。其一,就數據本身而言,大數據側重于數據的規模化和多樣性,智慧數據則強調數據的語義化和關聯性,且數據規模可在不同尺度上靈活伸縮,數據模式能在不同模態間進行轉化[11]。其二,從數據價值來說,大數據僅為海量數據集,本身可能包含大量無關甚至無用的信息,需經過預處理、可視化、挖掘等流程發現數據中的規律或趨勢。而智慧數據是大數據發展的高級形態,具有更高的準確性和可靠度,且更有針對性,可滿足個性化、情景化需求[12]。其三,數據技術層面,大數據含數據采集、存儲、計算應用三層,涉及技術如Linux、HBase、Kafka、Spark等,而智慧技術演進路徑可分數字化、數據化、智慧化三個環節[13],關鍵技術如深度學習、知識圖譜、人工智能、自然語言處理等。綜上所述,智慧數據以大數據為基礎,以挖掘分析為方法,對數據深入提煉、理解和應用,以支持更精準和明智的決策。
2.2價值:智慧數據為何“智慧”?
智慧數據之所以“智慧”,不僅在于數據本身的結構和特性具有顯著優勢,還在于技術和方法的集成,主要體現在以下5個方面。
2.2.1語義化和關聯化
智慧數據通常具有較強的語義表示能力和關聯能力,這使得數據不僅是數值集合,而且具備了自我描述和語境理解特征。這使得數據在更高層次上進行語義關聯,支持更復雜的推理和決策過程,從而提升了數據的智慧性。
2.2.2動態性和可預測性
智慧數據并非靜態常量,而是一個動態變量。它能夠在不斷變化的環境中,依據新的數據和上下文信息進行自我調整和優化。因此,智慧數據具備了較強的可預測性,能夠在不同情境下提供準確和及時的預測和洞察。
2.2.3數據質量與多源融合
智慧數據強調數據要素的高質量和數據維度的多樣性,通過多源融合的信息網絡,實現更全面和深度的認知理解。這種融合不僅提升了數據的完整性和可靠性[14],還為數據分析提供了更豐富的視角和更廣泛的應用場景。
2.2.4價值增值和實用性
智慧數據的本質在于通過數據演進或結構設計實現數據的精準規范及價值增值。智慧數據能夠從大數據中識別和分離出相關正確且關鍵的數據子集,并通過有效的治理與加工處理方法,增強人或機器在解決問題和決策時產生有價值的洞察、判斷和預測能力。
2.2.5技術與過程集成
智慧數據是數據分析的一種戰略方法,涉及將不同的數據源(包括大數據)匯集、關聯和分析[15],以便能夠為決策和行動過程提供信息。通過應用智能算法和先進技術,從中提取信號和模式,使數據在收集時即已準備和組織好,以便為快速、高質量的分析做好準備并進行優化。
2.3方法:智慧數據如何“智慧”?
使一般數據變成“智慧”數據,需要經過一個高度復雜的處理過程,處理方法和技術將直接決定智慧數據所發揮的價值大小。結合既有定義,智慧數據的處理主要包括以下4個步驟。
2.3.1數據收集與預處理
智慧數據最初產生于從不同數據源收集到的原始數據,需要對其進行清洗、轉換和整合,以確保數據質量和一致性。首先是數據收集,利用傳感器、API、數據庫等多種手段采集結構化、半結構化和非結構化數據,確保數據的多樣性和完整性。其次是數據清洗,刪除重復數據,填補缺失值,糾正錯誤數據,確保數據的準確性。最后是數據轉換和整合,統一數據格式,合并不同源的數據形成綜合性數據庫。此外,也有學者提出可以使用K近鄰算法(KNN)等數據預處理算法來減少噪聲影響、估算缺失值或消除冗余信息,以加快執行速度,從而實現簡單有效的數據預處理過程[16]。
2.3.2數據存儲與管理
智慧數據需要采用高效的存儲方案,確保其安全性、可訪問性和可管理性。首先,多使用數據庫管理系統(DBMS)或大數據平臺(如Hadoop、Spark)存儲數據。其次,通過實施加密、訪問控制等數據安全措施,保障數據的機密性和完整性。最后,需要建立數據治理框架,制定涉及數據質量、數據安全和數據合規等內容的數據管理政策。
2.3.3數據分析與語義處理
利用智能算法和分析工具對數據進行深度分析和語義處理,是智慧數據創造價值的關鍵步驟。在數據分析方面,多應用機器學習、數據挖掘和統計分析方法,發現數據中的模式和關系,進行描述性、推斷性和預測性分析。在語義處理方面,多利用領域本體對數據進行語義標注和關聯,增強數據的可理解性和可用性,支持復雜查詢和推理。
2.3.4數據呈現與反饋優化
通過可視化工具展示分析結果,收集用戶反饋并不斷優化數據處理流程和分析模型,是智慧數據實現增值并不斷完善的重要方式。首先,多使用可視化軟件(如Tableau、Power BI)創建交互式報表和儀表盤,確保信息傳達得清晰和直觀。其次,注重收集用戶對分析結果的反饋,識別改進點。最后,基于用戶反饋調整和優化數據處理流程,改進數據質量和分析模型,提升預測和分析的準確性。
3“智慧數據”術語定義的進一步思考
3.1定義的主要分歧
智慧數據是一個跨領域且多維度的概念,其核心在于通過數據整合與分析,提供更深層次的理解與應用,實現決策支持、服務優化和價值創造。但是智慧數據定義在實踐應用和學科研究中卻有著不同的側重和認識,理解不同領域分歧有助于更全面地認識智慧數據的潛力和價值,促進跨學科合作與創新。
3.1.1實踐應用:側重特定業務場景和直接價值
實踐應用層面對于智慧數據的定義而言更看重智慧數據的實際應用和商業價值,關注如何利用智慧數據解決具體問題、優化業務流程和提高運營效率。
首先,費爾南多·葉弗雷特(Fernando Iafrate)將“智慧數據”視為商業智能的延伸,通過匯集、關聯和分析各類數據源的方式為決策和行動過程提供信息[17],即能夠轉化為企業決策或產業趨勢的洞察力。此定義的“企業決策”涵蓋基層業務、中層管理、高層戰略等業務場景,揭示了智慧數據在企業建設中的直接價值,強調如何通過數據驅動方式提取洞察并據此采取行動以提高企業的業務績效及競爭優勢等。
此外,2023年英國數據倫理與創新中心(CDEI)聯合商業貿易部(DBT)等開展有關“打造智慧數據經濟”的研究[18]。“智慧數據”被定義為“應客戶要求,與經授權的第三方供應商安全共享的客戶數據”。該定義體現出智慧數據在保護用戶隱私和保障數據安全方面的重要作用。客戶既指個人消費者,也指中小型企業,并非僅限大型企業。第三方供應商被定義為“客戶允許訪問其數據或與其互動以幫助其駕馭市場的任何授權企業或組織,而不是該市場中的數據持有者”。這一定義涵蓋廣泛主體,甚至包含未來提供數據存儲或信息管理服務等職能的數據中介機構等組織。且該定義已暗示出客戶個性化定制服務,在確保數據安全的前提下,通過數據共享促進跨行業合作與創新。
美國國土安全部高級數據官唐娜·羅伊(Donna Roy)則從智慧數據的可利用性出發,認為智慧數據是獨立于任何軟件、應用程序、設備或網絡但仍然可以被有效利用的數據[19]。該定義突出智慧數據的靈活性和通用性,綜合考慮智慧數據的自主性和協作性,為最大化探索與實現智慧數據在不同業務場景中的潛力和價值創造了可能性。
除此之外,在數字政府業務下,智慧數據應用亦可貫穿經濟調節、市場監管、社會管理、公共服務、環境保護、政務運行等多個場景,以智慧數據為驅動和核心,廣泛識別并啟動智慧數據價值,擊破數據壁壘,優化辦公流程,提升政務辦理效率。由此可以看出,實踐應用層面下“智慧數據”的術語定義專注于業務場景,且強調其即時或直接價值。
3.1.2學科研究:注重長期管理流程和潛在價值
學界有關智慧數據術語的定義體現出對智慧數據的長期管理和維護的重視,智慧數據被視為需要持續管理和優化的資產,以確保在不同時間和情境下能夠發揮價值,且廣泛考慮多數環境的適用性。
一方面,強調數據的語義化處理,即數據采集、數據處理、數據分析、數據應用全過程。巴志超等學者提出智慧數據是更加有意義(情境)的語義單元,是信息、知識以及語義三者的集合體[20];王曉光等學者認為智慧數據是信息資源的高級編碼方式與組織形態,體現出內容全面數字化、編碼結構化、表示語義化、組織網絡化和關聯智能化的核心特征[11]。首先,收集并數字化處理各類結構化或非結構化數據,實現數據的高度訪問性。其次,從海量數據中識別并分離出相關、完整且高質量的數據子集,將數據以特定的規則有序組織和編碼,使其形成一定的信息語義。而后,利用機器學習、深度學習等數據挖掘技術對信息分析、聚類、關聯和預測,尋找其中的模式與規律,從而發現關于業務的知識。最后,將智慧數據的價值實現到圖情檔領域、文化遺產保護、數字人文研究等實際場景方面,以實現有效決策與行動。
另一方面,關注智慧數據的潛在價值,例如借助元數據、主題詞表、本體、語義增強、關聯數據、知識圖譜等技術,開展敦煌壁畫主題詞表構建,敦煌石窟本體及相關數據模型研究等工作,為敦煌文化遺產的保護、研究和傳播奠定豐富且智慧的數據基礎。諸多工作涉及智慧數據構建、管理和維護等持續且復雜的過程,體現在學術研究領域,不僅關注智慧數據的當前應用,同時著眼于智慧數據的長期和潛在價值,為未來甚至于跨學科的研究和應用奠定堅實的基礎。
3.2定義的現存困境
由于智慧數據定義的綜合性和復雜性,目前智慧數據的定義確實存在困境與需要注意的事項。這些困境主要體現在如何全面涵蓋智慧數據的多維特性,避免概念的模糊性,以及確保其在實際應用中的適用性和可操作性。因此,在確立智慧數據的定義時,需要綜合考慮多方面的因素,包括技術演進、各應用領域的特殊需求、數據的動態性和多樣性等,以確保定義的準確性、實用性和前瞻性,從而為智慧數據的理論研究與實踐應用奠定基礎。
3.2.1理論與實踐定義脫節
學界與業界在智慧數據定義上的認識存在明顯的脫節,主要體現在術語定義、目標導向、研究周期、風險承受和評估標準等方面的差異。學界傾向于追求嚴謹的理論模型和方法論,注重從宏觀角度分析智慧數據的內在價值和潛在意義。其研究通常需要較長周期,以確保理論的嚴密性和學術的創新性。然而,這種追求往往與業界的需求不相符。業界更關注智慧數據帶來的直接商業價值和實用價值,強調解決實際問題的能力,并希望能夠在短期內看到成果。相對而言,業界在數據獲取、技術應用和人力資源等方面具備一定的優勢。此外,業界對即時解決方案的需求往往與學界的長周期研究形成沖突,導致學界定義難以為業界提供足夠的針對性實用指導。反之,業界對智慧數據的定義雖然在實踐中有效,但卻缺乏系統的理論支撐,難以對學界產生足夠的說服力和反饋。因此,智慧數據的有效發展需要學界和業界在定義上的相互理解和融合,共同推動理論與實踐相結合,以彌合現有的認識差距,實現智慧數據全面、準確和可持續發展。
3.2.2定義本身的理論性不足
當前對于“智慧數據”的討論更多集中于實踐導向,而理論層面仍存在較大空間。一方面,由于智慧數據涉及跨學科交叉、多場景復雜性以及統一標準的缺失和數據倫理的限制,尚未構建起一個成熟且完善的理論框架。這導致“智慧數據”定義在規范性和嚴謹性方面存有不足。學界在定義這一概念時存在一定分歧,不同領域的學者往往根據各自的研究背景和興趣提出見解和定義。盡管這些多元化的視角豐富了智慧數據的內涵,但也增加了統一定義的難度和挑戰。另一方面,當前的智慧數據的術語定義良莠不齊,甚至在某些情況下還存在循環定義的情形。例如,“智慧數據是通過智慧的方式收集和使用的數據”這一定義使用了“智慧的方式”來描述“智慧數據”,但并未明確“智慧的方式”具體指什么,這種表述過于模糊和抽象,無法為概念理解提供實質性的信息。這種缺乏具體內容和清晰標準的定義阻礙了智慧數據理論的深入發展,也限制了該領域研究成果的推廣和應用。因此,為了提升智慧數據定義的理論性,有必要在現有基礎上進一步深化對其內涵的研究,構建更加規范、嚴謹和統一的理論框架。這將有助于解決定義中的模糊性和不確定性問題,也為推動智慧數據的學術研究和實際應用奠定理論基礎。
3.2.3定義缺乏規范和引導
標準術語的主要作用在于提供明確、統一的概念框架,確保不同領域的專業人士能夠在相同的基礎上進行溝通和合作。然而,當前“智慧數據”術語在定義上的不一致和模糊性嚴重削弱了這一作用。一方面,標準術語的核心要求是準確性和一致性,但“智慧數據”在不同領域和應用場景中被賦予了不同含義,缺乏統一標準。這種多樣化的定義導致了概念混亂,使跨學科、跨行業的合作變得困難。例如在某些技術規范中,“智慧數據”可能被定義為通過人工智能算法生成的數據,而在其他文獻中它可能被更廣泛地解釋為任何通過智能技術處理的數據。這種不一致性不僅影響了術語的普適性,也阻礙了標準的制定和實施;另一方面,標準術語還應具備指導性,能夠為實踐操作提供明確方向。然而目前“智慧數據”定義中的引導性不足,導致在具體應用中缺失標準。例如,現有的術語定義未能明確規定什么樣的數據才能被稱為“智慧數據”,以及應當具備哪些特征。這種引導性不足使得實踐中的操作標準難以形成,企業和研究機構在應用過程中往往各自為政,導致了操作的不規范和評估標準的不一致。
3.3定義的未來展望
“智慧數據”的術語定義將不斷優化和擴展,整體上呈現出積極、開放、創新的趨勢。針對理論與實踐脫節、理論性不足、缺乏規范和引導等現存困境,可以從以下3個方面進行思考。
3.3.1搭建產學溝通橋梁
深化產教融合,建立學術交流與行業應用間的對話平臺,促進產業鏈與創新鏈有機銜接。智慧數據可應用至眾多領域,如整合訂單需求、物流、產能、供應鏈等數據,優化配置產業鏈資源;利用城市時空基礎、資源調查、物聯網感知等數據,助力城市規劃等策略智能化;利用文物病害、保護修復、安全監管、文物流通等數據融合共享,實現文物保護修復、精準管理、應急處置等功能。由此可知,商貿流通、金融服務、城市治理、綠色低碳、科技創新、文化旅游等各類領域或行業對智慧數據價值和潛力的認識均日益加深。在諸如此類領域,智慧數據的定義尚有較大的發展空間,各類機構可與高校共同建立研究中心,共享數據、技術和人才等資源,理解彼此的需求和期望。實現學界與業界的緊密合作與深度融合,確保智慧數據術語定義具有一定的可操作性,實現理論深度和實踐價值的平衡統一。
3.3.2加強基礎理論研究
為智慧數據提供堅實的理論基礎,須加強智慧數據定義的基礎理論研究,明確其核心要素和屬性特征,構建綜合性理論框架。屬性層面,既有定義對智慧數據的本質特征各有側重,其本質特征或核心要素是否能夠統一聚焦至“數據”“方法”“資源”“集合”“信息”中的某一種仍需討論。價值層面,目前“智慧數據”的定義多次出現“數據價值增值”“有價值”“洞察、判斷和預測能力”等關鍵詞。可以看出,學界將智慧數據作為重要新型生產要素,在其定義中融入數據資產價值已達成共識,智慧數據可助力數據資源優勢加速轉化,推動數據要素價值釋放。方法層面,智慧數據的術語定義中應包含一套創新的方法論,指導由數據發展成為“智慧”數據的處理過程。一方面,處理步驟需要統一,結合既有定義中包含數據處理與預處理、數據存儲與管理、數據分析與語義處理、數據呈現與優化反饋四步驟,流程是否需要整合或細化仍需討論。另一方面,處理技術需要完善,例如數據挖掘、機器學習、可視化技術等,相關技術仍需不斷探索更新,以確保智慧數據的定義與時俱進。
3.3.3強化術語標準建設
針對“智慧數據”術語定義缺乏規范和引導的問題,可具體從以下三個方面開展工作。其一,明確術語定義,統一概念框架。對智慧數據的基本特征、構成要素及其與智能技術的關系進行系統定義,從而形成一個統一且明確的概念框架,以消除不同領域和應用場景中的理解差異,確保在標準制定和技術應用中有一致的概念基礎。其二,構建標準術語體系,規范術語使用。智慧數據標準術語體系應包括所有智慧數據相關的關鍵術語,如“數據質量”“數據安全”“數據隱私”“智能分析”“數據治理”等,并為每個術語提供明確、統一的定義和使用規范,確保各行業、各領域在交流和合作中使用統一術語,從而避免由于術語理解不一致帶來的誤解和操作失誤。其三,除了術語定義和體系構建外,還需制定詳細的術語應用指南。這些指南應針對不同的應用場景,提供智慧數據術語的具體使用建議和規范,以增強術語在實際操作中的指導性。其四,智慧數據術語標準建設應與國際標準化工作密切結合,確保國內標準能夠與國際標準接軌。這有助于在全球范圍內形成一致的術語使用規范,促進國際合作和技術交流。同時,也有助于提升我國在智慧數據領域的國際話語權和影響力,推動智慧數據技術在全球的普及和應用。最后,推廣術語標準應用,提高行業認知。術語標準的價值在于其廣泛應用。為此,政府、行業協會和企業應通過政策引導、培訓教育、標準認證等多種方式,積極推廣智慧數據術語標準的應用。
4結語
“智慧數據”的術語定義歷程體現了其高度的動態性和開放性。隨著技術的不斷進步和應用場景的日益豐富,其內涵和外延經歷了多次演變。這種變化不僅展示了學界對智慧數據認知的逐步深化,也反映出不同學科對智慧數據理解的多樣性與復雜性。在人工智能、物聯網、數字孿生等新興技術的推動下,智慧數據的內涵將進一步豐富,外延也將不斷擴展。然而,智慧數據的定義在當前仍面臨著諸如理論框架不足、定義認知脫節、缺乏規范性指導等挑戰。這些問題不僅限制了學界對智慧數據的深入研究,也在實際應用中造成了理解與推廣的障礙。未來應該更加關注理論與實踐的緊密結合,致力于構建更加系統和規范的智慧數據理論框架,以有效指導其在實際中的應用,推動數字經濟與數智治理的持續發展。
參考文獻
[1] GARCAGIL D, LUENGO J, GARCA S, et al. Enabling Smart Data: Noise filtering in Big Data classification[J]. Information Sciences, 2019(479):135-152.
[2] 王學昭,王燕鵬,趙萍,等.場景化智慧數據驅動的情報研究模式:概念、技術框架和實驗驗證[J].數據分析與知識發現,2023,7(5):1-9.
[3] MAHREZ Z, SABIR E, BADIDI E, et al. Smart Urban Mobility: When Mobility Systems Meet Smart Data[J]. IEEE Transactions on Intelligent Transportation Systems,2022,23(7):6222-6239.
[4] HU M, ZHANG Y, SHENG F. Research on the Mechanism and Identification of Key Influencing Elements for Releasing the Value of Data Elements in Smart Cities[J]. Land, 2024:13(12).
[5] SOUSSI A, ZERO E, SACILE R, et al. Smart Sensors and Smart Data for Precision Agriculture: A Revie[J]. Sensors (Basel), 2024, 24(8):2647.
[6] 陶亮.智慧數據的法律挑戰:當代“數據陷阱”的法律及應對[J].知與行, 2020(1):45-50.
[7] LEE S, ROH G H, KIM J Y, et al. Effective data quality management for electronic medical record data using SMART DATA[J]. International Journal of Medical Informatics (Shannon, Ireland), 2023,180:105262-105262.
[8] 袁祖笑.智慧數據的概念、組織工具及其應用[J].江蘇科技信息, 2019, 36(31):46-48.
[9] 王文臣,馬夢雪.論大數據作為生產要素的資本化及其雙重影響[J].上海財經大學學報, 2022,24(6):108-122.
[10] 李國杰.關于“智慧地球”的看法與建議[EB/OL]. (2011-02-25)[2024-06-28]. http://www.ict.ac.cn/liguojiewenxuan_162523/wzlj/lgjxsbg/201912/t20191227_5476661.html.
[11]王曉光,侯西龍.面向活化利用的文化遺產智慧數據建設論綱[J].信息資源管理學報, 2023,13(5):4-14,43.
[12] MATTHEWS K. 6 Big Differences Between Big Data and Smart Data [EB/OL]. (2019-09-30)[2024-06-28]. https://socialnomics.net/2019/09/30/6bigdifferencesbetweenbigdataandsmartdata.
[13] 張云中,劉嘉琳.智慧數據研究綜述:概念辨析、價值取向、關鍵技術與應用框架[J].圖書情報工作, 2021,65(10):141-150.
[14] WANG Y, KUNG L, BYRD T A. Big data analytics: Understanding its capabilities and potential benefits for healthcare organizations[J]. Technological Forecasting and Social Change, 2018,126:3-13.
[15] CHEN H, CHIANG R H L, STOREY V C. Business Intelligence and Analytics: From Big Data to Big Impact[J]. MIS Quarterly, 2012,36(4):1165-1188.
[16] TRIGUERO I, GARCAGIL D, MAILLO J, et al. Transforming big data into smart data: An insight on the use of the knearest neighbors algorithm to obtain quality data. Wiley Interdisciplinary Reviews[J]. Data Mining and Knowledge Discovery,2019,9(2).
[17] IAFRATE F. From Big Data to Smart Data [M]. Bognor Regis: John Wiley amp; Sons, Ltd., 2015:13-20.
[18] Creating a smart data economy [EB/OL]. [2024-07-10]. https://www.gov.uk/government/collections/creatingasmartdataeconomy.
[19] GOLDSTEIN P. Feds Need to Turn Big Data into ‘Smart Data’, DHS Official Says [EB/OL]. [2024-07-10]. https://fedtechmagazine.com/article/2016/11/fedsneedturnbigdatasmartdatadhsofficialsays.
[20] 巴志超,李綱,周利琴,等.數據科學及其對情報學變革的影響[J].情報學報, 2018,37(7):653-667.