1引言
隨著以聊天生成預訓練轉換器(chatgenera-tivepre-trainedransformer,ChatGPT)為代表的人工智能(artificialintelligence,AI)大模型的技術迅猛發展,數據資源的生成和存儲量級正以驚人的速度蓬勃發展。2025年4月,國家數據局在第八屆數字中國建設峰會期間發布了《全國數據資源調查報告(2024年)》,指出2024年全國數據的生產總量已達到41.06ZB,與2023年相比,數據資源總量增長 25% ,人均年數據生產量31.31TB 。該報告顯示,新興產業的數據成為新的增長極。這種數據資源急速膨脹和變革推動著智庫研究范式的躍遷,主要表現為三個方面:一是研究對象從宏觀趨勢分析轉向微觀規律捕捉的躍遷;二是研究周期從年度產出迭代升級為小時級響應的躍遷;三是研究維度從單一維度向多模態數據融合,催生跨學科研究范式的躍遷。
面對這些挑戰,智庫多源數據融合理論模型的構建表現出前所未有的迫切性。尤其是從深度神經網絡視角,能更好地適用于當前智庫工作中面臨的數據來源多、數據屬性多樣、非線性的數據環境。本文提出基于深度神經網絡的智庫多源數據資源融合理論模型,有助于實現智庫“多源數據驅動一跨學科知識生產一科學決策支持”的高效運行模式,完成從“經驗權威”到“數據權威”、從“專家驅動”到“數據驅動”研究范式的轉移和重塑。本文首先總結智庫多源數據資源的基本內涵和主要特點,在系統梳理不同類型多源數據資源融合方法的基礎上,結合深度神經網絡在高維、非線性、異構數據中自動提取特征的優勢,構建智庫多源數據資源融合理論模型形式,并初步探索建立工作流程機制和實踐路徑
2智庫多源數據資源的基本界定
2.1 智庫多源數據資源的基本內涵
2024年10月21日,國家數據局向社會公開征求《數據領域名詞解釋》意見,將數據資源初步定義為“具有使用價值的數據,是可供人類利用的新型資源”[。其中,數據資源的使用價值、自身價值與實際交易價值可從經濟學概念加以理解。使用價值表達滿足人們某種需求的能力,具有客觀性和即時性,而價值是凝結在商品中的無差別的一般人類勞動,具有主觀性和相對性,反映了一定的社會關系。
智庫需依賴宏觀經濟數據、行業統計、社會調查等數據資源,確保政策建議的客觀性與科學性。那么,智庫所掌握的數據資源一定是具有使用價值的,而且在一定程度上這種使用價值比價值本身更為重要。對于滿足為黨和政府科學決策的基礎材料和實證支持,智庫數據資源更加關注實際功能和使用效果。究其原因,并不是所有數據都是有價值的,往往需要先實現數據資源化過程,激發數據價值的基礎,提升數據質量,形成數據使用價值。然而,智庫定義下的數據資源與數據產業不同。數據產業可以理解為對數據資源的開發利用。眾所周知,統計學是收集、處理、分析、解釋數據并從數據中得出結論的科學。可以看出,數據資源相當于“統計學”定義中的“數據”對象本身,而數據產業則體現了對“數據”的收集、處理、分析、解釋并從數據中得出結論。數據資源體現了數據對象本身,數據產業則體現了開發利用的過程。
因此,本文將智庫數據資源延伸為具有不同使用價值密度的,可被人類利用的非噪聲數據集合。其中,噪聲數據是指與目標信息無關的、非預期的或干擾性的價值密度為零的數據。可以看出,本文界定的智庫數據資源范疇包括原始數據、尚未開發或清洗的潛在價值數據以及開發后的價值數據。從管理周期來看,智庫數據資源的延伸概念貫穿了從數據生產、采集、存儲、處理、分析、共享到銷毀的全生命周期。智庫數據資源的價值產生過程是一個從原始數據到高質量數據資源,再到社會價值數據資產的完整鏈條。
在多數情況下,當前智庫數據資源存在碎片化、時滯性強等問題。為了全面精準刻畫事物特點、減少單方面提供數據的壓力和負擔、緩解不同對象異質性帶來的數據不可比性,智庫多源數據資源采集是客觀存在的,也是必然要發生的。尤其隨著互聯網、物聯網的發展和智能終端的普及,系統內部和系統外部共同組成的智庫多源數據資源正在極速膨脹。綜上所述,智庫多源數據資源可以歸納為,通過整合來自不同渠道、不同格式、不同系統或不同主體的數據,而形成的具有使用價值的綜合性非噪聲數據集合。
2.2 智庫多源數據資源的主要特點
多源數據雖然不是在智庫背景下提出的新概念,但智庫賦予了多源數據資源一些新特點,主要表現在三個方面。第一,智庫多源數據資源具有數據樣本和數據提供者的雙主體性。智庫所使用的多源數據樣本是不同源頭產生數據信息的對象,智庫多源數據資源的提供者是生成、收集或直接輸出原始數據的設備、系統、個人或組織等實體。在智庫研究過程中,多源數據樣本往往是研究對象,其不負責對自己的觀點、行為、成果等數據進行記錄。智庫研究所需的多源數據資源由設備、系統、個人或組織等實體提供。這種雙主體性導致數據的使用權和歸屬權常常存在法律和倫理的爭議,在一定程度上阻礙了智庫多源數據資源的標準化和規范化建設。第二,智庫多源數據資源由于敏感性和安全性的考慮具有有限流通性。智庫研究不同于自由式開放式的學術研究,往往由于數據資源的敏感性和關鍵性以及各種政策和法規的限制,僅可以在特定的范圍或者“煙囪”內流通,難以實現跨行業、跨部門、跨領域的自由流通。這限制了多源數據資源的潛在價值發揮和整體效率,不利于智庫成果的共享和宣傳。第三,實時數據資源驅動智庫即時支撐決策咨詢的高效性。實時數據資源具有即時獲取和處理的特點,對于需要迅速做出決策和響應的業務場景,實時數據具有不可替代的價值。尤其在突發事件中,實時數據資源有助于賦能智庫,快速生成應急政策建議,以完成對事件發展和蔓延趨勢進行及時監控和調整,將損失盡可能降到最低。
3基于深度神經網絡的智庫多源數據資源融合理論模型
3.1 智庫多源數據資源融合理論研究基礎
智庫多源數據融合理論首先起源于數據庫的合并,通過數據加權法、證據信念法、基于模糊集或粗糙集等方法,對相同類型或相似結構的待融合數據進行研究,整合形成一個數據庫[2-3]。隨著時間的推移累積和技術的發展普及,數據絕對量級在不斷膨脹,數據類型和結構的多樣性也日益豐富,隨之帶來的待融合數據間差異愈發顯著,從而帶來巨大的不確定性,使數據融合受阻。在這種情況下,僅僅從數據這一物料本身完成合并無法簡單實現,要選擇功能更為強大的允許多形式數據融合的模型和算法。
從智庫對數據的管理歸檔角度來劃分,常見的多源數據資源類型包括公開數據資源和保密數據資源。大多數情況下,這兩種數據資源是當下時間記錄的,或者說不太關注其縱向積累,稱為橫向數據;在另外的情形中,則需要依托縱向數據資源,來捕捉事物動態發展的變化規律,同時可以為未來趨勢預測提供依據。下文將從公開數據資源和保密數據資源兩個角度,分別論述現在智庫多源數據融合可以借鑒的理論方法。
對于公開數據資源來說,智庫多源數據融合理論是建立在統計學、計算機科學、人工智能等學科知識與技術基礎上的。從典型相關分析開始,半參數、邏輯回歸、懲罰函數、貝葉斯、機器學習、模式識別、深度學習等模型和方法都可以拓展出數據合并的功能。其中,馬雙鴿等[4通過復合懲罰函數來整合多個數據源;該方法是一種解釋特征稀疏結構相似性的方法,適用于基于不同數據源構建模型且具有相似系數結構的情形,有助于提升模型的特征選擇和預測效果。方匡南等[5]同樣采用懲罰函數,所不同的是;該方法適用于同一特征在不同數據下具有一致系數符號的情形,此時,懲罰函數促使不同模型的特征系數符號相同。Wang等[通過懲罰函數使不同模型的特征系數值相近,適用于不同數據源所構建的模型系數值具有相似性的情況。上述三類通過懲罰函數實現數據整合的方法可分別歸納為基于稀疏結構的相似性、基于系數符號的相似性及基于系數值的相似性。此外,還可以根據數據形式和數據融合介人階段將數據融合方法劃分為不同類型。
對于保密數據資源來說,在智庫多源數據融合理論中,存在一個重要的分支:基于保密數據或者包含保密數據在內的多源數據融合研究[7]。尤其對于負責綜合統計工作或數據保密性要求較高的部門來說,有時需要權衡數據保密性和數據全面性之間的利弊,在不需要共享數據的情況下,實現對分散數據資源的有效整合,在做好數據隱私和安全性保障的同時,兼顧實際成本。此時,需要考慮“數據可用不可見,機構不動模型動”的聯邦學習[8。作為一種新的機器學習范式,聯邦學習方法能夠在不暴露各方數據的前提下,對多個數據來源進行融合[。其核心原理是讓各方利用自身數據訓練本地模型,生成模型參數,無需共享原始數據,僅需要通過中央服務器收集各方模型參數,通過聚合算法生成全局模型,最后將全局模型反饋給各方,使其繼續更新本地模型,迭代優化。可以看出,聯邦學習僅傳輸加密的模型參數,原始數據始終保留在本地,有助于賦能融合過程中數據安全保障、多個復雜來源的統一利用以及不同數據來源的實踐成本控制。
如前文所述,在追蹤調查、規律挖掘和趨勢預測等情況下,非常關注數據資源的縱向積累,形成縱向數據資源。需要說明的是,縱向數據資源可能屬于公開數據資源,也可能屬于保密數據資源。但是,與橫向數據相比,縱向數據資源具有時間標簽,在處理上更為復雜。上述兩類智庫多源數據融合理論主要關注的是橫向數據范疇,即針對相同的指標或者特征,收集不同部門、不同領域或者不同區域等情況下的樣本。隨著互聯網技術的推廣和普及,數據生成和存儲功能得到廣泛應用和升級,橫向智庫多源數據資源融合方法已無法滿足現實需求。在這種情況下,需要從時間維度提出縱向智庫多源數據資源融合方法,以更好地測度事物的發展變化規律。與智庫單源數據資源或橫向數據資源相比,智庫縱向多源數據資源能夠提供更加豐富的時空信息,應用場景和空間也更加廣闊[10-]。然而,縱向智庫多源數據資源的融合需要兼顧時間或事件等方面融合的科學性和合理性,情況更加復雜,不進行正確處理會導致錯誤結論。根據數據是否帶有標簽,現有縱向智庫多源數據資源融合理論可以歸納為無監督學習理論和有監督學習理論這兩種類型[12]。其中,無監督學習主要關注多源數據間信息的提取,比如,分別提取不同數據源的稀疏線性組合使數據源間相關性最大[13]。對于帶標簽數據可以采用有監督學習方法,探索智庫多源數據資源與因變量的關系,通過如下方法,實現縱向智庫多源數據融合并建立分類或預測模型: ① 提出典型變量回歸以處理秩大于1的典型變量; ② 基于稀疏奇異值分解,提出不同源數據的調控模塊;③ 對不同源數據進行回歸分析的同時,借鑒秩為1的典型相關分析,提出協同回歸; ④ 提出協助穩健變量識別方法,等等[14-15]
3.2選擇深度神經網絡作為智庫多源數據資源融合的理論模型的起源與研究基礎
本文之所以選擇深度神經網絡作為智庫多源數據資源融合的理論模型,源于神經網絡。
“神經元”一詞源于生物學,即通常意義上的神經細胞。為了加以區分,神經網絡中的神經元有時被稱為人工神經元,是對生物學領域神經元的抽象、簡化和模擬。生物神經元是神經系統結構和功能的基本單位。生物神經元主要由樹突、細胞體和軸突構成,如圖1所示[16]。樹突是神經元的輸入通道,能接受和整合來自其他神經細胞和從細胞體其他部位傳來的信息。細胞體是神經元的主體,是神經元代謝和營養的中心,存在于腦和脊髓的灰質及神經節內,由細胞核、細胞質和細胞膜組成。軸突是神經元的輸出通道,每個神經元只有一條軸突。在生物神經元中,樹突為輸入,軸突為輸出,細胞體可理解為“黑匣子”。生物神經元具有興奮和抑制兩種常規工作狀態。即生物神經元按照“1或0”的原則工作,只具有“興奮一抑制”二值狀態。一個生物神經元的樹突接收其他神經元傳入的多個神經沖動,這些沖動經整合后,若細胞膜電位升高到動作電位的閾值,則細胞進入興奮狀態,產生神經沖動,并由軸突傳遞給其他神經元;若細胞膜電位下降,且低于動作電位的閾值,則細胞進入抑制狀態,沒有神經沖動輸出。
圖1生物神經元Figure1Biologicalneuron

作為生物神經元的抽象和模擬,人工神經元具有類似的組成,分別是輸人部分(樹突)、黑匣子(細胞體)和輸出部分(軸突),如圖2所示,圖中用虛線將人工神經元的構成進行了劃分。需要說明的是,神經網路中一般存在多個神經元。
圖2人工神經元Figure2Artificialneuron

由圖2可知,最左側的 xi(i=1,2,…,n) 是輸入信號,中間部分表示人工神經元的黑匣子,最右側的 yk 是輸出信號。其中, k 表示人工神經元的編號。對于中間部分“黑匣子”,按從左到右的順序分別介紹各個符號的含義,如表1所示。
表1人工神經元“黑匣子”符號說明 Table1Explanation of“Black Box” symbols for artificial neurons

表1主要給出三個函數關系表達式:


yk=f(netk)
不難發現,只有 yk=f(netk) 未明確具體的函數關系。
本質上,深度神經網絡是神經網絡的一種特殊類型,核心區別在于網絡結構的深度(即層數)。深度神經網絡的本質是多層堆疊的神經網絡,通過增加隱藏層提升抽象能力,因此,可以解決當前智庫面臨的多源數據的高維非線性問題。
3.3基于深度神經網絡的智庫多源數據資源融合理論模型形式
如前文所述,智庫數據通常來自不同渠道(如文本報告、統計數據、社交媒體、傳感器數據等),具有多模態(文本、數值、圖像等)、多尺度(時間/空間分辨率不同)、多維度(結構化/非結構化)的特點。傳統的數據融合方法(如統計模型、規則引擎)難以有效處理這種復雜性,而深度神經網絡擅長從高維、非線性、異構數據中自動提取特征。具體來說,深度神經網絡能夠通過多層次非線性變換自動學習數據的抽象表征,無需依賴人工設計特征。受王小燕等[在多源異質數據下深度神經網絡整合分析研究成果的啟發,本文提出的基于深度神經網絡的智庫多源數據資源融合理論模型形式如下。
假設智庫現有 M 個來源的數據集,對于每個數據集 m=1,2,…,M ,有一個因變量 Y 和 P 個解釋變量 Xm=(X1m,X2m,…,XPm)T 。每個數據集的樣本量為 nm 。智庫 M 個數據集中的解釋變量可能不完全相同,采用補零法對齊 M 個數據集的解釋變量。假設第 m 個數據集有 Lm 個隱藏層,顯然輸人層的層數 l 定義為0,那么本文提出的基于深度神經網絡總層數 l 為 Lm+2 。假設第 l 層的神經元數量為klm ,則第 l 層與前一層之間的權重矩陣如下:

偏置向量如下:

在基于深度神經網絡的智庫多源數據資源融合理論模型中,第1個隱藏層的節點值如下:

其中, Zlm(Xm) 的初始值 Z0m(Xm) 為 Xm ;Sig表示Sigmoid激活函數。需要說明的是,讀者還可以選擇其他類型的激活函數。本文得到輸出層的函數表達式如下:

則第 m 個數據集的損失函數可以構建為L(f(Xm),Ym 0。本文提出的基于深度神經網絡的智庫多源數據資源融合理論模型是建立在 M 個來源的數據結構基礎上,該模型聯合損失函數如下:

基于深度神經網絡的智庫多源數據資源融合理論模型的求解,可通過對上述損失函數求最小值而得到。
4智庫多源數據資源融合實踐初探
4.1 工作流程機制
通常來說,智庫多源數據資源融合工作流程框架包括資源接入、資源治理、多源融合、知識轉化和應用反饋。對標這五個環節,本文探索建立分階段的工作機制,具體如圖3所示。資源接入機制中,多源數據識別既包括由智庫自身掌握的內部研究成果和數據庫,也包括市場調研數據、行業報告、政府公開數據、社交媒體數據等外部數據。數據接入協議,是通過應用程序編程接口(applicationprogramminginterface,API)、文件傳輸協議(filetransferprotocol,FTP)、區塊鏈節點實現自動化采集,以及與政府或企業簽訂數據共享備忘錄。顯然,資源接入機制僅實現了數據資源清單,還需要通過資源治理機制獲取有使用價值的數據資源文件。經過定義統一字段標簽、自動標記低質量數據和數據脫敏處理后,啟動多源數據資源文件的融合操作。經過政策模型和趨勢分析,從多源數據資源中提取“機構一事件—關系”三元組,輸出政策建議報告或決策咨詢報告,并將成果應用于具體場景中,收集用戶反饋意見,完成迭代優化,實現“多源數據驅動一跨學科知識生產—科學決策支持”的智庫運營閉環。
需要強調的是,本文提出的基于深度神經網絡的智庫多源數據資源融合理論模型,屬于多源融合機制這一核心環節。在模型提出后,需要設計數據融合整體方案,并對融合技術(既實現基于深度神經網絡的智庫多源數據資源融合理論模型的學習算法)進行開發,才能完整落實多源融合機制,為數據賦能奠定基礎。
圖3智庫多源數據資源融合工作流程機制
Figure3 Workflow mechanism for multi-source data resources integration in think tanks

4.2 實踐路徑
(1)探索建立智庫多源數據資源融合成效的持續監測系統。通過實時數據監測平臺、定期審查機制和效果反饋環節三個方面,實現對智庫多源數據資源融合情況的持續監測。其中,實時數據監測平臺采用先進的云計算和大數據技術,對關鍵性能指標進行實時監控。包括技術創新進展、政策調整反應以及安全事件的即時追蹤,確保能夠即時響應產業變化,提前預防潛在風險。定期審查機制,旨在定時評估項目進展和目標達成情況。通過定期的內部審核和外部審計,確保每個研究階段的成果都符合預設的質量標準和進度要求。效果反饋環節則通過構建一個開放的溝通渠道,從利益相關方收集實時反饋,用于評估現有策略的效果,指導未來的政策制定和項目調整。這種從多角度收集反饋的方法,不僅增強了評估體系的適應性和覆蓋面,也提高了整個評估體系的公信力和透明度。
(2)搭建多層次智庫多源數據資源融合工作戰略布局。一是,在戰略規劃層面,明確智庫數據資源融合目標與優先級。聚焦智庫研究領域,明確不同來源數據的融合目標與優先級,篩選服務智庫研究的高價值數據資源,編制智庫多源數據資源圖譜,標注數據來源、質量分級、數據權屬和融合成本。二是,在技術落地層面,構建智庫多源數據資源融合基礎設施。搭建集中存儲智庫原始數據的混合云數據湖,開發自動化數據流水線,檢測智庫數據資源質量,通過聯邦學習等平臺部署隱私計算中間件。三是,在場景驅動層面,聚焦典型應用場景,構建專題數據池。根據以往智庫研究領域,選擇高頻場景構建場景專屬數據池,動態接人相關多源數據,研發輕量化分析模型和算法,作為智庫多源數據資源分析工具。四是,在組織適配層面,優化智庫協作與多源數據資源融合制度保障。設立“數據融合中心”等實體或虛擬組織,整合技術團隊與業務團隊。明確數據分級標準、權限審批流程,解決跨機構數據共享中的權責歸屬問題。五是,在持續迭代層面,建立反饋優化機制,實現“多源數據驅動一跨學科知識生產一科學決策支持”的工作閉環,為智庫多源數據融合成果服務品質提供保證。
(3)設計定量與定性相結合的智庫多源數據資源融合狀況評估方案。在定量分析和定性洞察基礎上,構建一個綜合性評估框架用于全方位評估智庫多源數據資源現狀及其融合情況。其中,定量評估利用統計數據分析,涉及經濟貢獻、技術發展指數、市場滲透率等硬性指標。這些數據通過國家統計局、行業報告及市場研究機構提供的官方數據獲得,確保評估結果的客觀性和準確性。定性評估通過專家咨詢、行業領導者訪談、焦點小組討論及實地案例研究來補充定量數據分析,提供更深層次的洞察,包括從行業趨勢、技術創新案例、政策變動及其潛在影響等方面進行深人探討。
5結語
作為新型生產要素,數據資源蘊藏的巨大能量正不斷釋放,以大數據深度挖掘和融合應用為主要特征的數字化,逐漸成為經濟社會發展的重要推動力。作為為決策者在處理社會、經濟等各方面問題出謀劃策的智囊機構,智庫對多源數據資源的整合能力直接關系到智庫功能的發揮。尤其在面臨數據資源碎片化、時滯性強等問題時,提出基于深度神經網絡的智庫多源數據資源融合理論模型,有助于為智庫數據資源的規范管理、高效儲備和科學分析提供方法和工具參考。
本文在界定智庫多源數據資源基本內涵和主要特點的前提下,從智庫數據管理角度,系統梳理不同類型數據資源的融合理論方法,并提出基于深度神經網絡的智庫多源數據資源融合理論模型,探索建立工作流程機制和實踐路徑。然而,本文提出的理論模型,僅屬于多源融合機制的一部分,對于設計數據融合整體方案和開發融合技術并未展開具體論述。此外,所提模型偏向于對公開數據資源的應用,如何將其拓展到多方聯合的保密數據資源是未來值得研究的問題;本文尚未對具體應用場景以及場景下用于實時數據監測平臺、定期審查機制和效果反饋環節的關鍵指標進行論述。未來研究將針對智庫在政策研究、科技創新、經濟發展等具體工作場景中,多源數據資源融合成效持續監測關鍵指標識別和指標體系構建進行深人研究,進一步推動完善智庫多源數據資源融合理論的實踐體系。
參考文獻:
[1]國家數據局.關于向社會公開征求《數據領域名詞解釋》意見的公告[EB/OL].[2024-10-21].https://mp.weixin.qq.com/s/uMcMcauaM6Hy0E-3vJMvyw.
[2] BLEIHOLDERJ,NAUMANNF.Datafusion[J].ACComputing Surveys,2008, 41(1): 1-41.
[3] ALYANNEZHADI M M,POUYAN A A,ABOLGHASEMI V.An efficient algorithm formultisensory data fusion under uncertainty condition[J].Journal of Electrical Systems and Information Technology,2017,4(1): 269-278.
[4] 馬雙鴿,王小燕,方匡南.大數據的整合分析方法[J]統計研究,2015,32(11):3-11.
[5] 方匡南,趙夢巒.基于多源數據融合的個人信用評分研究[J].統計研究,2018,35(12):92-101.
[6] WANGXY,FANGKN,ZHANGQZ,etal.Network-incorporatedintegrative sparselineardiscriminantanalysis[J].StatisticsandIts Interface,2019,12(1):149-166.
[7]竇路遙,魏鳳,鄧阿妹,等.聯邦學習賦能數智化科技情報工作中的多源數據融合[J].情報雜志,2025,44(5):191-198.
[8] WANGHJ,SICMZ,LIUGL,etal.Fed-NILM:Afederated learning-based non-intrusive load monitoringmethod forprivacy-protection[J].EnergyConversionandEconomics,2022,3(2):51-60.
[9] SAKSHI,KUKREJA V. Machine learning and non-machinelearningmethodsinmathematicalrecognitionsystems:Two decades’systematic literature review[J].Multimedia Toolsand Applications,2024,83(9):27831-27900.
[10]柯達,劉柳青,楊青龍.中國營商環境的測度、時空演變特征與優化路徑研究[J].統計與信息論壇,2024,39(10):102-115.
[11]安博文,許培源,何偉軍,等.面向時空面板數據的綜合評價模型構建及應用[J].統計與信息論壇,2025,40(1): 3-20.
[12]吳夢云,蔣浩宇,馮士倩.多源高維數據的多分類縱向整合分析及應用[J].統計研究,2021,38(8):132-145.
[13]WITTENDM,TIBSHIRANIR,HASTIET.Apenalized matrix decomposition,with applications tosparseprincipalcomponentsandcanonical correlationanalysis[J].Biostatistics,2009,10(3):515-534.
[14]饒東寧,鄧福棟,蔣志華.基于多信息源的股價趨勢預測[J].計算機科學,2017,44(10):193-202.
[15]GROSSSM,TIBSHIRANIR.Collaborativeregression[J].Biostatistics,2015,16(2):326-338.
[16]程豪.指標關系研究中的數據挖掘與統計學習[M].北京:經濟科學出版社,2023:12.
[17]王小燕,江建偉,王潔丹,等.多源異質數據下深度神經網絡的整合分析及其應用[J].統計研究,2025,42(2):122-134.
Abstract: [Purpose/Significance] Against the backdrop of rapidly expanding and evolving data resources, this paper explores the construction of adeep neural network-based theoretical model and practical pathways for multi-source data fusion in think tanks,providing insights to support their digital transformation and paradigm shifts.[Methods/Process] This study first proposes an original definition of the core concepts and keycharacteristics of think tanks' multi-source data resources. Subsequently,after systematically reviewing existing methods for multi-source data fusion,itintroduces adeep neural network-based theoretical model forintegrating suchdata in think tanks. Preliminary workflow mechanisms and practical implementation pathways are also established. [Results/Conclusions] The research demonstrates that the proposed deep neural network-based theoretical model effectively addresses challenges such as data fragmentation and time-lag isues.It holds significant theoretical and practical value for optimizing data integration and extracting high-value information.
Keywords: think tank digital transformationmulti-source data resourcesintegration theorydeep neural networkpractical pathways