


摘" "要:[研究目的]科技智庫統計理論可以理解為在科技智庫場景中,將互聯網技術注入傳統統計學理論體系所發展形成的現代統計科學的重要分支。給服務科學決策咨詢提供方法與工具,系統梳理科技智庫統計理論,可以為該理論在真實數據、業務工作和結論導向中發揮重要功能提供參考與借鑒。[研究方法]從理論基礎與實踐以及理論傳播角度,通過文獻綜述、Python可視化編程等方法對科技智庫統計理論進行分析和解讀。[研究結論]數據科學時代,大數據成為國家重要的基礎性戰略資源。科技智庫統計理論通過互聯網技術的蓬勃發展以及統計學與其他學科領域的交叉融合,將在真實數據、業務工作和結論導向這三個維度發揮重要功能。
關鍵詞:科技智庫;互聯網統計;指標關系;變系數結構方程模型;分位數;可視化
中圖分類號:O213 文獻標識碼:A DOI:10.19881/j.cnki.1006-3676.2024.12.06
隨著大數據時代到來,人們的生產生活方式、社會組織和社會關系均發生了翻天覆地的變化。互聯網+、大數據、云服務、人工智能等數字技術的創新與應用,使得數據的生成、獲取、儲存、共享乃至處理技術得到前所未有的發展和推廣[1]。世界各國及國際組織推出了大數據發展戰略:美國于2012年發布《大數據研究與發展倡議》,2016年發布《聯邦大數據研究與開發戰略計劃》,不斷加強大數據的研發和應用發展布局;歐盟于2014年推出《數據驅動經濟》戰略,倡導成員國盡早實施大數據戰略;日本也出臺了推動大數據研發和應用的政策。在我國,黨的十八屆五中全會明確提出要實施“國家大數據戰略”,國務院于2015年8月印發《促進大數據發展行動綱要》,全面推進大數據的發展與應用。這一文件的出臺,意味著大數據發展正式成為國家戰略。2019年11月,《中共中央關于堅持和完善中國特色社會主義制度、推進國家治理體系和治理能力現代化若干重大問題的決定》將“數據”納入生產要素,進一步奠定了數據作為生產資源的重要地位[2]。
作為戰略上必爭的資源,大數據正逐漸成為當代社會各行業、各領域實現自身高質量發展的重要元素,其蘊含的巨大潛在價值,也引起了政府部門、科技界、產業界的高度重視。如何讓作為科技領域決策專業機構的科技智庫在數據時代更好地發揮作用,需要從方法工具研制、方法論研究以及數據長期積累三個方面開展扎實工作。作為收集、處理、分析、解釋數據并從數據中得出結論的科學,統計學是為數據統計描述和統計推斷提供科學的方法工具[3]。在統計學基礎上發展起來的互聯網統計學,利用互聯網思想支撐科技智庫統計理論方法,成為實現全球互聯、互通、互動一體化量化的根本手段[4]。
一、科技智庫統計理論基礎
科技智庫統計理論可以理解為在科技智庫場景中,將互聯網技術注入傳統統計學理論體系所發展形成的現代統計科學的重要分支。在數據資源日益膨脹和互聯網技術蓬勃發展的時代,在科技智庫統計理論基礎中首先要考慮的是互聯網統計理論,其次便是統計對互聯網技術的具體要求。
(一)科技智庫互聯網統計理論體系
傳統統計學包括描述統計和推斷統計兩個部分。描述統計包括數據收集、數據處理、數據匯總、圖表描述、概括與分析等內容。推斷統計是指通過有限數據來推斷總體特征和規律。總體特征和規律需要用表達統計關系的模型加以刻畫,能夠對這種關系明確量化的就是模型中的參數。因此,推斷統計需要解決的問題,一是通過有限數據估計未知參數,二是證明參數估計結果及統計結論的正確性[4]。
科技智庫互聯網統計理論在傳統統計學理論體系的基礎上注入了互聯網技術的強大活力,逐漸形成多學科融會貫通的現代統計科學,為科技智庫服務科技領域決策提供了更大價值。科技智庫互聯網統計理論體系同樣包括科技智庫互聯網描述統計和科技智庫互聯網推斷統計。確切地說,科技智庫互聯網統計理論是決策咨詢服務過程中的描述統計和推斷統計的共存并舉和融合交匯。在互聯網技術的支持下,科技智庫互聯網理論更有機、更完整地實現了科技智庫互聯網描述統計和科技智庫互聯網推斷統計兩部分內容的密切配合。
科技智庫互聯網統計理論體系不僅包括描述統計和推斷統計,還包括互聯網技術支持下的方法和算法,這部分內容與數據挖掘、機器學習、大數據分析、人工智能、云計算等諸多領域交叉和重疊。從理論方法的角度來看,科技智庫互聯網統計理論不僅包括概率論與數理統計的隨機性統計對象的理論方法,還包括確定性統計對象的理論方法,以及二者相結合的理論方法研究和面向互聯網的數字孿生的復雜統計系統等理論方法。
(二)科技智庫互聯網統計技術要求
科技智庫互聯網統計理論是在互聯網技術基礎上形成的現代統計科學分支。顯然,科技智庫互聯網統計理論離不開互聯網技術的支持。在統計學領域,互聯網技術是指在計算機科學基礎上開發和建立的,用于收集、處理、分析、解釋數據并從數據中得出結論的一種信息技術。具體來說,互聯網技術可以從數字化技術、智能化技術和可視化技術這三個方面加以理解。
一是科技智庫互聯網統計理論中的數字化技術。數字化技術是指利用互聯網技術,將生產、生活等社會活動中的信息轉換為數字格式,從而形成全新生產方式和社會組織機制。按照中文通識概念,數字化就是將互聯網技術獲取的數據信息進行全面量化,而全面量化就是全面統計。基于數字化技術的全面量化有助于增強對概念和事物關系的理解,有助于運用數理邏輯進行統計,準確歸納統計分布和統計預測的客觀規律。
二是科技智庫互聯網統計理論中的智能化技術。科技智庫互聯網統計理論發展的基本特征是建立了全社會量化解析的生態體系,這是人工智能的應用基礎。人工智能離不開計算機技術,但不等同于計算機技術。人工智能是通過自學積累人類知識體系的進化與優化,并通過計算機技術實現全面量化與統計分析。科技智庫互聯網統計理論中的智能化技術實際上就是通過計算機學習數據信息的規律和路徑模式,在思維和操作層面實現“人工智能”,自動化、智能化地收集、處理、分析、解釋數據并從數據中得出重要結論。
三是科技智庫互聯網統計理論中的可視化技術。科技智庫互聯網統計理論中的可視化技術可以理解為把數字置于視覺空間中,更加直觀地展示數據中的潛在模式,并從中發現常規統計方法很難挖掘到的信息。科技智庫互聯網統計理論中的可視化技術不僅包括作表繪圖,還包括根據分析需求提供直觀化、關聯化、藝術性、可交互的可視化結果。在互聯網技術的支持下,科技智庫互聯網統計理論中的可視化技術能夠實現潛在信息的深度展示和實時數據的動態描繪。
二、科技智庫統計理論的實踐
科技智庫統計理論實踐往往離不開指標研究與分析。在指標實踐中,指標基本類型的界定、指標選擇原則是構建科技智庫統計專題研究的重要基礎。伴隨這些指標數據的積累,指標間結構關系日趨復雜,這為指標間結構關系的統計測度帶來挑戰。結構關系的測度本質上是對指標間結構關系的估計,面對客觀存在的復雜結構關系特點,本文介紹前沿統計賦權方法,為實現多水平動態結構關系的測度提供方法支持和重要參考。
(一)科技智庫研究指標基本類型
通常情況下,科技智庫研究涉及諸多指標,這些指標在統計學上包括數值型指標、文本型指標等與數據類型相對應的不同類型。在具體研究過程中,指標數據可能是直接來源于一手觀測或者實驗的指標數據,也可能是需要經過簡單比重計算的兩個指標的合成數據,還可能是經過復雜指標綜合計算的測算型指標。下面以新質生產力為例,介紹指標研究中的三種主要類型。
新質生產力是先進生產力的具體表現形式,也是馬克思主義生產力理論在中國的創新和實踐過程,在科技創新交叉融合突破進程中形成的高科技、高效能、高質量的先進生產力質態。勞動者、勞動資料、勞動對象及其優化組合對于大幅提高高水平現代化生產力起到巨大作用。無論從科學技術的革命性突破、生產要素的創新性配置,還是產業深度轉型升級的角度,新質生產力都是發揮主導作用的核心力量[5]。
有專家認為,新質生產力的評價應該以科技創新為核心,強調整合科技創新能力[6]。馬克思認為,現實財富的創造較多地取決于在勞動時間內所運用動因的力量,而這種動因本身卻取決于一般的科學水平和技術進步,或者說取決于科學在生產上的運用。這在一定程度上印證了發揮科技創新對于提升生產力的重要性[7]。
目前,關于新質生產力指標體系構建的方法可劃分為兩類。一是用勞動者、勞動對象和生產資料的生產力三要素構建指標體系[8]。二是從科技創新、產業生態、發展條件等維度設計新質生產力指標體系[6]。無論哪種研究角度,支撐指標體系中不同要素或維度的具體指標都可歸納為3種類型:直接取值型、比重計算型和統計測算型。具體情況及指標列舉如表1所示。
(二)科技智庫研究指標選擇原則
科技智庫研究中,指標體系構建是一類重要的基礎性研究工作。在針對不同國家或地區進行指標體系構建時,需要先進行指標選擇基本原則的設計,內容包括:保證盡可能多的國家或地區具備該指標數據;指標數量盡可能少,所帶信息避免冗余重復;充分考慮現有指標體系共有的指標;考慮全球范圍內跨國或跨地區數據收集難度;保證該指標體系具有廣泛適用性,簡潔易懂且能夠說明問題[11]。
(三)科技智庫指標結構關系特點
在長期認識世界和改造世界的過程中,人類將所積累的科學知識、方法技能、設備手段用于生產實踐,形成涵蓋科技能力與科技成果、科技硬實力與科技軟實力、認識論、方法論及實踐論多層次要素有機結合的一類大數據,稱為科技數據。這種多層次要素有機結合的方式造就了科技數據間普遍存在的結構關系。這種結構關系既反映出各要素間的關聯程度,又表達出各要素的內部構成以及它們之間的相互影響。參考錢力等人對科技大數據的定義,科技數據包括科技成果數據(如全球創新指數報告)、科技活動數據(如科技人才流動數據)和科技資訊數據(如智能手機APP數據)[12]。
以安卓系統智能手機APP監測數據為例,該數據總量1.8T,包括13余萬用戶,變量個數遠遠超過用戶數量,屬于高維數據。該數據集包括用戶地理位置信息(個人ID、時間、地點等)、手機信息(品牌、型號、分辨率、尺寸等)、APP使用信息(APP名稱、使用起止時間、使用時長、上下行流量等)三部分。這三部分之間有一定的關聯并且會相互影響,形成比較復雜的結構關系。而且,手機信息會隨用戶所在地區發生變化,APP使用信息隨時間呈現出一定的規律。在這種情況下,結構關系會受某種因素(如空間或時間)的影響,呈現出動態變化的特點。APP使用信息反映出,不同年齡層次、職業類型、消費水平的用戶群體在APP的選擇和使用方面有不同的表現,呈現出不同維度、不同類別的結構關系,且這種結構關系會隨某個因素的影響而動態變化,在不同研究對象群體中有不同的表現,因此需要考慮采用變系數多水平結構關系模型進行測度[13-14]。
(四)科技智庫統計賦權方法前沿
科技智庫研究中,統計賦權方法很多,但就目前指標間存在的變系數多水平結構關系特點,需要考慮提出新的統計模型和參數估計算法,以便更好地挖掘指標間復雜的結構關系。針對潛變量間以及潛變量與可測變量間關系量化問題,要充分考慮變量間相關關系,建立潛變量間及其與可測變量間的關系,較為客觀地反映實際數據,還要具有較好的解釋性并能廣泛地應用。變系數多水平結構關系模型本質上是將變系數模型和分位回歸引入結構方程模型[15-16]。作為一種常用的統計建模技術,結構方程模型在當前得到了較大程度的發展和應用,并擁有專屬期刊Structural Equation Modeling:A Multidisciplinary Journal。在結構方程模型理論中,一類常用的參數估計方法包括極大似然、廣義最小二乘等,在可測變量獨立同分布于多元正態的假設條件下,通過構造一個模型估計協方差與樣本協方差的擬合函數,得到使擬合函數值達到最優的參數估計。變系數模型將一般線性模型的回歸系數推廣為一維變量(如空間、時間)的函數,可用于解決結構關系中的變系數問題[17]。分位回歸能夠精確描述不同分位水平下自變量對因變量的變化范圍以及條件分布形狀的影響,為解決結構關系中多水平問題提供思路[18-19]。
已有學者利用變系數模型構建了一種非線性動態結構方程模型,并提出一種極大似然參數估計方法,要求可測變量獨立同分布且服從正態分布,外生潛變量、誤差項相互獨立且服從均值為0的正態分布[20]。在Voelkle和Oud在Molenaar等人研究的基礎上,研究動態因子模型的極大似然估計,要求數據滿足獨立且服從多元正態的假定條件[21-23]。當不滿足假設條件時(比如數據服從某種偏態分布)可能會導致估計效果很差、標準誤差錯誤以及參數估計值偏高。Davino等人和Cheng將分位回歸引入結構方程模型和高階因子模型中,通過偏最小二乘算法實現參數估計和潛變量得分的計算[24-27]。但是,這些方法仍然屬于靜態估計范疇,未同時考慮其他變量(如時空因素)對結構關系帶來的影響。
在綜合考慮變系數多水平結構關系特點的情況下,Cheng提出變系數多水平結構方程模型,其基本原理為:不同潛變量(維度)之間的結構關系通過結構模型加以刻畫;由于潛變量無法直接觀測,各個潛變量的測量通過構建測量模型反映。結構方程模型包括結構模型和測量模型,變系數多水平結構關系模型的構建本質上是將結構模型和測量模型中系數推廣為某個變量和分位數水平的函數,構建變系數多水平結構模型和變系數多水平測量模型,刻畫不同分位數水平下各個潛變量間以及它們與可測變量間關系隨某個變量的動態變化[14]。
三、科技智庫統計理論傳播
科技智庫統計理論可視化是將復雜理論產品化的重要方式,通過直觀的可讀性強的圖表,將科技智庫統計研究后發現的復雜規律展示出來。可視化功能的強弱和呈現效果的好壞,主要取決于可視化理念和可視化技術,尤其是伴隨數據量級的增加和數據內部關系復雜程度的增加,可視化技術也需要通過Python等編程語言加以實現。
(一)科技智庫統計理論可視化理念
科技智庫互聯網統計理論中的可視化可以理解為把數字置于視覺空間中,更加直觀地展示數據中的潛在模式,并從中發現常規統計方法很難挖掘到的信息。科技智庫互聯網統計理論中的可視化不僅包括作表繪圖,還包括根據分析需求提供直觀化、關聯化、藝術性、可交互的可視化結果。在互聯網技術的支持下,科技智庫互聯網統計理論中的可視化能夠實現潛在信息的深度展示和實時數據的動態描繪。
(二)科技智庫統計理論可視化技術
以Python為例,介紹科技智庫統計可視化技術研究中的基本情況。Python是由吉多·范羅蘇姆(Guido van Rossum)研發的[28]。常用的模塊包括:一是Numpy包,提供數組支持,同時Scipy、Matplotlib、Pandas等很多高級模塊依賴它。二是Scipy提供矩陣支持,以及矩陣相關的數值計算模塊。三是Pandas,這是Python最強大的數據分析和探索工具,因金融數據分析工具而開發,支持類似SQL的數據增刪改查,支持時間序列分析,靈活處理缺失數據。四是Scikit-Learn,這是用于數據挖掘和數據分析的重要工具,包括分類、回歸、聚類、數據降維、模型選擇和數據預處理等六項基本功能。五是Matplotlib,主要用于繪圖和繪表,是強大的數據可視化工具。
Python可以幫助實現三維曲面圖的繪制。首先利用np.arange(-5,5,0.1)生成取值范圍為[-5,5]的間距為0.1的一組數,并用matplotlib繪制誤差棒圖。需要說明的是,Matplotlib是Python中最受歡迎的繪圖庫,和NumPy和SciPy都是科學Python社區中的主要驅動力之一。Python有一種pylab模式,是專門設計使用matplotlib進行交互式繪圖。Python的編程程序如圖1所示。
(三)科技智庫統計理論可視化產品
通過Python編程,可以得到如圖2所示的三維曲面圖[28]。以新質生產力為例,三維曲面圖能夠展示出新質生產力發展水平在勞動者(X軸)、勞動對象(Y軸)和生產資料(Z軸)這三個方面的基本情況。
四、科技智庫統計理論展望
數據科學時代,大數據成為國家重要的基礎性戰略資源。科技智庫統計理論通過互聯網技術的蓬勃發展、多元學科領域的交叉融合以及在科技人才等實際科技數據中的應用分析,將傳統統計學轉變為更好地為科學決策咨詢提供理論與實踐相結合服務的方法與工具[29]。科技智庫統計理論將在真實數據、業務工作和結論導向這三個維度發揮重要功能。
一是面向真實數據的科技智庫統計理論。在網頁爬蟲等互聯網技術的支持下,從傳統統計調查數據到各個方面的業務數據、技術數據、行政數據,以及軟件數據、文本數據和具有潛在量化可能的大量圖像和音頻信息,數據范疇在不斷擴大,映射客觀實際的統計總體范圍也在擴大。反映個體、單位、市場、組織等主體在內的真實數據逐漸形成了從微觀到宏觀、從靜態到動態、龐大且復雜的一體化數據體系。
二是基于業務工作的科技智庫統計理論。從傳統人工統計報表到各個環節的計算機普及、軟件操作、系統平臺搭建,從多機并行的分布式計算方式到互聯網大數據編程語言的廣泛應用和更新迭代,科技智庫統計理論在收集、處理、分析和解釋數據方面表現出從傳統到前沿、從方法到技術、從離線到實時的根本性轉變。顯然,在科技智庫統計理論中,計算機科學扮演著重要角色,為科技智庫統計理論中間過程的具體操作提供全面支持。
三是按照結論導向的科技智庫統計理論。從傳統統計圖表到結論的歸納提煉、可視化展示、交互式變化,以及數據背后隱藏信息的挖掘和剖析、非常規路徑模式的捕捉和還原、流式數據沖擊下結論的實時變化,科技智庫統計理論在得出結論方面表現出多元化、準確性高、時效性強的特征。高效且準確地歸納和提煉研究結論,并將有價值信息置于視覺空間中,是科技智庫統計理論的一大特色。
參考文獻:
[1] 趙彥云.互聯網統計研究[J].統計研究,2016,3(12):3-10.
[2] 尹建鑫.數據科學概率基礎[M].北京:中國人民大學出版社,2023.
[3] 賈俊平,何曉群,金勇進.統計學(第8版)[M].北京:中國人民大學出版社,2021.
[4] 程豪.互聯網統計:方法與應用[M].北京:電子工業出版社,2023.
[5] 程豪.青年科技人才賦能新質生產力[N].重慶科技報,2024-04-02(2).
[6] 孫麗偉,郭俊華.新質生產力評價指標體系構建與實證測度[J].統計與決策,2024,40(9):5-11.
[7] 中共中央馬克思恩格斯列寧斯大林著作編譯局.馬克思恩格斯全集(第四十六卷下冊)[M].北京:人民出版社,1979.
[8] 王玨,王榮基.新質生產力:指標構建與時空演進[J].西安財經大學學報,2024,37(1):30-47.
[9] 趙濤,張智,梁上坤.數字經濟、創業活躍度與高質量發展:來自中國城市的經驗證據[J].管理世界,2020,36(10):65-76.
[10] 吳非,胡慧芷,林慧妍,等.企業數字化轉型與資本市場表現:來自股票流動性的經驗證據[J].管理世界,2021,37(7):130-144,10.
[11] 程豪.全球化國家科技創新能力綜合評價指數統計模型:基于互聯網科技統計視閾[J].調研世界,2020(6):25-31.
[12] 錢力,謝靖,常志軍,等.基于科技大數據的智能知識服務體系研究設計[J].數據分析與知識發現,2019,3(1):4-14.
[13] CHENG H. A class of new partial least square algorithms for first and higher order models[J]. Communications in statistics-simulation and computation,2022,51(8):4349-4371.
[14] CHENG H. Quantile varying-coefficient structural equation models[J]. Statistical methods amp; applications,2023,32(5):1-37.
[15] CONNELL J P,TANAKA J S. Introduction to the special section on structural equation modeling[J]. Child development,1987,58(1):2.
[16] J?RESKOG K G,S?RBOM D. Recent developments in structural equation modeling[J]. Journal of marketing research,1982,19(4):404-416.
[17] HASTIE T,TIBSHIRANI R.Varying-coefficient models[J]. Journal of the royal statistical society: series B (statistical methodology),1993,55(4):757-796.
[18] KOENKER R,BASSETT G J.Regression quantiles[J]. Econometrica,1978,46(1):33-50.
[19] KOENKER R.Quantile regression[M]. London:Cambridge University Press,2005.
[20] ZHANG W Y,LEE S Y. Nonlinear dynamical structural equation models[J]. Quantitative finance,2009,9(3):305-314.
[21] VOELKLE M C,OUD J H L,OERTZEN T V,etc. Maximum likelihood dynamic factor modeling for arbitrary N and T using SEM[J]. Structural equation modeling,2012,19(3):329-350.
[22] MOLENAAR P C M. A dynamic factor model for the analysis of multivariate time series[J].Psychometrika,1985,50(2):181-202.
[23] MOLENAAR P C M. A manifesto on psychology as idiographic science: bringing the person back into scientific psychology,this time forever[J].Measurement:interdisciplinary research and perspectives,2004,2(4):201-218.
[24] DAVINO C,ESPOSITO V V. Quantile composite-based path modelling[J]. Advances in sata analysis and classification,2016,10(4):491-520.
[25] DAVINO C,ESPOSITO V V,DOLCE P. The multiple facets of partial least squares and related methods[M]. Springer proceedings in mathematics and statistics,New York: Springer Verlag,2016(173):169-185.
[26] DAVINO C,DOLCE P,TARALLI S. Quantile composite-based model: a recent advance in PLS-PM[J]. Basic concepts,methodological issues and applications,Berlin:Springer International Publishing AG,2017:81-108.
[27] DAVINO C,DOLCE P,TARALLI S. A quantile composite-indicator approach for the measurement of equitable and sustainable well-being: a case study of the Italian provinces[J]. Social indicators research,2018,136(3):999-1029.
[28] 程豪.指標關系研究中的數據挖掘與統計學習[M].北京:經濟科學出版社,2023.
[29] 程豪.科技人才研究中的互聯網統計方法[M].北京:經濟科學出版社, 2024.
Statistical Theory in Science and Technology Think Tanks: Fundamentals, Practice and Communication
Cheng Hao
(China Association for Science and Technology, National Academy of Innovation Strategy, Beijing, 100038)
Abstract:[Research purpose] The statistical theory of science and technology think tanks can be understood as an important branch of modern statistical science developed by injecting Internet technology into the traditional statistical theoretical system in the context of science and technology think tanks. To provide methods and tools for serving scientific decision-making consultation, the paper systematically combs the statistical theory of science and technology think tanks, aiming to provide reference for the theory to play an important role in real data, business work and conclusion orientation. [Research method] The paper analyzes and interprets the statistical theory of science and technology think tanks from the perspectives of theoretical foundation, theoretical practice, and theoretical dissemination through literature review, Python visualization programming, and other methods. [Research conclusion] In the era of data science, big data has become an important fundamental strategic resource for each country. The statistical theory of science and technology think tanks will play an important role in real data, business work and conclusion orientation through the vigorous development of Internet technology and the cross integration of statistics and other disciplines.
Key words:science and technology think tanks;Internet statistics;indicator relations; varying coefficient structural equation model;quantile;visualization
基金項目:國家自然科學基金委員會青年科學基金項目“高維變系數多水平結構關系模型研究及應用”(72001197)。
作者簡介:程豪,男,1989年生,博士,副研究員,研究方向為綜合統計與調查研究。