中圖分類號:D63;TP183
文獻標識碼:A
Abstract:In the context of escalating Sino-American strategic competition, a comparative study of Chinese and the USA digital economy policies bears significant strategic value. Traditional methods of policy comparison are limited by cost,can’t solve this problem well. This paper focuses on the contrast between digital economy policies in China and the USA, proposing a resolution framework based on a cross-language model. The framework initially classifies Sino-American digital economic policies by fine-tuning language models and calculating multilingual similarity, thereby achieving automated comparative analysis of the policy environments. Experiments demonstrate that the proposed method can accurately and eficiently identify and extract policy text features,outperforming baseline methods in accuracy across multiple classification dimensions. Finally,by comparing over 16,Ooo Sino-American digital economic policy texts, this paper reveals key differences in policy tool usage and the focus of digital economic industry development between the two countries,providing a comprehensive and objective portrayal of the disparities in digital economy policy environments. Concurrently,it also brings a fresh perspective to policy comparison research.
Keywords: digital economy;comparison of polices;cross-language model
0 引言
數字經濟是一種基于數字化技術、通信技術的新型經濟形態,其發展速度快、輻射范圍廣、影響程度深,已成為重組全球要素資源、重塑全球經濟結構的關鍵力量[1]。我國一直重視數字經濟,陸續出臺相關戰略規劃、政策法規,至 2021年,我國數字經濟規模以45.5萬億美元位居世界第二[2]。在如何優化政策布局,推進數字經濟不斷發展上,美國作為傳統數字技術強國,具有明顯借鑒意義。隨著中美戰略競爭不斷加劇,對比研究中美數字經濟政策,深化布局我國數字經濟發展對策,優化我國數字經濟政策環境具有重大的戰略意義[3]。
不同政治體政策文本的對比研究,是國家治理與發展規劃的重要參考依據。但是,傳統的政策文本研究方法如基于政策工具視角[4]、基于內容分析法[5]等方法,限于人力與時間成本,僅能選取幾十個代表性政策進行人工深入分析,存在主觀傾向與隨機偏差。數字經濟發展速度快,發布政策多,涉及范圍廣,基于傳統方法進行中美數字經濟政策的對比研究,成本高且效果受限。同時,政策文本往往寓意豐富,內涵復雜,傳統方法往往通過簡單流程解析政策的單個特征,準確性有限。尤其是針對發展快、變化多的數字經濟政策,構建復雜系統,從多個維度實現全面、自動的政策分析有較大必要。
近年來,隨著深度學習的發展[6],使用自然語言處理技術構建以深度神經網絡為主的復雜系統,可以實現批量處理海量文本數據,從而更全面、系統地反映政策環境。XLM-R(XLM-RoBERTa)[]等跨語言深度學習模型更具有優越的跨語言遷移與多語言表示能力,通過將不同語言的政策文本投射到聯合語義空間進行分類與相似度計算,可以去除中英文的語言鴻溝與語義偏差,挖掘基于政策本身的對比特征[8]。
因此,針對中美數字經濟政策對比問題,本文基于跨語言模型XLM-R,在多個維度上構建了一種創新性的復雜系統分析框架,實現了中美數字經濟政策的自動化對比分析。通過對比實驗與人工抽樣測試,證明本文提出的解決框架能夠較準確地反映中美數字經濟政策環境的差異、側重點和一致性,為政策研究領域提供了新的研究思路。同時,本文基于分析結果,并結合兩國數字經濟發展現狀,提出了我國數字經濟發展的政策建議。
跨語言模型,是指能夠同時處理多種語言文本、具有較強的跨語言遷移性的自然語言處理模型[9,在多語言文本表示[10]、跨語言詞向量[]等多種跨語言任務中得到廣泛應用。早期的跨語言模型主要基于統計的方法,通過多語言訓練語料,使用統計方法建模來學習跨語言表示、解決跨語言任務。隨著深度學習的發展,通過在平行語料或非平行語料上基于神經網絡進行有監督或無監督的學習,能夠獲得源語言與目標語言在同一語義空間下的詞向量表示,生成能力更強的跨語言詞向量。深度學習很好地提升了跨語言模型的多語言文本表示能力,但其跨語言遷移能力較弱[12]、平行語料成本較高等問題限制了模型學習的容量以及一些低資源語言的建模。隨著ELMo[13]、BERT[14]等預訓練模型的提出,引人自監督預訓練思想、基于預訓練 + 微調范式的預訓練模型在多個自然語言處理任務上取得了突破性進展[14]。基于 BERT 架構、在 104 種語言的海量文本集上預訓練的 M-BERT 模型證明了通過在多種語言上進行預訓練,預訓練模型能夠具備相對于傳統跨語言模型更優越的跨語言能力和更小的人力成本需求[8]。在 M-BERT的基礎上,Guillaume 等[15]提出了針對跨語言任務的 TLM(Trans-lation Language Model)任務,基于此任務預訓練的 XLM模型以及使用該預訓練任務與RoBERTa[16]架構的XLM-R(XLM-RoBERTa)[模型都進一步提高了人工智能在跨語言任務上的性能表現。
政策對比研究是社會學的重要研究內容,傳統研究方法包括基于政策工具理論、基于量化文本方法等。政策工具理論是政策研究領域的一個重要理論,其指實現一個或多個政策目標的手段,也是政策治理主體之間的互動,是政府出臺相關政策的重要參考[17]。不同學者對于政策工具的理解不一,提出的政策工具分類也不盡相同。例如,Rothwell等[18]根據政策對技術產生影響層面的不同,將政策工具分為供給型、環境型和需求型三種類型。隨著信息技術的發展,越來越多的學者通過使用量化文本的方法來實現政策文本研究。例如,李春發等[19]構建政府、智能平臺和藥企參與的三方演化博弈模型,分析三方策略演化臨界條件、穩定性和演化路徑,揭示各因素作用機制與三方博弈演化規律,為政府制定分類規制政策提供依據,單曉紅等[20]基于自然語言處理技術從政策文本發布的在線評論識別因果事件對,進而構建政策影響事理圖譜,刻畫政策對利益相關者及市場的影響。
但是,目前針對政策文本的量化研究還停留在人工收集、分析政策文本的階段,人力成本高,政策樣本數少,一般不超過50條政策,無法全面、準確地反映政策環境。因此,本文引入自然語言處理技術,選取了多種預訓練跨語言模型,通過下游任務微調實現政策文本的跨語言分類與多語言相似度計算,經抽樣測試表現良好。基于跨語言模型,通過獲取中美兩國1.6萬條數字經濟相關政策文本,實現了中美政策環境的全面對比。
2 研究方法
2.1 任務定義
我們的目標是對比中美兩國所有數字經濟相關政策,挖掘兩國政策環境,并從多個維度對比政策環境差異。
考慮到中美數字經濟政策之間具有跨語言特性(中國政策文本一般以中文書寫,美國政策文本一般以英文書寫),針對上述目標,本文定義了一個多語言文本集對比任務,即針對不同語言的文本集合(中國數字經濟政策文本集合與美國數字經濟政策文本集合),從多個指定維度對比分析其異同。該任務可以描述為:
給定多語言文檔集合 D={Ds,Dt} ,其中源語言文本集 Ds={ds1,ds2,…dsm} ,目標語言文本集 Dt={dt1 dt2,…dtm} 。為計算 Ds 與 Dι 的相似度 y ,首先抽象出最能代表政策特點的特征維度,對文本集 Ds 和
分別按指定維度的標簽進行分類;然后計算每個類別標簽 i 上兩個文本集 Dsi 與
的相似度 yi ,最后通過對 yi 進行加權平均計算 y 。

2.2 解決框架
針對本文提出的多語言文本集對比任務,本文提出了一個基于跨語言模型的技術框架,如圖1所示。
該框架主要包括三個部分:
1)跨語言模型預訓練:本文使用在多語言海量文本集上進行預訓練的跨語言模型,通過進行針對性跨語言預訓練任務,獲得強大的跨語言遷移與多語言表示能力。2)跨語言模型微調:針對數字經濟政策特點,本文在多個維度進行人工標注構建中文政策數據集并進行針對性微調,使模型具有在指定維度識別政策特征的能力。微調之后的跨語言模型能夠在多語言政策文本數據集上挖掘不同語言政策文本的指定特征,在多個維度上都具有超出基線方法的分類準確率。3)多語言相似度計算:微調后的跨語言模型能夠較好挖掘政策文本的相關特征,因此可以基于該模型對每個類別的政策文本集計算多語言相似度,從而分析每個特征維度上中美兩國的政策差異,實現對比分析。
2.3 跨語言模型
XLM-R 跨語言模型基于 RoBERTa 模型架構,在包含有 100 種語言的海量多語言語料庫CommonCrawl[21]上進行預訓練,使用了特定的跨語言預訓練任務 TLM[15] ,具有強大的跨語言遷移與多語言表示能力。因此,本文選擇XLM-R模型作為基座,將其強大的多語言能力遷移到政策領域實現對政策文本特征的挖掘。
XLM-R 模型的主體架構沿用了基于 Attention 機制的 Transformer 模型[22]。Transformer 模型由 N層的編碼器-解碼器對組成,通過編碼器將政策文本編碼成具有復雜語義表征的文本嵌入,再通過解碼器在指定的特征維度上將文本嵌人解碼成指定的標簽,如政策工具維度的政策工具類別或內生要素維度的數字經濟組成部分。編碼器、解碼器都使用了Attention機制,通過將輸入的政策文本構建為 Q (Query) K (Key) V (Value),為文本序列的不同部分賦予不同注意力權值,建模數字經濟政策文本的復雜特征:

其中, dk 為輸入政策文本轉化為向量的維度。
考慮到政策文本語義復雜,Transformer模型使用了多頭注意力層,同時構建多個Attention頭:
d(Q,K,V)=Concat(head1…headh)WOwhereheadi=Attention(QWiq,KWiκ,VWiV).
政策文本往往表意含蓄、含義復雜,通過Attention機制,可以很好地捕捉政策文本中字符的隱含關系,保證了預訓練模型的強大語義理解與表示能力。為訓練模型的跨語言能力,XLM-R 模型執行了三種預訓練任務:CLM(Causal Language Modeling)、MLM(Masked Language Modeling)、TLM(Translation Language Modeling)。
CLM為基于傳統語言模型使用Transformer對輸人文本序列進行建模;MLM任務為對輸人語句進行隨機遮蔽,模型將借助遮蔽上下文預測遮蔽的真實輸人。這兩種預訓練任務可以訓練模型對政策文本的底層語義解讀及特征挖掘能力。而TLM任務基于跨語言特點提出,針對中美政策文本對比存在的雙語情況,輸入進行隨機遮蔽的中英雙語句對,鼓勵模型利用源語言上下文和目標語言來預測遮蔽的真實值[15],從而將中英文政策文本投影到同一語義空間進行特征挖掘,消除不同語種帶來的語義鴻溝,能夠鍛煉模型挖掘更通用特征的能力。
2.4微調
為實現中美數字經濟政策的對比分析,本文定義了多個數字經濟特征維度,通過在指定維度微調預訓練跨語言模型,從而訓練模型在數字經濟特征維度識別政策特征的能力,進而實現數字經濟政策的跨語言對比分析。
2.4.1 政策分類
政府所發布的數字經濟政策往往會包括多個作用目標及干預方式,不利于直接分析。本文基于文本語法規則將完整政策文本進行切片,使每一條數字經濟政策切片可以對應到一個作用目標和一種干預方式,通過統計中美政府發布的所有政策切片的作用目標和干預方式,來對比分析兩國政府對各個作用目標的關注程度及所偏好的干預方式。因此,本文將數字經濟政策進行切片,并基于相關研究,定義了 X (政策工具視角)、Y(內生要素視角)兩個維度,分別反映了數字經濟政策的干預方式和作用目標,通過將政策切片分類到 X 、Y的類別空間中,實現數字經濟政策的解析,來分析中美兩國的政策偏好。以下是所定義的兩個分類維度的具體介紹。
X 維度為政策工具維度,基于政策工具理論,將政策文本分為供給型、環境型和需求型。供給型政策工具是指政府通過財政、人力等多種資源的直接供給以促進數字經濟建設發展;環境型政策工具意味著政府綜合采用法律法規、金融稅收、政策倡導等措施為數字經濟發展營造良好發展環境;需求型政策工具旨在通過政府采購、服務外包等手段營造市場需求,以改善外部不確定性因素的影響[18]。
Y 維度為數字經濟內生要素維度,基于數字經濟基本組成部分,分類為數字產業化、產業數字化、數字化治理和數據價值化4個類別。數字產業化是指與信息通信產業相關的政策,如電信業、互聯網行業等;產業數字化是指與傳統產業應用數字技術所帶來的產出增加和效率提升部分相關的政策,包括工業互聯網、智能制造等融合型新產業新模式新業態;數字化治理是指與多元治理,以“數字技術 + 治理”為典型特征的技管結合,以及數字化公共服務等相關的政策;數據價值化是指與數據采集、數據標準、數據確權等相關的政策[23]。
2.4.2 微調流程
由于完整政策文本中存在部分定義性、解釋性的非政策語句,部分政策文本切片可能并非數字經濟政策。因此,本文首先對模型進行二分類微調,訓練模型識別數字經濟政策的能力。通過在中文標注數據集上進行微調,跨語言模型能夠有效識別中文、英文政策文本是否是數字經濟政策,進而篩選出真正的數字經濟政策切片。
更進一步,基于上文定義的分類維度,在中文標注數據集上進行 X 維度三分類、 .Y 維度四分類微調,訓練模型在政策工具維度(政府干預手段)和數字經濟內生要素維度(政策作用目標)識別政策特征的能力,進而對篩選出的數字經濟政策相關文本切片進行跨語言分類,得到 X 維度分類結果數據集 Ds={Ds1,Ds2,Ds3},Dt={Dt1,Dt2,Dt3} 和 Y 維度分類結果集 Ds={Ds1,Ds2,Ds3,Ds4},Dt={Dt1,Dt2,Dt3,Dt4} 。通過統計分類結果數據集中各個維度政策切片的數量,可以對比分析中美兩國數字經濟政策環境的異同。 X,Y 對應的類別標簽如表1所示。
2.5 多語言相似度計算
為了進一步從語義上對比分析中美數字經濟政策異同,本文提出一種政策語義相似度度量方法,通過對比計算兩國在類別i上政策的相似度yi ,來評估兩國在哪種政策干預方式及數字經濟組成要素上最為相似或不同。

計算兩國全部政策切片相似度復雜度極高,
由于模型的分類概率反映了某條政策切片屬于該干預方式或組成要素的程度,本文提出可以基于模型的置信度,在類別 i 上選取置信度最高的K條政策切片來組成該類別的代表政策數據集 Ds1′,Dt1′ 。通過計算代表政策數據集 Ds1' Dt1 的相似度來得到兩國在該類別上的政策相似度:
yi=f(Dsi,Dti)=f(Dsi′,Dti′)
計算代表政策數據集的相似度的方法為采用遍歷算法實現 K*K 次政策切片之間的相似度計算并取均值:

計算得到的 yi 即可以反映兩國在 i 類別(政策干預方式或數字經濟組成要素)的政策相似程度?;谒蓄悇e計算結果,可以加權計算兩國的整體政策相似度 y ,其反映了兩國的數字經濟政策環境的整體一致情況:

ki 為類別 i 的對應權重,基于
的數據總量與 Ds?Dt 的數據總量占比得到,即兩國發布的類別i的政策切片數量在全部政策切片數量中的占比,反映了兩國對該類別政策的重視程度。
3實證研究
3.1 數據集
3.1.1 數據來源
本文數據來自中華人民共和國中央人民政府官方網站(https://www.gov.cn/)與美利堅合眾國國會官方網站(https://www.usa.gov/),檢索關鍵詞基于數字經濟內涵定義[24]。共獲取中文政策7496 條,英文政策9 691條。
3.1.2 數據標注
為對預訓練模型進行微調,本文隨機采樣了200條中文政策數據進行人工標注;同時,為測試遷移效果,采樣了100條英文政策數據進行人工標注。人工標注的結果為該條政策數據在 X 維度和 Y 維度的類別標簽。
3.2 評價指標
微調階段的政策分類是本文對數字經濟政策的主要解析方式,分類精確程度反映了本文的解析正確程度,直接決定了本文政策環境分析的準確性。本文使用準確率來評價微調任務的政策分類效果,其計算方式為

其中, ytrue 是測試數據的真實標簽序列, ypre 是模型預測的測試數據的標簽序列,函數 L 為0-1損失函數。
微調時,拆分 20% 人工標注數據集作為測試集,剩余作為訓練集;使用英文標注數據測試遷移分類效果。
3.3模型及參數設置
為展現本文模型對多語言政策文本的解析能力,本文選取機器翻譯 + 統計學習、機器翻譯 + 預訓練模型以及跨語言模型等多種經典方法作為基線模型:
1)機器翻譯+Logistic 回歸:使用 TF-IDF(詞頻-逆文檔頻率)[25]實現文本特征值的提取,使用Logistic 回歸建模擬合,使用機器翻譯模型BART[26]將英文政策翻譯為中文以測試遷移分類效果。2)機器翻譯十XGBoost 分類:使用經典的集成分類模型 XGBoost[2](eXtreme Gradient Boosting)進行擬合。3)BERT(base)[7」:英文預訓練的基礎 BERT模型,直接在中文標注數據微調并遷移分類英文數據。4)BERT(Chinese)[7]:中文預訓練的中文版 BERT模型,直接在中文標注數據微調并遷移分類英文數據。5)BERT(Chinese) + 機器翻譯:使用機器翻譯模型BART對英文政策進行翻譯實現遷移分類。在訓練時,本文采用了Adam 優化器訓練模型,初始學習率設置為0.0001,batch_size設置為8,最多訓練30個epoch,選取測試效果最好的模型作為訓練結果。
3.4對比實驗結果
表2展示了數字經濟相關政策二分類微調、 .X 維度三分類、Y維度四分類的測試性能對比:
對比可見,在多個維度上跨語言模型都具有更優效果。在Y維度上,單語言模型表現最佳的BERT(Chi-nese)在中文數據微調能夠達到 73% 的準確率,但由于其在中文數據上進行預訓練,不具有強大的英文理解能力,遷移到英文數據后只能達到 32% 的準確率,下降了 41% ;即使使用機器翻譯模型進行翻譯,遷移分類準確率也會下降到 48% ,下降 34% 。而本文使用的跨語言模型XLM-R直接對中、英文的聯合語義空間進行建模,將中、英文的對應代指映射同一實體上,不存在從英文到中文的語義偏差,在中文數據微調達到 76% 的準確率后,直接遷移到英文數據后仍然能夠達到 63% 的準確率,僅下降 13% 。通過上述結果,證明預訓練跨語言模型能夠較好應用在數字經濟政策跨語言分類上,即本文的模型可以有效實現數字經濟政策識別與解析。

3.5中美政策特征對比
基于本文模型,在政策工具、內生要素兩個維度對中美數字經濟政策進行識別并統計,結果如表3所示:

根據分類結果,對比中美數字經濟政策環境差異:
1)從政策工具維度的視角上看,美國政府更傾向于使用需求型政策工具,通過政府采購、服務外包等手段營造市場需求,來促進數字經濟建設;而中國政府更傾向于使用環境型政策工具,通過法律法規、金融稅收等措施為數字經濟發展營造良好發展環境。
2)從數字經濟內生要素維度的視角上看,美國政府較多發布數字產業化政策,對應了其數字經濟已處于成熟期的現狀;最少發布數字化治理政策,說明美國政府對數字政府建設的重視程度較低。中國政府最多發布產業數字化政策,對應了我國數字經濟尚處于蓬勃發展、各行業都在積極開展數字化的現狀;最少發布數據價值化政策,表現了我國對于充分發揮數據價值的重視程度還較弱,這也與我國數字經濟發展時間相對較短有關。
對比來看,美國政府在數字產業化方面更為成熟,在數據價值化方面更重視,符合其數字經濟總生產值世界第一的現狀;我國政府在產業數字化與數字化治理方面更加積極,展現了彎道超車的發展目標,符合中國數字經濟發展速度較快的現狀。
3.6中美政策相似度對比
基于多語言相似度計算模塊,圖2從政策語義的視角對比分析中國數字經濟政策和美國數字經濟政策在同一維度、同一類別下的政策相似度,以分析中美兩國在特定目標、特定方法下的政策異同程度。
從政策工具視角來看,中美之間在供給型政策上的相似度是相對最低的,這是因為供給型政策需要政府通過供給資源直接促進數字經濟發展,而提供何種資源、如何提供資源等問題與實際國情直接相關。
從數字經濟內生要素視角來看,中國數字化治理政策與美國相似度最低,在數字產業化方面相似度較低,而在產業數字化、數據價值化等方面相似度較高。這說明我國在較為積極的兩個內生屬性方面政策獨特性較高,具有獨特的政策優勢;而在相對劣勢的兩個方面同美國相似度較高。兩者結合,說明我國在發展數字經濟、優化數字經濟政策環境還需要充分結合實際國情,制定適應國情、具有獨特性的相關政策。
4總結與建議

本文針對中美數字經濟政策對比問題,提出了一個新的多語言文本集對比任務,并提出了基于跨語言模型的政策文本對比研究框架。與傳統方法相比,本文的主要創新點有:1)基于跨語言模型,實現了中、英文聯合語義空間的直接建模,最大程度減小了從中文語義空間遷移到英文語義空間帶來的語義偏差,實現了更準確的數字經濟政策解析;2)結合預訓練、微調及相似度計算等多個任務,實現了海量數字經濟政策文本的全自動分析,無需人工參與,從而使直接分析全量數字經濟政策成為可能;3)結合數字經濟政策相關研究,從政策工具、數字經濟內生要素、政策相似度等多個維度進行分析,全方位對比中美數字經濟政策環境差異。
通過對1.6萬中美兩國數字經濟政策文本進行自動化分析,展示了中美兩國數字經濟政策環境的差異,得出了如下結論:1)美國政府在數字產業化方面更成熟,在數據價值化方面更重視;2)中國政府在產業數字化與數字化治理方面更加積極;3)美國政府更傾向于通過政府采購、服務外包等手段營造市場需求,來促進數字經濟建設;而中國政府更傾向于通過法律法規、金融稅收等措施為數字經濟發展營造良好發展環境;4)中國在數字產業化、數據價值化方面還需重點關注,結合實際國情,制定適應國情、具有獨特性的相關政策。
本文通過對海量政策文本的實證分析,對我國數字經濟發展提出四點政策建議:1)加大數字產業培育、監管力度。基于對比結果,我國數字產業化政策還有所不足。隨著我國數字經濟的發展,政府需要把握好從“做大\"到“做強\"的心理變化,借鑒美國數字產業治理經驗,營造更好的政策環境。尤其針對數字產業培育,可以營造市場需求,打破數字產業壟斷現狀,扶持更多有潛力的中小企業出頭。2)提高對數據的重視,增加數據價值化手段。基于對比結果,我國最少發布數據價值化政策。作為數字化較晚的發展中國家,對數據價值存在忽視是情有可原的。但是,隨著我國數字經濟規模不斷擴大,需要快速提高對數據的重視,避免丟失大量兼具價值與獨特性的數據。3)充分借鑒發達國家的數字經濟政策經驗,促進我國數字經濟政策環境多元化。相較于美國,我國數字經濟政策更加集中,不同類別比例差異更大,說明我國數字經濟政策的多元性還相對較弱。美國等發達國家數字化較早,可以充分借鑒其經驗,學習其的管理和推動辦法,促進我國數字經濟政策環境向成熟化、多元化邁進。4)結合實際國情,打造中國式數字經濟發展道路?;谙嗨贫葘Ρ冉Y果,說明要進一步結合國情,因地制宜制定相關政策,充分發揮數字治理和政治體制優勢,營造更中國化的數字經濟發展環境。例如,充分發揮我國集中力量辦大事的體制特點,積極調動廣大勞動人民的積極性,更快更好建設中國式數字經濟。
本文研究仍存在一些局限性,主要包括以下兩點:1)由于人力及時間有限,數據標注的數量較少,在一定程度上限制了模型的分類能力,本文使用的模型雖然是測試效果最優的跨語言模型,但性能還存在一定可提升的空間;2)政策文本的分類由人工基于相關研究確定再進行人工標注,具備一定的人為傾向,不是完全由政策文本本身特征得到的,可以考慮結合大語言模型實現更客觀的特征挖掘。
參考文獻:
[1]師博,常青,張良悅.中國數字經濟發展的政策演進與理論研究脈絡[J].技術經濟,2022,41(8):1-10.SHIB,CHANGQ,ZHANGLY.ThepolicyevolutionandtheoreticalresearchcontextofthedevelopmentofChina’sdigitalecooyTechnology Economics,2022,41(8):1-10.
[2]徐曼,鄧創,劉達禹.數字經濟引領經濟高質量發展:機制機理與研究展望[J].當代經濟管理,2023,45(2):66-72.XUM,DENGC,LIUDY.Tedigitaleconoyadingthehigualtyevelopmentoftheeooy:mechanismsandresearchprospets].
[3]鐘春平,劉誠,李勇堅.中美比較視角下我國數字經濟發展的對策建議[J].經濟縱橫,2017(4):35-41.ZHONGCP,IUC,IYJ.CountermeasureproposalsfothedevelopmentofCina’sdigitalconomyromthePerspectiveofChina-UScomparison[J].EconomicReview,2017(4):35-41.
[4]ROTHWELLR,ZEGVELDW.Reindusdalization and technology[J].Logman Group Limited,1985,59:403-432.
[5].邱均平,鄒菲.國外內容分析法的研究概況及進展[J].圖書情報知識,2003(6):6-8.QIUJP,ZOUF.AnovervieandprogressofteresearchoncontentanalysisetodabroadJ]KnowledgeofLibraryandInforatioScience,2003(6):6-8.
[6]王乃鈺,葉育鑫,劉露,鳳麗洲,包鐵,彭濤.基于深度學習的語言模型研究進展[J].軟件學報,2021,32(4):1082-1115.WANGNY,YEYX,LIUL,etal.Research progressoflanguage modelsbasedondeplearning[J].JournalofSoftware,221,32(4):1082 -1115.
[7]CONNEAUAKLKLN,talUupervisedo-lgualeprestatiagataleC/ceigofthe58hAnnual Meeting of the Association for Computational Linguistics. Seattle,2020:8440-8451.
[8]PIRESTSCHLINGERE,ARRETTED.HowmultlingualisultilingualBERT[C]//Proceedingsofte57thAnualMetingoftheAssociation for Computational Linguistics. Florence,2ol9:4996-5001.
[9]YANQ,AVIA,EVANSJGtalMinig multligualostroughcasiationandtranslatonC]/ProeigofA.MenPark,CA:AAAI,2004.
[10]劉諷,章成志.多語言文本表示研究綜述[J].現代圖書情報技術,2010(6):33-41.LIUS,ZHANGCZAreviewofresearchonmultlingualtextrepresentationJ].NewTechnologyofLbraryandInformatioService,1(6):33-41.
[11]彭曉婭,周棟.跨語言詞向量研究綜述[J].中文信息學報,2020,34(2):1-15,26.PENGXY,ZHUDeveofsrchoslaldeorsJoalofeIfoairessng):15,26.
[12]UPADHSUUERCetal.CossalodelsofwordmbedinganemprialomparsoC/54thletigoftheAssciatioforComputationalLigustics,ACL016AsociationforComputatioalLingustcsACL)Berlin,o16:61670.
[13]PETERS ME,NEUMANNM,IYERM,etalDepcontextualizedwordrepresentations.CoRRabs/180205365(2018)J]rXieprintarXiv:1802.05365,1802.
[14]KENTOJDWCOUNOVALK.Bert:PretraiingofdeeirectioaltrasforersforlangageuderstandingC/Prodingsof naacL-HLT.Minneapolis,2019:4171-4186.
[15]LAMPLEG,CONNEAUA.Croslinguallanguage modelpretrainingDB/OL].2024-11-02].htp://arxig.org/abs/1901.7291.
[16]LIUY,OTGOLNetaloberta:aobstlyptimizedbertpretraiingappoachD/L]22512]tps:/rivpdf/1907.11692.
[17]馬文峰.試析內容分析法在社科情報學中的應用[J].情報科學,200(4):346-349.MAWF.Analyisoftlatiofottalyssetdileaefoatioo):4.
[18]ROTHWELROYEELW.Anasessmentofgveentiovatiopolicies]eviewofpolicyresearch984,(3/4):644.
[19]李春發,劉煥星,胡培培.政府分類規制、智能平臺賦能與藥企CSR策略演化[J].復雜系統與復雜性科學,2022,19(2):17-30.LICF,IUHX,HUventsiatiatiotellgpapntdeevoofRsrsfamaceutical enterprises [J]. Complex Systems and Complexity Science,2o22,19 (2):17-30.
[20]單曉紅,龐世紅,劉曉燕,等.基于事理圖譜的政策影響分析方法及實證研究[J].復雜系統與復雜性科學,2019,16(1):74-82.SHAN XH,PANG SH,LIUXY,etal.Amethodandempiricalstudyonpolicyimpactanalysisbasedoneventlogicgraph[J].ComplexSys-temsand Complexity Science,2019,16(1):74-82.
[21]WENZEK G,LACHAUX MA,CONNEAUA,etal.CCNet:extracting highquality monolingual datasetsfrom web crawldataDB/OL].[2025-05-12]. https://arxiv.org/pdf/1911.00359.
[22]VASWANA,HZEERNPARMARN,etal.AtenionisallyouneeDB/OL].2024-11-02].tp://arxiv.rg/abs/706.07627.
[23]周毅,陳必坤,馬江華等.基于文本量化分析的我國公共數據治理政策發展研究[J].情報學報,2023,42(4):436-452.ZHOUY,CHEK,J,etal.Reseacotheevelopentofinaspublicdatagoveaneliciesbsedotetuantitaialyis[J].Journal of The China Society for Scientific and Technical Information,2O23,42(4):436-452.
[24]李長江.關于數字經濟內涵的初步探討[J].電子政務,2017(9):84-92.LICJ.Apreliminary explorationof theconnotationof the digitaleconomy[J].E-Government,2ol7(9):84-92.
25]SPARCKJOAsatitialpretatofseidtsliatial]alfetati7:11 -21.
26]LEWISetalartsieefualageeatisdprehension[DB/OL]. [2025-03-12]. htps://arxiv.org/pdf/1910.13461.
[27]CHENT,GUESTIC.Xgboost:asalabletreebostingsystemC//Proceedingsofthe2ndAcSigkddInternatioalConfereceoKnowledge Discovery and Data Mining. San Francisco,2o16:785-794.
(責任編輯李進)