






摘 要:[目的/意義]戰略性新興產業布局需要部署基礎科學研究和技術創新活動的協同,而探測科學—技術關聯正是挖掘科技協同的重要途徑。[方法/過程]針對科學—技術系統多尺度非線性關聯特征,本研究從復雜網絡與時間序列相互表征視角出發,構建人工智能領域的科學—技術知識網絡,設計“網絡—時間序列”等價轉換方法,將科技知識網絡顯化為非線性時間序列,采用知識網絡距離、序列同步性指標測量科技協同演化。[結果/結論]本文的研究方法能夠挖掘科學—技術系統的非線性動態關聯;分析發現人工智能領域科技協同演化關系趨于緊密,且由于科學研究細化和技術分化效應,科學與技術知識結構差異性逐步增強。
關鍵詞:科學—技術關聯;知識網絡;時間序列分析;協同演化;人工智能
DOI:10.3969/j.issn.1008-0821.2025.08.005
〔中圖分類號〕F276.44;G252.8 〔文獻標識碼〕A 〔文章編號〕1008-0821(2025)08-0057-13
Multidimensional Coupling and Co-evolution of Frontier
Science and Technology in Emerging Industries
——A“Network-to-Time Series”Equivalence Transformation Perspective
Zhang Yujie1,2 Ba Zhichao1,2* Meng Kai1,2 Liu Leilei1,2 Wang Liuhong1,2
(1.Research Institute for Data Management amp; Innovation,Nanjing University,Suzhou 215163,China;
2.Laboratory for Data Intelligence and Interdisciplinary Innovation,Nanjing University,Nanjing 210023,China)
Abstract:[Purpose/Significance]The layout of strategic emerging industries requires the coordination between basic scientific research and technological innovation activities,and the exploration of the science-technology(Samp;T)linkage is a crucial pathway for uncovering Samp;T synergies.[Method/Process]In response to the multi-scale nonlinear associative characteristics of Samp;T systems,this study constructed an Samp;T knowledge network in the field of artificial intelligence from the perspective of complex networks and time series mutual representation.The study designed a“network-time series”equivalence conversion method,representing the Samp;T knowledge network as a nonlinear time series.The paper measured the evolution of Samp;T synergies using knowledge network distance and sequence synchrony indicators.[Result/Conclusion]The proposed method uncovered the nonlinear dynamic associations within Samp;T systems.The analysis revealed that the Samp;T synergy in the field of artificial intelligence became increasingly closer,while due to the effects of scientific research specialization and technological differentiation,the disparity between scientific and technological knowledge structures gradually intensified.
Key words:science-technology linkage;knowledge network;time series analysis;co-evolution;artificial intelligence
科學與技術協同創新是推動戰略性新興產業創新發展的核心動力[1]。科學系統與技術系統正是通過內部知識、要素的實時適配,獲得相互之間的互動與協同,進而實現溢出擴散和動態耦合,以促進科技創新不斷涌現。然而,許多產業在發展實踐過程中存在科技成果轉移轉化的瓶頸,包括由于知識擴散和技術轉移渠道不暢導致科學研究成果無法及時應用于技術實踐,以及諸多技術問題因缺少基礎研究支撐而得不到有效解決等[2]。盡管這種現狀是由諸多復雜原因導致,但與產業中科技資源的“孤島現象”、科學與技術之間知識流動不暢與協同性較低存在一定關系。因此,針對科技成果向現實生產力轉化不力、不順的“痼疾”,需要深入研究科學—技術關聯互動與協同創新機制,以提升科技研究成果的實踐支撐力。
科學文獻是科學研究成果的重要體現,技術專利是技術創新的重要載體。對科學文獻與技術專利數據的關聯挖掘,成為目前深入探究科學與技術關系最直接、最有效的方法[3]。現有研究已提出多種科學—技術關聯探測方法[4-8]。然而,當前研究更多通過統計某些特征項在論文和專利中的數量分布特征以衡量科學與技術關系,難以反映科學—技術知識結構關聯,難以揭示兩者知識結構生成或演化的驅動機制。從復雜網絡視角,基于科學—技術知識網絡相似、距離測度方法能夠從節點和關系層面計算科學—技術網絡結構拓撲關聯、協同演化和動力耦合[8-9]。
科學與技術都有著各自的知識結構演化軌跡,同時相互依存,共同發展,通過知識傳遞、吸收與轉移形成多重關聯。科學創新是科學知識結構中知識單元的增長、重組和老化的自組織過程,技術創新則體現為技術知識結構中技術元素的增長、組合和變異過程[10-11]。兩者的發展均依賴知識單元和關聯的動態變化。科學與技術的知識網絡反映了這些變化特性,研究其耦合關聯可揭示知識增長的關鍵路徑、演化特征和互動模式,從而發現協同創新的路徑與趨勢。然而,僅基于知識網絡的關聯分析難以精細量化科學與技術在耦合方向、振幅和步調同步性等方面的動態關聯。
復雜網絡和時間序列是描述現實復雜系統的兩種典型范式[12]。復雜網絡作為一種圖結構,描述系統內各部分之間相互作用和動態行為;而時間序列描述某一系統現象的時間結構性和時間相關性,反映在不同時間點上的狀態變化和瞬時特性。科技系統的復雜性決定在單一范式下僅能捕捉描述科學—技術關聯的單一維度或部分特征。而尋求兩種范式等價轉換和相互表征方法,進而從復雜網絡和時間序列雙重視角全面分析科學—技術系統關聯的非線性、協同性,能夠解析特定產業領域內部科學認識的“知”與技術實踐的“行”的相互轉化和協同創新過程。因此,本研究旨在從復雜網絡與時間序列等價轉換與相互表征視角,分析戰略性新興產業領域科學系統與技術系統的網絡拓撲距離、時間序列同步及其演化路徑耦合關系。
1 相關研究工作
1.1 科學—技術關聯探測方法
科學與技術之間存在非線性相互作用,表現為各種關系不再是簡單疊加,而是通過相互制約、耦合形成全新的整體協同效應。為有效挖掘這種相互作用,相關學者提出多種方法探測科學與技術之間的關聯,主要通過量化科學文獻與技術專利之間關系,包括引用、作者—發明者、類目映射、主題詞和網絡關聯等展開探索。
1)基于引用關系的科學—技術關聯探測。該方法能夠追蹤兩者之間知識流動與擴散,進而計量和評價彼此作用于對方的貢獻程度[4]。其中,專利引文分析被廣泛認為是進行科學—技術關聯探測較為有效的方法。專利引用論文分析[13]、論文引用專利分析[14]、論文—專利混合共被引分析[15]3種引用方式被應用于科學—技術關聯探測,通過量化科學關聯度(Science Linkage,SL)[16]、科學強度(Science Strength,SS)[17]、技術循環周期(Technology Cycle Time,TCT)[18]和當前影響指數(Current Impact Index,CII)[17]等指標測量技術創新程度以及與前沿科學、高新技術之間的關聯程度,顯性和定量分析科學與技術對彼此創新的推動作用。
2)基于作者—發明人關系的科學—技術關聯探測。主要通過發現科學研究者和技術專利創造者的雙重角色揭示科學—技術關聯,是一種從科研主體和發明主體層面認知“科學—技術關系”的方法。科學研究者直接參與專利發明往往更了解技術創新亟需解決的科學問題,發明人直接參與科學研究也更清楚研究方法和動向。為此,相關學者通過分析作者—發明人關聯的數量分布[19]、演化特征[20]、角色與作用[21]、科技產出[22]等指標,揭示從事科學活動或技術研發對科技產出的影響。Wang G B等[23]通過比較學術型發明人和非學術型發明人在論文產出、被引頻次、H指數的差異,表明從事科學研究對發明人的專利產出具有正向作用。
3)基于類目映射關系的科學—技術關聯探測。該方法主要通過知識組織體系建立科學文獻與技術專利之間的有效鏈接。鑒于分類表或主題詞表作為學科領域最具代表性的概念類聚組織體系,相關學者[6,24-25]嘗試通過建立學科分類體系和專利IPC分類體系之間的類目映射,以反映科學—技術的知識關聯和結構對應關系。賴院根等[24]針對當前科學文獻與技術專利整合性較低的問題,提出建立《中國圖書館分類法》與《國際專利分類表》的類目映射模型。Verbeek A等[6]將非專利引文所屬期刊的學科分類與專利的IPC分類之間的對應關系,表示科學研究方向與技術創新方向之間的關聯。
4)基于主題或主題詞關系的科學—技術關聯探測。為從科技文獻文本研究主題和內容角度揭示科學與技術關聯,相關學者[26-28]提出通過機器學習、數據挖掘方法發現科學與技術知識體系主題詞或主題關聯,以揭示科學—技術之間的語義關聯。孫曉玲等[27]基于知識基因發現算法識別科學與技術知識進化、突變中的關鍵知識基因,進而借助社團發現算法對兩者關聯趨勢進行建模,探究科學向技術的轉化以及技術對科學的推動作用。劉自強等[29]利用社區探測算法識別論文和專利中研究主題,構建融合主題詞共現、主題詞—作者共現和主題詞—引用3種關系,建立科學與技術的主題關聯度。
5)基于復雜網絡的科技互動檢測方法。由于科學—技術系統之間復雜的非線性關系,主題建模很難深入挖掘科技互動的結構關聯。基于復雜網絡的科技互動檢測方法被許多學者采納,將科學與技術知識結構體系轉化成知識網絡模型進行表達,從微觀層面定量分析科學與技術之間知識結構關聯。Ba Z C[2]、Meng K等[8]從知識網絡耦合角度探測科技互動,從節點耦合和邊耦合兩個維度量化科學—技術知識網絡結構耦合。許海云等[30]以知識網絡結構作為分析視角,分別構建顛覆性技術的科學、技術、產業三層知識網絡,利用整體網絡屬性關聯和網絡社區相似度算法來實現知識子網間的關聯測度。
上述研究方法根據科學文獻與技術專利數據之間存在的不同客觀關系探究科學與技術的關聯,但不同方法存在著一定的局限性。專利引用論文或論文引用專利方法僅能單向反映影響,論文—專利混合共被引雖可雙向探測,但引用關系稀少且受引用動機、時間積累等干擾,難揭示前沿科學—技術關聯。作者—發明人關系探測依賴大量雙重角色研發主體,但數量有限且行為穩定性存疑。類目映射方法因IPC分類粗粒度且與學科分類不完全對應,難準確反映科學與技術知識關聯。另外,上述方法主要揭示科學與技術關系的數量特征,并未深入科學文獻的文本內容,來探索科學與技術在主題和內容層面上的關聯。基于主題詞關聯法能夠從語義層面揭示科學與技術的知識關聯,但難以反映科學—技術知識結構關聯,而基于知識網絡關聯方法難以準確量化科學—技術在方向位移、振幅頻率、步調同步等方面的細粒度關聯。
1.2 復雜網絡與時間序列相互表征方法
從復雜網絡轉換為非線性時間序列方法主要分為確定性方法和隨機性方法兩類[31]。
1)確定性方法是以特征分解為基礎的多維尺度分析[32]。這類方法通常需要利用網絡中節點的特定排序,并依據網絡的鏈接特性為節點分配數值。例如,Haraguchi Y等[33]使用經典多維尺度分析實現從復雜網絡到時間序列的轉換,并通過重構網絡驗證轉換方法的可逆性。多維尺度分析方法尤其適合處理小世界網絡類型[34],在處理其他類型的網絡時可能會有局限性。確定節點排序的一個常見做法是簡單地使用鄰接矩陣的自然行或列順序。這種方法雖然能較好地保持節點間的相對距離關系,但當網絡規模增大時,特征分解所需的計算時間也會顯著增加。
2)隨機性方法是基于轉移概率并通過隨機游走方式確定節點的順序。這類方法通過模擬一系列統計意義上的隨機過程來捕捉網絡的動力學特性[31]。例如,Weng T F等[35]提出一種基于有限記憶隨機游走的轉換方法,將無標度網絡轉換為非線性時間序列,并且發現不同節點度混合模式的網絡在轉換成時間序列后表現出不同的自相似特征。隨機游走不同規則會產生具有不同特性的序列,這些規則反映網絡內部轉移概率。隨機游走的策略較為豐富,但不同的策略對應的序列差異明顯,所以策略的選取往往依賴于先驗知識[36-37]。
綜上所述,確定性方法和隨機性方法具有各自的優勢。其中,隨機性方法以概率統計為基礎,能夠以較高的效率獲取網絡整體結構特征。此外,該方法隨機游走策略具有較強的可擴展性,通過改進隨機游走策略,成為研究科技知識網絡多維耦合與協同演化的有力工具。通過構建與分析科學—技術知識網絡,能夠在兩種模式下同時探索科學與技術的協同關系,不僅揭示科學與技術之間的復雜網絡互動,還能挖掘科學技術在二維空間中的同步演化行為。
2 基于“網絡—時序”等價轉換的科技關聯探測
本研究從“網絡—時序”等價轉換視角探測新興產業領域前沿科技多維耦合與協同演化,研究框架如圖1所示。首先,采集新興產業領域科學文獻與技術專利數據,通過關鍵詞抽取算法提取科學文獻與技術專利中關鍵詞,并利用相似度計算進行知識單元自動對齊;其次,建立科學技術知識單元的共現關系,構建時序的科學與技術知識網絡;第三,提出一種適用于科學—技術知識網絡的“網絡—時序”等價轉換方法,將科學—技術知識網絡表征為非線性時間序列;最后,采用知識網絡距離、知識序列同步性指標計算科學—技術協同演化特征,實現對科學—技術多維耦合與協同演化的雙向測度。
2.1 科學—技術知識網絡構建
2.1.1 科技知識單元抽取
使用關鍵詞抽取算法分別識別科學論文與技術專利中的知識單元。本研究選擇5種較為主流的關鍵詞抽取算法,分別是:TF-IDF、TextRank、RAKE、Yake、KeyBert。考慮到關鍵詞效果會直接影響到最終科學與技術關聯測度的準確性,事先人工標注一部分數據中的關鍵詞,對比不同的抽取算法在數據集上的效果,然后選擇最優的抽取算法應用于全部數據。為細粒度評估不同算法的抽詞表現,主要選擇4種評測指標:①完全匹配(Exact Matching),分別計算P@5、R@5、F@5值;②近似匹配(Approximate Matching),考慮關鍵詞的不同字符表達,評估標注關鍵詞和生成關鍵詞之間的語義相近性,采用余弦相似度(Cosine Similarity)進行近似匹配;③關鍵詞多樣性(Diversity),參考現有研究[38-39],使用self-BLEU值進行評估多樣性;④時間消耗(Time Consumption),比較不同算法時間消耗情況,以毫秒為單位評估。
2.1.2 科技知識單元對齊
由于科學概念與技術術語之間存在不同程度的粒度不匹配、表達方式差異等問題,需對兩種知識單元進行粒度匹配和知識元統一描述。本研究主要選取一種無監督的方法,該過程包括如下步驟:①關鍵詞清洗;②構建關鍵詞笛卡爾積組合并計算相似度;③設置相似度閾值,當關鍵詞相似度超過閾值時,將其視為相同的實體;④選取頻率最高的關鍵詞作為標準關鍵詞,用于替代其他關鍵詞。
2.1.3 科技知識網絡構建
遵循科學計量學中“共現”概念,關鍵詞共現網絡同時關注知識成分和知識傳播的結構,能夠將復雜的知識進行關聯。科學文獻和技術專利中的關鍵詞被視為知識網絡的節點,關鍵詞共現關系視為連邊,基于該思路,分別構建科學論文和技術專利的共現知識網絡,并按照年份劃分時間周期,構建不同年份下的科學—技術知識網絡。
2.2 “網絡—時序”等價轉換與相互表征方法
科學—技術知識網絡轉換為時間序列方法是對現有隨機性方法的拓展[35]。該方法主要采用有限記憶元隨機游走生成時間序列,在選擇下一步游走節點時會考慮最近訪問過的節點的度數,并將游走節點軌跡作為時間軸,游走節點度作為變動幅值。將該方法運用到科學—技術知識網絡中需進行一定適應性調整。真實的知識網絡非常稀疏,不僅是無標度的,且具有較為分散組件數,意味著網絡中許多節點具有很少的連接或者獨立存在,可能會導致轉移概率在分母上的和非常小,從而使得節點游走過程變得不穩定。此外,真實知識網絡節點很多(幾萬到十幾萬不等),而由于存在稀疏性,節點之間的連接較少,導致隨機游走在較短的時間內重復訪問局部相同的知識節點,難以全面揭示網絡全局屬性。因此,本研究提出一種改進的方法以適應科學—技術知識網絡。
首先,引入一種長程跳轉機制。即在每一步中,以概率pteleport跳轉到網絡中任意節點,而不是僅限于當前節點的鄰居,這有助于避免游走時長時間局限在網絡的某個局部區域,從而促進整個網絡的全面探索。該機制可以表達為:定義跳轉概率pteleport,在每一步游走中,從整個網絡中隨機選擇一個節點作為下一個節點,否則就從當前節點的鄰居中選擇下一個節點。形式化為式(1):
next_node=random_nodewith probability pteleport
neighbor_nodewith probability 1-pteleport(1)
其次,采取動態調整記憶長度策略提高靈活性和效率。動態調整記憶長度意味著根據隨機游走的上下文或歷史信息調整游走者記住的步數,能夠根據游走節點在網絡中的位置和經過的節點類型靈活調整其行為。定義記憶長度調整規則后,可在游走過程中根據規則調整記憶長度。記憶長度τ是指游走者記住的最近訪問節點的數量,如果游走者在最近的τmax步中訪問的唯一節點數少于τmax/2,則增加記憶長度(最多到τmax),否則減少記憶長度(最少到τmin)。形式化為式(2):
τnew=min(τmax,τ+1)if|unique(Vt-τmax:t)|<τmax2
max(τmin,τ-1)otherwise(2)
其中,Vt-τmax:t表示從時間t-τmax到t的訪問節點集合。這兩種策略使隨機游走過程更有效地探索大規模稀疏的科學—技術知識網絡,避免長時間在局部區域徘徊,同時根據網絡的特性和游走的狀態靈活調整行為,從而更全面地反映科學—技術知識網絡結構。
為比較改進方法與已有方法的性能差異,選擇兩種基線方法進行對比。基于經典多維尺度變化的方法(CMDS Method)和基于有限記憶元隨機游走的方法(FARW Method)。通過在合成網絡和真實知識網絡上進行比較,進而對比不同網絡類型的穩健性。合成網絡選擇隨機網絡、小世界網絡和無標度網絡,為有效地控制變量,為每個合成網絡生成相同數量節點。真實網絡選擇在構建的時序科學—技術知識網絡上隨機采樣進行比較。采用以下4個指標展開不同方法間有效性評估:
1)揭示網絡結構屬性的能力。每種網絡類型具有不同的拓撲結構和動態特性,這些特性在轉換過程中會被映射到時間序列上形成各自獨有的特征。基于該指標比較3種方法生成的時間序列是否能夠可靠地反映網絡關鍵結構屬性。
2)反映網絡動態的能力。多尺度熵(Multi-Scale Entropy,MSE)能夠從復雜性角度反映網絡動態行為。MSE計算可簡單表示為式(3):
MSE(τ)=SampEn(m,r,Y(τ))(3)
其中,SampEn(m,r,Y(τ))表示在尺度τ上,給定嵌入維度m和相似容限r的樣本熵。量化和比較不同網絡類型生成的非線性系統多尺度熵,分析3種方法在網絡結構導致更復雜或更可預測的動態行為,進而了解這些網絡結構特性如何影響其復雜性。
3)時間消耗表現。時間效率是一個重要的考量因素,尤其是在處理大規模科技知識網絡時,能夠直觀地反映出算法處理數據的速度,協助評估算法的復雜度和效率。比較3種方法在不同類型和不同規模的網絡(從100~10 000)生成的時間差異。
4)節點多樣性。比較不同方法生成節點的多樣性。節點的多樣性越高,表明該方法捕獲網絡結構的能力越全面。通過計算結果中唯一節點數量占網絡中總唯一節點數量的比例進行評估,如式(4)所示:
Diversity=Set(time_series_nodes)Set(network_nodes)(4)
其中,Set(time_series_nodes)表示方法生成結果中唯一節點的數量,Set(network_nodes)表示整個網絡中唯一節點的數量。
2.3 科學—技術協同演化測度
為全面地測度科學技術在結構和時序方面的耦合度,從時間序列和知識網絡角度并行測度科學—技術知識耦合與協同演化行為。基于演化同步性[40]指標測度所生成的科學與技術時間序列之間協同演化,進而發現科技關聯在不同階段的同步性。演化同步性能夠反映在某一特定年份內科學和技術序列是否表現出同步變化,即這兩個系統狀態變化在各自的鄰域中是否同步。當兩個序列在同一時間段內顯示同步變化的特征,則認為科學技術系統在給定時間域下具有較高的同步性。這有助于觀察科學技術的協同工作方式、特定條件下功能連接,以及如何在動態環境中共同演化。利用Synchronization Likelihood(SL)[41]作為測度指標。SL是一種基于時間序列分析的統計方法,用于評估兩個系統在演化中的同步性,如式(5)所示:
SL=1N∑Ni=1Pi(5)
其中,N表示所生成的科學技術序列的長度,Pi表示第i個序列下同步概率。SL值越小,表示兩個序列在給定參數下具有較高的同步可能性,意味著兩個系統表現出高度協同的演化行為。而較大的SL值解釋為這兩個系統在觀測期間的協同演化程度較低,或者相互影響較小。
針對科學—技術知識網絡的結構耦合,時序科學與技術知識網絡距離測度可視為網絡比較或者圖同構問題的擴展,本研究使用Degree Divergence算法進行計算。Degree Divergence考慮每個知識網絡的度分布狀態,通過比較兩個網絡度分布的JS散度測度網絡距離。給定科學知識網絡為G1,技術知識網絡為G2,其對應的度分布分別為概率分布P和Q,則JS散度定義為式(6):
JS(P‖Q)=12(KL(P‖M))+12(KL(Q‖M))(6)
其中,KL(P‖M)和KL(Q‖M)分別表示G1和G2的度分布P和Q與它們的平均分布M之間的差異。這兩者越大,意味著各自的分布偏離其平均狀態的程度越大。JS散度值越大,表示兩個網絡的度分布差異越大,即科學與技術知識網絡之間的結構差異越大,說明它們在結構耦合層面的相似度越低。通過計算Degree Divergence指標,能夠分析科學—技術知識網絡在結構層面的差異性,進而評估其耦合程度。
3 人工智能領域實證研究
3.1 實證領域選擇
本研究以人工智能(Artificial Intelligence,AI)領域為例進行實證分析,人工智能包含基礎性的科學知識和工程性的技術知識,具有較為典型的科學技術融合特征。人工智能已在各個行業領域展現出巨大發展潛力,并在很多學科產生顛覆性的沖擊。AI領域科學論文主要從Web of Science數據庫獲取,技術專利來自USPTO專利數據庫。科學論文和技術專利分別采取關鍵詞檢索和IPC分類號檢索方式。基于本團隊前期研究基礎,分別構造AI領域科學文獻與技術專利檢索式,通過篩選2000—2022年的研究成果數據,最終得到論文794 083篇、專利141 902條。
3.2 知識單元抽取與對齊分析
本研究采用ChatGPT+人工校對的方式標注數據,以用于評估不同關鍵詞抽取算法的性能。從所有語料中隨機采樣230篇(每年論文和專利分別隨機采樣5篇以確保采樣均勻),然后用ChatGPT的API進行預標注,每篇文獻標注5個詞(標題抽取2個關鍵詞,摘要抽取3個),然后由3名博士研究生對ChatGPT標注結果進行人工校對,最終共標注1 150個關鍵詞。
不同算法在關鍵詞抽取的效果如圖2所示,本研究使用小提琴圖直觀地展示5種算法在4種評估指標上的表現,最終選擇RAKE作為科技知識單元抽取最佳算法,主要原因如下:在完全匹配指標(圖2(a))中,RAKE和Yake算法在F@5得分方面均表現優異,二者分數的集中值較高,中位數分數位于較高水平,并且在精確度上的得分分布有一部分超過60%,表明RAKE和Yake在知識單元精確度上具有顯著優勢,能夠滿足對準確性的要求。在近似匹配指標(圖2(b))上,RAKE的整體分布雖略有波動,但其得分集中在0.4左右,與其他算法接近。此外,盡管RAKE在時間消耗上不是最快的(圖2(d)),但相比Yake等算法,其處理速度更高效。綜上所述,RAKE算法在完全匹配上表現出色,在保持較高精確度的同時,其時間消耗相對適中,符合大規模批量處理需求。
基于RAKE算法分別從論文和專利中抽取關鍵詞,詞的范圍設定為2~3以確保詞的有效性。雖然N-gram設置為2~3,但結果中仍然包含類似research、analysis、method、system等表義很廣泛但無特殊意義的詞,所以二次預處理將詞范圍限定在2~3。最終從論文中抽取3 524 558個關鍵詞,專利中抽取609 963個關鍵詞。使用嵌入表示+向量搜索+相似度計算處理大量的關鍵詞消除知識元粒度不匹配的問題。這一環節中,閾值的設定決定知識單元對齊的粒度,過高的閾值可能限制相似術語合并,而過低的閾值可能將原本不同的術語錯誤地對齊。為此,本研究從數據中進行多次隨機采樣,然后多次調整閾值大小(閾值測試范圍為0.75~0.95),經過人工觀測、對比校驗,最終確定相似度閾值設置為0.9,將對齊輸出結果保存為JSON格式,最終將2 013 201個詞(去重)對齊到188 917個標準關鍵詞。知識單元對齊前后的部分結果如表1所示。
3.3 科技知識網絡構建與結構分析
構建每年的科學知識網絡和技術知識網絡,該網絡是無向的且不考慮節點權重和邊權重。去除度小于及等于1的節點和邊,并刪除自連接的邊以減少冗余。進一步統計每年科學知識網絡和技術知識網絡結構特征,包括節點數量、組件數量、平均度、度分布情況,如圖3所示。
圖3(a)~(c)分別展示科學與技術網絡的節點數量、組件數量和平均度變化(紫色為科學網絡,黃色為技術網絡)。在各子圖中,科學知識網絡各項指標都高于技術知識網絡,可能是由于原始數據中論文與專利數量差異造成的,因此重點關注二者隨時間變化趨勢。圖3(a)顯示科學和技術網絡節點數均上升,科學網絡從104級增長至105以上,增速顯著高于技術網絡;圖3(b)表明兩網絡組件數量均增加,科學網絡從約2 000增至8 000以上,技術網絡從約1 000增至4 000,組件增多反映網絡更加稀疏,節點趨于形成孤立群體,知識單元多樣化且存在大量潛在未發現的聯系。圖3(c)顯示科學網絡平均度從2000年的約4.5增至2022年的5.5以上,技術網絡從約3.5增至4以上,表明節點連接數增加,局部聯系更緊密,但因獨立組件較多,整體連通性仍較弱。
圖3(d)~(e)分別展示每年科學和技術網絡的度分布,使用雙對數坐標可視化。橫軸為節點度,縱軸為度的概率密度,黑線為度分布擬合。每個子圖展示特定年份中節點度與度概率密度的關系,表明大多數節點的度較小,且度概率密度隨度增加迅速下降。AI領域科學和技術網絡均呈現冪律分布,度高的節點占比低,大部分節點連接較少,符合無標度網絡特征。少數知識樞紐節點主導網絡,促進不同主題間的知識交流和傳播,而大多數節點保持知識多樣性。2000—2022年,網絡逐漸變得更為稠密,呈現知識累積特性,新增網絡傾向連接主導節點,符合無標度網絡的偏好依附性。
3.4 “網絡—時序”相互表征效果評估
知識網絡與時間序列相互表征方法在合成網絡和真實網絡上的對比實驗如圖4所示,其中子圖4(a)~(c)展示合成網絡上的結果。圖4(a)為隨機網絡結果,橫坐標為時間步數,縱坐標為振幅。隨機網絡中節點連接均勻,3種方法生成的序列表現為均勻波動。圖4(b)為小世界網絡結果,特征為短路徑長度和高聚類系數。改進方法和FMRW方法生成的序列體現小世界特性,表現為較快的變化周期和高度相關性,而CMDS序列則展現平滑波動,周期性較弱。圖4(c)為無標度網絡結果,特征為冪律度分布,少數節點連接度高。改進方法和FMRW方法生成的序列表現出復雜且不規則的動態,更符合無標度網絡特性,而CMDS方法產生的序列較為規則,雖然在局部出現劇烈變動,但這種趨勢和無標度網絡的二八分布并不吻合。子圖4(d)~(g)是在真實知識網絡上的表現,其中圖4(d)和(e)分別是科學知識網絡度分布以及生成序列,科學知識網絡來自2001年(節點22 849,邊50 408),顯示出二八分布。改進方法和FMRW方法生成序列符合這個特征,而CMDS生成序列更類似于隨機。圖4(f)和(g)分別是技術知識網絡度分布以及生成序列,技術知識網絡來自2008年(節點10 538,邊19 124),符合無標度特性,CMDS和FMRW生成時間序列要么是隨機波動,要么處于局部游走狀態,未能反映其網絡結構,而改進方法穩定地挖掘技術知識網絡的無標度屬性。總體而言,改進方法和FMRW方法在合成網絡中能夠有效捕捉不同類型網絡的結構特征,二者的差異主要體現在振幅上。對于真實知識網絡,改進方法能夠準確反映二八分布和無標度特性,而FMRW方法在真實網絡中的表現不穩定,尤其對長程跳轉敏感度低,容易陷入局部特征。
圖5展示網絡動態能力的多尺度熵分析。子圖5(a)~(c)分別呈現合成網絡上不同類型網絡的多尺度熵結果。圖5(a)顯示,隨機網絡的熵值變化平緩,復雜性較低;改進方法和FMRW的熵值波動較大,CMDS則較為平穩。圖5(b)表現小世界網絡的熵,短路徑加速節點擴散,小尺度復雜性較高,熵值隨尺度增大而上升,改進方法和FMRW較好地捕捉局部到全局的動態過渡。圖5(c)則描述無標度網絡的熵值變化,小尺度上呈現混沌特性,熵值上升,大尺度上趨于有序,改進方法和FMRW更能揭示無標度網絡的復雜性。圖5(d)和(e)分別展示科學和技術知識網絡的多尺度熵。CMDS在兩者上表現穩定,無明顯波動;而改進方法和FMRW在不同尺度上趨勢相似,科學網絡復雜度上升并逐漸平穩,技術網絡則表現出更強的波動性。兩者的差異可能源于隨機游走策略的不同。通過對非線性系統復雜度的比較,發現改進方法和FMRW具有相似的性能,能夠有效捕捉不同類型網絡的動態行為和復雜性。
為比較不同規模下時間消耗,合成網絡分別設置節點數量為100、1 000、10 000,每個節點規模下時間消耗(毫秒為單位)取隨機網絡(er_graph)、小世界網絡(ws_graph)、無標度網絡(ba_graph)三者平均值。對于科學知識網絡(sci_graph,10 538個節點)和技術知識網絡(tech_graph,22 849個節點),直接測量其時間消耗,結果如圖6(a)所示。FMRW速度最快,改進方法次之,由于引入長程跳轉機制和動態調整記憶長度策略導致游走過程中增加概率計算。而CMDS方法由于是計算密集型且內存需求高的過程,顯示出很高的時間消耗。通過計算3種算法的多樣性,游走步長設置為與網絡規模的大小一致,結果如圖6(b)所示。由于CMDS方法將整個網絡轉換為距離矩陣,導致所有節點都參與到時間序列中,默認多樣性為100%。改進方法與FMRW的方法具有明顯差異,在5種不同類型的網絡上,改進方法所生成時間序列多樣性比FMRW更高。在合成網絡上,改進方法多樣性超過50%,而FMRW方法約40%。在真實網絡上,科學和技術知識網絡都超過30%,二者幾乎持平。而FMRW方法僅為1.4%和0.5%。雖然改進方法與FMRW方法在合成網絡上的差距不大,但在真實網絡上二者拉開差距,差額幾乎超過30%,說明本研究提出的改進方法在真實的知識網絡上更具有適應性。
綜上所述,通過在合成網絡和真實網絡上的比較,改進方法具有兩方面優勢。其一,引入長程跳轉機制避免游走者局限于局部區域,生成的序列能夠穩定反映知識網絡的整體結構,并識別不同尺度下的多尺度熵變化。而CMDS生成的序列同質性強,難以反映網絡結構;FMRW對長距離跳轉不敏感,容易停留在無標度網絡的局部區域,捕獲整體結構能力不足。其二,改進方法通過動態調整記憶長度,能夠遍歷更廣泛區域,對識別真實知識網絡的時間序列有重要幫助;而CMDS雖然具有最高多樣性,但時間復雜度較高且難以準確反映網絡結構。
3.5 科學技術協同演化測度
基于上述分析,本研究將提出的方法應用于2000—2022年的所有科學—技術知識網絡。由于科學知識網絡和技術知識網絡的規模不同,采用二者規模的平均值作為步長,利用SL指標計算科技協同演化指數。通過相空間重構和KD-Tree加速鄰域搜索,最終得到圖7(a)所示的計算結果(藍線)。SL值反映人工智能領域科學與技術知識序列的協同演化變化。在2000—2005年,SL值較高(最低0.2089,最高0.3002),表明AI領域科學與技術協同性較弱,主要由于技術標準不統一和創新分散。2006—2010年,SL值下降至最低點0.1837,AI技術逐漸集中在機器學習等領域,協同創新增多,促進了科學與技術的同步發展。2011—2015年,SL值在0.1639~0.2315之間波動,深度學習的突破和技術應用擴展促進兩者關系的進一步密切。2016—2022年,SL值保持平穩并處于較低水平(2016年為0.1921,2022年為0.1773),表明AI領域的協同互動更加緊密,跨領域合作加強,技術整合提高協同效應。
整體而言,2000—2022年的科學技術協同指標值整體呈現波動式下降的趨勢,這表明隨著時間的推移,科學與技術系統之間的協同演化變得越來越緊密。基礎科學知識的逐步完善,人工智能技術的廣泛應用,以及跨領域合作的加強,促使AI發展路徑的多樣化以及領域內協同創新的提升。這與科學—技術知識網絡所反映的知識互聯互通基本一致,隨著AI基礎科學研究取得不斷的進展,相對應的技術進步也隨之加快,新技術的出現又反過來促進科學理論的驗證和發展。這種正向循環的關系加速科學發現和技術應用之間日益增強的協同作用,二者相互促進,共同推動人工智能與衍生領域的高度協同和高質量發展。
此外,基于Degree Divergence算法計算時序科學技術知識網絡距離,如圖7(b)所示(紅色線)。與科學技術知識序列同步性相反,每年科學知識網絡與技術知識網絡的距離呈現波動式增長的趨勢,這表明二者的知識網絡結構逐年增大。例如,在2002年該指標達到較低的值,可能是由于這一階段科學和技術之間的相互關聯較強,二者的結構相似性較高。2003年,科學和技術知識網絡結構開始出現明顯差異,Degree Divergence值顯著上升,可能原因是AI領域內不同技術分支的快速發展以及科學研究領域的多樣化,導致科學和技術之間的知識結構關聯性減弱。2004—2007年,Degree Divergence值持續上升,科學和技術知識網絡的結構差異進一步擴大,這一時期AI技術領域內的科學技術路線開始逐漸明確和分化,各技術分支產生不同的應用方向,從而導致科學與技術知識網絡的結構差異加大。類似地,2008—2022年該指標繼續呈現波動上升的趨勢,特別是隨著AI研究與應用的進一步成熟,科學研究領域的探索更加深入和細化,不同領域之間的知識關聯變得更加復雜,導致科學和技術知識網絡之間產生新的知識壁壘。總體而言,盡管科學技術知識序列的協同性逐漸增強,但Degree Divergence值的增長說明科學和技術知識網絡在結構上的關聯性逐漸減弱。二者的區別表明人工智能在發展過程中,隨著技術分支的多樣化和科學研究的細化,知識網絡的結構差異性增加,但科學技術知識的協同作用在增強。
4 總 結
本研究構建人工智能領域科學—技術知識網絡,發現具有較為明顯的無標度特性。少數科學技術知識作為綜合性的知識樞紐,對知識網絡起著主導作用,它們匯聚來自不同主題的知識,使得網絡中不同主題能夠相互連接和交流,通過大量的連接迅速傳播知識到整個知識網絡。而其他大多數知識點擁有很少的連接性,在保持知識傳遞作用的同時維持著知識多樣性。運用所改進的方法對科學—技術知識網絡進行等價轉換,轉化為非線性的二維時間序列,在4種指標上進行比較,改進方法能夠較為有效地挖掘科學—技術知識網絡的復雜關聯。進一步地,對所有年份的科學—技術知識網絡進行非線性轉化,計算科學技術在不同年份的協同演化行為,并結合知識網絡指標從多維視角探索新興產業領域前沿科技耦合與協同演化行為。結果分析發現,人工智能領域在科學技術知識協同方面的關聯越來越緊密,由于科學研究細化和技術分化,科學與技術知識網絡的結構差異性正在逐年增加。
基于上述分析和發現,本研究進一步探討以下政策建議的可行性:
1)加強跨領域協同創新,促進知識傳遞與整合。由于科學與技術知識的高效傳遞和網絡協同依賴于少數樞紐節點的作用,這些樞紐節點匯聚來自不同主題的知識。為增強人工智能領域的創新活力,應當支持跨學科、跨領域的協同創新平臺建設,推動科技與產業界之間的深度合作。特別是鼓勵基礎科學、應用技術與產業需求之間的對接,促進知識的跨領域融合和共享。
2)推動知識網絡多樣性與穩定性。隨著科學技術知識網絡的結構差異性逐年增加,網絡中的知識多樣性得到了有效保障,但也面臨知識碎片化、信息孤島等問題。從決策視角出發,應注重對各類科研機構和企業的支持,尤其是在知識點較為分散、缺乏連接性的領域。通過政策引導,促進領域的融合與知識共享,幫助減少知識空白,并促進各類創新主體的多樣化發展。
3)促進科學與技術協同演化,提升創新能力。人工智能領域科學與技術知識的協同越來越緊密,但同時科學與技術知識網絡的結構差異性也在加大。這表明科學與技術的協同發展正在逐步走向專業化和細分化。各類創新主體應加強科技政策的協同性,推動科學技術的協同演化,特別是在新興技術領域,支持跨部門、跨行業的合作,增強各類創新主體之間的協同效應。
參考文獻
[1]韓曉彤,朱東華,汪雪鋒.科學推動下技術機會發現方法研究[J].圖書情報工作,2022,66(10):19-32.
[2]Ba Z C,Liang Z T.A Novel Approach to Measuring Science-Technology Linkage:From the Perspective of Knowledge Network Coupling[J].Journal of Informetrics,2021,15(3):101167.
[3]董坤,許海云,羅瑞,等.科學與技術的關系分析研究綜述[J].情報學報,2018,37(6):642-652.
[4]Narin F,Noma E.Is Technology Becoming Science?[J].Scientometrics,1985,7(3):369-381.
[5]王剛波,官建成.納米科學與技術之間的聯系:基于學術型發明人的分析[J].中國軟科學,2009(12):71-79.
[6]Verbeek A,Debackere K,Luwel M,et al.Linking Science to Technology:Using Bibliographic References in Patents to Build Linkage Schemes[J].Scientometrics,2002,54(3):399-420.
[7]Xu S,Zhai D S,Wang F F,et al.A Novel Method for Topic Linkages Between Scientific Publications and Patents[J].Journal of the Association for Information Science and Technology,2019,70(9):1026-1042.
[8]Meng K,Ba Z C,Ma Y X,et al.A Network Coupling Approach to Detecting Hierarchical Linkages Between Science and Technology[J].Journal of the Association for Information Science and Technology,2024,75(2):167-187.
[9]Chen X,Ye P F,Huang L,et al.Exploring Science-Technology Linkages:A Deep Learning-Empowered Solution[J].Information Processing amp; Management,2023,60(2):103255.
[10]Schwartz G A.Complex Networks Reveal Emergent Interdisciplinary Knowledge in Wikipedia[J].Humanities and Social Sciences Communications,2021,8(1):127.
[11]Painter D T,Daniels B C,Laubichler M D.Innovations are Disproportionately Likely in the Periphery of a Scientific Network[J].Theory in Biosciences,2021,140(4):391-399.
[12]Lacasa L,Luque B,Ballesteros F,et al.From Time Series to Complex Networks:The Visibility Graph[J].Proceedings of the National Academy of Sciences of the United States of America,2008,105(13):4972-4975.
[13]Ahmadpoor M,Jones B F.The Dual Frontier:Patented Inventions and Prior Scientific Advance[J].Science,2017,357(6351):583-587.
[14]Han F,Magee C L.Testing the Science/Technology Relationship by Analysis of Patent Citations of Scientific Papers after Decomposition of Both Science and Technology[J].Scientometrics,2018,116(2):767-796.
[15]Sun X L,Ding K.Identifying and Tracking Scientific and Technological Knowledge Memes from Citation Networks of Publications and Patents[J].Scientometrics,2018,116(3):1735-1748.
[16]齊燕.基于專利引文分析的領域科技關聯發展態勢探究——以HCV為例[J].圖書情報工作,2019,63(23):97-105.
[17]肖國華,王春,姜禾,等.專利分析評價指標體系的設計與構建[J].圖書情報工作,2008,52(3):96-99.
[18]董玨,楊眉,郭晶,等.面向高校科技轉化效率評估的“科學—技術”關聯性實證研究[J].大學圖書館學報,2016,34(5):38-45.
[19]Raan A F J.Sleeping Beauties Cited in Patents:Is There also a Dormitory of Inventions?[J].Scientometrics,2017,110(3):1123-1156.
[20]Raan Anthony F J.Patent Citations Analysis and Its Value in Research Evaluation:A Review and a New Approach to Map Technology-Relevant Research[J].Journal of Data and Information Science,2017,2(1):13-50.
[21]Zhang G J,Liu L N,Wei F F.Key Nodes Mining in the Inventor-Author Knowledge Diffusion Network[J].Scientometrics,2019,118(3):721-735.
[22]Chang S H.A Pilot Study on the Connection Between Scientific Fields and Patent Classification Systems[J].Scientometrics,2018,114(3):951-970.
[23]Wang G B,Guan J C.Measuring Science-Technology Interactions Using Patent Citations and Author-Inventor Links:An Exploration Analysis from Chinese Nanotechnology[J].Journal of Nanoparticle Research,2011,13(12):6245-6262.
[24]賴院根,曾建勛.期刊論文與專利文獻的整合框架研究[J].圖書情報工作,2010,54(4):109-112.
[25]李睿,容軍鳳,張玲玲.試論“科學—技術關聯” 計量模型的不足及改進——學科—領域對應優化視角[J].圖書情報工作,2013,57(5):86-93.
[26]Magerman T,Van Looy B,Debackere K.Does Involvement in Patenting Jeopardize Ones Academic Footprint?An Analysis of Patent-Paper Pairs in Biotechnology[J].Research Policy,2015,44(9):1702-1713.
[27]孫曉玲,丁堃.基于知識基因發現的科學與技術關系研究[J].情報理論與實踐,2017,40(6):23-26,17.
[28]Ranaei S,Suominen A,Dedehayir O.A Topic Model Analysis of Science and Technology Linkages:A Case Study in Pharmaceutical Industry[C]//2017 IEEE Technology amp; Engineering Management Conference(TEMSCON).Santa Clara:IEEE,2017:49-54.