陳 榮,王小慶,李建霞,嚴素梅,周 莉,程月月,孫濟慶
(華東理工大學科技信息研究所,上海 200237)
《中共中央關于制定國民經濟和社會發展第十四個五年規劃和二〇三五年遠景目標的建議》明確指出,要堅持創新在我國現代化建設全局中的核心地位,把科技自立自強作為國家發展的戰略支撐。這一戰略目標對細化國家科技創新發展目標、精準識別科技創新戰略重點領域和優先發展技術清單提出了新的更高要求[1]。因此,如何通過科學、規范的研究方法來把握和識別未來技術發展方向,最大程度地提高預測結果的準確性是進行前沿技術戰略布局與創新政策制定的重要決策基礎。當前,信息理論與計算能力的飛速發展,為技術預測和關鍵技術選擇等前瞻性研究提供了新的發展機遇[2],也為科研人員在眾多研究方向的選擇上提供指導意見[3]。為了能夠更加有效地全面展現技術發展過程出現的變化情況,本研究擬在通過分析文獻與技術發展變化關系的基礎上,探索更加精細地識別技術發展趨勢的技術預測方法。
技術預測方法及其應用研究始于20 世紀50 年代美國對國防前沿技術的預測研究[4]。隨著技術預測研究熱度的增加,20 世紀90 年代起,技術預測成為全球流行趨勢并得到了快速發展,由最初以德爾菲法、情景分析法等定性方法為主向以文獻計量法、專利地圖、社會網絡分析、神經網絡、時間序列分析等定量方法為主過渡。其中,時間序列分析法是將預測對象的歷史數據按一定的時間間隔進行排列,構成一個隨時間變化的統計序列,建立相應的數據隨時間變化的模型,并將模型外推到未來進行預測[5]。早期的時間序列模型主要應用于金融領域的股票市場預測、醫療領域人員需求預測和傳染病發病率預測、國內生產總值(GDP)或消費者價格指數(CPI)預測。隨著研究的深入,研究人員開始將時間序列模型應用于圖書情報領域,如圖書借閱量、主題或學科發展等預測,如2004 年蔡智澄等[6]利用概率統計學中的相關原理,使用線性回歸分析法對圖書館讀者流通數據進行分析;龔新剛等[7]通過使用回歸分析和時間序列分析的方法預測某圖書館未來一年的圖書借閱量,并對總利用率和新書利用率進行分析,由此推算未來可能需要購買的新書數量。
Watts 等[8]認為文獻記錄著技術活動的歷史和現狀,利用文獻能夠客觀地分析技術的發展趨勢。21 世紀初期,出現了眾多利用從文獻中提取的關鍵詞、主題,結合時間序列模型進行趨勢預測的研究成果,比如,劉自強等[9]、岳麗欣等[10]、Abuhay等[11]運用差分整合移動平均自回歸(ARIMA)模型對關鍵詞的時間序列變化進行了預測;Adamuthe等[12]采用6 個函數對多個技術進行趨勢預測,最終發現二階多項式函數趨勢線適用于多數技術的預測;白敬毅等[13]提出基于主題模型和曲線擬合的預測方法,從科技文獻數據中識別抽取新興研究主題,并通過主題時序特征預測有關研究主題的未來發展情況;程月月等[14]對基于多種函數擬合的模型進行對比分析,最終發現正弦函數、高斯函數、四次多項式函數對詞的趨勢擬合效果最佳。
由于技術的發展具有演化性和積累性[15],且技術的發展軌跡在一定的時空范圍內有前進性和方向鎖定性[16],具體表現為相鄰兩個時間節點的技術主題詞頻會有波動性;而運用數理模型來分析關鍵詞、主題等的時序變化研究中,僅對詞頻進行簡單統計和粗略的計算不能揭示詞頻的波動變化規律,且部分研究通過人工解讀時序數據判斷技術發展趨勢,缺乏科學性,也缺乏對技術變化趨勢的精細識別,最終會影響預測結果的準確性。目前,技術預測方法日漸成熟,以數據分析和模型為基礎的技術預測組合方法已成為新的焦點,因此,本研究針對當前研究中存在的不足,借鑒統計學中數據分析指標,探索技術時序變化的趨勢,提出多參數動態時序技術預測方法,為精細地識別技術發展的演變趨勢提供參考。
按照層級功能的不同,本研究提出的多參數動態時序技術預測方法,包括3 個步驟:技術主題提取、多參數動態時序技術預測模型構建與技術預測。這3 個步驟環環相扣,如圖1 所示。第1 步:采用機器語言與人工判讀相結合的方法,進行技術主題提取;第2 步:選取能夠反映詞頻波動的指標作為參數,建立多參數動態時序技術預測模型;第3 步:根據多參數動態時序技術預測模型定義的多種技術發展模式,對技術的發展趨勢進行預測。

圖1 多參數動態時序技術預測方法框架
技術主題提取是技術預測過程的第1 步,也是最重要的一步,因為技術主題的準確提取將直接影響到預測結果的準確性。主題提取又稱為“主題抽取”“主題識別”或“主題挖掘”,是利用聚類算法、主題模型構建等發現算法和技術對規模性的信息數據進行處理與分析,以便挖掘出有效主題信息的過程。本研究采用機器語言和人工相結合的方法進行技術主題提取,以提高提取結果的準確性。由領域專家對文獻中獲取的關鍵詞集合中與研究主題無關的詞(以下簡稱“無關詞”)、詞頻一直較低且變化不大的詞(以下簡稱“低頻詞”)和同義詞等進行識別,根據技術特征將技術主題詞歸并到相應的技術主題,采用機器語言進行低頻詞、無關詞的刪除和同義詞的合并以及詞頻統計。
時間序列分析是一種定量的預測方法,按照收集到的數據特征,可分為平穩時間序列和非平穩時間序列:平穩時間序列實際值的波動處于一定的范圍之內,但并不存在某種規律;而非平穩時間序列具有一定的趨勢性或周期性[17]。因此,可以通過分析時間序列上數據的波動情況達到趨勢預測的目的。
文獻的關鍵詞直接反映了研究成果的核心內容,分析其變化可以全面地把握技術發展的動態過程、特點和規律,但關鍵詞隨時間的變化是一個高噪音、線性、非平穩的序列,因此對這種動態不平穩序列進行建模和預測非常具有挑戰性。學術界曾嘗試對一定時間段內關鍵詞的詞頻求差,得到詞頻的波動值,取正向波動值的平均值為波動系數,并用實證證明根據波動系數能夠高效地發現波動突然上升的詞[18]。據此,本研究采用技術主題詞頻差來描述詞頻的波動,利用技術主題詞頻的波動規律來預測技術的發展趨勢。
統計學中,反映數據波動特征的指標一般分為兩種:(1)集中量數,表示數據的一般水平的代表值,通常用算術平均數、中位數、幾何平均數進行描述;(2)差異量數,用于描述數據的波動性的量數,可以客觀反映數據的實際形態,主要包括標準差、極差、方差等。基于統計學中數據波動分析指標,以技術主題詞頻差值(以下簡稱“詞頻差”)作為研究數據。具體而言,以平均值代表被分析對象的平均水平;詞頻差與平均值的差值代表波動幅度;波動幅度的范圍代表波動區間。由于技術的發展具有連續性,本研究通過量化技術發展狀態持續時間,以波動幅度在波動區間的時間長度代表波幅時長,最終確定以平均值、波動區間、波幅時長作為參數,構建多參數動態時序技術預測模型(以下簡稱“技術預測模型”),用于預測技術的發展趨勢以及持續情況。技術預測模型建立在利用擬合模型進行數據擬合的基礎上,以擬合模型的擬合結果計算模型的參數值,因此技術預測模型的構建主要分成擬合模型選擇、檢驗標準設定、模型參數確定和檢驗幾步。具體建模流程如圖2 所示。

圖2 多參數動態時序技術預測模型建模流程
2.2.1 擬合模型選擇
時間序列中曲線擬合方法包括多項式模型、對數模型、Logistic 模型、S 模型、冪模型等,其中多項式模型的擬合效果最佳,被廣泛應用于對時間序列上主題的擬合,因此本研究采用最小二乘法擬合原理作為函數擬合的方法,按照偏差平方和最小的原則選取擬合曲線,可以快速簡便求得未知數,是預測領域廣泛應用的最優化方法。最小二乘法表達式如下:

多項式函數表達式如下:

當t的取值為n時,經過偏導和累加等方式,得到多項式方程矩陣如下:

2.2.2 檢驗標準設定
在多項式函數擬合過程中,可能會出現擬合曲線在定義區間端點處震蕩(過擬合現象)或對數據微小變化很敏感的現象(龍格現象)。多項式函數根據最高次方數的不同,分為二次多項式、三次多項式、四次多項式、高階多項式等,項數越多,最高項的次方數越大。為了避免出現過擬合現象,同時為了使多項式模型的擬合效果達到最優,借鑒程月月等[14]的研究,采用機器學習數據及分類方法,將詞集分為訓練集和驗證集。即在已有第1~n年的技術主題詞頻差數據的情況下,以第1~(n-1)年的技術主題實際詞頻差作為訓練數據,第n年時的詞頻差作為測試數據。以訓練數據與測試數據之間的誤差值最小為檢驗標準,得到最優多項式模型作為技術主題時序擬合的模型。
2.2.3 預測模型參數確定
技術預測模型是技術預測的核心,包含平均值、波動區間、波幅時長3 個參數,參數的取值規則如下:
(1)算術平均值指將全部數據相加除以數據的個數,計算簡單快捷,運用最為廣泛。以平均值來反映全部技術主題詞頻差的平均水平,由技術主題詞頻差的擬合值和時間得出。則平均值為:

式(4)中:t為時間;為t時的擬合值。
(2)統計學中采用方差來衡量數據波動的大小。為了深入研究詞頻波動大小的取值范圍,以詞頻差求得平均值、再求差后得到的數值即波動幅度來確定波動區間,波動區間為詞頻差與平均值的差值即波動幅度的范圍,取值與兩個臨界值有關;s表示波動區間的3 種情況,當s=1 時,波動區間為時,波動區間為時,波動區間為的公式分別如下:

(3)在數據分析中,如果數據波動突破了數據波動范圍,往往意味著趨勢的形成,趨勢一旦形成就不容易再發生改變。數據產生的波動情況可分為一次性波動、周期性波動和持續性波動3 種。若數據出現持續性波動,且持續時間較長時需要引起重視,因此可以將數據在一定范圍內波動維持的時間長短作為判斷趨向于某一種發展趨勢的程度的指標。本研究定義波幅時長為詞頻差波動幅度在波動區間維持的時間長度,由時長計算公式可知,時長由開始時間和結束時間決定,推理可得波幅時長T由詞頻差波動幅度在波動區間結束時間與開始時間的差得出。定義詞頻差預測值與平均值的差值為預測波動幅度,預測波幅時長T'由預測波動幅度在波動區間結束時間與開始時間的差得出,則波幅時長和預測波幅時長的計算公式如下:

式(7)(8)中:T為波動幅度在波動區間時間長度為波動幅度在波動區間內變化開始時間為波動幅度在波動區間內變化結束的時間;T'為預測波動幅度在波動區間時間長度;為預測波動幅度在波動區間內變化開始時間為預測波動幅度在波動區間內變化結束的時間。
本研究用波動幅度所對應的波動區間推測技術的發展趨勢,波幅時長與預測波幅時長用于測算持續處于某一發展趨勢的時間。根據平均值、波動區間以及波幅時長3 個關鍵參數與預測值、預測波幅時長之間的數量比較關系構建技術預測模型。模型表達式為:

技術預測模型以時間序列數據擬合為基礎,對歷史數據的擬合建立在不管發生什么,趨勢都將持續到未來而不減弱的基礎上,那么隨著未來的時間的延伸,預測結果會變得越來越不穩定。基于此,本研究用發展模式的強度來量化發展趨勢的持續程度。的取值范圍為,取值越大表明發展模式持續時間越長,即發展趨勢的持續程度越強。
2.2.4 模型檢驗
技術預測模型檢驗即對模型的有效性檢驗。通常可以用模型預測得到的數據與實際數據之間的差異程度來衡量,然而目前的研究中尚未對技術預測模型預測出的結果誤差設定參考值,所以無法通過預測值與參考值之間的差距大小判斷技術預測模型預測效果是否良好。由于本研究采用區間劃分詞頻差的波動范圍,因此可以采用訓練數據和測試數據的實際值與預測值是否在相同的波動區間來判斷技術預測模型的有效性。在圖表中采用圓點表示出實際值與預測值的位置,能夠清楚地看出兩者是否在同一個波動區間以及兩者之間的差距,若存在多個技術主題實際值和預測值在相同的波動區間,則說明技術預測模型有效,且預測結果的準確性高。
科研界對發展趨勢的劃分主要有以下幾種方法。一是根據論文的數量將領域發展狀態分為3 類:論文發表量多,未來發展呈現上升趨勢;論文發表量多,增長趨勢緩慢;論文發表量少,未來增長趨勢緩慢[19]。二是根據主題詞頻隨時間的變化,將發展趨勢分為較快速度上升趨勢、逐漸上升趨勢、基本持平狀態、下降趨勢4 種。由此可以看出,對發展趨勢的劃分存在較大的主觀因素,因考慮問題的角度不同所得到的結論不盡相同。張云秋等[20]提出構建時間序列數學模型預測各指標對時間的依賴性,從而進行趨勢判斷。借鑒前人相關研究,本研究根據波動區間和預測波幅時長將技術發展模式分為6 種:快速上升、快速下降、平穩、逐漸上升、逐漸下降、趨勢突變。
技術發展趨勢的預測是建立在掌握一定時間內技術發展規律的基礎上。根據相關原則,技術主題詞頻差最小的波幅時長為2,而預測波幅時長最小值為1。基于平穩時間序列均值、方差為常數的性質,以波動區間劃分技術發展趨勢,利用波幅時長確定技術發展模式強度,以波幅時長、預測波幅時長最小值為選取原則,取兩個最小值的比值按0.5 為發展模式強度的閾值,若發展模式強度高于閾值,則趨向于某一種技術發展模式的趨勢越明顯。基于波動幅度和預測波幅時長的定義與取值規則,預測6種技術發展模式的具體形式如下:
(6)當T=1 時,且預測波幅時長為1,表示技術的發展趨勢與前一時間段的趨勢相比發生突變。
科研界將熱點技術定義為:受到科研人員廣泛關注的主要研究方向和技術主題,能夠反映領域的研發現狀和技術結構全貌[21];將突破性技術發明定義為:具備新穎性和獨特性并且對未來技術發展有重大基礎影響的技術的發明[22]。基于此,本研究定義處于快速上升趨勢且發展模式強度大的技術為突破性技術,該類技術在領域內研究價值高、發展快;處于逐漸上升趨勢且發展模式強度大的技術為熱點技術,該類技術在領域內研究中整體呈現上升趨勢,具有較大的研究價值。若預測波動幅度與此前波動幅度所在的波動區間不同,意味著技術發展趨勢出現了突變,那么該技術可能出現處于上升、下降、平穩波動區間3 種情況;若技術主題預測波動幅度與此前的波動幅度處于正常波動區間,意味著技術處于一種平穩發展的狀態,那么該技術未來將會保持著平穩的趨勢,不會出現上升、下降的情況。
3.1.1 數據獲取
以揮發性有機物(volatile organic compounds,VOCs)處理技術領域作為實證研究對象。選擇Scopus 數據庫,檢索式為TITLE-ABSKEY(“VOC”or “VOCs”or “volatile organic compound”or “volatile organic compounds”),時間設定為1993—2020 年,不設其他限定條件。其中1993—2019 年的數據為訓練數據,2019—2020 年的數據為測試數據。
3.1.2 數據處理
(1)從數據庫中導出文獻信息包括引文信息、題錄信息、摘要和關鍵詞,文件格式為純文本格式,得到數據集A。
(2)從數據集A中提取索引關鍵詞并統計詞頻,得到數據集B(關鍵詞集)。
(3)觀察數據集B中的關鍵詞,發現有許多詞頻較低的關鍵詞,由領域專家介入對這些關鍵詞進行觀察并設定低頻詞詞頻閾值,對低于閾值的關鍵詞進行刪除,得到數據集C。低頻詞如“heart atria”“heart atrium”“extracellular calcium”等。
(4)根據領域專家確定的無關詞創建無關詞詞庫,利用Python 對數據集C進行無關詞刪除,得到數據集D。無關詞如“article”“female”“animals”和年份、國家、海洋的名稱、數據值等。
(5)利用Python 對數據集D進行同義詞合并,得到數據集E。同義詞如“granular activated carbons”“activated carbon”等。
(6)由領域專家對數據集E 中的技術主題詞進行識別,并將屬于同一技術的主題詞進行合并,得到技術主題詞集F,完成數據處理。
經過上述數據處理,由領域專家再根據技術特征將技術主題詞歸并到相應技術主題,最后得到揮發性有機物處理的8 個技術主題(以下簡稱“8 個技術主題”),如表1 所示。

表1 揮發性有機物處理的技術主題
將1993—2019 年間8 個技術主題的時間序列數據進行曲線擬合,比較最高項次方數不同的多項式函數的誤差,分別對不同技術主題選取誤差最小的多項式模型進行時序擬合,得到不同技術主題時序詞頻差擬合曲線圖,如圖3 所示。圖3 中,散布在坐標軸內部的圓點表示技術主題詞頻的實際差值,在最大程度上擬合平面上離散的點的線即為多項式函數擬合出的曲線。可見譜分析技術主題的詞頻差擬合曲線波動最大,在第24 年曲線迅猛攀升,詞頻差激增;熱分解技術、前處理技術、生物技術、光催化技術等主題的詞頻差擬合曲線在一定范圍內上下波動,詞頻差的變化維持在一個較為穩定的水平;催化氧化技術、吸附技術、臭氧氧化技術、前處理技術、光催化技術等主題的詞頻差擬合曲線在第25年達到峰值,詞頻差值達到最大值,說明這幾項技術處于快速發展階段。


圖3 1993—2019 年8 個技術主題時序詞頻差擬合曲線
采用經式(4)至式(8)計算得出的參數建立技術預測模型,參數值決定了后續代入變量后模型得出的預測結果的準確性。通過多次訓練,得到8個技術主題2020 年的模型參數及預測結果,如表2所示。

表2 技術預測模型參數及8 個技術主題2020 年發展預測結果
根據8 個技術主題2020 年發展趨勢預測結果的有效性,得到技術主題趨勢預測結果圖,如圖4 所示。其中,l、g兩條虛線上的點分別表示波動區間的兩個臨界值。可以看出,譜分析技術、熱分解技術、前處理技術、生物技術的預測值與實際值落在同一波動區間,且預測值與實際值的誤差較小;催化氧化技術、臭氧氧化技術、光催化技術的預測值與實際值落在同一波動區間,但是預測值與實際值之間存在一定的誤差;吸附技術主題的預測值與實際值落在不同的波動區間,且預測值與實際值差值較大。由此表明本研究構建的技術預測模型雖然存在一定誤差,但整體預測結果較好。

圖4 8 個技術主題2019—2020 年發展趨勢預測結果
以1993—2020 年間8 個技術主題詞頻差數據作為訓練數據,得到其2021 年的模型參數以及預測結果,如表3 所示。

表3 技術預測模型參數及8 個技術主題2021 年發展趨勢預測結果
根據表3 中的模型參數值與預測出的2021 年、2020 年技術主題的詞頻差,對8 個技術主題2020—2021 年的發展趨勢進行預測,如圖5 所示。譜分析技術和熱分解技術的預測值在直線g 之上,結合前幾年的波動幅度范圍進行分析,尤其是譜分析技術最近5 年的波動幅度均處于直線g 上方,雖然詞頻差有小幅度減小,但是整體來看依然處于逐漸上升趨勢;熱分解技術的波動幅度持續處于上升趨勢的波動區間,不存在大幅度驟降的現象,即使是在第26 年詞頻差下降,依然不影響整體的波動幅度所在的區間,相比較于譜分析技術的發展模式強度更強,可以認為該技術處于快速上升的狀態。催化氧化技術達到了歷年最低值,在2020—2021 年突然出現波動幅度大幅下降,甚至突破了下降區間的臨界值,屬于趨勢突變的技術。前處理技術達到峰值,相比于前27 年的波動幅度都要大,在第26 年的詞頻差小于平均值;而2020—2021 年的預測波動幅度卻達到了最小值,雖然在第27 年波動幅度有所上升,但是第28 年波動幅度再一次大幅度下降,變化趨勢發生突變。吸附技術從第25 年起波動幅度就開始下降,第26 年的波動幅度處于正常平穩的波動區間,第27 年的波動幅度突破了臨界值,處于下降趨勢的波動區間;預測出的2020—2021 年波動幅度同樣處于下降波動區間,并且預測波幅時長與前27 年的波幅時長相同,發展模式強度為1,說明該技術處于快速下降的狀態。臭氧氧化技術在前27 年大部分時間都處于平穩的波動區間,只有部分時間如第13 年、第15 年、第21 年、第23 年、第25 年波動幅度突破了波動區間的兩個臨界值,第25 年之后波動幅度都處于上升趨勢的波動區間,但是第28 年預測波動幅度下降為最低值,說明該技術的發展趨勢發生突變,并且波動幅度極大。光催化技術處于下降趨勢的波動區間,第25 年詞頻差波動幅度達到上升趨勢波動幅度的最大值,第26 年波動幅度處于下降波動區間,結合前27 年的波動幅度變化綜合分析可以看出該技術的發展趨勢發生突變。生物技術從第13 年到第21 年波動幅度均處于上升趨勢的波動區間,并且此前也有相當長的一段時間波動幅度處于上升趨勢的波動區間,僅有兩個時間段處于下降趨勢的波動區間,并且發展模式強度為1,說明該技術處于平穩發展的狀態。


圖5 8 個技術主題2020—2021 年發展趨勢預測結果
我國政府發布的VOCs 治理系列政策涉及的廢氣治理工藝包含吸附、吸收、熱分解等多種技術,溶劑回收套用在可以節約自然資源同時也能降低企業運行成本,但是各種工業規范的限制使得達不到行業標準的大部分企業采用熱分解工藝燃燒有機物廢氣,當前熱分解工藝是VOCs廢氣治理的主流技術,并且相關技術裝備水平已得到了很大發展提升[23]。結合技術預測模型的預測結果以及熱分解技術的研究與實際發展現狀,可以說明熱分解技術是一項重點研究技術。
(1)技術發展的過程伴隨著詞頻的波動。本研究將平均值、波動區間、波幅時長3 個參數引入技術預測研究中,構建了多參數動態時序技術預測模型,識別和定義了快速上升、快速下降、平穩、逐漸上升、逐漸下降、趨勢突變等6 種不同的技術發展模式。
(2)熱分解技術在VOCs 領域是一項重點技術。本研究運用技術預測模型對VOCs 領域8 個技術主題的發展趨勢進行預測,識別出熱分解技術為重點技術,結合該技術相關研究及其應用實際,證明多參數動態時序技術預測方法可行、有效。
本研究數據源尚較為單一,未來可以從以下幾個方面進一步開展相關研究:(1)與其他技術預測方法進行對比分析,進一步擴大模型的應用范圍;(2)與深度學習理論中長短期記憶神經網絡模型結合,使技術預測模型具備記憶功能,從真正意義上使用時間序列的長距離信息,提高預測的準確性;(3)將論文、多語種的專利文獻等納入數據集的范圍,應用多源異構融合技術,實現更加全面的技術預測。