999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于時間卷積網絡的科技需求主題熱度預測算法*

2022-10-09 11:47:46崔海燕李雅文
廣西科學 2022年4期
關鍵詞:科技模型

崔海燕,李雅文,徐 欣

(1.北京郵電大學計算機學院,智能通信軟件與多媒體北京重點實驗室,北京 100082;2.北京郵電大學經濟與管理學院,北京 100082)

研究科技資源信息的主題熱度時間序列變化規律[1],并根據已有數據分析結果對未來的科技需求主題熱度進行預測,對科研人員快速了解和掌握科技領域資源信息動向至關重要。時間序列具有趨勢性、季節性、周期性和隨機性4種特征,要找到一個適用所有場景的通用模型幾乎不可能,因為現實中每個預測問題的背景不同,影響預測值的因素與程度也不同,針對不同的問題要采用不同的方法和模型進行統計分析。現有的時間序列預測方法多適用于平穩序列變化預測,很少有針對科技需求主題熱度的時間序列預測方法?;谝陨蠁栴},本文提出一種基于時間卷積網絡(Time Convolution Network,TCN)的科技需求主題熱度預測方法(Subject Heat of Science and Technology Demand Prediction Based on Time Convolution Network,SHDP-TCN),該方法融入科技需求的主題特征,關注時序變化特征以外的主題因素,并使用自注意力機制處理輸入特征,使得網絡重點關注局部歷史信息,然后輸入TCN學習全部歷史信息,從而更準確地預測未來,最后通過實驗驗證所提方法在科技需求主題熱度時間序列預測方面的有效性。

1 相關工作

目前針對科技需求主題熱度預測的研究主要體現在對主題強度和主題內容方面的分析,即語義分析和時序分析結合的主題演進規律分析[2]。主題演化的時序分析主要通過構建主題演化時間序列模型,以人工解讀為主來分析主題演化時序變化趨勢;主題演化的語義分析主要通過計算主題詞間的語義關聯情況輔助進行。主題演進規律研究的結合點主要有基于主題間關聯關系的網絡分析法[3,4]以及主題結合時空的時序分析[5]、地區分布分析等。其中,主題間關聯關系[6]演化規律的研究主要基于共詞分析,按照具體分析方法的不同,共詞分析[7,8]可分為共詞網絡分析、共詞聚類分析和戰略圖分析等;主題結合時空的時序分析和地區分布分析主要是結合時空特性將多種科技資源要素結合起來,從多維度考慮實現科技需求主題演化分析。

目前常見的預測算法包括傳統的時間序列預測模型如自回歸積分滑動平均(Auto Regressive Integrated Moving Average,ARIMA)模型[9],神經網絡[10]模型如長短時記憶網絡(Long Short-Term Memory,LSTM)[11,12]和TCN,以及Prophet模型。ARIMA模型的缺點是要求時序數據具有穩定性,或者通過差分化后是穩定的;對于數據中存在缺失值的情況,需要先進行缺失值填補,這在很大程度上損害了數據的可靠性。LSTM可以記憶歷史信息的序列預測,常用于金融股票預測。LSTM與循環神經網絡(Recurrent Neural Network,RNN)[13]的主要區別在于,LSTM在模型中加入了一個被稱為“記憶單元”(Memory Cell)的“處理器”,這個處理器可以根據規則判斷信息是否有用。LSTM分為單變量預測和多變量預測,可以引入注意力機制進行建模[14]。TCN是單向的結構,不是雙向的,只能由因到果,是嚴格約束時間的模型,因此,基于卷積神經網絡(Convolutional Neural Networks,CNN)的TCN由于因果卷積不能看到未來的數據[15]。殘差鏈接[16]是訓練深層網絡的有效方法,其網絡以跨層的方式傳遞信息,且需要構建一個殘差塊來代替一層的卷積,一個殘差塊包含兩層的卷積和非線性映射,且在每層網絡中還加入了WeightNorm和Dropout來正則化網絡[17,18]。相比RNN,TCN具有并行性、靈活的感受野、穩定的梯度、內存使用更低等優勢。Prophet是基于可分解(趨勢+季節+節假日)模型的開源庫,支持自定義季節和節假日因素的影響[19]。

科技資源主題在時間序列上的熱度變化不像金融股票[20]有著多變復雜的時間特征以及多項數據因素影響,而是具有數據量大且只根據前期長久時間段內積累的數據預測未來熱度的特點與需求,所以應該選擇基于循環神經網絡或者卷積神經網絡的時間序列預測模型[21,22],通過對已有的神經網絡預測模型的分析,找到適用于科技資源數據熱度預測的改進方法,對科技需求主題熱度進行準確預測。

2 科技需求主題熱度預測算法

為了預測科技需求主題在時間序列上的未來熱度,采用神經網絡模型進行數據內部潛在規律發現,并給出發展趨勢的預期判斷。對于時間序列的主題強度預測,主要以基于卷積神經網絡的TCN對為基礎,融入自注意力機制[23]以及主題特征對時間序列熱度進行預測。

2.1 SHDP-TCN算法總體框架

TCN同時使用一維因果卷積和擴張卷積作為標準卷積層,并將每兩個這樣的卷積層與恒等映射封裝為一個殘差模塊(包含ReLU函數);再由殘差模塊堆疊起深度網絡,并在最后幾層使用全卷積層代替全連接層。TCN的殘差鏈接即殘差卷積的跳層連接(Skip-connection)與微軟的殘差網絡 ResNet[24]一樣是經典跳層連接,上一層的特征圖x直接與卷積后的F(x)對齊加和,變為F(x)+x(特征圖數量不夠可用 0 特征補齊,特征圖大小不一可用帶步長卷積做下采樣)。在每層特征圖中添加上一層的特征信息可使網絡更深,加快反饋與收斂。

TCN不學習序列內部的距離位置依賴關系,也不提取輸入的內部相關信息。自注意力機制是讓機器注意到整個輸入中上下文[25]的不同部分之間的相關性?;诖?,本文提出一種基于自注意力機制的神經網絡預測算法SHDP-TCN,該算法在序列輸入到TCN的因果卷積之前進行自注意力機制編碼,使網絡除了擁有所有歷史記憶外,還要考慮歷史的時間步中不同的貢獻權重,以此結構為基礎,對輸入序列的特征進行優化,即在輸入序列進行自注意力編碼前,通過加入類別特征,即主題詞特征,加強對該行業熱度在該時間節點的影響,從而增強預測準確度。

SHDP-TCN主要包括3方面:對輸入序列特征加入主題詞,然后接入自注意力機制對有依賴性的時間步的貢獻進行捕捉,最后將序列輸入到TCN網絡中記住所有歷史時間步信息,從而達到最終的預測結果,具體框架圖如圖1所示。

圖1 基于時間卷積網絡的科技需求主題熱度預測算法框架圖

算法流程:

基于時間卷積網絡的科技需求主題熱度預測算法

輸入:科技需求主題熱度在時間上的熱度序列特征結合主題特征的輸入向量

輸出:科技需求主題熱度預測結果

①輸入向量線性映射到Q,W,V 3個不同空間;

②對映射的向量進行內積計算;

③將關注到重要信息的特征向量輸入擴張視野的因果卷積,并進行權重歸一化、激活函數、正則化操作;

④通過建立殘差塊形成多層網絡訓練;

⑤輸出未來時間步熱度預測值

2.2 基于自注意力機制的科技需求特征提取

將時間序列構成的向量輸入到自注意力機制網絡[26,27]中,自注意力[28]是針對序列內部不同位置進行關聯計算,對于每個輸入向量A,將輸入信息線性映射到3個不同空間并建立查詢和打分機制,計算句中字詞之間的相關程度,通過偏向性地賦予較高的權重,使得模型更關注攜帶重要信息的字詞。假設輸入向量的序列長度為n,維度為d,通過3個不同的權值矩陣WK、WQ、WV將A映射到不同空間Q、K、V,權值矩陣維度均為Rd×d,使用縮放點積進行注意力計算的方式如下:

Q,K,V=AWQ,AWK,AWV,

(1)

(2)

2.3 基于時間卷積網絡的熱度預測

TCN 的卷積層結合了擴張卷積與因果卷積兩種結構,使用因果卷積是為了保證前面時間步的預測不會使用未來的信息,因為時間步t的輸出只會根據t-1及之前時間步上的卷積運算得出。TCN的卷積和普通的一維卷積非常類似,最大的不同是用了擴張卷積,隨著層數越多,卷積窗口越大,卷積窗口中的空孔越多。在TCN的殘差模塊內,有兩層擴張卷積和ReLU[29]非線性函數,且卷積核的權重都經過了權重歸一化(圖1)。此外TCN 在殘差模塊內的每個空洞卷積后都添加了 Dropout 以實現正則化。跳層連接時直接將下層的特征圖跳層連接到上層,對應的通道數channel不一致,所以不能直接做加和操作。為了兩個層加和時特征圖數量(通道數數量)相同,通過用1×1卷積進行元素合并來保證兩個張量的形狀相同。

TCN的因果卷積板塊處理一個時間序列,需要根據序列X=(x1,x2,…,xt)預測出序列Y=(y1,y2,…,yt),設定濾波器為F=(f1,f2,…,ft),那么在xt處的因果卷積可表示為

(3)

其中,K表示一個視野中節點個數,k表示視野中第k個節點。

如果卷積的輸入層最后兩個節點分別是xt-1和xt,第一層隱藏層的最后一個節點為yt,濾波器F=(f1,f2),根據公式有

yt=f1xt-1+f2xt。

(4)

追溯的歷史信息越多,就會有越多的隱藏層。如果第二層是輸出層,那么最后的輸出節點關聯了3個輸入節點;如果第4層輸出層在最后一個節點輸出,則關聯了4個輸入節點。

TCN的空洞卷積如圖1所示,在xt處的擴張視野大小為d′的卷積計算公式為

(5)

第二層隱藏層最后一個節點yt,經過濾波器F=(f1,f2,f3),d′=2可以計算得到:

yt=f1xt-2d′+f2xt-d′+f3xt。

(6)

空洞卷積的感受野大小為(K-1)×d′+1,所以增大K或d′都可以增加感受野。一般情況下,伴隨著網絡層數的增加,擴張視野d′以2的指數增長,例如圖1中d′依次為1,2,4。

TCN的殘差模塊主要通過輸入序列,經過空洞卷積、權重歸一化、激活函數、dropout作為殘差函數,經歷1×1卷積filter,作為shortcut連接。為了解決網絡退化問題,通過讓網絡的某一層學習恒等映射函數,即把網絡設計為H(x)=F(x)+x,只要F(x)=0,就有H(x)=x。隨著網絡深度越大,性能一直保持最優狀態。

3 實驗結果與分析

基于科技資源主題熱度分布開展研究,主要是從時間角度分析主題熱度隨著時間變化的情況,同一領域同一應用方向的技術主題詞熱度分布情況,以及利用所采集數據中含有的科技需求信息的時間分布情況,由此進行時間序列的科技需求主題熱度的變化分析。

3.1 數據集

收集并處理需求數據30 872條,經過數據清洗、規范化以及數據補全得到的企業技術需求可劃分為多個行業領域,設定分類碼進行區分(表1)??萍夹枨笾黝}熱度分析結果展示中,選擇制造業在時間上的主題熱度變化分析進行展示,并將主題熱度變化作為預測原始數據。

表1 科技需求所屬行業領域分類表

3.2 對比方法

為驗證本文提出的SHDP-TCN算法,選取ARAIM、LSTM、CNN[30]和TCN 4種相關算法進行對比測試。

3.3 科技需求主題熱度分析展示

根據數據發布時間進行每個時間段的主題熱度計算,熱度值為該主題詞在某個時間段出現的頻次,用數據描述該行業領域企業技術需求中提取的每個熱點主題的熱度隨時間的變化趨勢,在指定時間段內主題熱度值越高,代表在該行業領域中此應用熱點在該時間段越熱。

以“制造業”為例展示在2015-2020年期間二級主題熱度隨時間的變化趨勢。由圖2可知,制造業中的“自動化”整體處于最熱門的技術應用點,“傳感器”的熱度值整體處于上升趨勢,說明“制造業”正在向融入互聯網技術發展。

圖2 制造業科技需求主題熱度隨時間變化趨勢圖

3.4 基于時間卷積網絡的科技需求主題熱度預測實驗

為了驗證預測模型科技需求主題熱度值在時間維度上的熱度預測的有效性,使用真實的科技需求主題熱度隨時間變化數值序列數據對模型進行訓練與測試。

原始數據是以月份為單位的時間序列,序列長度為126,時間跨度為2012.01-2021.06。數據集以2019年6月為窗口分界點,劃分為訓練集和測試集兩部分。2019年6月之前的數據進入模型訓練,并輸出預測結果;2019年6月之后的數據為模型輸出的測試集。第一組實驗不加入主題特征,只對熱度序列進行預測;第二組實驗除了熱度值外,還加入計算出的當月最高熱度主題詞。

設置ARIMA、LSTM、CNN、TCN算法參數:原始數值向量的長度設置為100維,加入主題特征的組合輸入向量長度設置為150維,SHDP-TCN預測網絡隱藏層的輸出維度與輸入保持一致;batch_size的大小設置為32,epoch的大小設置為32,學習率設置為0.000 01,訓練時dropout設置為0.5;SHDP-TCN網絡中隱藏層輸出的激活函數使用ReLU函數。

為了評估本算法實體識別的效果,使用準確率(Precision)、召回率(Recall)以及F1-score等指標對主題熱度時間序列進行預測效果評價,結果如表2所示。

表2 5種算法對主題熱度時間序列的預測效果對比

從表2的準確率和F1-score可知,傳統ARMIA模型和深度學習模型LSTM、CNN表現均不如TCN模型,表明TCN結構在序列建模方面更具優勢。因為ARMIA模型適用于平穩變化規律序列,LSTM只關注時間序列,未按時間步由因到果的特性預測,而TCN是在CNN基礎上的改良,主要改進了算法運行過程中速度慢的問題,所以對于變化不穩定的科技需求主題熱度,TCN能夠捕捉全部的歷史信息并學習,同時保證未來不會泄漏到過去,這兩個特性使得預測效果更好。SHDP-TCN是在TCN融入時間步自注意力機制和主題特征,改進后的模型不僅關注序列歷史規律,還加強了內部信息的聯系以及主題因子的影響,所以SHDP-TCN的預測結果明顯提升,模型性能優于TCN。

4 結論

本文提出了基于時間卷積網絡的科技需求主題熱度預測(SHDP-TCN)算法,利用科技需求數據主題的特點,針對數據的多維度特性,從時間序列角度對科技主題的熱度變化趨勢進行全面分析,發現科技大數據的科技主題熱度變化特點。所提方法結合熱度值以及主題詞特征全面考慮預測相關參數,且通過自注意力機制對輸入的特征進行局部重點信息提取,有效提高了預測的準確性。提煉后的科技需求主題熱度序列經過TCN全面學習所有歷史信息,實現對科技需求主題熱度值的精準預測。所提方法能夠把握科技需求的未來發展方向及科技需求主題熱度的未來變化趨勢,幫助科研人員更好地把握研究方向,實現社會企業需求與科研成果的銜接,促進科研成果的落地應用和轉化。

猜你喜歡
科技模型
一半模型
筆中“黑科技”
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
科技助我來看云
科技在線
3D打印中的模型分割與打包
科技在線
科技在線
FLUKA幾何模型到CAD幾何模型轉換方法初步研究
主站蜘蛛池模板: 久久人人97超碰人人澡爱香蕉 | 欧美成人精品高清在线下载| 日韩高清成人| 久久精品66| 色亚洲激情综合精品无码视频| 亚洲首页在线观看| 日韩a在线观看免费观看| 欧美国产综合色视频| 色综合综合网| 午夜免费小视频| 欧美日韩中文国产| 97色婷婷成人综合在线观看| 麻豆精品久久久久久久99蜜桃| 久久久久久尹人网香蕉| 99久久国产综合精品女同| 亚洲不卡影院| 欧美日韩高清| 国产成年女人特黄特色毛片免| 自慰网址在线观看| 欧美日韩在线第一页| 伊在人亚洲香蕉精品播放| 国产精品一区二区无码免费看片| 国产综合色在线视频播放线视| 免费人成视网站在线不卡| 天堂网国产| 蜜桃臀无码内射一区二区三区| 国产在线视频导航| 亚洲第一视频网| 欧美日韩国产成人高清视频| 午夜成人在线视频| 亚洲三级视频在线观看| 欧美午夜理伦三级在线观看| 在线中文字幕日韩| 人妻少妇久久久久久97人妻| 69免费在线视频| 人妻中文久热无码丝袜| 国产亚洲精品97AA片在线播放| 亚洲欧美日韩另类在线一| 国产精品亚洲欧美日韩久久| 精品无码日韩国产不卡av| 精品欧美视频| 欧美中文字幕无线码视频| 国产欧美日韩在线一区| 久久久久国色AV免费观看性色| 欧美天天干| 激情综合五月网| 欧美一级色视频| а∨天堂一区中文字幕| 国产精品部在线观看| 国产91久久久久久| 亚洲精品自产拍在线观看APP| 久久国产高清视频| 99在线视频网站| 欧美精品在线免费| 中文字幕伦视频| 免费jjzz在在线播放国产| 亚洲天堂免费观看| 国产精品第5页| 免费国产黄线在线观看| 在线观看网站国产| 久久福利片| 9丨情侣偷在线精品国产| 99爱视频精品免视看| 人妻精品全国免费视频| 一级看片免费视频| 国产麻豆精品久久一二三| 久久久久久午夜精品| 亚洲毛片网站| 久久国产精品电影| 亚洲乱伦视频| 国产毛片高清一级国语| 欧美国产成人在线| 98精品全国免费观看视频| 欧美有码在线| AV在线麻免费观看网站| 免费又爽又刺激高潮网址 | 成人在线观看一区| 国内精品久久久久鸭| 免费国产小视频在线观看| 国产日本欧美在线观看| 福利国产微拍广场一区视频在线| 四虎精品国产AV二区|