基于NR-Transformer的集群作業運行時間預測*

2022-08-11 08:46:58陳奉賢

計算機工程與科學 2022年7期

陳奉賢

(蘭州大學網絡安全與信息化辦公室,甘肅蘭州 730000)

1 引言

高性能計算發展快速，已被廣泛應用到科學研究與工程應用等領域。高性能計算由于具有計算能力強、并行規模大和多類型異構計算等特點，在高密度計算和人工智能等領域得到了充分的應用。

高性能計算通常以大規模計算集群的方式提供服務，集群上運行的作業類型多樣，不同類型的作業占用的資源和運行時長各不相同[1]。在這種大規模的高性能集群上，作業調度一般由作業調度系統來實現。系統會監控作業的資源消耗、使用時長等特征，再通過相關調度算法，來確定作業在集群上的執行順序。

常用的調度策略有先來先服務FCFS(First Come First Serve)、輪轉(Round Robin)和短作業優先SJF(Short Job First)等[2]。作業根據這些調度算法的預定規則確定的作業順序按序執行，例如FCFS是按照作業提交的順序調度作業運行。當集群上計算耗時長的大作業較多時，FCFS調度算法難以利用集群的碎片資源，導致一定程度的資源浪費[3]。回填算法(Backfilling)是一種輔助調度算法，它根據當前集群作業所需的運行時間信息，在不改變原作業執行順序的情況下，將集群上的碎片資源分配出去，提高集群資源的利用率[4]。由于FCFS算法穩定，對作業和進程調度公平，因此現有的作業調度系統大都采用先來先服務加回填的調度方式，本文工作也是基于該方式展開，該方式對作業運行時間的預估有較高的要求。但用戶預估的作業運行時間和實際運行時間之間往往有較大誤差，結合用戶作業信息和集群作業的歷史日志分析預測的運行時間，能較大程度地提高準確率[5]。因此，要提高集群作業的運行效率，需要有效利用用戶的歷史作業信息，對集群作業的運行時間進行準確的預測[6,7]。

2 相關工作

目前對集群作業運行時間的預測，大多是基于歷史日志數據的，即假定同一集群上計算模式和規模相似的作業其運行時長也較為接近。該方法雖然能一定程度上提升準確率，但是，由于歷史數據中存在缺失數據和噪聲數據[8]，使得精確預測作業運行時間成為一道難題。一種策略是利用同一用戶的歷史作業信息預測該用戶未來作業的運行時間，例如將某用戶最近2次作業運行時間的平均值作為其下一次作業運行時間的預測值[1]，該算法對EASY回填(EASY-Backfilling)算法的調度系統性能有一定的提升，但在大規模的高性能集群上的準確率和適用性都難以達到實用效果，尤其難以預測新用戶的作業。文獻[9]從歷史作業的特征中去衡量不同用戶、不同作業的相似度，篩選出與待預測作業最為相似的若干作業，并將這些作業的平均運行時間作為待預測作業的運行時間。該預測算法不依賴于單個用戶的歷史日志，通過改進作業相似度衡量算法，對噪聲數據有一定的抗干擾能力。

近年來，聚類、分類和集成學習等機器學習方法越來越多地用于集群作業運行時間預測。文獻[10]先從歷史日志中篩選出與作業運行時間相關的重要特征，再利用這些特征進行聚類，根據聚類結果預測新作業的運行時間。文獻[11]基于K-近鄰算法，先通過歷史數據訓練KD樹，然后使用訓練好的KD樹計算新作業與歷史作業的距離，并將新作業劃分到與之距離最近的作業類別中，以完成作業的運行時間預測。除使用單一的機器學習算法外，有不少學者嘗試使用集成學習的方法預測運行時間。文獻[12]以隨機森林回歸、支持向量回歸SVR(Support Vector Regression)和貝葉斯嶺回歸3種回歸模型為基模型來提取VASP(Vienna Ab-initio Simulation Package)的作業特征，預測作業的運行時間，并對預測結果進行了2次學習。同時，該文獻將歷史數據按運行時間長度分為多個區間，在每個區間內分別進行訓練和預測，取得了較好的預測效果。文獻[13]將分類和學習算法相結合，提出一種GA-Sim集成學習算法。該算法先用K-近鄰搜索相似作業，然后在相似作業集上訓練SVR模型，將訓練好的SVR模型用于最終的預測。文獻[14]先探討了不同調度策略的特點，再按具體的調度策略，使用梯度提升樹方法來提升集群作業運行時間預測預測的準確率。隨著神經網絡的飛速發展，有研究人員使用深度神經網絡對集群作業日志建模，以提升作業運行時間預測的準確率。文獻[15]使用俄羅斯科學院聯合超級計算機中心(JSCC RAS)的超級計算機MVS-100K和MVS-10P的統計數據，將工作日志特征按重要性排序，確定了最重要特征的互相關，然后使用多種方法建模和預測，最后使用隨機森林取得了最佳預測效果。文獻[17]使用神經網絡建模來預測運行時間和I/O ，將整個作業腳本輸入深度學習模型，從而實現運行時間和 I/O資源預測的完全自動化。

本文在上述研究的基礎上，提出一種基于注意力機制的NR-Transformer(Non-Residual connected Transformer)網絡，對作業日志數據建模和預測。在具體算法中，先使用K-Means聚類算法對集群用戶進行聚類，將用戶的類別特征作為用戶特征加入數據集中；然后根據集群作業運行時間的長度將數據集劃分為不同的作業集；同時考慮到集群上作業提交順序的時序因素，分別使用循環神經網絡RNN(Recurrent Neural Network)、長短期記憶LSTM(Long Short-Term Memory)網絡和NR-Transformer網絡等結構，在各作業集上訓練和預測，并對比分析了各網絡結構下不同運行時間區間內的預測結果。

3 數據特征處理

高性能計算集群實際產生的作業日志包含多種特征，例如用戶ID、使用的CPU數量和作業等待時間等。如果將這些特征全部用于模型訓練，一方面會使模型過于復雜，導致訓練周期過長，且容易出現過擬合現象；另一方面，由于部分特征包含了大量的缺失數據和噪聲數據，這部分特征用于訓練會導致模型難以收斂。因此，在訓練模型前，需要先對歷史作業日志數據的特征進行篩選和清洗。

為驗證本文所提網絡的有效性和實用性，實驗選用高性能集群日志中常用的公共數據集：ANL-2009、HPC2N和KIT[17]。這些數據集中的數據均由實際使用的高性能集群記錄產生，其中，ANL-2009是阿貢實驗室超級計算機記錄的作業調度信息；HPC2N來自北瑞典高性能計算中心Seth的日志信息；KIT來自德國卡爾斯魯厄技術學院的ForHLR II系統一年半的作業記錄。這些數據集的數據均以標準日志格式SWF(Standard Workload Format)的形式記錄。本文將這3個數據集分別編號為1,2和3，其詳細信息如表1所示。

Table 1 Details of datasets表1 數據集詳細信息

3.1 數據特征篩選

從表1可以看出，3個數據集均來自多用戶的高性能計算集群，經過初步整理后這些標準日志數據均包含18維作業特征。這些特征包含：作業的提交時間、等待時間和運行時間等在內的時間類特征；占用CPU數、內存大小等資源類特征：用戶ID、用戶組等用戶類特征。這些作業特征均使用實際數值表示，缺失數據則用-1來表示。上述數據集經過初次清洗和整理后，部分作業特征中仍存在大量缺失數據，因此需要對其進一步地清洗和處理。

表2是各數據集上對缺失數據超過80%的特征的數量統計。從表2中可以看出，數據集1和數據集3有9個特征的數據缺失比例超過80%，數據集2有7個特征的缺失比例超過80%。這些特征由于缺失數據過多，屬于無效特征，因此需要將其刪除。在剩余的特征中，對包含重復信息的特征只選擇其中1維，例如作業號碼用于記錄作業提交的順序，其與作業的提交時間重疊，故只保留作業的提交時間。最終，共篩選出7維特征用于模型訓練和預測，特征名稱和部分值見表3。

Table 2 Feature statistics of missing large amounts of data表2 缺失大量數據的特征統計

Table 3 Selected features and their values表3 篩選后的特征及其特征值

從表3可以看出，保留的作業特征仍涵蓋了上述時間類、資源類和用戶類特征，特征篩選沒有造成日志數據信息的損失。對于篩選后數據特征中仍存在的少量缺失值，本文使用均值插值法對其進行填充。

高性能作業日志中，部分數據來源于提交的作業參數或程序錯誤而使作業提前終止的錯誤作業日志，也需要將其作為噪聲數據剔除。本文將作業日志中運行時間少于180 s的作業數據和實際運行時間低于請求作業時間1%的作業數據作為噪聲數據從數據集中剔除。除此之外，極少數作業運行時間遠大于其他作業，這部分數據作為離群點也被剔除出數據集外。

除此之外，7維特征中，時間類特征值在數量級上遠大于其他2類特征，使各特征之間權重失衡，因此需要對數據做歸一化處理。本文使用自然對數歸一化的方式對時間類的特征進行處理，處理后的特征值在1～15。

3.2 用戶聚類

數據經過篩選和標準化后，可用于進一步挖掘行為相似的用戶，優化用戶類別的數據特征。研究表明，相類似的用戶在同一個高性能計算集群上通常會重復提交相似的作業[18,19]。由表1可知，3個數據集上用戶數均比較多，用戶ID作為離散特征變量直接用于訓練模型，可能會因為值過于分散而導致模型難以收斂。因此，本文使用聚類算法，首先根據歷史日志中用戶作業的計算模式和規模進行聚類分析，得到計算模式相似的用戶類別，然后使用該特征作為用戶的類別特征，代替用戶ID，降低用戶特征的離散程度。

本文使用K-Means聚類算法，該算法具有原理簡單、速度快等特點。在聚類前，先整理用戶的主要特征，統計各用戶在平臺上的作業數、平均等待時間、平均運行時間和平均使用CPU數目等指標，然后將其作為用戶的特征，用于用戶聚類。在訓練時,K-Means算法需要預先指定聚類的簇值K，但不同的K值對聚類效果影響較大。因此，本文首先對K值預設范圍，訓練聚類模型時分別使用該范圍內的K值，然后用輪廓系數(Silhouette Coefficient)衡量各K值下的聚類效果[20]。樣本i的輪廓系數和整個數據集總的輪廓系數的計算方法如式(1)和式(2)所示：

(1)

(2)

其中，a(i)為樣本i到其所在簇中其它樣本的平均距離，b(i)為樣本i到其它簇中樣本的平均距離，N為樣本數，S(i)為樣本i的輪廓系數，SC為整個數據集總的輪廓系數。

聚類的總輪廓系數越接近于1，說明簇內樣本之間越緊湊，簇間距離越大；反之，則說明簇間重疊部分大，聚類效果不佳。因此，本文選取預選區間內使輪廓系數最大的K值作為最終的聚類簇值。具體算法流程圖如圖1所示。

Figure 1 User cluser algorithm圖1 用戶聚類算法

本文預設的K值在3～18，在3個數據集上分別使用取值范圍內的K值訓練聚類模型，計算和統計不同K值下的輪廓系數。輪廓系數隨K值的變化如圖2所示。由圖2可知，在3個數據集上，隨著聚類的K值增加，輪廓系數整體呈下降趨勢，說明數據集上的用戶類別分布差異相對較小。數據集1的輪廓系數整體高于其他2個數據集的，而數據集1的數據量小于其他2個數據集的，日志整體的時間跨度也較小，因此可以推斷出，數據采樣的時間間隔和數據量會影響數據集上用戶作業的差異性，時間間隔越久，數據量越多，用戶作業的差異性也就越大，這也符合文獻[18]的實驗結論。

Figure 2 Curve of silhouette coefficient changes with K value圖2 輪廓系數隨K值的變化曲線

此外，數據集1和數據集2均在K取4時輪廓系數達到最大值，數據集3在K取6時輪廓系數達到最大值。因此,本文對數據集1和2進行K取4時的用戶聚類，對數據集3進行K取6時的用戶聚類，得到最終的用戶類別。

4 預測模型

從第2節對數據集的特征描述可知，作業日志中有多個特征用于記錄作業提交和執行的時序信息?，F有的研究在分析作業日志時，大都沒有考慮前后作業之間的聯系。文獻[13]篩除時序特征，只利用了用戶特征和作業資源特征;文獻[21]只將作業提交時間作為作業特征信息用于訓練模型，也未考慮作業之間的關聯。在實際的作業系統中，新作業的運行狀態往往和當前集群上正在運行的作業有關，例如當前系統上作業的運行時間會直接影響到新作業的等待時間。

為了利用數據集上作業之間的時序性，本文在分離長短作業時保留原作業的提交順序，并按照時間步長L對數據進行采樣。采樣后的一組數據長度為T，訓練時以T為基本長度提取時序信息。在模型選擇上，使用能有效利用數據歷史信息的循環神經網絡、長短期記憶網絡和改進的注意力模型Transformer等結構，來提取作業數據的特征和時序信息。訓練時，使用長度為T的序列數據預測第T+1位置的作業運行時間。

4.1 循環神經網絡

循環神經網絡RNN通常用于序列數據的建模，在語音序列、自然語言和時間序列等數據上有廣泛的使用。RNN通過有向循環連接，在計算當前隱藏層的狀態時，同時考慮了當前的輸入向量和上一時間步的隱藏層狀態，使神經網絡能夠學習歷史信息[22]。但是，RNN在輸入序列過長時，通過循環連接累積的梯度容易造成梯度的消失/爆炸，致使RNN無法獲取序列的長期依賴。為了解決上述梯度問題，文獻[23]在RNN細胞結構中引入門控單元，通過輸入門、遺忘門和輸出門等結構構建了長短期記憶LSTM網絡[24]。通過門控單元對每次輸入進行非線性變換，避免了梯度消失/爆炸，解決了序列數據的長期依賴問題。

本文以RNN和LSTM網絡作為基準模型，驗證對作業日志數據進行時序建模和預測的有效性。

圖3是循環神經網絡預測模型。其中，輸入為第2節中處理后的作業特征數據；神經網絡部分是3層的RNN/LSTM網絡，每層均包含64個神經元;輸出是一個全連接網絡層，用于調整預測值的維度。在激活函數的選擇上，RNN選用ReLU函數，以避免梯度問題；LSTM根據各個門限結構的特點，使用Sigmoid函數和Tanh函數。

Figure 3 Recurrent neural network model圖3 循環神經網絡模型

4.2 NR-Transformer網絡

注意力機制AM(Attention Mechanism)通常應用于Seq2Seq結構中，用于處理輸入端和輸出端序列長度不等的數據。在編碼端，對于每一時刻的輸入，AM都計算該時刻基神經網絡的輸出狀態值，并將該狀態值用于解碼端的輸入?；窠浘W絡一般選擇RNN或LSTM，使用注意力機制的Seq2Seq網絡可以獲取比LSTM更長的序列歷史信息，在自然語言處理和部分時間序列上都取得了較好的效果。但是，由于RNN和LSTM無法并行化，使得模型的訓練速度較為緩慢。

Transformer是Google提出的基于自注意力機制的Seq2Seq結構[25]。由于自注意力結構計算時不依賴前一時刻的輸出值，因此可以通過并行化來加速模型的訓練速度。該網絡使用位置編碼PE(Positional Encoding)計算序列中數據的相對位置，以獲取數據的時序關聯信息。編碼端和解碼端都使用多頭自注意力結構，每層之間使用殘差連接，并進行了層正則化處理[26]。

使用原始的Transformer在作業日志數據上訓練時，模型收斂速度較慢，其預測準確率和基準模型的有較大差距。因此，本文根據Transformer和日志作業數據的特點，提出一種改進的NR-Transformer結構：在注意力計算上，使用縮放點積的計算方式；在層與層的連接上，去除各子層之間的殘差連接，并只對部分層進行層正則化處理；在輸出端，使用全連接層對模型的狀態向量進行映射變換。NR-Transformer的結構如圖4所示。

Figure 4 NR-Transformer structure圖4 NR-Transformer結構

輸入數據先經過由單層全連接網絡組成的嵌入層，將輸入數據特征編碼為向量表示。位置編碼模塊提取輸入向量的時序信息，具體計算如式(3)所示：

(3)

其中，PE(t,2i)表示輸入向量中t時刻第i維的位置編碼向量，dmodel表示輸入向量的維度大小。通過位置編碼模塊，得到包含作業數據時序信息的位置編碼向量，再將位置編碼向量和輸入向量相加得到新向量，作為編碼器和解碼器的輸入。

編碼器和解碼器的核心模塊是多頭注意力(Multi-Head Attention)，它是Transformer中提出的一種注意力計算算法。該算法通過降維映射和縮放點積多次計算輸入的注意力，并將這些計算結果拼接起來，計算公式如式(4)所示：

MultiHead(Q,K,V)=

Concat(head1,…,headh)Wo

(4)

其中，h是頭的個數，即計算次數;headi通過縮放點積求得,如式(5)所示：

(5)

Feed Forward層是編碼器和解碼器中的最后一個模塊，該部分對多頭注意力的輸出進行非線性變換。它由2個全連接網絡和激活函數組成。解碼器的輸出經過1層全連接網絡得到最終的預測結果。在本文中，激活函數使用ReLU函數，編碼器和解碼器的層數n均為3，頭的個數h為8。

5 實驗與結果

5.1 數據集劃分

運行時間相差較大的作業，其特征差異也往往較大，如果不加區分地使用全部數據訓練模型，模型難以很好地學習數據集的特征，導致模型難以收斂到最優點?，F有的研究通常按照作業的實際運行時間將數據集中的長短作業分離，分別在各作業集上進行訓練和預測。

本文先對3個數據集的運行時間區間進行統計，然后根據各區間的樣本數，劃分各數據集上的長短作業集。圖5～圖7分別是數據集1,2和3的區間頻數統計圖。從圖中可以看出，3個數據集上運行時間在0～5 000 s的短作業樣本最多，大于40 000s的長作業樣本較少。本文按照運行時間的區間和各區間的樣本數，將3個數據集分別劃分成長、中、短3類作業集，具體劃分如表4所示。

Figure 5 Runtime interval distribution on Dataset1圖5 數據集1運行時間區間分布

Figure 6 Runtime interval distribution on Dataset2圖6 數據集2運行時間區間分布

Figure 7 Runtime interval distribution on Dataset3圖7 數據集3運行時間區間分布

表4 長短作業劃分

從表4中可知，3個數據集中，數據集2的作業日志數最多，在各作業集上的樣本數也均多于數據集1和數據集3的；數據集1主要由短作業樣本組成，中長作業樣本遠少于短作業樣本；數據集2和數據集3上各作業集的樣本數則較為均衡。

在后續實驗中，各作業集按照8∶1∶1的比例劃分訓練集、驗證集和測試集。其中，訓練集和驗證集用于模型的訓練，測試集用于評估模型的預測效果。

5.2 實驗參數和評價方式

實驗中網絡參數的選擇按照第3節中的預設為主：RNN和LSTM均使用3層網絡，神經元個數為64；NR-Transformer使用的編碼器和解碼器均為3層，多頭注意力中的h為8;優化器均使用Adam優化算法[27]，初始學習率為0.001，Batch Size為128，時間步長為20。在訓練時，使用Dropout來防止過擬合[28]。模型使用PyTorch框架實現，計算使用單塊的NVIDIA Tesla V100顯卡。

本文使用Huber函數作為目標函數[29]。該函數對平均絕對誤差MAE(Mean Absolute Error)函數進行了平滑，避免訓練時出現梯度爆炸的情況。

在模型預測效果的評測方式上，本文使用平均絕對百分比誤差MAPE(Mean Absolute Percent Error)和平均預測準確率APA(Average Predictive Accuracy)2個指標。

在對模型預測的誤差評估上，由于本文使用多種不同運行時間長度的數據集，因此難以直接用平均絕對誤差衡量。平均絕對百分比誤差則能較好地衡量預測值相比于實際值的偏離程度，其值越小，說明預測模型的預測精度越好。記測試集樣本數為N，其MAPE計算如式(6)所示：

(6)

平均預測準確率是測試集上所有作業的預測準確率的平均值，單個作業的預測準確率計算如式(7)所示：

(7)

在整個測試集上的平均預測準確率如式(8)所示：

(8)

APA的值在0～1，其值越接近于1，說明預測值越接近于實際值。

5.3 實驗結果

本文分別使用BP神經網絡BPNN(Back Propagation Neural Network)、RNN、LSTM和NR-Transformer 4種神經網絡結構進行實驗。其中，BP神經網絡用于和時序神經網絡對比，其網絡層數和神經元數與RNN的相同。

數據集分別使用4.1節中劃分的各長短作業集，在每個作業集上，分別使用上述4種神經網絡訓練模型。在實際訓練中，為防止訓練時出現過擬合現象，本文使用了早停法，即在5個連續的訓練周期中，如果驗證集的損失函數沒有下降，則提前結束訓練。

由4.1節可知，數據集2上的作業樣本數最多，且各作業集的樣本量也較為均衡，因此本文對數據集2上的實驗結果進行詳細分析，再驗證結論在數據1和數據集3上是否具有一致性。

圖8和圖9分別是4種神經網絡在各測試集上的預測結果。由圖可知，BP神經網絡和其它3種時序網絡相比，在各作業集上誤差率較高，準確率較低。NR-Transformer網絡則在各作業集上都有較低的百分比誤差和較高的準確率，在長作業集上平均預測準確率達0.905。在該數據集上，NR-Transformer預測的結果和文獻[13]中使用SVR等機器學習算法預測的結果相比，平均預測準確率提升了近0.2。

Figure 8 MAPE of each job set on Dataset2圖8 數據集2上各作業集MAPE

Figure 9 APA of each job set on Dataset2圖9 數據集2上各作業集APA

圖10和圖11分別是BPNN和NR- Transformer在中作業集上的部分預測值和實際值的對比。從圖中可以看出，BPNN沒有充分學習到作業運行時間的變化規律，其預測值大部分為該作業集上運行時間的中值，也沒有預測出作業運行時間的變化趨勢；NR-Transformer則較好地從歷史作業信息中學習到了作業之間的時序信息，對部分運行時間變化較大的點也有較高的預測準確率。

Figure 10 Comparison of values predicted by BPNN and the actual value圖10 BPNN預測值與實際值對比

Figure 11 Comparison of values predicted by NR-Transformer and the actual value圖11 NR-Transformer預測值與實際值對比

由上述分析可知，BPNN在實際預測中，難以學習到作業數據中的時序信息，因而平均準確率較低。而在時序網絡中，LSTM通過門控結構、NR-transformer通過位置編碼模塊和自注意力機制都能獲取到較長的作業歷史信息，在平均預測準確率上高于RNN。

Figure 12 MAPE and APA on Dataset1圖12 數據集1上的MAPE和APA

Figure 13 MAPE and APA on Dataset3圖13 數據集3上的MAPE和APA

圖12和圖13是上述神經網絡在數據集1和數據集3上的測試結果。可以看出，由于數據集上樣本數量的差異，這2個數據集上各神經網絡的整體預測效果均差于數據集2的。這說明深度神經網絡往往需要較大量的數據，才能訓練出較優的模型。在各作業集的具體表現上，各神經網絡的性能和數據集2上的結果基本一致，BPNN和RNN的性能略差于LSTM和NR-Transformer的。數據集1的長作業集樣本只有3 964個，在該作業集上，BPNN預測準確率只有0.67。可以看出，在樣本量較小時，結構簡單的BPNN難以學習到作業數據的特征；NR-Transformer的結果和RNN和LSTM的相比有較為明顯的提升，說明該網絡同樣適用于小樣本量數據。

圖14是訓練好的各模型在數據集2的測試集上預測所用時間的對比。從圖14中可以看出，由于各區間的測試集數據量相近，因此模型在這3個作業集上的預測時間相一致。其中，BPNN由于結構簡單，在3 000組測試數據上預測所用時間最少，最短時間只有0.15 s；LSTM結構較為復雜，且不能并行化執行，所用時間最長；NR-Transformer和RNN所用時間相近，預測3 000組測試數據用時在0.5 s左右，但在平均預測準確率上，NR-Transformer高于RNN的。在實際預測新作業的運行時間時，NR-Transformer能在較短時間內預測出準確的作業運行時間。

Figure 14 Prediction time of test dataset on Dataset2圖14 數據集2上的測試集預測所需時間

綜上所述，本文分別使用4種不同的神經網絡結構在3個數據集上的不同作業集上進行了訓練和預測。本文提出的NR-Transformer結構在多個作業集上的預測性能優于RNN和LSTM的，最高平均預測準確率達0.9，同時在樣本數較少的作業集上也有較好的預測準確率，說明NR- Transformer能較好地用于作業數據的運行時間預測。在實際作業調度系統中，可以在考慮誤差率的情況下，將NR-Transformer預測的運行時間作為作業的估計運行時間，配合回填算法提高集群的調度效率。

6 結束語

使用回填策略等算法提升高性能集群作業調度效率，需要準確的作業運行時間估計。本文從歷史作業數據的相似性出發，先對集群用戶進行聚類，將類別信息添加到作業特征中；再使用多種神經網絡，在各作業集上進行訓練和預測。實驗結果顯示，時序性神經網絡在作業運行時間預測上有較高的平均預測準確率和較低的預測百分比誤差。其中，本文提出的NR-Transformer結構在多個作業集上較RNN和LSTM網絡都有更準確和更穩定的預測結果。

今后將在實際的高性能集群上試用NR-Transformer來預測作業的運行時間，并進一步改進，以提升集群的利用率。