基于機(jī)器學(xué)習(xí)的異構(gòu)多核處理器系統(tǒng)在線映射方法

2019-08-27 02:26:02安鑫張影康安陳田李建華

計(jì)算機(jī)應(yīng)用 2019年6期

安鑫張影康安陳田李建華

摘要：異構(gòu)多核處理器（HMPs）平臺(tái)已成為現(xiàn)代嵌入式系統(tǒng)的主流解決方案，其中在線映射或調(diào)度對(duì)充分發(fā)揮其高性能和低功耗的優(yōu)勢(shì)起著至關(guān)重要的作用。針對(duì)HMPs的應(yīng)用任務(wù)動(dòng)態(tài)映射問(wèn)題，提出了一種基于機(jī)器學(xué)習(xí)預(yù)測(cè)模型的在線映射調(diào)度解決方案。一方面，構(gòu)建了一個(gè)可以快速高效地預(yù)測(cè)和評(píng)估不同映射方案性能的機(jī)器學(xué)習(xí)模型，為在線調(diào)度提供支持;另一方面，將該機(jī)器學(xué)習(xí)模型整合到遺傳算法中以高效地找到（接近）最優(yōu)的資源分配方案。最后，通過(guò)一個(gè)M-JPEG解碼器驗(yàn)證了所提方法的有效性。實(shí)驗(yàn)結(jié)果表明，該方法的平均執(zhí)行時(shí)間相較于常見的輪詢調(diào)度和抽樣調(diào)度方法分別降低了28%和19%左右。

關(guān)鍵詞：異構(gòu)多核處理器;機(jī)器學(xué)習(xí);動(dòng)態(tài)資源分配;性能預(yù)測(cè);映射和調(diào)度

中圖分類號(hào)： TP302.7

文獻(xiàn)標(biāo)志碼：A

Abstract： Heterogeneous Multi-core Processors （HMPs） platform has become the mainstream solution for modern embedded system design， and online mapping or scheduling plays a vital role in making full use of the advantages of high performance and low power consumption. Aiming at the dynamic mapping problem of application tasks in HMPs， a mapping and scheduling approach based on machine learning prediction model was proposed. On the one hand， a machine learning model was constructed to predict and evaluate the performance of different mapping strategies rapidly and efficiently， so as to provide support for online scheduling. On the other hand， the machine learning model was integrated with genetic algorithm to find out the optimal resource allocation strategy efficiently. Finally， an Motion-Join Photographic Experts Group （M-JPEG） decoder was used to verify the effectiveness of the proposed approach. The experimental results show that， compared with the Round Robin Scheduler （RRS） and sampling scheduling approaches， the proposed online mapping/scheduling approach has reduced the average execution time by about 19% and 28% respectively.

Key words： Heterogeneous Multi-core Processors （HMPs）; machine learning; dynamic resource allocation; performance prediction; mapping and scheduling

0 引言

為了滿足現(xiàn)代嵌入式系統(tǒng)對(duì)高性能、低功耗的需求，異構(gòu)多核處理器（Heterogeneous Multi-core Processors， HMPs）已經(jīng)得到了廣泛使用，如ARM big.Little移動(dòng)設(shè)備[1]和新款iPhone XS配備的A12仿生異構(gòu)多核處理芯片[2]。該類處理器能夠?qū)⒏邥r(shí)鐘頻率、復(fù)雜指令集的大核和低時(shí)鐘頻率、簡(jiǎn)單指令集的小核相結(jié)合，以此來(lái)滿足不同運(yùn)行場(chǎng)景的需要[3]。另一方面，為了進(jìn)一步提高現(xiàn)代嵌入式系統(tǒng)的能效，動(dòng)態(tài)電壓和頻率調(diào)整（Dynamic Voltage and Frequency Scaling， DVFS）技術(shù)應(yīng)運(yùn)而生，它通過(guò)根據(jù)需要調(diào)整核心頻率來(lái)實(shí)現(xiàn)節(jié)能需求，在現(xiàn)代處理器中也得到了普遍的應(yīng)用[4]。然而，要充分利用HMPs和DVFS技術(shù)來(lái)提高系統(tǒng)的性能并降低功耗，需要解決的一個(gè)很重要的問(wèn)題就是任務(wù)的動(dòng)態(tài)映射（或調(diào)度）問(wèn)題。動(dòng)態(tài)映射問(wèn)題是指在系統(tǒng)運(yùn)行過(guò)程中，當(dāng)系統(tǒng)運(yùn)行環(huán)境發(fā)生變化時(shí)如何為系統(tǒng)中的應(yīng)用任務(wù)進(jìn)行相應(yīng)的資源分配和調(diào)度，從而使其達(dá)到優(yōu)化性能和功耗等方面的要求。

解決動(dòng)態(tài)映射問(wèn)題的關(guān)鍵是要能夠在環(huán)境發(fā)生變化后對(duì)可能的資源分配和調(diào)度方案進(jìn)行性能等方面的評(píng)估，并從中選擇最優(yōu)或者接近最優(yōu)的映射調(diào)度方案。傳統(tǒng)的性能評(píng)估方法可以概括為兩類：一類是通過(guò)為系統(tǒng)建立抽象的數(shù)學(xué)評(píng)估模型（又稱為成本模型）來(lái)進(jìn)行計(jì)算，另一類是通過(guò)對(duì)系統(tǒng)進(jìn)行仿真模擬來(lái)獲得[5]。成本模型可以通過(guò)建立相關(guān)模型對(duì)系統(tǒng)不同調(diào)度方案的性能或者功耗進(jìn)行高效評(píng)估，然而其準(zhǔn)確性依賴于模型本身及其相關(guān)參數(shù)的準(zhǔn)確性，而這些參數(shù)對(duì)于大部分系統(tǒng)來(lái)說(shuō)一方面是動(dòng)態(tài)可變的，另一方面往往難以準(zhǔn)確獲得，從而導(dǎo)致該類方法精度不足;而基于仿真模擬的方法，為了提高評(píng)估準(zhǔn)確性，需要盡可能地對(duì)系統(tǒng)的實(shí)現(xiàn)細(xì)節(jié)進(jìn)行實(shí)現(xiàn)和模擬，從而導(dǎo)致該類方法比較耗時(shí)，不適于在線對(duì)大量的調(diào)度方案進(jìn)行快速評(píng)估。因此，如何創(chuàng)建一種既能結(jié)合成本模型的快速高效、又能兼顧模擬仿真模型準(zhǔn)確性的方法，在提高準(zhǔn)確性的同時(shí)提高評(píng)估準(zhǔn)確性，從而為系統(tǒng)動(dòng)態(tài)進(jìn)行分配資源和調(diào)度提供支持也就成為了業(yè)界一直以來(lái)的研究熱點(diǎn)。

機(jī)器學(xué)習(xí)和深度學(xué)習(xí)技術(shù)目前在自然語(yǔ)言處理、圖像識(shí)別、推薦系統(tǒng)與博弈等領(lǐng)域取得了很大的成功[6]。這也吸引了嵌入式系統(tǒng)設(shè)計(jì)領(lǐng)域?qū)＜液蛯W(xué)者的濃厚興趣，特別是面對(duì)設(shè)計(jì)復(fù)雜度日益增長(zhǎng)的問(wèn)題，機(jī)器學(xué)習(xí)技術(shù)可以從過(guò)去解決問(wèn)題的經(jīng)驗(yàn)中學(xué)習(xí)知識(shí)，以快速高效的方式找到高質(zhì)量的設(shè)計(jì)方案，這無(wú)疑大大減輕了設(shè)計(jì)人員的工作負(fù)擔(dān)。目前，已經(jīng)有基于機(jī)器學(xué)習(xí)技術(shù)來(lái)解決異構(gòu)多核系統(tǒng)調(diào)度問(wèn)題的方法被提出并取得了良好的效果。這方面的工作主要有兩類：一類工作是針對(duì)調(diào)度方案的性能和/或功耗預(yù)測(cè)，如文獻(xiàn)[7-8];另外一類是針對(duì)任務(wù)的動(dòng)態(tài)調(diào)度，如文獻(xiàn)[9-10]。然而，盡管過(guò)去幾年機(jī)器學(xué)習(xí)技術(shù)獲得越來(lái)越多的關(guān)注，但它在改善異構(gòu)多核系統(tǒng)性能方面仍處于早期階段[6]。大部分工作考慮系統(tǒng)運(yùn)行時(shí)的細(xì)節(jié)信息（如中央處理器的利用率、內(nèi)存和通信互連的使用情況），但是這些細(xì)粒度信息通常不易得到而且獲取的代價(jià)較大，不能很好地解決在線映射調(diào)度兼顧高效和準(zhǔn)確性的問(wèn)題;另外目前大部分工作針對(duì)的是獨(dú)立任務(wù)的動(dòng)態(tài)資源分配和調(diào)度問(wèn)題，并沒(méi)有考慮任務(wù)之間依賴關(guān)系所帶來(lái)的問(wèn)題復(fù)雜度。

針對(duì)具有DVFS功能的HMPs系統(tǒng)應(yīng)用任務(wù)動(dòng)態(tài)映射問(wèn)題，本文提出了一種基于機(jī)器學(xué)習(xí)模型對(duì)運(yùn)行時(shí)映射選擇進(jìn)行快速高效評(píng)估的動(dòng)態(tài)映射調(diào)度解決方案。一方面該方案僅利用少許易獲取的運(yùn)行時(shí)信息（比如映射位置），另一方面該方案可以處理采用有向無(wú)環(huán)圖（Directed Acyclic Graph， DAG）描述的應(yīng)用任務(wù)映射問(wèn)題，從而能夠在動(dòng)態(tài)調(diào)度中考慮任務(wù)依賴關(guān)系可能帶來(lái)的差異。具體而言，本文的工作主要包含以下兩個(gè)方面：

1）本文通過(guò)采用機(jī)器學(xué)習(xí)技術(shù)構(gòu)造系統(tǒng)性能預(yù)測(cè)模型來(lái)對(duì)不同映射方案和每個(gè)核的頻率值進(jìn)行高效性能評(píng)估，并通過(guò)實(shí)驗(yàn)驗(yàn)證了其準(zhǔn)確性。

2）提出了一種結(jié)合遺傳算法（Genetic Algorithm， GA）和機(jī)器學(xué)習(xí)預(yù)測(cè)模型的運(yùn)行時(shí)動(dòng)態(tài)映射方法，并通過(guò)實(shí)驗(yàn)與當(dāng)前常用的動(dòng)態(tài)映射方法和最優(yōu)化的映射方法進(jìn)行了比較和分析。

1 相關(guān)工作

隨著當(dāng)前嵌入式系統(tǒng)設(shè)計(jì)復(fù)雜性的增加，處理器上核的數(shù)目不斷地增長(zhǎng)，如何設(shè)計(jì)和實(shí)現(xiàn)應(yīng)用程序的映射和調(diào)度已經(jīng)成為研究的熱點(diǎn)之一。而并行程序的映射和調(diào)度是一個(gè)眾所周知的NP完全問(wèn)題（Non-deterministic Polynomial complete problem）[11]，這意味著詳盡地探索所有的映射選擇從而找到最優(yōu)的映射方案是非常耗時(shí)的，也是不可行的。因此，目前關(guān)于映射問(wèn)題的研究大多數(shù)是基于啟發(fā)式算法[12-14]來(lái)找到一個(gè)近似的最優(yōu)解。文獻(xiàn)[15]中對(duì)嵌入式系統(tǒng)設(shè)計(jì)空間的快速探索和評(píng)估的設(shè)計(jì)技術(shù)進(jìn)行了詳細(xì)的介紹。本文主要關(guān)注結(jié)合機(jī)器學(xué)習(xí)技術(shù)來(lái)解決異構(gòu)多處理器的任務(wù)調(diào)度問(wèn)題的技術(shù)和方法，故接下來(lái)主要討論基于機(jī)器學(xué)習(xí)模型來(lái)處理映射性能預(yù)測(cè)和動(dòng)態(tài)調(diào)度的相關(guān)研究。

文獻(xiàn)[16]通過(guò)學(xué)習(xí)不同應(yīng)用程序行為在不同核上的功耗來(lái)構(gòu)建一個(gè)回歸預(yù)測(cè)模型，從而提出了一個(gè)可以優(yōu)化系統(tǒng)功耗的頻率電壓動(dòng)態(tài)調(diào)節(jié)管理解決方案。文獻(xiàn)[17]提出了基于機(jī)器學(xué)習(xí)的方法來(lái)優(yōu)化用一種面向多核的StreamIt語(yǔ)言編寫的應(yīng)用程序，從而在動(dòng)態(tài)的多核上執(zhí)行時(shí)找到最佳的映射方式。為了最大限度地提高系統(tǒng)的性能，該研究分別使用K-鄰近算法和線性回歸算法來(lái)構(gòu)建模型，用來(lái)預(yù)測(cè)應(yīng)用程序劃分的最佳線程數(shù)以及每個(gè)線程所需要的最佳內(nèi)核數(shù)。文獻(xiàn)[18]提出了一種多核平臺(tái)的執(zhí)行時(shí)間和能耗的預(yù)測(cè)方法，將不同映射方案通過(guò)編碼的方式采用人工神經(jīng)網(wǎng)絡(luò)（Artificial Neural Network， ANN）算法進(jìn)行訓(xùn)練，從而幫助設(shè)計(jì)者找到最優(yōu)的資源分配。

文獻(xiàn)[19]通過(guò)選擇和提取開放運(yùn)算語(yǔ)言（Open Computing Language， OpenCL）程序的靜態(tài)和動(dòng)態(tài)特征，及其在核上的運(yùn)行時(shí)性能來(lái)對(duì)支持向量機(jī)（Support Vector Machine， SVM）模型進(jìn)行訓(xùn)練，訓(xùn)練后的模型用來(lái)預(yù)測(cè)未知應(yīng)用程序出現(xiàn)時(shí)所對(duì)應(yīng)映射的目標(biāo)核的類型。然而，該模型沒(méi)有考慮多核的情況，只是將處理核的類型劃分為一個(gè)中央處理器和一個(gè)圖形處理器。在后續(xù)的研究工作文獻(xiàn)[20]中，考慮更多的處理核的類型，使用多個(gè)SVM模型進(jìn)行訓(xùn)練，根據(jù)優(yōu)化目標(biāo)來(lái)確定運(yùn)行時(shí)處理核的配置。

文獻(xiàn)[21]提出了一個(gè)基于ANN的應(yīng)用程序動(dòng)態(tài)資源分配技術(shù)，每個(gè)ANN都輸入一些細(xì)粒度的資源信息和程序最近行為，包括二級(jí)緩存空間、片外帶寬、功率預(yù)算、在一級(jí)緩存中讀/寫命中，以及讀丟失/寫丟失的數(shù)量，根據(jù)這些輸入信息，ANN將預(yù)測(cè)出應(yīng)用程序的性能，從而得到最優(yōu)調(diào)度方案。相似的，文獻(xiàn)[6]提出了一種最大化吞吐量的調(diào)度模型，并采用ANN技術(shù)為不同應(yīng)用調(diào)度提供精確的性能預(yù)測(cè)，從而提高異構(gòu)多核系統(tǒng)的調(diào)度效率。

文獻(xiàn)[22]建立了基于反饋神經(jīng)網(wǎng)絡(luò)和徑向基神經(jīng)網(wǎng)絡(luò)的模型來(lái)預(yù)測(cè)多核處理器的性能和功耗，通過(guò)選取對(duì)性能影響比較大的參數(shù)，如發(fā)射寬度、二級(jí)緩存大小和二級(jí)緩存命中延遲等，來(lái)預(yù)測(cè)不同調(diào)度策略下的性能值，以此來(lái)提高設(shè)計(jì)空間的探索效率。文獻(xiàn)[23]提出了一個(gè)基于SVM的任務(wù)分配模型，通過(guò)分析處理器和任務(wù)的特征（如任務(wù)的類型、數(shù)據(jù)量大小、并行化程度）以及當(dāng)前運(yùn)行狀態(tài)，來(lái)預(yù)測(cè)任務(wù)的最優(yōu)分配方案。

文獻(xiàn)[9]研究了多線程應(yīng)用程序在異構(gòu)多核體系結(jié)構(gòu)上的調(diào)度問(wèn)題，并建立了五種基于機(jī)器學(xué)習(xí)算法的預(yù)測(cè)模型，該算法可以預(yù)測(cè)最優(yōu)的線程數(shù)和相應(yīng)的電壓和頻率值，以此最大限度地提高能源效率。在運(yùn)行時(shí)從應(yīng)用程序分析中提取的一組輸入特性，根據(jù)類別可分為內(nèi)存、指令和分支。在創(chuàng)建模型之后，實(shí)驗(yàn)結(jié)果表明，與基于回歸模型和基于決策樹模型的分類器相比，多層感知器這種較復(fù)雜的預(yù)測(cè)器具有更高的精度，但是與此同時(shí)會(huì)有更高的時(shí)間開銷。

可以看到，當(dāng)前大部分工作構(gòu)建機(jī)器學(xué)習(xí)模型均依賴于系統(tǒng)運(yùn)行時(shí)的細(xì)節(jié)信息（如二級(jí)緩存狀態(tài)），而這些細(xì)粒度信息獲取的代價(jià)較大，從而導(dǎo)致在線映射調(diào)度方法開銷過(guò)大;另外這些工作要么只針對(duì)多核系統(tǒng)的映射問(wèn)題，要么只針對(duì)DVFS動(dòng)態(tài)調(diào)節(jié)，而本文則同時(shí)考慮兩者的動(dòng)態(tài)管理。

2 基于機(jī)器學(xué)習(xí)的在線映射方法

本部分介紹本文提出的基于機(jī)器學(xué)習(xí)的在線映射方法，其中2.1部分介紹該方法的整體框架，2.2部分介紹對(duì)映射方案進(jìn)行快速性能預(yù)測(cè)的模型構(gòu)建過(guò)程，2.3部分介紹本文所采用的在線映射方法搜索方案——遺傳算法。

2.1 整體框架

本文提出的基于機(jī)器學(xué)習(xí)的在線映射方法整體設(shè)計(jì)框架如圖1所示，分為：1）離線訓(xùn)練（圖1（a）），即映射方案性能預(yù)測(cè)模型構(gòu)建;2）在線調(diào)度（圖1（b）），即運(yùn)行時(shí)動(dòng)態(tài)映射方案搜索、評(píng)估和選擇。

在離線訓(xùn)練階段，考慮DAG描述的系統(tǒng)應(yīng)用和基于二維片上網(wǎng)絡(luò)（Network on Chip， NoC）的異構(gòu)多核處理器運(yùn)行平臺(tái)，而且每個(gè)核在運(yùn)行時(shí)是可以進(jìn)行動(dòng)態(tài)頻率調(diào)整的。在這個(gè)階段，希望采用機(jī)器學(xué)習(xí)方法來(lái)對(duì)系統(tǒng)的映射方案進(jìn)行學(xué)習(xí)并最終獲得相應(yīng)的性能預(yù)測(cè)模型。為了產(chǎn)生相應(yīng)的訓(xùn)練數(shù)據(jù)集，首先使用CLASSY（CLock AnalysiS System）模擬器[24]來(lái)模擬和分析不同映射方案的執(zhí)行時(shí)間等性能指標(biāo)從而得到初始數(shù)據(jù)，然后對(duì)初始訓(xùn)練集進(jìn)行預(yù)處理。得到訓(xùn)練集后通過(guò)選擇合適的機(jī)器學(xué)習(xí)方法就可以對(duì)性能預(yù)測(cè)模型進(jìn)行構(gòu)建。

在線調(diào)度階段，對(duì)于給定的應(yīng)用程序和執(zhí)行平臺(tái)，當(dāng)運(yùn)行時(shí)發(fā)生不可預(yù)知的動(dòng)態(tài)事件（如某個(gè)運(yùn)行核由于負(fù)載過(guò)高或故障等原因不可用、某兩個(gè)核之間的通信斷開）時(shí)，在線調(diào)度器需要對(duì)這種動(dòng)態(tài)變化作出快速的響應(yīng)，也就是對(duì)資源進(jìn)行重新分配和調(diào)度，從而滿足系統(tǒng)對(duì)性能、功耗等方面的需求，比如性能最優(yōu)化。為了做到這一點(diǎn)，在線調(diào)度器一方面需要通過(guò)啟發(fā)式算法對(duì)當(dāng)前狀態(tài)下的資源分配方案進(jìn)行快速高效的搜索，另一方面需要同時(shí)對(duì)不同方案進(jìn)行性能評(píng)估（通過(guò)離線訓(xùn)練得到的預(yù)測(cè)模型進(jìn)行），并最終從中選取最優(yōu)的映射決策。

2.2 離線訓(xùn)練——性能預(yù)測(cè)模型構(gòu)建

對(duì)應(yīng)用程序在異構(gòu)多核系統(tǒng)上的不同映射方案進(jìn)行性能預(yù)測(cè)可以看作一個(gè)線性回歸問(wèn)題，鑒于該問(wèn)題的復(fù)雜性，本文選用已得到廣泛使用的ANN進(jìn)行預(yù)測(cè)模型的學(xué)習(xí)和構(gòu)建。

2.2.1 人工神經(jīng)網(wǎng)絡(luò)

人工神經(jīng)網(wǎng)絡(luò)（ANN），又稱為多層前饋神經(jīng)網(wǎng)絡(luò)，它是由“M-P神經(jīng)元模型”為基礎(chǔ)發(fā)展而來(lái)[25]。 ANN的結(jié)構(gòu)如圖2所示，它由輸入層、隱藏層和輸出層組成，各層神經(jīng)元與相鄰層神經(jīng)元之間相互全相聯(lián)。輸入層神經(jīng)元用來(lái)接收外界的輸入?yún)?shù)，通過(guò)各層連接的權(quán)值與對(duì)應(yīng)的輸入?yún)?shù)相乘，再與該層其他神經(jīng)元傳入連接的結(jié)果相加，它們的和會(huì)被傳遞到神經(jīng)元的激活函數(shù)中（如修正線性函數(shù)），最后將這些神經(jīng)元的輸出作為輸入傳遞到下一層隱藏神經(jīng)元或輸出神經(jīng)元中。在訓(xùn)練期間，ANN可以通過(guò)Adam（Adaptive moment estimation）優(yōu)化算法[26]來(lái)調(diào)整權(quán)值，以此找到一個(gè)最優(yōu)的極小值使得實(shí)際輸出與網(wǎng)絡(luò)計(jì)算輸出之間的預(yù)測(cè)誤差最小化。

2.2.2 預(yù)測(cè)模型建模

采用人工神經(jīng)網(wǎng)絡(luò)模型來(lái)對(duì)映射方案的性能指標(biāo)進(jìn)行預(yù)測(cè)，關(guān)鍵在于識(shí)別對(duì)性能結(jié)果產(chǎn)生影響的關(guān)鍵信息或特征。考慮到運(yùn)行時(shí)信息獲取的難易程度以及動(dòng)態(tài)映射對(duì)高效性的需求，本文采用任務(wù)在異構(gòu)多核系統(tǒng)的映射位置以及所映射核的頻率值作為模型的輸入信息。下面介紹本文所采用的輸入信息編碼方式。

圖3給出了一個(gè)由m個(gè)任務(wù)（t1，t2，…，tm）構(gòu)成的應(yīng)用在由9個(gè)核構(gòu)成的二維片上網(wǎng)絡(luò)（Network on Chip， NoC）（3×3）異構(gòu)多核系統(tǒng)上的映射編碼方式。異構(gòu)多核系統(tǒng)中的核根據(jù)位置用二維笛卡兒坐標(biāo)進(jìn)行表示，并且每個(gè)核有F={fk|k=1，2，…，|F|}種頻率可供選擇，圖中箭頭表示當(dāng)前任務(wù)映射到哪個(gè)核上。每一種映射方案可以表示為一個(gè)映射編碼向量，該向量由t1， t2，…，tm所映射的目標(biāo)核的位置坐標(biāo)以及所選擇的頻率組合而成。

此外，在將含有映射位置和頻率的編碼輸入信息給預(yù)測(cè)模型訓(xùn)練之前，為了提高梯度收斂的速度，需要對(duì)頻率進(jìn)行特征縮放處理。本文所采用的方法是對(duì)每個(gè)核的頻率值都除以固定的數(shù)，從而保證頻率的范圍處在0到20之間。以圖3中所示的映射方案為例，當(dāng)任務(wù)t1映射到坐標(biāo)為（0，0）、頻率為40MHz的核上，任務(wù)t2映射到坐標(biāo)為（0，2）、頻率為120MHz的核上，任務(wù)tm映射到坐標(biāo)為（2，0）、頻率為60MHz的核上時(shí)，通過(guò)把它們的頻率都除以10，可以得到映射編碼（0，0，4，0，2，12，… ，2，0，6）。

2.2.3 性能評(píng)估標(biāo)準(zhǔn)

度量不同學(xué)習(xí)模型的泛化能力，不僅要有高效的實(shí)驗(yàn)預(yù)測(cè)方法，還要有衡量模擬器泛化能力的評(píng)估標(biāo)準(zhǔn)。回歸問(wèn)題常用的預(yù)測(cè)度量標(biāo)準(zhǔn)是計(jì)算真實(shí)值與實(shí)際值之間的均方誤差（Mean Squared Error， MSE），MSE值越低，預(yù)測(cè)模型準(zhǔn)確度越高。然而，本文的目標(biāo)是能夠在運(yùn)行時(shí)從多個(gè)映射方案中選擇一個(gè)相對(duì)最好的映射方案，因而得到一個(gè)可以對(duì)映射方案的性能值進(jìn)行正確排序的模型就足夠了。當(dāng)預(yù)測(cè)模型的MSE值很低的時(shí)候這種相對(duì)大小是可以保證的，而MSE值很高的時(shí)候并不能說(shuō)明這種相對(duì)大小就一定不能夠得到保證。因而，為了得到一個(gè)可以對(duì)若干個(gè)映射方案性能值相對(duì)大小進(jìn)行預(yù)測(cè)的模型，需要一種可以對(duì)預(yù)測(cè)數(shù)值的相對(duì)大小（或者趨勢(shì)）進(jìn)行評(píng)估的方法。本文采用常用的趨勢(shì)預(yù)測(cè)指標(biāo)皮爾遜相關(guān)系數(shù)（Person Correlation Coefficient， PCC）來(lái)進(jìn)行評(píng)估，表示如下：

其中：N表示測(cè)試樣本的個(gè)數(shù);Pi表示預(yù)測(cè)模型預(yù)測(cè)的性能值;Ei表示模擬器運(yùn)行得到的真實(shí)值;P和E分別表示預(yù)測(cè)樣本和真實(shí)樣本的平均值;σP和σE分別表示預(yù)測(cè)樣本和真實(shí)樣本的標(biāo)準(zhǔn)差。r的值介于-1和1之間，當(dāng)r的絕對(duì)值越接近1，表示預(yù)測(cè)值越接近真實(shí)值，性能預(yù)測(cè)模型越好。

2.3 在線調(diào)度

在系統(tǒng)運(yùn)行過(guò)程中，當(dāng)運(yùn)行環(huán)境發(fā)生變化時(shí)，在線調(diào)度模塊需要能夠?qū)ο鄳?yīng)的可選映射方案進(jìn)行高效的搜索、評(píng)估，并選擇最優(yōu)或者接近最優(yōu)的解決方案。在2.2節(jié)構(gòu)建的映射方案預(yù)測(cè)模型基礎(chǔ)上，還需要一個(gè)可以高效地引導(dǎo)、并選擇盡可能最優(yōu)映射方案的搜索機(jī)制。鑒于該類問(wèn)題搜索空間的龐大，本文采用文獻(xiàn)[27]中的一個(gè)遺傳算法（GA）來(lái)在線對(duì)系統(tǒng)的映射空間進(jìn)行搜索，鑒于篇幅限制該算法細(xì)節(jié)不再詳述。

如圖1（b）中所示，在線調(diào)度模塊的基本工作流程包括：1）當(dāng)應(yīng)用程序啟動(dòng)后，算法GA迭代搜索映射方案空間，并根據(jù)搜索目標(biāo)和預(yù)測(cè)模型對(duì)各個(gè)映射方案的性能預(yù)測(cè)結(jié)果來(lái)確定初始映射方案，然后對(duì)初始方案在運(yùn)行平臺(tái)上進(jìn)行相應(yīng)部署;2）每當(dāng)系統(tǒng)運(yùn)行狀態(tài)發(fā)生變化時(shí)，如某個(gè)運(yùn)行核由于負(fù)載過(guò)高或故障等原因不可用時(shí)，在線搜索、評(píng)估當(dāng)前系統(tǒng)狀態(tài)下可行的映射方案，并從中選擇最優(yōu)的映射方案重新進(jìn)行部署。

3 CLASSY模擬工具

本文使用文獻(xiàn)[24，28]的CLASSY模擬器來(lái)分析異構(gòu)多核處理器上不同映射方案的性能指標(biāo)，該模擬器是基于Lee等[29]針對(duì)嵌入式系統(tǒng)建模（Model of Computation）所提出的Tagged Model構(gòu)建的。

為了采用Tagged Model對(duì)應(yīng)用程序運(yùn)行行為進(jìn)行描述，CLASSY定義了兩個(gè)集合：一個(gè)邏輯時(shí)刻的離散集合T（包含最小元素τmin且與一個(gè)偏序相關(guān)聯(lián)）和一個(gè)值域集合V（表示事件的運(yùn)行時(shí)間或功耗）。二元組（τ，υ），其中τ∈T，υ∈V，表示一個(gè)事件e。事件e可以是任務(wù)運(yùn)行過(guò)程中的某次運(yùn)算或者某次信息傳輸?shù)龋粋€(gè)連續(xù)的事件集合就構(gòu)成一個(gè)任務(wù)t的行為bt，可以用bt={ e0，e1，…} 表示。基于事件e和任務(wù)行為bt的定義，可以對(duì)應(yīng)用程序行為進(jìn)行以下定義。

定義1 給定一個(gè)任務(wù)集合T構(gòu)成的應(yīng)用程序，則其行為可用一對(duì)（∪bt（t∈T），）表示，其中∪bt（t∈T）表示所有任務(wù)t∈T中事件的集合，表示事件之間的偏序關(guān)系。

圖4給出了一個(gè)由三個(gè)任務(wù)T={t0，t1，t2}組成的應(yīng)用程序的行為bT，其中bt0={e00，e10}，bt1={e01，e11}，bt2={e02，e12}。圖4中的箭頭表示事件間的優(yōu)先關(guān)系（比如某個(gè)人物的運(yùn)算需要等待其他任務(wù)的計(jì)算結(jié)果），如箭頭從事件e00指向事件e02則表示為e00e02，而兩個(gè)事件之間沒(méi)有箭頭連接意味著它們之間沒(méi)有優(yōu)先關(guān)系約束，如事件e10和事件e01。

針對(duì)異構(gòu)多核處理器平臺(tái)，該模擬器采用了基于同步時(shí)鐘的模型來(lái)進(jìn)行模擬，并可以對(duì)各個(gè)處理核在不同運(yùn)行頻率下的行為進(jìn)行區(qū)別。給定相應(yīng)的應(yīng)用和平臺(tái)描述后，該模擬器就可以對(duì)不同的映射調(diào)度方案進(jìn)行性能分析和評(píng)估。此外，它還提供了一種動(dòng)態(tài)映射調(diào)度模擬機(jī)制，允許用戶通過(guò)整合自己的動(dòng)態(tài)映射算法來(lái)對(duì)運(yùn)行時(shí)的不同調(diào)度選擇進(jìn)行時(shí)間等方面的性能評(píng)估。鑒于篇幅限制，這方面的具體細(xì)節(jié)不再詳述。

4 實(shí)驗(yàn)與結(jié)果分析

為了驗(yàn)證本文提出的基于機(jī)器學(xué)習(xí)的在線映射調(diào)度方法的效果和效率（即響應(yīng)時(shí)間），分別進(jìn)行兩方面的實(shí)驗(yàn)：1）4.2節(jié)的實(shí)驗(yàn)驗(yàn)證所構(gòu)建機(jī)器學(xué)習(xí)預(yù)測(cè)模型的準(zhǔn)確度和效率;2）4.3節(jié)的實(shí)驗(yàn)驗(yàn)證整合遺傳算法和預(yù)測(cè)模型的在線映射調(diào)度算法的效果和效率。

4.1 實(shí)驗(yàn)設(shè)置

本文采用的應(yīng)用實(shí)例是文獻(xiàn)[27]中使用的M-JPEG（Motion-Join Photographic Experts Group）解碼器（如圖5所示），該應(yīng)用程序由5個(gè)任務(wù)組成，包括Demux、VLD、IQZZ、IDCT和Libu;所使用的運(yùn)行平臺(tái)是一個(gè)2×3的二維NoC異構(gòu)多核平臺(tái)（如圖6所示），該平臺(tái)由五個(gè)核{(lán)p1，p2，… ，p5}組成，其中核p1、p2、p3分配到第一行，分別用二維笛卡兒坐標(biāo)（0，0）、（0，1）和（0，2）表示，該行核有兩種頻率可供選擇{40MHz，80MHz}，核p4、p5分配到第二行，分別用坐標(biāo)（1，0）和（1，1）表示，該行核可供選擇的頻率是{60MHz，120MHz}。本文所運(yùn)行實(shí)驗(yàn)的機(jī)器配置為CPU： Intel Core i5-6600 3.4GHz、內(nèi)存：32GB。

4.2 預(yù)測(cè)模型的準(zhǔn)確性驗(yàn)證

在這部分中，我們將分別介紹構(gòu)建性能預(yù)測(cè)模型的數(shù)據(jù)集獲取、所采用ANN算法進(jìn)行模型訓(xùn)練的參數(shù)設(shè)置和對(duì)所獲取模型的驗(yàn)證分析結(jié)果。

4.2.1 數(shù)據(jù)集獲取

對(duì)于4.1節(jié)給出的M-JEPG應(yīng)用程序和執(zhí)行平臺(tái)，采用ClASSY模擬器來(lái)產(chǎn)生所需要的數(shù)據(jù)集。首先，隨機(jī)生成30000種映射方案作為數(shù)據(jù)集，然后將以上數(shù)據(jù)集劃分為訓(xùn)練集和測(cè)試集。按照機(jī)器學(xué)習(xí)模型訓(xùn)練和驗(yàn)證常用的劃分方法，將總數(shù)據(jù)集的65%（即19500種）用來(lái)訓(xùn)練模型，剩下的35%（即10500種）作為測(cè)試集用來(lái)評(píng)估該模型在未知數(shù)據(jù)上的預(yù)測(cè)能力。

4.2.2 ANN算法參數(shù)設(shè)置

本文使用人工神經(jīng)網(wǎng)絡(luò)（ANN）算法來(lái)學(xué)習(xí)得到目標(biāo)性能預(yù)測(cè)模型。為此，本文使用Pytorch軟件包對(duì)人工神經(jīng)網(wǎng)絡(luò)模型進(jìn)行訓(xùn)練，使用高斯分布來(lái)隨機(jī)初始化權(quán)值矩陣，訓(xùn)練過(guò)程中采用Adam優(yōu)化方法迭代更新參數(shù)。根據(jù)多次實(shí)驗(yàn)測(cè)試優(yōu)化相關(guān)超參數(shù)，表1給出了最終相關(guān)超參數(shù)的詳細(xì)設(shè)置。

4.2.3 ANN性能預(yù)測(cè)模型的驗(yàn)證

圖7給出了經(jīng)過(guò)學(xué)習(xí)后得到的人工神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)模型在所有測(cè)試集數(shù)據(jù)上的預(yù)測(cè)情況，其中，橫軸（X軸）表示由CLASSY模擬器得到的實(shí)際值，縱軸（Y軸）表示由預(yù)測(cè)模型給出的預(yù)測(cè)值。圖7中每一個(gè)點(diǎn)表示測(cè)試集中的一種映射方案，每一個(gè)點(diǎn)的位置表示實(shí)際值和預(yù)測(cè)值的相對(duì)偏差。當(dāng)相關(guān)系數(shù)為1時(shí)，則所有的數(shù)據(jù)點(diǎn)都將收斂到X=Y的函數(shù)曲線上，表示預(yù)測(cè)值與實(shí)際值相等。從圖7可以看出，本文所獲得的ANN預(yù)測(cè)模型的預(yù)測(cè)效果很接近X=Y函數(shù)曲線，預(yù)測(cè)效果非常好。另外，通過(guò)計(jì)算得到該預(yù)測(cè)模型的預(yù)測(cè)值和實(shí)際值之間的皮爾遜相關(guān)系數(shù)值：0.97，非常接近1，因而這兩組數(shù)據(jù)是非常相關(guān)的，從而可以驗(yàn)證本文得到的人工神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)模型可以對(duì)映射方案性能值的相對(duì)大小進(jìn)行準(zhǔn)確的預(yù)測(cè)。

此外，在本實(shí)驗(yàn)中對(duì)ANN模型離線訓(xùn)練所需時(shí)間是4min，生成預(yù)測(cè)模型的大小是4KB，而采用該模型進(jìn)行預(yù)測(cè)的響應(yīng)時(shí)間為2.4ms。

4.3 動(dòng)態(tài)調(diào)度方案效果驗(yàn)證

為了驗(yàn)證本文動(dòng)態(tài)調(diào)度方案的效果，通過(guò)隨機(jī)生成一個(gè)固定長(zhǎng)度系統(tǒng)運(yùn)行時(shí)的事件序列，例如某個(gè)運(yùn)行核由于負(fù)載過(guò)高或故障等原因不可用、某兩個(gè)核之間的通信斷開等，來(lái)進(jìn)行實(shí)驗(yàn)。考慮到采用遺傳算法不同參數(shù)對(duì)算法的影響，首先通過(guò)實(shí)驗(yàn)評(píng)估不同參數(shù)的效果和開銷，然后將本文方法分別與常見的輪詢調(diào)度（Round Robin Scheduler， RRS）[30] 、抽樣調(diào)度和通過(guò)遍歷所有方案獲得的最優(yōu)化方法進(jìn)行對(duì)比實(shí)驗(yàn)。

4.3.1 算法參數(shù)評(píng)估實(shí)驗(yàn)

對(duì)于遺傳算法，需要考慮如下參數(shù)：1）種群規(guī)模（population），每一代種群染色體總數(shù);2）迭代（iteration），種群交叉變異迭代的次數(shù);3）基因（gene），用于表示個(gè)體的特征;4）交叉概率（P_cross），在循環(huán)中進(jìn)行交叉操作所用到的概率;5）變異概率（P_mutation），從個(gè)體群中產(chǎn)生變異的概率。表2給出了M-JPEG解碼器在保持執(zhí)行平臺(tái)不變的情況下，種群規(guī)模（#popu.）和迭代次數(shù)（，#inter.）的選取對(duì)算法開銷和執(zhí)行時(shí)間的影響（交叉概率和變異概率根據(jù)若干實(shí)驗(yàn)驗(yàn)證分別選取效果最好的0.8和0.003）。

從表2中可以看出，隨著迭代次數(shù)和種群規(guī)模不斷變大，其方案效果越來(lái)越好（執(zhí)行時(shí)間越來(lái)越短），然而相應(yīng)的實(shí)踐開銷也越來(lái)越大。綜合考慮執(zhí)行時(shí)間和算法開銷，在后面的實(shí)驗(yàn)中均采用種群規(guī)模為1000，迭代次數(shù)為10。

4.3.2 方案效果比較實(shí)驗(yàn)

圖8給出了四種調(diào)度方法在100個(gè)隨機(jī)事件序列場(chǎng)景下得到的平均執(zhí)行時(shí)間，其中每個(gè)隨機(jī)事件序列包括10個(gè)事件（如某個(gè)運(yùn)行核由于負(fù)載過(guò)高或故障等原因不可用、某兩個(gè)核之間的通信斷開等），并且事件發(fā)生的時(shí)間是隨機(jī)的。

從圖8中可以看出：輪詢調(diào)度的執(zhí)行時(shí)間最長(zhǎng)，主要原因在于輪詢調(diào)度將任務(wù)的請(qǐng)求輪流分配給每個(gè)核，但是這種調(diào)度方式通常忽略了任務(wù)和每個(gè)核各自的特點(diǎn)和需求，無(wú)法充分發(fā)揮異構(gòu)多核處理器的優(yōu)勢(shì)，因而效果最差。抽樣調(diào)度是從1000個(gè)候選的映射方案中抽選最優(yōu)的調(diào)度方案并執(zhí)行調(diào)度，這種調(diào)度方式的表現(xiàn)往往會(huì)優(yōu)于輪詢調(diào)度，但是其調(diào)度結(jié)果受到隨機(jī)抽樣的約束。最優(yōu)調(diào)度是探索每一種系統(tǒng)動(dòng)態(tài)場(chǎng)景中所有的映射方案，從而選出最優(yōu)的調(diào)度方法，該調(diào)度模型無(wú)疑是最優(yōu)的，但是遍歷所有可能性并進(jìn)行性能評(píng)估的時(shí)間開銷過(guò)大（本實(shí)驗(yàn)中平均需要2.83min），不適合解決動(dòng)態(tài)映射調(diào)度問(wèn)題。而本文的調(diào)度模型是通過(guò)遺傳算法和機(jī)器學(xué)習(xí)相結(jié)合的方式，相較于輪詢和抽樣調(diào)度，遺傳算法通過(guò)不斷迭代的方式能夠高效地引導(dǎo)搜索的方向，相較于最優(yōu)調(diào)度，基于機(jī)器學(xué)習(xí)的性能預(yù)測(cè)模型能夠在縮短在線搜索評(píng)估開銷的同時(shí)給出接近最優(yōu)調(diào)度的效果，本實(shí)驗(yàn)中每次調(diào)度調(diào)整平均需要時(shí)間為0.93s。

在本實(shí)驗(yàn)中，本文提出的基于機(jī)器學(xué)習(xí)預(yù)測(cè)模型的在線映射調(diào)度方法在平均執(zhí)行時(shí)間方面相較于常用的輪詢調(diào)度和抽樣調(diào)度方法能夠分別降低了28%和19%，并達(dá)到接近最優(yōu)的解決方案。

5 結(jié)語(yǔ)

本文提出了一種基于機(jī)器學(xué)習(xí)預(yù)測(cè)模型的在線映射方法：一方面通過(guò)采用機(jī)器學(xué)習(xí)技術(shù)來(lái)構(gòu)造系統(tǒng)性能預(yù)測(cè)模型來(lái)，從而對(duì)不同映射方案和每個(gè)核的頻率值進(jìn)行高效的性能評(píng)估;另一方面，將其與遺傳算法進(jìn)行整合構(gòu)造了一個(gè)在線的映射調(diào)度方法。實(shí)驗(yàn)結(jié)果表明，所提方法在平均執(zhí)行時(shí)間方面相較于常用的輪詢調(diào)度和抽樣調(diào)度方法能夠分別降低了28%和19%，并接近最優(yōu)的解決方案。

下一步的研究分兩方面進(jìn)行：一方面希望采用更廣泛多樣的案例來(lái)驗(yàn)證該在線映射方法的效果;另一方面由于目前采用的模擬工具對(duì)于異構(gòu)多核系統(tǒng)中每個(gè)核之間的通信開銷以及任務(wù)遷移的開銷精確度不足，我們希望在進(jìn)一步研究基礎(chǔ)上，使用更加精確的模擬工具或者是基于實(shí)際的異構(gòu)多核平臺(tái)（比如ARM big.Little）來(lái)進(jìn)行實(shí)驗(yàn)。此外，在接下來(lái)的工作中，我們還將考慮通過(guò)改進(jìn)在線調(diào)度算法來(lái)進(jìn)一步提高映射效果。

參考文獻(xiàn) （References）

[1] GREENHALGH A P. Big. LITTLE processing with ARM cortexTM-A15 & cortex-A7 [EB/OL]. [2018-09-19]. https：//www.arm.com/files/downloads/b-igLITTLE Final Final.pdf.

[2] Apple Inc. A12-bionic [EB/OL]. [2018-09-12]. https：//www.apple.com/cn/iphone-xs/a12-bionic/.

[3] LI C V， PETRUCCI V， MOSSE D. Predicting thread profiles across core types via machine learning on heterogeneous multiprocessors [C]// Proceedings of the 2016 VI Brazilian Symposium on Computing Systems Engineering. Piscataway， NJ： IEEE， 2016： 56-62.

[4] LE SUEUR E， HEISER G. Dynamic voltage and frequency scaling： The laws of diminishing returns [C]// HotPower 2010： Proceedings of the 2010 International Conference on Power Aware Computing and Systems. Berkeley， CA： USENIX Association， 2010： Article No. 1-8.

[5] GOLI M， MCCALL J， BROWN C， et al. Mapping parallel programs to heterogeneous CPU/GPU architectures using a Monte Carlo tree search [C]// CEC 2013： Proceedings of the 2013 IEEE Congress on Evolutionary Computation. Piscataway， NJ： IEEE， 2013： 2932-2939.

[6] NEMIROVSKY D， ARKOSE T， MARKOVIC N， et al. A machine learning approach for performance prediction and scheduling on heterogeneous CPUs [C]// Proceedings of the 2017 IEEE 29th International Symposium on Computer Architecture and High Performance Computing. Piscataway， NJ： IEEE， 2017： 121-128.

[7] ZHANG Y Q， LAURENZANO M A， MARS J， et al. SMiTe： precise QoS prediction on real-system SMT processors to improve utilization in warehouse scale computers [C]// Proceedings of the 2014 47th Annual IEEE/ACM International Symposium on Microarchitecture. Washington， DC： IEEE Computer Society， 2014： 406-418.

[8] MICHALSKA M， CASALE-BRUNET S， BEZATI E， et al. High-precision performance estimation for the design space exploration of dynamic dataflow programs [J]. IEEE Transactions on Multi-Scale Computing Systems， 2018， 4（2）： 127-140.

[9] SAYADI H， PATEL N， SASAN A， et al. Machine learning-based approaches for energy-efficiency prediction and scheduling in composite cores architectures [C]// Proceedings of the 2017 35th IEEE International Conference on Computer Design. Piscataway， NJ： IEEE， 2017： 129-136.

[10] WANG L， LIU S L， LU C， et al. Stable matching scheduler for single-ISA heterogeneous multi-core processors [C]// APPT 2015： Proceedings of the 2015 International Workshop on Advanced Parallel Processing Technologies， LNCS 9231. Cham： Springer， 2015： 45-59.

[11] ULLMAN J D. NP-complete scheduling problems [J]. Journal of Computer and System Sciences， 1975， 10（3）： 384-393.

[12] ROY P， ALAM M M U， DAS N. Heuristic based task scheduling in multiprocessor systems with genetic algorithm by choosing the eligible processor [J]. International Journal of Distributed and Parallel Systems， 2012， 3（4）： 111-121.

[13] CHATTERJEE N， PAUL S， MUKHERJEE P， et al. Deadline and energy aware dynamic task mapping and scheduling for network-on-chip based multi-core platform [J]. Journal of Systems Architecture， 2017， 74： 61-77.

[14] GHARSELLAOUI H， KTATA I， KHARROUBI N， et al. Real-time reconfigurable scheduling of multiprocessor embedded systems using hybrid genetic based approach [C]// Proceedings of the 2015 IEEE/ACIS 14th International Conference on Computer and Information Science. Piscataway， NJ： IEEE， 2015： 605-609.

[15] SINGH A K， SHAFIQUE M， KUMAR A， et al. Mapping on multi/many-core systems： survey of current and emerging trends [C]// DAC 2013： Proceedings of the 2013 50th ACM/EDAC/IEEE Design automation conference. Piscataway， NJ： IEEE， 2013： 1-10.

[16] CAI E， JUAN D C， GARG S， et al. Learning-based power/performance optimization for many-core systems with extended-range voltage/frequency scaling [J]. IEEE Transactions on Computer-Aided Design of Integrated Circuits and Systems， 2016， 35（8）： 1318-1331.

[17] MICOLET P J， SMITH A， DUBACH C. A machine learning approach to mapping streaming workloads to dynamic multicore processors [C]// LCTES 2016： Proceedings of the 2016 17th ACM SIGPLAN/SIGBED Conference on Languages， Compilers， Tools， and Theory for Embedded Systems. New York： ACM， 2016： 113-122.

[18] GAMATIE A， URSU R， SELVA M， et al. Performance prediction of application mapping in manycore systems with artificial neural networks [C]// Proceedings of the 2016 IEEE 10th International Symposium on Embedded Multicore/Many-core Systems-on-Chip. Piscataway， NJ： IEEE， 2016： 185-192.

[19] WEN Y， WANG Z， OBOYLE M F P. Smart multi-task scheduling for OpenCL programs on CPU/GPU heterogeneous platforms [C]// HiPC 2014： Proceedings of the 2014 21st International Conference on High Performance Computing. Piscataway， NJ： IEEE， 2014： 1-10.

[20] TAYLOR B， MARCO V S， WANG Z. Adaptive optimization for OpenCL programs on embedded heterogeneous systems [C]// LCTES 2017： Proceedings of the 18th ACM SIGPLAN/SIGBED Conference on Languages， Compilers， and Tools for Embedded Systems. New York： ACM， 2017： 11-20.

[21] BITIRGEN R， IPEK E， MARTINEZ J F. Coordinated management of multiple interacting resources in chip multiprocessors： a machine learning approach [C]// MICRO 41： Proceedings of the 41st annual IEEE/ACM International Symposium on Microarchitecture. Washington， DC： IEEE Computer Society， 2008： 318-329.

[22] 袁景凌，繆旭陽(yáng)，楊敏龍，等.基于神經(jīng)網(wǎng)絡(luò)的多核功耗預(yù)測(cè)策略[J].計(jì)算機(jī)科學(xué)，2014，41（6A）：47-51.（JIAO J L， MIAO X Y， YANG M L， et al. Neural network based power prediction strategy for multi-core architecture [J]. Computer Science， 2014， 41（6A）： 47-51.）

[23] 王彥華，喬建忠，林樹寬，等.基于SVM的CPU-GPU異構(gòu)系統(tǒng)任務(wù)分配模型[J].東北大學(xué)學(xué)報(bào)（自然科學(xué)版），2016，37（8）：1089-1094.（WANG Y H， QIAO J Z， LIN S K， et al. A Task allocation model for CPU-GPU heterogeneous system based on SVMs [J]. Journal of Northeastern University （Natural Science）， 2016， 37（8）： 1089-1094.）

[24] AN X， BOUMEDIEN S， GAMATIE A， et al. CLASSY： a clock analysis system for rapid prototyping of embedded applications on MPSoCs [C]// SCOPES 2012： Proceedings of the 2012 15th International Workshop on Software and Compilers for Embedded Systems. New York： ACM， 2012： 3-12.

[25] HAYKIN S S. Neural Networks： a Comprehensive Foundation [M]. Upper Saddle River， NJ： Prentice Hall， 1994： 133-147.

[26] KINGMA D P， BA J L. Adam： a method for stochastic optimization [EB/OL]. [2018-09-19]. https：//www.docin.com/p-1725989690.html. Proceedings of the 2014 International Conference on Learning Representations.arXiv preprint arXiv.1412.6980， 2014.

[27] HOLLAND J H. Adaptation in Natural and Artificial Systems： an Introductory Analysis with Applications to Biology， Control， and Artificial Intelligence [M]. Cambridge， MA： MIT press， 1992： 32-58.

[28] AN X， GAMATIE A， RUTTEN E. High-level design space exploration for adaptive applications on multiprocessor systems-on-chip [J]. Journal of Systems Architecture， 2015， 61（3/4）： 172-184.

[29] LEE E A， SANGIOVANNI-VINCENTELLI A. A framework for comparing models of computation [J]. IEEE Transactions on Computer-Aided Design of Integrated Circuits and Systems， 1998， 17（12）： 1217-1229.

[30] MARKOVIC N， NEMIROVSKY D， MILUTINOVIC V， et al. Hardware round-robin scheduler for single-ISA asymmetric multi-core [C]// Euro-Par 2015： Proceedings of the 2015 European Conference on Parallel Processing， LNCS 9233. Berlin： Springer， 2015： 122-134.