超標量處理器亂序提交機制的研究與設計

2021-04-29 03:21:22劉有耀焦繼業潘樹朋

計算機工程 2021年4期

李昭，劉有耀，焦繼業，潘樹朋

（1.西安郵電大學電子工程學院，西安 710100；2.西安郵電大學計算機學院，西安 710100）

0 概述

傳統超標量處理器通過指令級并行（Instruction Level Parallelism，ILP）提升處理器執行性能，為實現推測性執行、精確異常和寄存器回收等功能，引入重排序緩存（Reorder Buffer，ROB）機制［1］。將解碼之后的指令按照程序順序寫入ROB 中，每條指令占用ROB 的一個表項，在指令執行階段一直保存在ROB中，直到提交階段從ROB 中逐條退休，使程序按順序更新處理器的狀態，保證了在分支預測失敗和指令異常時處理器狀態的正確。隨著集成電路技術的發展，眾多領域對處理器性能的要求越來越高，ROB機制的不足也逐漸顯現。例如，當ROB head 被長周期執行指令占用時，后續指令就不能從ROB 中退出，即使這些指令獨立于長周期執行指令，并且它們已經計算完成，也不允許提交，使得ROB 利用率較低。同時，由于ROB 容量有限，指令持續解碼最終會導致ROB 完全填滿，無論是否有其他獨立的指令，都不能進入發射隊列，并且指令執行停滯［2］，從而使處理器陷入相當多的周期停頓［3］，對處理器性能造成影響。ROB 阻塞問題的產生是由于ROB 遵循指令順序退出策略影響處理器性能，這些長周期執行指令一方面在多個周期內不可用，可能會長時間阻塞從屬指令的執行，另一方面退出緩慢，已執行完的指令會在多個周期內占用關鍵資源，一旦資源用盡，處理器就會停止獲取新指令并最終停頓，導致ROB 等其他硬件資源利用率降低。針對以上問題，需要從提高電路硬件資源利用率以及指令提交控制邏輯等方面進行優化，簡單的解決方案是擴大ROB容量以容納更多的并行指令。隨著基于ROB 的微體系結構在指令提交階段對某些關鍵資源的分布進行例化，會增加處理器面積和功耗方面的成本，還可能會影響處理器周期［4］。

目前，研究人員針對ROB 阻塞問題提出了一些解決方案。文獻［5］提出退休長周期指令的值預測機制，該機制在長周期執行指令阻塞ROB 時，通過賦假值使其提前退出，其他指令正常執行，但不允許覆蓋內存中的數據。在等待長周期執行指令操作完成后，處理器系統返回到檢查點并恢復常規執行。該機制加快了整體執行速度，但是沒有真正解決ROB 的阻塞問題。文獻［6］提出指令亂序退休機制來解決ROB 阻塞問題，該機制將程序中所有可能產生異常和預測錯誤的指令設置為節點指令，當驗證緩存（Valid Buffer，VB）檢驗某節點指令不會發生異常和預測錯誤時，其后面到下一個節點之間的指令會亂序退休。通過指令亂序退休縮小了長周期執行指令占用ROB 的時間，但同時為保證亂序退休時ROB 的正確維護，需要復雜的控制邏輯和大量的硬件資源進行支持。文獻［7］提出組提交機制，該機制將程序按順序分組，每組內包含若干寄存器相關的指令時，僅將使用同一寄存器的最后更新寄存器文件的指令輸入ROB 條目中。此外，在提交該組指令之前，可以更早地釋放該組中最后更新寄存器文件的指令對應的寄存器。該機制增加了ROB 的有效容量和物理寄存器的有效數量，但是有限的ROB 資源不能滿足管理組信息的高存儲需求，并且由于指令組提交數量大，當預測錯誤發生時會沖刷更多的指令，造成嚴重的周期停滯。

為滿足超標量處理器的高性能和小面積設計需求，本文在研究傳統ROB 機制以及多種主流ROB 優化機制的基礎上，提出一種指令快速提交機制。該機制通過容量可配置的多緩存指令提交結構，實現存儲器操作指令和ALU 類型指令的分類退休，并利用指令目的寄存器編碼提交模式完成指令結果的亂序提交。

1 傳統ROB 機制性能研究

傳統超標量處理器ROB 的每個表項中都包含判斷指令執行完畢的狀態位Complete、指令異常類型判斷標志位Exception、判斷指令類型并決定其提交位置的狀態位Type、寄存器重命名的映射關系等資源。這些資源導致了重排序緩存內部結構復雜，并且當指令產生異常時，必須在ROB 內部等待異常處理完畢后才能繼續后續指令的退出，這樣會給處理器帶來相當多的周期停滯，嚴重影響處理器性能。ROB 容量越大，容納的并行指令越多，造成阻塞的風險越小，對處理器性能提升有一定幫助。目前，提出的一些解決方案通過擴大主要的微處理器結構或對其進行高效管理來減輕ROB 阻塞引起的性能下降問題［8］。由文獻［2］可知此類解決方案的效果并不理想，因為當ROB 尺寸持續增加到某一定值時，首先會對處理器性能提升產生免疫，其次增大ROB 尺寸就必須增加其內部例化的各種資源，會增加處理器面積和功耗方面的成本，也可能影響處理器周期，造成處理器性能和面積的失衡。

通過對項目組在研的一款基于ROB 機制的雙發射超標量處理器的性能和面積進行評估，在功能仿真的硬件設計下載入現場可編程門陣列（Field Programmable Gate Array，FPGA）進行驗證，運行Dhrystone 和CoreMark 基準測試程序對處理器性能進行評估。通過記錄程序中指令執行總時長和執行總數得到平均IPC 指數，以此作為處理器性能評判的指標。基于ROB 機制的超標量處理器內核在0.11 μm CMOS 工藝下使用Design Compiler 完成邏輯綜合，具體參數設置如表1 所示。

表1 基于ROB 機制的超標量處理器參數設置Table 1 Parameters setting of superscalar processor based on ROB mechanism

實驗中所研究的超標量處理器架構最多可同時亂序發射并執行2 條指令、順序提交1 條指令，其平均IPC指數為0.73，與理論值相差較大［9］。由文獻［10］結論可知，平均IPC 指數達不到理想值是由于流水線停頓，其中ROB 堵塞是造成流水線停頓的主要原因。通過實驗對不同類型指令造成ROB 阻塞的比例進行對比分析，得出存儲器操作指令的比例最高。影響ROB 阻塞的主要因素為：1）ROB 尺寸難以匹配指令持續解碼的速度，ROB 變滿而造成阻塞；2）由于指令順序提交，因此當程序中長周期執行指令延遲退休時會阻塞ROB，導致ROB 利用率較低。

為提高處理器的平均IPC 指數，本文從上述兩個影響因素入手，對ROB 機制進行優化。首先對基于該處理器的RISC-V 指令集中各指令功用及其指令編碼格式進行分類研究，提出將存儲器操作指令和其他指令分類退休、結果亂序提交的設計思路。針對影響因素1，該機制可以根據應用程序的需求動態調整資源分配［11］，將指令提交緩存模塊容量根據處理器性能要求進行參數化配置。針對影響因素2，該機制中的指令目的寄存器編碼提交模式可以增加單次指令提交數量，實現指令結果亂序提交。該機制一方面通過調節指令提交緩存模塊容量來容納更多的并行指令，另一方面通過指令亂序提交來加快指令提交速率，為后續等待提交的指令預留出足夠的空間，從而有效降低ROB 阻塞的風險，充分利用指令提交緩存模塊的資源，提升超標量處理器的執行性能。

2 指令亂序提交機制

基于指令類型緩存（Type Buffer，TB）、目標緩存（Object Buffer，OB）和存儲緩存（Memory Buffer，MB）的超標量流水線結構可實現指令亂序提交。指令目的寄存器編碼提交模式支持指令結果亂序提交，相比傳統超標量處理器中ROB 順序提交模式，將所有指令運行過程中的信息存儲在ROB 中進行退休管理，并考慮了性能和成本之間的折衷［12］。本文在此基礎上，通過將ROB 中的數據或地址字段保留在單獨的結構中來減小ROB 條目的寬度，而不會影響ROB 接口［13］，一定程度上降低了長周期執行指令阻塞后續指令提交的風險，提高了單次指令提交數量。亂序提交的流水線結構如圖1 所示。

圖1 亂序提交的流水線結構Fig.1 Pipeline structure of out-of-order submission

亂序提交的流水線結構滿足指令分類退休和結果亂序提交，流水線分為取指令（Fetch）和解碼（Decode）、相關檢測（Related detection）和發射（Issue）以及執行（Execute）、訪存（Memory access）和提交（Commit）3級。該流水線結構的基本工作流程為：首先取指單元（Instruction Fetch Unit，IFU）在一個周期內從指令緩存（I-Cache）中取出3 條指令，經過解碼之后對這3 條指令的目的寄存器依次編碼為D1、D2、D3，然后送入寄存器相關檢測（Register-related Detection）模塊中進行亂序發射評估。將滿足發射條件的指令送入發射隊列（Issue_queue）中，等待發射隊列中指令的操作數準備就緒并且功能單元空閑時將指令發送給相應的ALU 進行計算，而將與之前送入發列隊列的指令存在寫后讀（Read After Write，RAW）相關的后續指令暫存在鎖存隊列（Latch_queue）中，等待與下一輪循環進入流水線的3 條新指令共同進行寄存器相關檢測。以此類推，可以為發射隊列提供持續的并行指令源，實現指令的動態調度。ALU 計算完畢后經過指令類型緩存TB 的判斷，將Load/Store 指令的目的寄存器編碼號（Di，i=1，2，…，n）和讀寫地址、寫數據送入存儲緩存中，存儲緩存再通過地址數據總線訪問數據緩存（D-Cache），完成數據存取操作。其余指令的計算結果和目的寄存器編碼號送入目標緩存中，等待指令目的寄存器編碼號等于0 時將結果提交至寄存器文件（Register File，RF）中完成一次提交動作。本文提出的新型超標量處理器流水線結構可實現同時3 條指令亂序發射，亂序執行，2 條指令亂序提交，極大地提升了指令提交速率，同時使用容量可配置的指令提交緩存結構TB、OB 和MB 代替復雜的ROB 機制，可有效提高電路硬件資源的利用率。

2.1 指令分類退休機制

與開放式指令集體系結構（Instruction Set Architecture，ISA）不同，RISC-V 設計簡單、靈活和可擴展，這有助于將其移植到不同的技術和應用領域［14］。本文基于RISC-V 指令集規整的指令編碼格式，借助指令類型緩存、目標緩存和存儲緩存的多緩存結構實現Load/Store 指令和其余指令分類退休。指令類型緩存主要負責對ALU 計算完成的指令進行類型判斷后發送給相應的提交緩存模塊，并且當指令提交緩存模塊OB 和MB 沒有剩余空間時負責暫存待提交指令的信息，等待目標緩存和存儲緩存騰出足夠的空間時再將指令計算結果和目的寄存編碼送入其內部等待提交，防止因指令提交緩存變滿而造成的流水線停頓，提供緩沖作用，使得流水線各級實現速度匹配。指令類型緩存還可以為關聯尋址的指令提供源操作數，加快了指令執行速度，但是操作數讀取端口的增加會導致處理器面積的增加。MB 負責緩存Load/Store 指令的信息，OB 負責緩存其余指令的信息。本文根據微處理器性能及架構要求對目標緩存和存儲緩存容量進行調整，保證流水線各級的速度匹配。基于TB+OB+MB 的指令退休結構如圖2 所示。

圖2 基于TB+OB+MB 的指令退休結構Fig.2 Instruction retirement structure based on TB+OB+MB

基于TB+OB+MB 的指令退休結構可有效解決當Store 指令占用ROB head 時而導致的流水線停頓問題，采用TB+OB+MB 結構對不同功用指令進行分類退休，并與流水線其他各級模塊相互協作。首先由指令類型緩存模塊接收來自ALU 模塊輸出的指令計算結果（Data &Addre）和目的寄存器編碼號，然后將指令分類后的指令信息分別送入目標緩存和存儲緩存中進行暫存，等待第1 條指令提交后，目標緩存將該輪循環中所有指令的目的寄存器編碼號減1，依此類推，直到指令目的寄存器編碼號等于0 的指令將其結果提交至寄存器文件中。如果檢測到Load指令，則由TB 負責將指令的讀地址和目的寄存器編碼號送入存儲緩存中進行暫存，等待其目的寄存器編碼減為0 且完成數據讀取操作后，再通過存儲緩存模塊將讀取結果提交至寄存器文件中，完成Load指令提交動作。該結構可以實現單周期執行指令優先于Store 長周期執行指令提交，即使Store 指令發生了異常，也無需沖刷已經提交的單周期執行指令，因為在指令分類退休機制的控制下，與Store 指令存在讀后寫（Write After Read，WAR）相關的指令在本輪循環中不滿足提交的條件，所以該機制滿足亂序提交下的精確異常，降低指令異常時沖刷流水線的風險。同時，隨著循環輪數的增加，指令譯碼仍在繼續，此時將導致目標緩存和存儲緩存剩余空間不足，從而阻塞流水線，對處理器性能造成影響。

本文通過修改目標緩存和存儲緩存容量來解決此問題，但是增大提交緩存模塊的同時會影響處理器的面積和功耗，因此本文在每個程序中合理利用OB 和MB，并且根據程序中不同類型的指令數量來確定OB 和MB 尺寸［15］。結合實際性能測試結果來合理分配OB+MB 尺寸，目的是為了通過調節模塊容量來更好地反映應用程序的需求，從而獲得更合理的資源配置方案以及更好的能耗比，使處理器達到性能和面積的平衡。通過實驗分析可知，針對不同的應用程序調整指令退休結構的硬件參數可獲取最佳處理器性能，使得基于該結構的超標量處理器更適用于高性能和低功耗場景。

2.2 結果亂序提交機制

目前，多數超標量處理器主要通過指令亂序發射和并行執行、結果順序提交來保證處理器性能，但當長周期執行指令占用ROB head 時，順序提交的缺陷就異常凸顯。針對以上問題，本文提出的結果亂序提交機制利用目的寄存器編碼提交模式在保證指令正確提交的前提下，最多可同時完成2 條指令的亂序提交，相比傳統ROB 機制，該機制從單次指令提交數量和指令亂序提交兩方面加快了指令提交速率，為指令提交緩存模塊預留出足夠的空間來容納更多的并行指令，一定程度上提升了指令提交模塊的利用率。指令目的寄存器編碼提交結構如圖3所示。

圖3 指令目的寄存器編碼提交結構Fig.3 Coding submission structure of instruction destination register

指令目的寄存器編碼提交模式的控制流程為首先在指令譯碼階段對輸出的3 條指令中存在目的寄存器的指令編碼為Di=0，1，2，然后送入寄存器相關檢測模塊中進行指令相關性判斷，將這3 條指令中與之前指令存在RAW 相關的后續指令送入鎖存隊列中進行暫存，其余指令由發射隊列送入ALU 中進行計算，等待指令計算完成，將計算結果和目的寄存器編碼號送入目標緩存中等待提交。允許指令亂序提交的必要條件為指令計算完成和指令Di=0［16］。滿足這兩個條件的指令可以將其計算結果提交至寄存器文件中，并且由目標緩存控制該輪循環中所有指令的目的寄存器編碼號減1。該目的寄存器編碼提交模式為不斷循環迭代，在第2 輪循環中，將鎖存隊列中指令的目的寄存器編碼號減1 后作為首條參與寄存器相關檢測的指令，此時指令譯碼模塊輸出的3 條新指令的目的寄存器編碼規則必須按照程序順序進行編碼，并且第1 條指令目的寄存器編碼號必須等于上一輪循環中所有指令目的寄存器編碼號的最大值減1。依此類推，這樣就可以保證指令目的寄存器編碼提交模式的循環迭代，從而通過控制指令提交順序和數量來提升處理器性能。該指令目的寄存器編碼提交模式可滿足當長周期執行指令Store等待提交時，最多同時亂序提交2 條與Store 不相關的指令，因滿足提交的2 條指令不在同一輪循環中，它們之間可能存在RAW、WAR 和寫后寫（Write After Write，WAW）相關問題［17］。為避免該問題帶來的錯誤提交，本文通過指令目的寄存器編碼提交模式中的循環輪數優先級可解決讀后寫相關問題，并且可在控制指令發射階段避免寫后讀相關問題。當一輪循環中已發射的指令與其編號之后的鎖存隊列中的指令存在寫后讀相關時，在下一輪循環鎖存隊列中的指令可以從指令類型緩存中快速讀取源操作數，TB 的一個輸出端口與讀取端口復用，可在加快指令執行速度的同時減少讀取端口的數量［18］。

本文中的結果亂序提交機制滿足同時亂序提交2條指令，加快了指令提交速率，同時其控制邏輯相對簡單，相比傳統ROB 順序提交機制，極大地提升了程序運行速度。但當鎖存隊列中的指令與Store 指令存在RAW相關時，由于Store 指令執行時間不確定，可能先于鎖存隊列中的指令完成提交，這樣會造成錯誤提交，需要沖刷流水線使處理器狀態恢復正常。本文提出一種指令發射控制策略，當指令鎖存隊列變滿時，先不允許發射檢測出的Store 指令，等待鎖存隊列中的指令執行完畢后再發射Store 指令。這樣雖然避免了提交錯誤而導致的流水線沖刷問題，但同時又帶來了新的問題，使得在該發射控制策略下遇到上述情況時最差只能發射1 條指令，此時不僅不能充分利用電路的硬件資源，影響超標量處理器性能，而且還會產生不必要的功耗。可見，結果亂序提交機制還需綜合考慮微處理器架構以及性能需求做進一步優化。

3 實驗與結果分析

本節主要對基于指令亂序提交機制（簡稱本文機制）的超標量處理器性能和面積進行評估，并與基于ROB 順序提交機制、值預測機制［5］、亂序退休機制［6］和組提交機制［7］的超標量處理器進行性能對比。首先對整體設計進行功能仿真和邏輯綜合后將生成的sof 文件載入DE2_70 FPGA 開發板上，通過運行Dhrystone、CoreMark 和SPEC 2006 基準測試程序獲取改進后處理器的平均IPC 指數。為估計芯片面積開銷［19］，在0.11 μm CMOS 工藝下對優化后的整體電路進行邏輯綜合，得到處理器內核尺寸以及指令提交緩存模塊尺寸。為進一步探究指令提交緩存模塊尺寸與處理器性能的關系，通過修改OB 和MB 尺寸并對修改后的處理器按上述過程進行性能和面積評估。不同OB+MB 尺寸下Dhrystone 和CoreMark的平均IPC 指數，如圖4 所示。

圖4 不同OB+MB 尺寸下Dhrystone 和CoreMark 的平均IPC 指數Fig.4 Average IPC index of Dhrystone and CoreMark at different OB+MB size

實驗結果表明，當指令提交緩存模塊OB+MB尺寸從1.97×104增長到2.60×104時，處理器的平均IPC 指數逐漸增長并趨于穩定，當OB+MB 尺寸從2.60×104增長到4.16×104時，平均IPC 指數增幅并不明顯，并且隨著OB+MB 的不斷增大，平均IPC 指數保持穩定不變，證明此時單純增加指令提交緩存模塊不能有效提升處理器性能，需要結合流水線其他各級模塊進行綜合考慮。為實現處理器性能和面積的平衡，根據上述結果可知，當OB+MB 尺寸為2.60×104時的處理器內核尺寸為4.90×104，對應的平均IPC指標為1.078 是最佳配置。本文通過運行SPEC CPU2006 基準測試套件中的12 個SPECint 應用程序［20］來評估處理器性能，當OB+MB 尺寸為2.60×104時，基于本文機制的超標量處理器平均IPC 指數如圖5 所示。

圖5 當OB+MB 尺寸為2.60×104時基于本文機制的超標量處理器平均IPC 指數Fig.5 Average IPC index of superscalar processor based on the proposed mechanism when the OB+MB size is 2.60×104

實驗結果表明，當本文機制中的指令提交緩存模塊OB+MB 尺寸為2.60×104時，通過每個周期提交的IPC 表示處理器在一個周期內可以執行的指令個數。在各個應用程序中差異較大［21］，基于本文機制的超標量處理器的平均IPC 指數為1.11，相比基于ROB 順序提交機制的超標量處理器在使用較少的硬件資源情況下處理器性能提升了46%。將基于本文機制、值預測機制［5］、亂序退休機制［6］和組提交機制［7］的超標量處理器進行性能對比，如表2 所示。可以看出，基于本文機制的超標量處理器相比基于值預測、亂序退休和組提交機制的超標量處理器平均IPC 指數增益為19%，實現了更高的性能提升。

表2 基于4 種機制的超標量處理器性能對比Table 2 Performance comparison of superscalar processors based on four mechanisms

由實驗分析可知，本文機制可通過調整OB 和MB 尺寸來提升處理器性能，但是單純增加OB+MB尺寸并不能明顯提升處理器性能，甚至隨著OB+MB尺寸的不斷增大，處理器性能將不再變化。出現該情況的主要原因為本文機制未充分考慮指令提交緩存模塊與流水線其他各級模塊的關系，只有實現各級模塊速度的匹配，才能最大化處理器性能。

4 結束語

傳統基于ROB 順序提交機制的超標量處理器由于長周期執行指令占用ROB head 時間過長導致流水線阻塞，以及指令持續解碼使得ROB 無法容納更多并行指令，從而造成ROB 資源利用率降低。為解決上述問題，本文提出一種指令亂序提交機制，利用指令目的寄存器編碼提交模式實現在Store指令阻塞提交時，后續執行完畢的單周期執行指令優先于Store指令完成提交，保證單次最多同時提交2條指令，提高指令提交速率。實驗結果表明，基于指令亂序提交機制的超標量處理器相比傳統基于ROB順序提交機制的超標量處理器在減少硬件開銷的情況下性能提升46%，相比基于值預測、亂序退休和組提交機制的超標量處理器性能平均提升19%。后續可將該指令亂序提交機制應用于嵌入式處理器中，實現高性能和低功耗的處理器設計。