999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

高精度低時延浮點雙曲函數(shù)運算單元的VLSI實現(xiàn)

2021-12-17 01:46:42劉明傅文佳
科技信息·學(xué)術(shù)版 2021年1期

劉明 傅文佳

摘要:高精度浮點超越函數(shù)在科學(xué)計算等應(yīng)用中需求越來越大,雙曲函數(shù)是超越函數(shù)中的一個重要組成部分。早期雙曲函數(shù)的計算借助軟件實現(xiàn),近年來由于硬件實現(xiàn)超越函數(shù)的性能優(yōu)于軟件,硬件實現(xiàn)逐漸獲得重視。計算高精度的超越函數(shù)時,雖然位寬的增加會帶來資源消耗的急劇增加,但數(shù)字電路集成規(guī)模的擴大為全硬件化高精度浮點運算單元提供設(shè)計基礎(chǔ)。CORDIC算法作為逐位迭代法中的經(jīng)典算法,僅需要加法和移位操作即可完成函數(shù)計算。因此,本文基于CORDIC四步并行迭代算法,完成128位浮點雙曲函數(shù)運算單元的硬件建模。

關(guān)鍵詞:雙曲函數(shù)? 超越函數(shù)? CORDIC算法

一、引言

近五年來,中國的集成電路(Integrated Circuit,IC)業(yè)在國家政策的有力支持和市場需求的快速提振下取得了快速發(fā)展,其整體技術(shù)水平和市場規(guī)模在不斷地增長。隨著人工智能、5G、智慧城市等概念的提出和蓬勃發(fā)展,IC業(yè)逐步成為國內(nèi)信息技術(shù)產(chǎn)業(yè)的重要支撐和安全核心。然而,作為全世界IC產(chǎn)業(yè)消費占比約1/3的市場國,中國本國的IC產(chǎn)值全球占比不足7.5%。細(xì)分至芯片設(shè)計產(chǎn)業(yè),我國的通信芯片、LED芯片等雖已有一定的市場規(guī)模,但高端芯片市場迫切需要打破瓶頸。

在能源勘測、游戲渲染、氣象學(xué)和海洋學(xué)、金融保險、計算機輔助設(shè)計等領(lǐng)域中,需要大量三角函數(shù)、指數(shù)函數(shù)、對數(shù)函數(shù)、雙曲函數(shù)等超越函數(shù)的計算。在科學(xué)計算中,雙曲函數(shù)在信號處理、電力傳輸、航空航天、統(tǒng)計學(xué)等工程領(lǐng)域,有著廣泛的應(yīng)用。對于實時處理要求高的領(lǐng)域,比如通信、測繪等,高速度、高精度的雙曲函數(shù)具有重要作用。早期的計算大多借助于軟件來實現(xiàn),往往需要頻繁調(diào)用浮點運算子程序庫,這樣顯然降低了運算的速度,在進(jìn)行高精度運算時速度甚至更低。直到近十年,由于硬件實現(xiàn)函數(shù)的計算性能優(yōu)于軟件,硬件實現(xiàn)才獲得重視。

二、雙曲函數(shù)硬件實現(xiàn)算法研究

通常,雙曲函數(shù)的運算只由軟件實現(xiàn),直到最近的十幾年,隨著生產(chǎn)工藝的升級迭代,使用硬件實現(xiàn)浮點雙曲函數(shù)計算的性能逐漸優(yōu)于使用軟件的實現(xiàn)方式。諸多文獻(xiàn)都提出了雙曲函數(shù)的硬件實現(xiàn),其中典型的方法包括查表法、多項式逼近法和CORDIC算法。近年來,隨機計算法也引起了廣泛的關(guān)注。以上的方法都有其優(yōu)缺點,使用時性能側(cè)重點也不一致。

通過對超越函數(shù)計算方法的分析和比較可知,若采用查表法,則需要至少一個2n× n位的ROM表,隨著n的增大,硬件資源的消耗劇增。多項式逼近法和基于查找表的多項式逼近法適用于小范圍小輸入數(shù)值的計算,當(dāng)輸入接近某些值時,雙曲函數(shù)的計算誤差將會變大;此外,由于多項式逼近法中有大量的乘法操作,用該方法計算雙曲函數(shù)時將難以達(dá)到高精度的要求。而隨機計算法在計算精度和計算速度這兩大要求的限制下也不宜使用。相對于這些算法來說,從算法精度和復(fù)雜度上考慮,基本CORDIC算法均非常具有優(yōu)勢。

為了大幅提高計算的效率,基于雙步CORDIC算法,本文采用了CORDIC四步并行迭代算法,用于雙曲函數(shù)的計算。CORDIC四步并行迭代算法在一個時鐘周期內(nèi)合并四個連續(xù)時鐘周期的單步迭代計算,即在一個時鐘周期內(nèi)得到4位位寬的有效計算結(jié)果。該算法的關(guān)鍵是在一個時鐘周期內(nèi)預(yù)測后四個連續(xù)時鐘周期的判決因子ε的值。因此,該算法可以大幅減少基本CORDIC算法逐位迭代中的時延,將計算效率提升至四倍左右。其示意圖如圖1所示:

雙曲函數(shù)的計算建立在CORDIC算法的雙曲坐標(biāo)系,下面將根據(jù)雙曲坐標(biāo)系的迭代公式進(jìn)行CORDIC四步并行迭代算法的迭代式推導(dǎo)。首先,對于X通道分量,公式推導(dǎo)如下:

三、浮點雙曲函數(shù)運算硬件單元的體系結(jié)構(gòu)設(shè)計

在科學(xué)計算和工程設(shè)計中,雙曲線函數(shù)的浮點運算占有重要的地位。同時,由于對計算速度和精度的要求不斷改進(jìn),專用的FPU通常用于執(zhí)行浮點運算。隨著集成電路的快速發(fā)展,半導(dǎo)體工藝水平的不斷提高,芯片集成程度大幅提高。通過犧牲一部分面積,可以實現(xiàn)高精度高速浮點運算的要求。本章設(shè)計和優(yōu)化浮點計算單元的整體硬件架構(gòu),使用Verilog硬件語言實現(xiàn)雙曲函數(shù)浮點計算單元。

表1列出了滿足科學(xué)計算高精度要求的一些基本浮點數(shù)據(jù)格式和相關(guān)參數(shù)。本文使用表3-1中的128位浮點數(shù)據(jù)來計算雙曲函數(shù)。128位浮點數(shù)據(jù)包括1位符號位S、15位指數(shù)位E和112位尾數(shù)位T。

根據(jù)對IEEE-754標(biāo)準(zhǔn)浮點數(shù)和CORDIC四步并行迭代算法原理的分析,雙曲系浮點運算硬件單元包括預(yù)處理模塊、CORDIC定點運算模塊、后處理模塊。根據(jù)雙曲函數(shù)6個函數(shù)的定義式,將這6個函數(shù)分為3個總設(shè)計來實現(xiàn),分別是sinh_cosh_tanh函數(shù)設(shè)計,arcsinh_arccosh函數(shù)設(shè)計和arctanh函數(shù)設(shè)計。

頂層結(jié)構(gòu)表明了本設(shè)計在進(jìn)行雙曲系函數(shù)的計算時,首先,對輸入浮點數(shù)據(jù)進(jìn)行一定的預(yù)處理,接著,將預(yù)處理的結(jié)果輸入到CORDIC定點運算模塊中進(jìn)行迭代計算,最后,將迭代計算的輸出數(shù)據(jù)傳入到后處理模塊完成標(biāo)準(zhǔn)浮點數(shù)規(guī)則化。

CORDIC定點運算模塊是設(shè)計的核心模塊,主要包括X通道、Y通道和Z通道的四步并行迭代模塊。

浮點規(guī)則化模塊將CORDIC定點運算模塊的運算結(jié)果轉(zhuǎn)換成符合IEEE754浮點格式標(biāo)準(zhǔn)的數(shù)據(jù),最終輸出雙曲系函數(shù)的128位浮點數(shù)值sinh_result、cosh_result、tanh_result、asinh_result、acosh_result和atanh_result。

四、浮點雙曲函數(shù)運算硬件單元驗證與比較

隨著芯片系統(tǒng)的日益復(fù)雜,在硬件設(shè)計中,仿真驗證已經(jīng)成為非常重要的環(huán)節(jié)。本文使用Verilog語言對雙曲函數(shù)浮點運算硬件單元中的各個模塊進(jìn)行RTL級建模,整合成3大頂層模塊,用于計算6個雙曲函數(shù)。利用Python的bigfloat函數(shù)運算庫生成仿真數(shù)據(jù)集,在仿真工具M(jìn)odelSim平臺上對雙曲函數(shù)浮點運算硬件單元中的重要模塊和整體電路進(jìn)行測試,然后將Python中的理想值與基于RTL設(shè)計的結(jié)果進(jìn)行對比,最后基于TSMC 65 nm工藝,使用Synopsys 綜合工具Design Compiler完成雙曲函數(shù)浮點運算硬件單元的邏輯綜合。

經(jīng)過仿真驗證后,利用Synopsys公司的設(shè)計工具在TSMC 65nm工藝下完成了DC綜合,最終得到雙曲函數(shù)運算單元的硬件面積和速度等綜合結(jié)果。

綜合結(jié)果如表2所示,從表中數(shù)據(jù)可知,本文提出的浮點雙曲函數(shù)運算單元以面積換速度的策略實現(xiàn)高運算效率,同時保證精度達(dá)到設(shè)計要求。

由DC綜合結(jié)果可知,本文提出的浮點雙曲函數(shù)運算單元中CORDIC定點運算模塊占據(jù)了大多數(shù)電路面積,因此,若需要進(jìn)一步的優(yōu)化,優(yōu)先可對其作設(shè)計優(yōu)化,以最大程度減少電路面積、降低電路功耗和提高運算性能。

五、總結(jié)

隨著天體物理和天氣及圖像數(shù)據(jù)的高精度需求的增加,同時,隨著人們對實時信息處理的要求不斷提高,提升運算單元計算效率是十分有必要的。本文提出基于函數(shù)化的思想設(shè)計了128位的高精度浮點雙曲函數(shù)的硬件電路。該電路不僅針對傳統(tǒng)的CORDIC迭代算法進(jìn)行了改善,同時在硬件結(jié)構(gòu)中設(shè)計出并行的硬件結(jié)構(gòu),將時鐘周期算短至41個,極大地提高了運算效率,減少了輸入到輸出的電路延時。后續(xù)進(jìn)一步改進(jìn)預(yù)測-修正算法,通過硬件模塊復(fù)用以及割集重定時技術(shù)減少整體電路面積、功耗和關(guān)鍵路徑的延時。

參考文獻(xiàn)

[1]馬群生,溫東嬋,仇玉章,唐瑞春.微計算機技術(shù)[M].北京:清華大學(xué)出版社,2006:64-68.

[2]崔林海,張子迎,姜占鵬,郭鑫.計算機組成原理與結(jié)構(gòu)[M].哈爾濱:哈爾濱工業(yè)大學(xué)出版社,2015:236-237.

[3]侯力秩.DSP中的浮點與定點比較[J].通信電源技術(shù),2020,37(01):105-106.

[4]韓山秀.浮點三角類超越函數(shù)的算法研究及硬件實現(xiàn)[D].西北工業(yè)大學(xué),2006.

[5]Muller,J.M.Elementary Functions:Algorithms and Implementations,2nd ed.;Birkhauser:Basel,Swit-zerland,2006.

[6]Parhami,B.Computer Arithmetic:Algorithms and Hardware Designs;Oxford University Press:Oxford,UK,1999.

基金項目:

1:深圳市科技計劃項目(項目編號:JCYJ20180307123857045)

2:廣東省教育廳科技項目(項目編號:2019GKQNCX122)

3:校級科研項目(項目編號:SZIIT2019KJ026)

主站蜘蛛池模板: 欧美特黄一级大黄录像| 99久久无色码中文字幕| 九九热这里只有国产精品| 亚洲国产黄色| 亚洲国产精品无码AV| 九九香蕉视频| 又污又黄又无遮挡网站| 人妖无码第一页| 国产免费好大好硬视频| 国产剧情国内精品原创| 精品一区二区三区中文字幕| 欧美精品另类| 精品国产免费观看| 欧美色伊人| 亚洲国产天堂久久综合| 亚洲国产天堂久久综合226114| 亚洲一区二区无码视频| 成人午夜网址| 亚洲欧洲日本在线| 成人亚洲国产| 国产91av在线| 国产微拍精品| 欧美激情视频二区| 18禁黄无遮挡网站| 在线观看亚洲成人| 天堂成人在线视频| 亚洲黄网视频| 国产成人精品免费视频大全五级| 丁香五月婷婷激情基地| 91九色国产porny| 综合网久久| 中文字幕伦视频| 亚洲精品777| 婷婷综合色| 亚洲天堂免费在线视频| 久久精品视频亚洲| 丰满人妻中出白浆| 国产精品美乳| 日韩欧美中文字幕在线韩免费| 中文字幕日韩欧美| 尤物成AV人片在线观看| 无码AV动漫| 亚洲欧美成人综合| 九九热精品在线视频| 在线观看免费黄色网址| 欧美另类第一页| 国产黄在线免费观看| 精品国产美女福到在线直播| 国内精品自在自线视频香蕉| 国产综合日韩另类一区二区| 91丨九色丨首页在线播放| 亚洲天堂免费| 欧美日韩在线亚洲国产人| 波多野结衣二区| 国产手机在线ΑⅤ片无码观看| 99精品国产电影| 亚洲三级片在线看| 欧美性色综合网| 一区二区午夜| 国产一级毛片yw| 欧美www在线观看| 天天做天天爱天天爽综合区| 成人看片欧美一区二区| 欧美一区二区丝袜高跟鞋| 东京热一区二区三区无码视频| 亚洲精品无码久久毛片波多野吉| 77777亚洲午夜久久多人| 99久久国产自偷自偷免费一区| 免费人成网站在线观看欧美| 国产成人亚洲综合a∨婷婷| 亚洲免费人成影院| 无码中字出轨中文人妻中文中| 九九热这里只有国产精品| 日本黄色不卡视频| 国产中文一区a级毛片视频| 亚洲国产精品无码AV| 91久久夜色精品国产网站| 亚洲人人视频| 亚洲无码视频图片| a级免费视频| 国产成人综合网| 91在线播放国产|