Silicon Labs微控制器和無線產(chǎn)品系統(tǒng)工程師 Josh Norem
?
探索IoT應(yīng)用中對于8位、32位MCU的選擇
Silicon Labs微控制器和無線產(chǎn)品系統(tǒng)工程師Josh Norem
引言
該如何對8位、32位MCU進(jìn)行選擇?8位和32位MCU在功能上仍是互為補(bǔ)充,各有千秋,這其中的訣竅在于弄清什么樣的應(yīng)用適合什么樣的MCU架構(gòu)。本文對比了8位MCU和32位MCU的使用案例,也可作為如何選擇這兩種MCU架構(gòu)的指南使用。本文中大部分32位MCU示例將關(guān)注ARM Cortex-M設(shè)備,Cortex-M在不同MCU供應(yīng)商產(chǎn)品組合中表現(xiàn)得非常相似。鑒于8位MCU有很多種架構(gòu),所以很難對8位供應(yīng)商產(chǎn)品進(jìn)行類似的比較。為了便于進(jìn)行比較,我們將使用廣泛應(yīng)用的、易于理解的8051 架構(gòu),該架構(gòu)深受嵌入式開發(fā)人員的青睞。
8位和32位MCU該如何選擇
有時,當(dāng)我對比人們所熟知的事物(例如ARM和8051)時,感覺就像在互聯(lián)網(wǎng)論壇上發(fā)出“《星際迷航》比《星球大戰(zhàn)》好看”的帖子一樣,很快就能火起來。
事實(shí)上,“ARM Cortex和8051哪個更好”并不是個邏輯問題,就像是在問,“吉他和鋼琴哪個更好”一樣。真正要解決的問題是“哪種MCU能幫我更好地解決當(dāng)下面臨的問題”。不同的任務(wù)需要使用不同的工具,我們的目的是要了解“如何才能更好地運(yùn)用我們所擁有的工具”,包括8位和32位MCU。幾乎可以肯定地說,那些簡單回答“ARM更好”或“8051更好”的人各有其目的,他們也許正在試圖銷售某種產(chǎn)品。
對不同的設(shè)備進(jìn)行比較,需要對其進(jìn)行測量。有很多構(gòu)建工具可供選擇,我們盡量選擇一些場景,我認(rèn)為其能夠進(jìn)行最公平的比較,且最能代表開發(fā)人員的真實(shí)體驗(yàn)。以下ARM數(shù)據(jù)是通過GCC+nanoCLibrary和-03優(yōu)化選項(xiàng)所生成的。
我并不想為任何一種設(shè)備優(yōu)化代碼,只是簡單地實(shí)現(xiàn)90%開發(fā)人員都會使用的最顯而易見的“常規(guī)”代碼,更感興趣的是普通開發(fā)人員所見到的結(jié)果,而不是理想狀態(tài)下的結(jié)果。當(dāng)然,花費(fèi)諸多時間、精力和財(cái)力去調(diào)整8051代碼使其表現(xiàn)得比ARM更好是可能的(反之亦然),但一開始就選擇適合該項(xiàng)工作的最佳工具更為簡易。
并非所有的MCU都是一樣的
在開始對架構(gòu)進(jìn)行比較之前,要注意到并非所有生產(chǎn)的MCU都是一樣的,這一點(diǎn)非常重要。如果將基于ARM Cortex-M0+處理器的現(xiàn)代MCU與30年前的8051 MCU進(jìn)行對比,8051 MCU在性能對比上不會勝出。幸運(yùn)的是,依然有許多供應(yīng)商一直在對8位處理器進(jìn)行持續(xù)投資。例如:Silicon Labs一直更新基于8051內(nèi)核的EFM8 MCU產(chǎn)品線,比原來的8051架構(gòu)更為高效,而且開發(fā)過程也已經(jīng)實(shí)現(xiàn)現(xiàn)代化。所以,在許多應(yīng)用中,8位內(nèi)核能夠容易彌補(bǔ)M0+或M3內(nèi)核不利的地方,甚至在一些方面性能更佳。
開發(fā)工具也很重要。現(xiàn)代嵌入式固件開發(fā)需要全功能IDE、現(xiàn)成的固件庫、豐富的示例、完整的評估和入門套件,以及助手應(yīng)用,以簡化硬件配置、庫管理和量產(chǎn)編程之類的工作。當(dāng)MCU有了現(xiàn)代化的8位內(nèi)核和開發(fā)環(huán)境后,在很多情況下,這樣的MCU將超越基于ARM-Cortex的類似MCU。
一般性取舍
在深入探討內(nèi)核架構(gòu)和其他技術(shù)細(xì)節(jié)之前,我要和大家講一個故事,在我讀大學(xué)的時候,記得有一次考試,因?yàn)樘谝饪既『梅謹(jǐn)?shù)和比其他同學(xué)先完成考題,以至于沒有注意到在試卷的正反面都印有試題。不用說,我的確是第一個完成考卷的人,但卻是我不愿再想起的一次經(jīng)歷。如果一個應(yīng)用需要的只是256 KB的閃存或0.25美元的批量定價,那么分析復(fù)雜的MCU特性和功能是沒有意義的。這些需求足以說明何種MCU架構(gòu)才是最佳選擇。
系統(tǒng)規(guī)模
一般性原則是,ARM Cortex-M內(nèi)核更適用于較大的系統(tǒng)規(guī)模(>64 KB代碼),而8051設(shè)備適用于較小的系統(tǒng)規(guī)模(<8 KB代碼)。中等規(guī)模的系統(tǒng)可以選擇兩種方式,這取決于系統(tǒng)要執(zhí)行的任務(wù)。有必要注意一點(diǎn),在大多數(shù)情況下,外設(shè)組合將會發(fā)揮重要的作用。如果需要3個UART、1個LCD控制器、4個時鐘和2個ADC,你可能并不會在8位MCU上找到所有這些外設(shè)。
易用性vs成本和尺寸
對于中等規(guī)模的系統(tǒng)來說,使用任何一種架構(gòu)都可以完成工作,需要權(quán)衡的是選擇ARM內(nèi)核帶來的易用性,還是8051設(shè)備帶來的成本和物理尺寸優(yōu)勢。
ARM Cortex-M架構(gòu)具有統(tǒng)一的存儲映射模式,并且在所有常見編譯器中支持完整的C99,這使得這種架構(gòu)非常易于寫固件。此外,還可得到一系列庫和第三方代碼。當(dāng)然,這種易用性的代價就是成本。對于高復(fù)雜性、上市時間較短的應(yīng)用或缺乏經(jīng)驗(yàn)的固件開發(fā)人員來說,易用性是個重要因素。
盡管8位與32位部件相比有些成本上的優(yōu)勢,但真正的區(qū)別就在于成本級別。大家經(jīng)常會發(fā)現(xiàn)具有2 KB/512 B(Flash/RAM)的小容量8位器件,而卻很少見低于8 KB/2 KB的32位器件。在不需要很多資源的系統(tǒng)中,該范圍的存儲容量能夠讓系統(tǒng)開發(fā)人員獲得顯著降低成本的解決方案。因此,對成本極為敏感或僅需較小存儲容量的應(yīng)用會更傾向于選擇8051解決方案。
通常,8位器件也具有物理尺寸上的優(yōu)勢。例如:Silicon Labs提供的最小的32位QFN封裝為4 mm×4 mm,而基于8051的8位器件的QFN封裝可小至2 mm×2 mm。芯片級封裝(CSP)的8位和32位架構(gòu)之間的差異較小,但卻使成本增加,且組裝較難。對于空間嚴(yán)格受限的應(yīng)用來說,通常需要選擇8051 MCU來滿足限制要求。
通用代碼和RAM效率
8051 MCU成本較低的主要原因之一是,它通常比ARM Cortex-M內(nèi)核更高效地使用Flash和RAM,這允許系統(tǒng)采用更少資源實(shí)現(xiàn)。系統(tǒng)越大,這種影響就越小。
但這種8位存儲資源的優(yōu)勢并不總是如此,在某些情況下,ARM內(nèi)核會像8051內(nèi)核一樣高效或比其更高效。例如:32位運(yùn)算僅需要一條ARM設(shè)備指令,而在8051 MCU上則需要多條8位指令。顯然,這種代碼在ARM架構(gòu)上有更高的執(zhí)行效率。
ARM架構(gòu)在Flash/RAM尺寸較小時的兩個主要缺點(diǎn)是:代碼空間效率和RAM使用的可預(yù)測性。首要也是最明顯的問題是通用代碼空間效率。8051內(nèi)核使用1字節(jié)、2字節(jié)或3字節(jié)指令,而ARM內(nèi)核使用2字節(jié)或4字節(jié)指令。通常情況下,8051指令更小,但這一優(yōu)勢因?qū)嶋H上花費(fèi)許多時間而受到削弱,ARM內(nèi)核比8051在一條指令下能做更多工作,32位運(yùn)算就是這樣一個示例。實(shí)踐起來,指令寬度是能在8051上產(chǎn)生適度的更密集代碼。
代碼空間效率
在含有分布式訪問變量的系統(tǒng)中,ARM架構(gòu)的加載/存儲架構(gòu)通常比指令寬度更為重要。試想信號量的實(shí)現(xiàn),一個變量需要在代碼周圍的多個不同位置進(jìn)行減量(分配)或者增量(釋放)。ARM內(nèi)核必須將變量加載到寄存器,對其進(jìn)行操作并重新存儲,這需要3條指令。另一方面,8051內(nèi)核可以直接在內(nèi)存位置上進(jìn)行操作,且僅需1條指令。隨著每次對變量完成工作量的增大,由于加載/存儲而產(chǎn)生的消耗就變得微不足道。但對于每次僅完成一點(diǎn)工作的情況來說,加載/存儲能產(chǎn)生重要影響,讓8051獲得明顯的效率優(yōu)勢。
盡管信號量在嵌入式軟件中并非常見,但簡單的計(jì)數(shù)器和標(biāo)志信號量卻廣泛應(yīng)用于控制導(dǎo)向的應(yīng)用中并起著相同的作用。許多常見的MCU代碼都屬于這一類型。
另一個原因是,ARM處理器比8051內(nèi)核擁有更多的自由使用棧空間。通常情況下,8051設(shè)備針對每次函數(shù)調(diào)用僅在棧上存儲返回地址(2字節(jié)),通常通過分配給棧的靜態(tài)變量處理大量的任務(wù)。在某些情況下,這會產(chǎn)生問題,因?yàn)檫@會造成函數(shù)默認(rèn)不可重入。然而,這也意味著必須保留的棧空間很小,且完全可預(yù)測,這在RAM容量有限的MCU中至關(guān)重要。
舉個簡單的例子,我創(chuàng)建了以下程序,然后測量funcB內(nèi)部的棧深度,發(fā)現(xiàn)M0+內(nèi)核的棧用了48個字節(jié),而8051內(nèi)核的棧僅用了16個字節(jié)。當(dāng)然,8051內(nèi)核還靜態(tài)分配了8個字節(jié)的RAM,總共用了24個字節(jié)。在較大的系統(tǒng)中,這個差異顯得微不足道,但是在僅有256字節(jié)ARM的系統(tǒng)中,這就變得很重要。代碼示例如下:
int main(void){
fucA (0xACED)
while (1)
}
void funcA (uint32_t a){
uint8_t i,j=0
for (i=0;i<3; i++) {j = funcB(i,j);}
}
uint16_t funcB(uint16_t testA,uint16_t testB){
return (testA * testB) / (testA-testB)
}
架構(gòu)細(xì)節(jié)
現(xiàn)在,我們來說基本情景。假設(shè)有基于ARM和基于8051的MCU各一個,配有所需的外設(shè),那么對于較大的系統(tǒng)或需要重點(diǎn)考慮易用性的應(yīng)用來說,ARM設(shè)備是更好的選擇。如果首要考慮的是低成本/小尺寸,那么8051設(shè)備將是更好的選擇。下面我們對于每種架構(gòu)更擅長的應(yīng)用進(jìn)行更詳細(xì)的分析,同時也劃分出一般原則。
(1) 延時
兩種架構(gòu)的中斷和函數(shù)調(diào)用延時存在很大差異,8051比ARM Cortex-M內(nèi)核更快。此外,高級外設(shè)總線(APB)配備的外設(shè)也會影響延時,這是因?yàn)閿?shù)據(jù)必須通過APB和AMBA高性能總線(AHB)傳輸。最后,當(dāng)使用高頻內(nèi)核時鐘時,許多基于Cortex-M的MCU需要分配APB時鐘,這也增加了外設(shè)延時。
我做了1個簡單的實(shí)驗(yàn),實(shí)驗(yàn)中的中斷是通過I/O引腳觸發(fā)的。該中斷對引腳發(fā)出一些信號,并根據(jù)引發(fā)中斷的引腳更新標(biāo)志。然后我測量了一些參數(shù),如表1所列。這里的列表顯示了32位的實(shí)現(xiàn)。
//Status var
volatile uint8_t hello;
//ISR
void GPIO_ODD_IRQHandler(void){
GPIO->P[gpioPortA]. DOUTSET = 0x03; //T1
GPIO->P[gpioPortA]. DOUTCLR = 0x01; //T2
if(GPIO->IF & 0x0100) {
hello = 4;
}
else{
hello = 5;
}
GPIO->IFC = 0xFFFF;//clear interrupt
GPIO->P[gpioPortA]. DOUTCLR =0x02;//T3
}
//Main loop
while (1){
hello = 0;
GPIO->P[gpioPortA]. DOUTSET = 0x04; //T0
while(!hello);
GPIO->P[gpioPortA]. DOUTCLR = 0x04; //T4
for(i=0; i<0x1000; 1++);
}

表1 參數(shù)比較
8051內(nèi)核在中斷服務(wù)程序(ISR)進(jìn)入和退出時顯示出優(yōu)勢。但是,隨著中斷服務(wù)程序(ISR)越來越大和執(zhí)行時間的增加,這些延遲將變得微不足道。和已有原則一致,系統(tǒng)越大,8051的優(yōu)勢越小。此外,如果中斷服務(wù)程序(ISR)涉及到大量數(shù)據(jù)遷移或大于8位的整數(shù)數(shù)據(jù)運(yùn)算,中斷服務(wù)程序(ISR)執(zhí)行時間的優(yōu)勢將轉(zhuǎn)向ARM內(nèi)核。例如,一個采用新樣本更新16位或32位移動平均的ADC ISR可能在ARM設(shè)備上執(zhí)行得更快。
(2) 控制vs處理
8051內(nèi)核的基本功能是控制代碼,其中對于變量的訪問是分散的,并且使用了許多控制邏輯(if、case等)。8051內(nèi)核在處理8位數(shù)據(jù)時也是非常有效的,而ARM Cortex-M內(nèi)核擅長數(shù)據(jù)處理和32位運(yùn)算。此外,32位數(shù)據(jù)通道使得ARM MCU復(fù)制大包的數(shù)據(jù)更加有效,因?yàn)樗看慰梢砸苿?個字節(jié),而8051每次僅能夠移動1個字節(jié)。因此,那些主要把數(shù)據(jù)從一個地方移動到另一個地方(例如UART到CRC或者到USB)的流數(shù)據(jù)處理的應(yīng)用,更適合選擇基于ARM處理器的系統(tǒng)。
來做1個簡單的實(shí)驗(yàn),我們編譯以下兩種架構(gòu)的函數(shù),變量大小為uint8_t、uint16_t和uint32_t。
uint32_t funcB(uint32_t testA, uint32_t testB){
return (testA * testB)/(testA-testB)
}
|data type | 32bit(-o3) | 8bit |
| uint8_t | 20 | 13 | bytes
| uint16_t | 20 | 20 | bytes
| uint32_t | 16 | 52 | bytes
隨著數(shù)據(jù)量的增加,8051內(nèi)核需要越來越多的代碼來完成這項(xiàng)工作,最終超過了ARM函數(shù)的大小。16位的情況在代碼大小上幾乎類似,在執(zhí)行速度上稍好于32位內(nèi)核,因?yàn)橄嗤a通常需要更少周期。還有一點(diǎn)很重要,那就是要注意到,只有采用優(yōu)化的ARM編譯代碼,這種比較才有效。未優(yōu)化的代碼需要花費(fèi)幾倍長的時間。
這并不意味著有大量數(shù)據(jù)移動或32位運(yùn)算的應(yīng)用不應(yīng)該選擇8051內(nèi)核完成。在許多情況下,其他方面的考慮將超過ARM內(nèi)核的效率優(yōu)勢,或者說這種優(yōu)勢是不相關(guān)的。考慮使用UART到SPI橋接器,該應(yīng)用花費(fèi)大部分時間在外設(shè)之間復(fù)制數(shù)據(jù),而ARM內(nèi)核會更高效地完成該任務(wù)。然而,這也是一個非常小的應(yīng)用,可能小到足以放入一個僅有2 KB存儲容量的器件就足夠合適。盡管8051內(nèi)核效率較低,但它仍然有足夠的處理能力去處理該應(yīng)用中的高數(shù)據(jù)速率。對于ARM設(shè)備來說,可用的額外周期可能處于空閑循環(huán)或“WFI”(等待中斷),等待下一個可用的數(shù)據(jù)片到來。在這種情況下,8051內(nèi)核仍然最有意義,因?yàn)轭~外的CPU周期是微不足道的,而較小的Flash封裝會節(jié)約成本。如果我們要利用額外的周期去做些有意義的工作,那么額外的效率將是至關(guān)重要的,且效率越高可能越有利于ARM內(nèi)核。這個例子說明,清楚被開發(fā)系統(tǒng)所關(guān)注的環(huán)境中的各種架構(gòu)優(yōu)勢是何等重要。做出這個最佳的決定是簡單但卻重要的一步。
(3) 指針
8051設(shè)備沒有像ARM設(shè)備那樣的統(tǒng)一的存儲映射,而是對訪問代碼(Flash)、IDATA(內(nèi)部RAM)和XDATA(外部RAM)有不同的指令。為了生成高效的代碼,8051代碼的指針會說明它指向什么空間。然而,在某些情況下,使用通用指針可以指向任何空間,但是這種類型的指針是低效的訪問。例如,將指針指向緩沖區(qū)并將該緩沖區(qū)數(shù)據(jù)輸出到UART的函數(shù)。如果指針是XDATA指針,那么XDATA數(shù)組能被發(fā)送到UART,但在代碼空間中的數(shù)組首先需要被復(fù)制到XDATA。通用指針能同時指向代碼和XDATA空間,但速度較慢,并且需要更多的代碼來訪問。專用區(qū)域指針在大多情況下能發(fā)揮作用,但是通用指針在編寫使用情況未知的可重用代碼時非常靈活。如果這種情況在應(yīng)用中很常見,那么8051就失去了其效率優(yōu)勢。
(4) 通過選擇完成工作
我已經(jīng)注意到多次,運(yùn)算傾向于選擇ARM,而控制傾向于選擇8051,但沒有應(yīng)用僅僅著眼于計(jì)算或控制。我們怎樣才能表征廣義上的應(yīng)用,并計(jì)算出它的合適范圍呢?讓我們考慮一個由10%的32位計(jì)算、25%的控制代碼和65%的一般代碼構(gòu)成的假定的應(yīng)用,它不能明確地歸于8位或32位類別。這個應(yīng)用也更注重代碼空間而不是執(zhí)行速度,因?yàn)樗⒉恍枰锌捎肕IPS,并且必須為成本進(jìn)行優(yōu)化。成本比應(yīng)用速度更為重要的事實(shí)在一般代碼情形下將給8051內(nèi)核帶來微弱優(yōu)勢。此外,8051內(nèi)核在控制代碼中有中間等級的優(yōu)勢。ARM內(nèi)核在32位計(jì)算上占上風(fēng),但是這并非是很多應(yīng)用所考慮的。考慮到所有這些因素,這個特殊的應(yīng)用選擇8051內(nèi)核更加合適。
如果進(jìn)行細(xì)微的改變,假設(shè)該應(yīng)用更關(guān)心執(zhí)行速度而非成本,那么通用代碼不會傾向于哪種架構(gòu),并且ARM內(nèi)核在計(jì)算代碼中全面占優(yōu)。在這種情況下,雖然有比計(jì)算更多的控制代碼,但是總的結(jié)果將相當(dāng)均衡。
顯然,在這個過程中有很多的評估,但是分解應(yīng)用,然后評估每一組件的技術(shù)將幫助并確保我們了解在哪種情況下哪種架構(gòu)有更顯著的優(yōu)勢。
功耗
當(dāng)查閱數(shù)據(jù)手冊時,很容易根據(jù)功耗數(shù)據(jù)得出哪個MCU更優(yōu)的結(jié)論。雖然睡眠模式和工作模式電流性能在某些類型MCU上更優(yōu),但是這一評估可能會非常具有誤導(dǎo)性。占空比(在每個電源模式上分別占用多少時間)將始終占據(jù)功耗的主導(dǎo)地位。除非兩個器件的占空比相同,否則數(shù)據(jù)手冊中的電流規(guī)格幾乎是沒有意義的。最適合應(yīng)用需求的核心架構(gòu)通常具有更低的功耗。
假設(shè)有一個系統(tǒng),在設(shè)備被喚醒后添加一個16位ADC樣本到移動平均,然后返回到休眠狀態(tài),直到獲取下一個樣本時才又被喚醒。該任務(wù)涉及到大量16位和32位計(jì)算。ARM設(shè)備將能夠進(jìn)行計(jì)算,并比8051設(shè)備更快返回到休眠狀態(tài),這會讓系統(tǒng)功耗更低,即使8051具有更好的睡眠和工作模式電流。當(dāng)然,如果進(jìn)行的任務(wù)更適合8051設(shè)備,那么MCU功耗由于相同的原因而對系統(tǒng)有利。
外設(shè)特性也能夠以這樣或那樣的方式影響功耗。例如,大多數(shù)Silicon Labs的EFM32 32位MCU具有低功耗的UART(LEUART),能夠在低功耗模式下接收數(shù)據(jù),而只有兩個EFM8 MCU具有此功能。這一外設(shè)影響電源的占空比,且在任何需要等待UART通信的應(yīng)用中都比缺乏LEUART的EFM8在很大程度上有利于EFM32 MCU。遺憾的是,除了讓MCU供應(yīng)商的本地應(yīng)用工程師利用EFM8來解決上述問題之外,并沒有簡單的指南來評估這些外設(shè)因素。系統(tǒng)設(shè)計(jì)人員還應(yīng)了解MCU各種功耗模式下,可完成的處理任務(wù)。
8位或32位?我仍然不能決定!
如果考慮到所有這些變量后,仍然不清楚哪些MCU架構(gòu)是最好的選擇,會怎樣?那好吧!這說明,它們都是很好的選擇,你使用哪種體系結(jié)構(gòu)并不是緊要的事情。如果沒有明確的技術(shù)優(yōu)勢,那么過去的經(jīng)驗(yàn)和個人喜好在你的MCU架構(gòu)決定中也起到了很大的作用。此外,你也可以利用這個機(jī)會去評估可能的未來項(xiàng)目,如果大多數(shù)未來項(xiàng)目更適合ARM設(shè)備,那么選擇ARM,如果未來項(xiàng)目更側(cè)重于降低成本和尺寸,那么就選擇8051。
這到底意味著什么呢?
8位MCU仍然可以為嵌入式開發(fā)人員提供許多功能,并且越來越關(guān)注物聯(lián)網(wǎng)。當(dāng)開發(fā)人員開始設(shè)計(jì)時,重要的是確保從工具箱中獲得合適的工具。雖然我還是很樂意把8051出售給可能更適合選擇32位設(shè)備的客戶,但是我不禁想象,如果開發(fā)人員僅僅花費(fèi)1個小時思考就作出決定,那么他們的工作將會更加容易、最終的產(chǎn)品將會更好。
實(shí)際上的難題是,不能僅僅依賴于PowerPoint演示文稿中的一兩個要點(diǎn),就得出選擇MCU架構(gòu)的結(jié)論。然而,一旦你有正確的信息,并愿意花一點(diǎn)時間應(yīng)用它,就不難作出最佳選擇。
關(guān)于作者
Josh Norem是Silicon Labs微控制器和無線產(chǎn)品系統(tǒng)工程師。他于2006年加入Silicon Labs公司,任職產(chǎn)品和測試工程師,擔(dān)任過包括測試和應(yīng)用方面的多個技術(shù)職位,目前擔(dān)任系統(tǒng)工程師。在加入Silicon Labs公司之前,Josh就職于AMD公司,負(fù)責(zé)x86微處理器的系統(tǒng)級速度調(diào)試工作。此前,他就職于TI公司,負(fù)責(zé)DSP產(chǎn)品的開發(fā)和存儲測試。Josh擁有伊利諾斯大學(xué)(University of Illinois)Urbana-Champaign分校電氣工程科學(xué)學(xué)士學(xué)位。
收稿日期:(責(zé)任編輯:楊迪娜2016-03-31)