DSP技術(shù)的最新動向
2004年5月A版
DSP力求最佳表現(xiàn)
DSP程序員孜孜以求的是程序功能發(fā)揮到極致、盡善盡美。然而談何容易?在很多情況下,DSP程序員就象是導(dǎo)演,而DSP則是影星——由DSP登臺表演,它需要程序員即導(dǎo)演技藝超群,并與演員同心協(xié)力。
DSP程序員“權(quán)力欲望”極盛(當(dāng)然只是個(gè)比喻),予取予求,無盡無休,但是,也象好萊塢大牌導(dǎo)演和明星們一樣,表現(xiàn)仍然難以盡如人意。
DSP架構(gòu)相對復(fù)雜,以致DSP很難給出最佳表現(xiàn)。要隨時(shí)隨地都做得最好,就需要付出很多時(shí)間和努力,因?yàn)橄嚓P(guān)代碼的兼容性最為重要。
正在前進(jìn)
要提升DSP功能,決不象聽起來那樣簡單,特別是當(dāng)代碼兼容性為第一優(yōu)先時(shí)。它基本上排除了任何的架構(gòu)改變,除非這些改變在軟件結(jié)構(gòu)上暢通無阻。
歷史上,提高性能最容易的捷徑是縮減電路體積。TI就是這樣研制了TMS320C6416,它是該公司以90nm工藝制造的第一款DSP。它以1GHz速度運(yùn)行,是TI的90nm路線圖的重要組成部分,該路線圖在2003年1月從無線數(shù)字基帶器件開始啟動,一直延續(xù)到2005年引入內(nèi)嵌 FRAM(鐵電 RAM)的計(jì)劃。
按照TI歐洲D(zhuǎn)SP產(chǎn)品組意見,在最新技術(shù)開發(fā)中,擁有自己的晶圓廠,正在成為越來越重要的先決條件。大多數(shù)集成器件制造商(IDM)整合資源以滿足90nm工藝的昂貴成本需求時(shí),用意也是如此。不過,TI是獨(dú)立經(jīng)營的少數(shù)ASIC供應(yīng)商之一,而其它就連IBM和LSI Logic等公司也只是結(jié)盟合作來分擔(dān)經(jīng)費(fèi)。
TI正努力成為保持芯片領(lǐng)先地位的主要半導(dǎo)體公司,為此而不惜血本。事實(shí)上,TI 投產(chǎn)90nm工藝已經(jīng)一年,至今仍在認(rèn)證,由此可見一斑。
當(dāng)前的工藝每月加工8400個(gè)晶圓,有1700個(gè)用于研發(fā),其中包括C6416 DSP 樣品。但該設(shè)備計(jì)劃在年底前達(dá)到預(yù)定產(chǎn)量。
再接再厲
最初的那些90nm DSP是用它們上一代的130nm“直接”縮減而來的,“直接”的意思是,不做涉及核心的結(jié)構(gòu)性改變,或者說,僅僅整合外圍,而沒有涉及到晶體管的結(jié)構(gòu)性改變。
按照TI的說法,所有事情都發(fā)生在130nm臨界點(diǎn)上。業(yè)界普遍認(rèn)為,從150到 130nm的進(jìn)步,比從130到90nm的進(jìn)步更富于挑戰(zhàn)性??s減體積的工藝相對簡單,它避開了很多不利因素,使TI得以致力于工藝優(yōu)化。
90nm工藝意味著,無法在這個(gè)層級上“直接”縮減。如前所述,這個(gè)縮減需要改變微觀架構(gòu),實(shí)際上在前一個(gè)130nm工藝臨界點(diǎn)上制作720MHz器件時(shí)也是如此。
集中在提升效能上的那些修改,有可能避免頻率較高時(shí)流水線的匱乏。
特別是TI給8個(gè)寬VLIW指令添加了替代字SIMD(單指令/多數(shù)據(jù))擴(kuò)展,以便更能壓縮代碼,并且更有效地利用流水線功能單元。
大體上,這意味著TI力求改善VLIW架構(gòu)的固有問題—從內(nèi)存中取出超長的字,而由于功能單元的適用性,其中只有一部分字才用得上。
只改善VLIW架構(gòu)還不能提高DSP在理論上的速度——假定所有VLIW都被用于每個(gè)取出行程,因而被時(shí)鐘速度確定——但它確實(shí)提高了實(shí)際速度——在每個(gè)VLIW行程中可用指令的實(shí)際數(shù)量。
其他特別要在1GHz運(yùn)行時(shí)處理的問題有,減少信號在芯片長度上通過的時(shí)間延遲,和優(yōu)化主要速度路徑與內(nèi)存流水線。
看看價(jià)錢
這種方式將最終確保更快地提高90nm系列的產(chǎn)量,而與1GHz DSP的關(guān)聯(lián)可能不是那樣明顯。例如,在這個(gè)器件上若不增加第一級或第二級高速緩存,片上內(nèi)存能支持 1GHz的功能嗎?
代碼兼容性問題不應(yīng)當(dāng)成為問題,但速度兼容性呢?
TI說,為720MHz部分寫的運(yùn)行的程序,可移植到1GHz器件而無需修改。但這僅僅是說不需要做功能性修改,考慮到更快的核心運(yùn)行速度所產(chǎn)生的效應(yīng),它是否完全不需要修改還尚待觀察。
不增加片上內(nèi)存,內(nèi)核似乎需要更頻繁地訪問內(nèi)存。TI主張,保持外存接口可以在比1GHz更高的速度上操作,將不會造成瓶頸。但是可能會掛斷接口。
TI聲稱,將來的器件可能會包括,通常在其他高速處理器上才能找到的雙重或四聯(lián)組數(shù)據(jù)比率的SRAM接口。
未來發(fā)布的 TI編程工具將能模擬1GHz運(yùn)作,有助于清除某些不實(shí)的臆測。
工藝縮減降低了硅材料的需求量,導(dǎo)致整體成本的下降,這已經(jīng)是不爭的事實(shí),C6416也確實(shí)如此。
1GHz/90nm器件帶來了價(jià)格優(yōu)勢,它們竟比720MHz/130nm器件還便宜。那些90nm 器件不是按速度(比 720MHz 快)定價(jià)——過去速度越快的產(chǎn)品越貴而不會越廉——售價(jià)大約只有720MHz/130nm部件的一半,顯示了真正的“直接”節(jié)省。
DSP性價(jià)比倍增
DSP市場在很大程度上由于手機(jī)需求而在2003年強(qiáng)烈反彈。2003年銷售收入勁增27%,高達(dá)62億美元,2004年增長率看來也不相上下。而數(shù)量增長率甚至還要更高——2003和2004年分別為55%和33%。并且,芯片廠商正在提供性價(jià)比更高的DSP產(chǎn)品。
大多數(shù)DSP產(chǎn)品非常廉價(jià),一般說來單價(jià)還不到6美元。也有性能很高的,如 TI的C6000系列或ADI的TigerSharc芯片,運(yùn)行速度高達(dá)10~100倍以上。這些高端產(chǎn)品在整個(gè)DSP市場只是一個(gè)很小的塔尖,大約才占1%。但是,它們是并行程度逐漸增加的高性能架構(gòu)。高端DSP針對語音和話音識別、視頻和圖像處理,也用于手機(jī)基站、高端彩色打印機(jī)、醫(yī)學(xué)成像和很多其他用途。雖然技術(shù)開發(fā)時(shí)定位于高端應(yīng)用,但也開始向大眾市場挺進(jìn)。
2004年,無線通信特別是手機(jī)將繼續(xù)是DSP市場推動力。手機(jī)市場份額高達(dá)DSP銷售的68%。從一開始,TI就雄踞DSP市場首位,看來它在今年仍將繼續(xù)領(lǐng)先,為DSP技術(shù)潮流定調(diào),但肯定還會有其他廠商緊追不舍。
手機(jī)和新功能的需求,為DSP廠商營造了更富于挑戰(zhàn)性的環(huán)境。2004年將會看到手機(jī)功能向3G技術(shù)、智能電話和PDA過渡。通過這些改進(jìn)過的新性能,手機(jī)廠商正翹首以待大額訂單,服務(wù)提供商也在坐等缽滿盤滿。
為提供這些功能,手機(jī)用的大多數(shù)DSP內(nèi)核還需要與ARM CPU內(nèi)核協(xié)同工作,這在數(shù)字基帶芯片組及其配套產(chǎn)品、應(yīng)用媒體處理器中可以見到。現(xiàn)在,數(shù)字基帶使用 ARM7內(nèi)核和DSP內(nèi)核處理通信。應(yīng)用媒體處理器為圖像處理和視頻等高級性能提供計(jì)算能力。該處理器通常以ARM9內(nèi)核和DSP內(nèi)核或一些DSP功能為特色。
TI以其OMAP方案極其有力地推動了市場,OMAP方案是該公司路線圖的點(diǎn)睛之筆。 OMAP整合了基帶處理器(TI 的 C55x 內(nèi)核)和應(yīng)用處理器(ARM925 內(nèi)核),連同很多的外圍。OMAP與TI的基帶芯片組結(jié)合在一起。
在基帶市場挑戰(zhàn)TI的是Qualcomm。在基帶和媒體處理領(lǐng)域,其他勁旅還包括:STM、Freescale(前Motorola半導(dǎo)體部)、Philips(Nexperia)和Intel。手持式產(chǎn)品市場也并非 ARM 獨(dú)霸天下。Renesas 已經(jīng)取得了 SH-RISC 的成功,還有幾個(gè)具備 DSP 功能的 SH 版本。另有兩個(gè)較小的廠商各自致力于其媒體處理器在成像和視頻功能方面的改進(jìn),這兩個(gè)廠商是NeoMagic和在2003年并購了MediaQ的 nVidia公司。
軟件可配置的高并行DSP陣列處理器,代表了在市場崛起的另一股新生力量。十余家小廠商正在展示各種新架構(gòu),這些架構(gòu)能提供以前超級計(jì)算機(jī)才具備的強(qiáng)大功能。這些廠商包括Cradle Technologies、QuickSilver、Morphos、PACT等。
區(qū)別一個(gè)單機(jī) DSP 將會逐漸變得困難,因?yàn)榧烧麄€(gè)系統(tǒng)于一塊芯片已是大勢所趨。它將仰賴芯片廠商如何選擇產(chǎn)品的類別歸屬。不過,無論名稱或工具如何,DSP在無線通信領(lǐng)域的重要性都與日俱增。
DSP更加多才多藝
DSP 技術(shù)在不斷提高,效益卓著,這在很大程度上歸功于半導(dǎo)體工藝的長足進(jìn)步,把更多的存儲器和各種計(jì)算資源集成在一塊芯片上,使處理器在每個(gè)時(shí)鐘周期內(nèi)勝任更多的工作。
雖然很多16位DSP內(nèi)核芯片仍在沿用Harvard風(fēng)格的基本架構(gòu),但絕大多數(shù)更高性能的解決方案采用更多并行的體系結(jié)構(gòu)——超長指令字(VLIW)方式或單指令/多數(shù)據(jù)(SIMD)方案。在極高端,一些公司已開始使用多指令/多數(shù)據(jù)(MIMD)架構(gòu),實(shí)現(xiàn)最高程度的并行計(jì)算,從而使功能最大化。
隨著并行計(jì)算愈演愈烈,編程并控制所有資源的挑戰(zhàn)已經(jīng)拉開了序幕。因此, 軟件工具和算法應(yīng)用程序庫將會扮演主角,促使系統(tǒng)能盡快投放市場。這些工具和程序庫的應(yīng)用是否得當(dāng),常常會成為某一DSP架構(gòu)運(yùn)行的成敗利鈍。
今天,普通MP3音樂播放器需要大約30 MIPS(每秒百萬條指令)的吞吐量,而更高級的音頻應(yīng)用程序,如,新的Windows Media Audio專業(yè)版軟件運(yùn)行,要求將近100 MIPS。數(shù)碼相機(jī)的圖像處理需要也隨著功能的增加而增加,把對DSP的需求提升到幾百M(fèi)IPS。但是,在提高DSP集成度的同時(shí)還要努力降低其成本。
最新一代的DSP芯片設(shè)計(jì), 包括ADI的Blackfin系列和TI的TMS320C6412和320 F2801系列,售價(jià)每片僅為5美元,卻提供幾百M(fèi)IPS的吞吐量。那些芯片和 Freescale StarCore芯片,是很多消費(fèi)者、信息遠(yuǎn)程傳送和工業(yè)應(yīng)用的新寵。它們將為消費(fèi)類音視頻市場提供100~300 MIPS的主流功能。
采用SIMD和MIMD方法的十余家公司的DSP并行架構(gòu)現(xiàn)已可用。某些架構(gòu)已被固定為計(jì)算單元的陣列。
1GHz DSP 芯片樣品
由TI在2004年第二季度發(fā)布?;?0nm工藝設(shè)計(jì)的處理器將代替TI前一批性能最高的720 MHz處理器。
新 DSP 內(nèi)核的原型
由CEVA Inc.發(fā)布,它組合了VLIW和SIMD架構(gòu)方法。其內(nèi)核的16位版本提供的功能,是該公司前一個(gè)高端處理器內(nèi)核Teak DSP的12倍。
低成本的浮點(diǎn) DSP
定位于信息遠(yuǎn)程傳送、音頻處理和流媒體應(yīng)用,將由ADI出品。該Sharc DSP芯片將會在300MHz內(nèi)核頻率操作,而且提供50億次操作/秒的吞吐量。
高度并行的第一批樣品
高度并行和配置計(jì)算架構(gòu)的第一批樣品,將由Freescale開發(fā),定于今年上半年發(fā)布。其陣列以Morpho Technology開發(fā)的核心計(jì)算單元為基礎(chǔ),并經(jīng)Freescale授權(quán)特許。
軟件庫和開發(fā)工具
將隨著 DSP 芯片日趨復(fù)雜,扮演越來越重要的角色。由于高度并行的新架構(gòu)的復(fù)雜性,設(shè)計(jì)人員需要更多的軟件支持,以節(jié)省編程時(shí)間,并盡快使系統(tǒng)投放市場。
DSP 內(nèi)核的功耗
將繼續(xù)下降,因?yàn)樵O(shè)計(jì)人員在給它添加功能的同時(shí),也在力求延長系統(tǒng)電池的使用壽命。例如,下一代手機(jī)正在添加拍照、多媒體播放和其他功能,這些功能都要求 DSP 有更強(qiáng)的處理能力和速度,而電池的尺寸和重量將不會增加甚至反而減少。因此,低功耗十分必要。
DSP 核心技術(shù)正在普及中提高
SoC已是設(shè)計(jì)的大勢所趨。工程師們把DSP內(nèi)核同標(biāo)準(zhǔn)的 RISC處理器內(nèi)核、大容量內(nèi)存以及以太網(wǎng)端口、PCI總線接口和串行I/O端口之類的系統(tǒng)接口整合。
控制和 DSP 功能
同基于閃存的程序存儲器以及帶有外圍接口功能的陣列一起,正在合并到單一內(nèi)核。TI將于今年4季度推出下一代控制器/DSP芯片的樣品TMS320F28xx系列。
超過 20 GFLOPS 的計(jì)算吞吐量
將會被一些最新的高并行陣列處理器實(shí)現(xiàn)。這些軟件可配置的處理器將展現(xiàn)出色的功能。但是,若把陣列結(jié)構(gòu)優(yōu)化成算法,軟件工具將會是關(guān)鍵。
期待 FPGA
來扮演象DSP加法器或協(xié)處理器一樣的角色。把FPGA(現(xiàn)場可編程門陣列)配置到乘法器陣列中的能力或其他功能,將使系統(tǒng)能迅速移動大型數(shù)據(jù)表,或?qū)崿F(xiàn)其它高并行的操作。只需載入新位流,利用FPGA的可配置性,就能實(shí)現(xiàn)功能性改變。
國產(chǎn)DSP與IP登場
繼去年初首個(gè)DSP“中國芯”—“漢芯一號”誕生之后,今年初“漢芯二號”24位、“漢芯三號”32位DSP芯片也雙雙亮相,標(biāo)志著我國DSP技術(shù)研究取得重大突破?!皾h芯”系列是由上海交通大學(xué)微電子學(xué)院研制成功的。
“漢芯二號”是具備0.18微米半導(dǎo)體工藝設(shè)計(jì)的24位高性能DSP的IP內(nèi)核,可執(zhí)行每秒1.5億次指令。而被我國列入“十五”國家863計(jì)劃重點(diǎn)項(xiàng)目的“漢芯三號”,運(yùn)算能力更加出色,每秒可處理指令6億次以上;平均低功耗指標(biāo)則低于預(yù)定標(biāo)準(zhǔn),已經(jīng)達(dá)到國際高端DSP設(shè)計(jì)水平。
從“漢芯一號”問世到“漢芯三號”誕生,在短短一年中,“漢芯一號”芯片已取得了150萬片的國際訂單;“漢芯二號”作為首顆以IP專利授權(quán)方式進(jìn)入國際市場的高端處理器芯片,已直接應(yīng)用于國際著名IC設(shè)計(jì)企業(yè)的系統(tǒng)集成芯片;“漢芯三號”則申請了6項(xiàng)專利,由于具有高速度、低功耗的特點(diǎn),可應(yīng)在數(shù)據(jù)通信、雷達(dá)系統(tǒng)、數(shù)碼產(chǎn)品、指紋識別系統(tǒng)、圖像識別以及網(wǎng)絡(luò)等諸多領(lǐng)域廣泛應(yīng)用,正開始尋找與國內(nèi)外大廠商合作的機(jī)會。
DSP 是消費(fèi)業(yè)的救星嗎?
每年伊始,消費(fèi)電子都會更加流行,它正推動著半導(dǎo)體業(yè)勇往直前。隨著消費(fèi)電子產(chǎn)品越來越專業(yè)化,可以期待,DSP的應(yīng)用將會進(jìn)一步增加。
在行業(yè)銷售中,消費(fèi)電子產(chǎn)品正在繼續(xù)強(qiáng)勁增長, TI預(yù)言,專業(yè)化的處理器—DSP將在當(dāng)前應(yīng)用率的基礎(chǔ)上繼續(xù)增長,當(dāng)前的應(yīng)用在每項(xiàng)上都超過上百種,支持用于消費(fèi)電子設(shè)備的 PC、通信和數(shù)碼相機(jī)。
TI把上世紀(jì)90年代后期和本世紀(jì)初稱為繼(基于晶體管的)主機(jī)時(shí)代、(基于 TTL 和邏輯電路的)微機(jī)時(shí)代和(基于微處理器的)PC時(shí)代之后的基于模擬技術(shù)與DSP技術(shù)的“互聯(lián)網(wǎng)時(shí)代”。
從對便攜式設(shè)備的低售價(jià)、低功耗需求,又被今天的消費(fèi)者引領(lǐng)到高性能需求。TI預(yù)言,高性能DSP芯片會被繼續(xù)開發(fā)。融合意味著,集多種專用功能于一體,例如,具有拍照、錄音和播放功能的手機(jī)現(xiàn)已司空見慣,而這在幾年前連做夢也想不到。
在數(shù)碼相機(jī)中,DSP用于成像、壓縮并儲存圖像,也用來接通其他處理器并管理用戶界面。它們還為圖像傳感器、背光和顯示的電源進(jìn)行管理。消費(fèi)者要求整個(gè)產(chǎn)品又小又輕、電池又長壽。例如,TI的DSP就用在Logitech袖珍錄像機(jī)和 Nokia N-Gage 中。
另一個(gè)在歐洲勝出的市場增長是數(shù)碼收音機(jī)。其中,DSP運(yùn)行軟件解調(diào)無線電頻率、提取數(shù)碼資料,并把這些資料編碼成音頻輸出。TI DSP供應(yīng)用于Roberts Gemini 3和Gemini 5的數(shù)碼收音機(jī)。TI對轎車用DAB(數(shù)字音頻廣播)收音機(jī)也很感興趣,它要求較短的設(shè)計(jì)周期,而手機(jī)中的DAB也是一個(gè)切實(shí)可行的方案。
消費(fèi)者需要什么?
DSP具有高性能的全部優(yōu)勢,但是價(jià)格昂貴。直到十年前,才用ASIC設(shè)計(jì)出高產(chǎn)量低成本的DSP解決方案。但正如TI所指出的,這些DSP都基于多重標(biāo)準(zhǔn),并且不得不改寫或轉(zhuǎn)換。也有成本高達(dá)幾百萬美元的ASIC掩膜,對于單個(gè)用戶和單端用途,成本很高??紤]到某些產(chǎn)品(如數(shù)碼相機(jī)和數(shù)碼投幣式自動唱機(jī))逐漸要求量身定制,ASIC的適用性也會成為問題。
一個(gè)替代辦法是使用可編程邏輯,它是試驗(yàn)設(shè)計(jì)理念的有效方法,但這會造成終端設(shè)計(jì)價(jià)格和功耗都將大為增加的后果。RISC 解決方案符合可編程性、功率和成本需求,但對于實(shí)時(shí)信號處理,TI相信,加上能夠提供標(biāo)準(zhǔn)產(chǎn)品的優(yōu)勢,DSP會給出最佳解決方案。
實(shí)時(shí)處理用于視頻錄像,例如,提供高分辨率、保持同步并避免畫面遺漏,以使播放錄像時(shí)動作連貫流暢。這些質(zhì)量標(biāo)準(zhǔn)也適用于音頻,CD質(zhì)量滿足消費(fèi)者的需求。
TI分析,DSP是融合技術(shù)的核心,無論是否包括視頻、ADC和DAC,融合都是必要的。例如,若沒有核心技術(shù),模擬接口電路就不能與頭戴式話筒會話。
功耗之戰(zhàn)
DSP廠商面臨的下一場戰(zhàn)役是降低DSP成本和功耗。這場戰(zhàn)役已經(jīng)打響,TI預(yù)言,在一年內(nèi),500 MHz版的C6412將從當(dāng)前標(biāo)價(jià)的40美元降到5~15美元。
TMS320C6412是C6000路線圖的最新產(chǎn)品。它從C5000 DSP平臺發(fā)展而來,后者用于便攜式錄像機(jī)、高清晰度音頻和壓縮音頻汽車頭戴耳機(jī)。新產(chǎn)品為高性能視頻錄像如HDTV和視頻電話,提供了軟件、支持和開發(fā)工具箱。
現(xiàn)在500和600MHz版本已有樣品。C64xx一般有32位寄存器和8個(gè)并行功能單元,可以計(jì)算每個(gè)時(shí)鐘周期內(nèi)4個(gè)16位MAC。TI宣稱,這個(gè)功能級別足以處理比競爭對手方案高8倍的同步遠(yuǎn)程通信頻道。
它包括由一個(gè)芯片上的EMAC(以太網(wǎng)媒體接入控制器)、PCI端口、HPI(主機(jī)端口接口)和288KB SRAM組成的外圍。
10/100Mb/s的EMAC節(jié)省了大量空間、系統(tǒng)成本和開發(fā)時(shí)間。和控制外圍或與任何 I2C 總線兼容設(shè)備的I2C模塊一樣,設(shè)計(jì)人員可以用這個(gè)DSP同內(nèi)部 66MHz PCI總線接口一起工作,或用于比較簡單的主機(jī)處理器連接性的16/32位 HPI。憑借這款芯片上的內(nèi)存容量,對于越來越高級的系統(tǒng)需求不應(yīng)當(dāng)造成I/O瓶頸?!?潘曉宇)(注:文中插圖由TI提供)
評論