數(shù)字信號處理器概論

作者：時間：2006-05-08 來源：網(wǎng)絡(luò)

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對面交流
  海量資料庫查詢

數(shù)字信號處理學(xué)科與數(shù)字信號處理器

　　數(shù)字信號處理（DSP）自1965年由Cooley和Tukey提出DFT（離散傅里葉變換）的高效快速算法（Fourier Transform，簡稱FFT）以來，已有近40年的歷史。隨著計算機和信息技術(shù)的發(fā)展，數(shù)字信號處理技術(shù)已形成一門獨立的學(xué)科系統(tǒng)。數(shù)字信號處理作為一門獨立學(xué)科是圍繞著三個方面迅速發(fā)展的：理論、現(xiàn)實和應(yīng)用。作為數(shù)字信號理論，一般是指利用經(jīng)典理論（如數(shù)字、信號與系統(tǒng)分析等）作為基礎(chǔ)而形成的獨特的信號處理理論，以及各種快速算法和各類濾波技術(shù)等基礎(chǔ)理論。由此在各個應(yīng)用領(lǐng)域如語音與圖象處理、信息的壓縮與編碼、信號的調(diào)制與調(diào)解、信道的辨識與均衡、各種智能控制與移動通訊等都延伸出各自的理論與技術(shù)，到目前可以說凡是用計算機來處理各類信號的場合都引用了數(shù)字信號處理的基本理論、概念和技術(shù)。

　　數(shù)字化技術(shù)有今天的飛速發(fā)展，是依仗于強大的軟、硬件環(huán)境支撐。作為數(shù)字信號處理的一個實際任務(wù)就是要求能夠快速、高效、實時完成處理任務(wù)，這就要通過通用或?qū)Ｓ玫臄?shù)字信號處理器來完成。因此，數(shù)字信號處理器是用來完成數(shù)字信號處理任務(wù)的一個軟、硬件環(huán)境和硬件平臺。

　　DSP算法及芯片分類

　　DSP運算的基本類型是乘法和累加(MAC)運算，對于卷積、相關(guān)、濾波和FFT基本上都是這一類運算。這樣的運算可以用通用機來完成，但受到其成本和結(jié)構(gòu)的限制不可能有很高的實時處理能力。

　　DSP運算的特點是尋址操作。數(shù)據(jù)尋址范圍大，結(jié)構(gòu)復(fù)雜但很有規(guī)律。例如FFT運算，它的蝶形運算相關(guān)節(jié)點從相鄰兩點直至跨越N/2間隔的地址范圍，每次變更都很有規(guī)律，級間按一定規(guī)律排列，雖然要運算log2N遍，但每級的地址都可以預(yù)測，也就是尋址操作很有規(guī)律而且可以預(yù)測。這就不同于一般的通用機，在通用機中對數(shù)據(jù)庫的操作，具有很大的隨機性，這種隨機尋址方式不是信號處理器的強項。

　　可以看出無論是專用的DSP芯片或通用DSP芯片在結(jié)構(gòu)考慮上都能適應(yīng)DSP運算的這些特點。而專用芯片在結(jié)構(gòu)上考慮的更加專業(yè)化，更為合理，因而有更高的運算速度。

　　DSP芯片按用途或構(gòu)成分類可以分為下列幾種類型：為不同算法而專門設(shè)計的專用芯片：例如用于做卷積/相關(guān)并具有橫向濾波器結(jié)構(gòu)： INMOS公司的A100、A110；HARRIS公司的HPS43168； PLESSY GEC 公司的PDSP16256等。用于做FFT： Austek公司的A41102， PLESSY GEC 公司的PDSP16150等。這些都是為做FIR、IIR、FFT運算而設(shè)計的，因而運算速度高，但是具有有限的可編程能力，靈活性差。

　　為某種目的應(yīng)用的專門設(shè)計系統(tǒng)，即ASIC系統(tǒng)。它只涉及一種或一種以上自然類型數(shù)據(jù)的處理，例如音頻、視頻、語音的壓縮和解壓，調(diào)制/解調(diào)器等。其內(nèi)部都是由基本DSP運算單元構(gòu)建，包括FIR、IIR、FFT、DCT，以及卷積碼的編/解碼器及RS編/解碼器等。其特點是計算復(fù)雜而且密集，數(shù)據(jù)量、運算量都很大。

　　積木式結(jié)構(gòu)：它是由乘法器、存儲器、控制電路等單元邏輯電路搭接而成，這種結(jié)構(gòu)方式也稱為硬連線邏輯電路。它是一種早期實現(xiàn)方法，具有成本低、速度高等特點，由于是硬連接因而沒有可編程能力。目前主要用于接收機的前端某些高頻操作中。

　　用FPGA（現(xiàn)場可編程陳列）實現(xiàn)DSP的各種功能。實質(zhì)上這也是一種硬連接邏輯電路，但由于有現(xiàn)場可編程能力，允許根據(jù)需要迅速重新組合基礎(chǔ)邏輯來滿足使用要求，因而更加靈活，而且比通用DSP芯片具有更高的速度。一些大的公司如 Xinlinx、Altera也正把FPGA產(chǎn)品擴展到DSP應(yīng)用中去。

　　通用可編程DSP芯片：這是目前用得最多的數(shù)字信號處理應(yīng)用器件，其特點本文將予以詳細討論。

　　片上系統(tǒng)Soc(System on Chip)，這是數(shù)字化應(yīng)用及微電子技術(shù)迅速發(fā)展的產(chǎn)物，是下一代基于DSP產(chǎn)品的主要發(fā)展方向之一。它把一種應(yīng)用系統(tǒng)集成在一個芯片上。通常，為滿足系統(tǒng)的性能要求和提高功率效率，會把DSP和MCU的多處理器處理平臺集成在一起。圖1 是由TI公司推出的開放多媒體應(yīng)用平臺（OMAP），用來支持2.5G和3G應(yīng)用而設(shè)計的處理器體系結(jié)構(gòu)，它支持語音、音頻、圖像和視頻信號處理應(yīng)用的各種性能。其中關(guān)鍵器件有：低功耗的DSP芯片，用來做媒體處理；MCU用來支持應(yīng)用操作系統(tǒng)及以控制為核心的應(yīng)用處理；MTC是內(nèi)存和流量控制器，確保處理器能高效訪問外部存儲區(qū)，避免產(chǎn)生瓶頸現(xiàn)象，提高整個平臺的處理速度。

　　DSP對MCU性能上的改進

　　對數(shù)字信號處理器可以確切的下這樣的定義：解決實時處理要求，適合DSP運算需求的單片可編程微處理器芯片。原理上說通用微機、單片機都可以用來做信號處理的硬件平臺，但作為DSP實時處理要求必須滿足大數(shù)據(jù)量、復(fù)雜計算、實時性強的各種運算，因而DSP芯片針對DSP算法特點做了以下幾方面的改進：

　　運算能力上的擴充

　　采用專用的硬件乘法器，有足夠的字長，乘法結(jié)果保留全部數(shù)值，用雙字長乘法存儲器，同時可以用來做雙精度運算。

　　自動產(chǎn)生數(shù)據(jù)地址

　　通用處理器由ALU產(chǎn)生地址，在DSP中專門有地址產(chǎn)生單元，通過程序循環(huán)，自動產(chǎn)生數(shù)據(jù)地址，這一單元本身也是一個微處理器，可以通過編程產(chǎn)生復(fù)雜的非順序地址（例如FFT中的倒位序地址產(chǎn)生）。

　　指令時序的產(chǎn)生不對其他運算單元造成額外開銷

　　指令時序是可編程的，在遇到執(zhí)行程序轉(zhuǎn)移和循環(huán)時，不會額外增加開銷。

　　簡單比例定標(biāo)運算得到寬的動態(tài)范圍

　　一般DSP芯片中都有桶形移位器，可以在一定范圍內(nèi)調(diào)整數(shù)據(jù)輸出寬度，特別是在做浮點和塊浮點運算時，免去主處理器作多次移位和旋轉(zhuǎn)操作。

　　DSP處理器特點

　　DSP處理器的著眼點是要求速度快、處理的數(shù)據(jù)量大、效率高。但是單純提高時鐘速度受到工藝等各種因素的限制，一般是緩慢的，所以必須從結(jié)構(gòu)上著手。某些概念其實在二十世紀(jì)40年代已經(jīng)出現(xiàn)：其一是改造處理器的處理方法，用多總線、多存儲器體系結(jié)構(gòu)；其二是提高程序和數(shù)據(jù)流的速度，采用流水線，并行處理等方法。盡管不同廠商采用不同的技術(shù)和措施，但在這些方面都有共同點。以下就DSP芯片一些特點來作說明。

　　采用哈佛（Harvard）結(jié)構(gòu)和改進的哈佛結(jié)構(gòu)

　　通用機采用馮·諾依曼（Von Neumenn）結(jié)構(gòu)，這主要考慮到成本，其結(jié)構(gòu)如圖 2 所示。把指令、數(shù)據(jù)、地址的傳送采用同一條總線，靠指令計數(shù)來區(qū)分三者。由于取指和存取數(shù)據(jù)是在同一存取空間通過同一總線傳輸，因而指令的執(zhí)行只能是順序的，不可能重疊進行，所以無法提高運算速度。

　　DSP處理器幾乎毫無例外的采用哈佛結(jié)構(gòu)，如圖3所示。哈佛結(jié)構(gòu)把程序代碼和數(shù)據(jù)的存儲空間分開，并有各自的地址和數(shù)據(jù)總線，每個存儲器獨立編址，用獨立的一組程序總線和數(shù)據(jù)總線進行訪問。

　　如果程序代碼存儲空間與數(shù)據(jù)存儲空間之間還可以進行數(shù)據(jù)交換，則稱為改進的哈佛結(jié)構(gòu)。這種結(jié)構(gòu)可以并行進行數(shù)據(jù)操作。例如在做數(shù)字濾波時把系數(shù)放在程序空間，待處理的樣本數(shù)據(jù)放在數(shù)據(jù)空間，處理時可以同時提取濾波器系數(shù)和樣本進行乘法和累加操作，從而大大提高運算速度。改進哈佛結(jié)構(gòu)還可以從程序存儲區(qū)來初始化數(shù)據(jù)存儲區(qū)，或把數(shù)據(jù)存儲區(qū)的內(nèi)容轉(zhuǎn)移到程序存儲區(qū)，這樣可以復(fù)用存儲器，降低成本，提高存儲器使用效率。

　　多總線結(jié)構(gòu)

　　例如TMS320C54X結(jié)構(gòu)中有一組程序總線（PB PAB），兩組讀數(shù)據(jù)總線（CB CAB）、（DB DAB），和一組寫數(shù)據(jù)總線（EB EAB），這樣可以同時讀取兩組數(shù)據(jù)和存儲一組數(shù)據(jù)，即同一時鐘周期內(nèi)可以執(zhí)行一條3個操作的指令。這種附加總線和擴充地址增加數(shù)據(jù)流量，提高尋址能力。

　　采用流水線操作

　　計算機在執(zhí)行一條指令時，要通過取指、譯碼、取數(shù)、執(zhí)行等各階段。由于DSP哈佛結(jié)構(gòu)指令的各個階段可以重疊進行，這樣對每一條指令似乎都是在一個周期內(nèi)完成，可以把指令周期減到最小，增加數(shù)據(jù)吞吐量。

　　這種流水線操作也不是十全十美的，其主要原因是，一項處理很難被分解成若干個處理規(guī)模一致、在時間上有最佳配合的流水段，因而需要用寄存器協(xié)調(diào)流水線工作。

　　流水線操作適用于循環(huán)操作時間足夠長或多個數(shù)據(jù)點反復(fù)執(zhí)行同一指令的情況。這是由于，流水線啟動和停止的階段是流水線逐步被填滿和出空的過程。對于一次性非重復(fù)計算，流水線不可能達到穩(wěn)態(tài)，反而用主要時間做填滿和出空操作，因而是不合適的。

　　硬件乘法器和高效的MAC指令

　　在DSP算法中，乘法累加操作是大量的運算。因而DSP芯片都有硬件乘法器，使得乘法運算做到一個周期內(nèi)完成。與之配合的指令為MAC-乘法累加指令，其功能如圖 4 所示，它可以在單周期內(nèi)取兩個操作數(shù)相乘，并將結(jié)果加載到累加器。有的DSP還具有多組MAC結(jié)構(gòu)，可以并行處理。

　　獨立的傳輸總線及其控制器

　　處理器高速處理速度必須與高速的數(shù)據(jù)訪問和傳輸相配合。而且為不影響CPU及其相關(guān)總線的工作，DSP的DMA單獨設(shè)置了傳輸總線及其控制器，因此DMA可以獨立工作。

　　為了提高DSP的實時處理能力，有時把多個DSP組成DSP處理器陣列，并行工作，此時DMA成為各處理器之間進行數(shù)據(jù)傳輸?shù)闹饕ǖ馈?/P>

　　專用的數(shù)據(jù)地址發(fā)生器（DAG）

　　在DSP運算中，存儲器的訪問具有可預(yù)測性。例如在FIR濾波中，樣本、系數(shù)都是順序訪問的，因此在DSP芯片中專門設(shè)置數(shù)據(jù)地址發(fā)生器。其實它也是一個ALU單元，具有簡單的運算能力。在通用機的CPU中，數(shù)據(jù)地址和數(shù)據(jù)處理都由同一ALU完成。例如在8086中，做一次加法需要三個周期，而計算一次地址需要5~6 周期，這樣會耗費大量的時間。在DSP芯片中就不需要這樣的額外開銷。另外在DSP芯片的數(shù)據(jù)地址產(chǎn)生中還支持間接尋址、循環(huán)尋址、倒位尋址等特殊操作，以適應(yīng)DSP運算的各種尋址需求。

　　豐富的外設(shè)（Peripherals）

　　DSP處理器往往是脫機獨立工作，因此為與外設(shè)接口方便，往往設(shè)置了豐富的周邊接口電路。一般包含下列幾種主要外設(shè)：

　　時鐘產(chǎn)生器(振蕩器與鎖相環(huán)PLL)；

　　定時器（Timer）；

　　軟件可編程等待狀態(tài)發(fā)生器，以便使較快的片內(nèi)設(shè)施與較慢的片外電路及存儲器協(xié)調(diào)工作；

　　通用的I/O口；

　　多通道同步緩沖串口（McBSP）和異步串口；

　　主機接口（HIP）

　　JTAG邊界掃描邏輯電路（IEEE 標(biāo)準(zhǔn)1149. 1），便于對DSP處理器做片上在線仿真和多處理器情況下的調(diào)試。

　　具有片內(nèi)存儲器

　　DSP芯片片內(nèi)一般帶有存放程序的只讀存儲器ROM和存放數(shù)據(jù)的隨機存儲器RAM，符合DSP運算簡單、核心程序短小的特征，同時可以提高指令傳輸效率，減小總線接口壓力。并且它不存在與外部總線競爭和訪問外部存儲器速度不匹配的問題，這樣使DSP處理器具有強大的數(shù)據(jù)處理能力。

　　與結(jié)構(gòu)相配合的采用RISC指令集

　　一般DSP處理器具有高度專門化、復(fù)雜且不規(guī)則的指令集，這樣單個指令字可以同時控制片內(nèi)多個功能單元操作。DSP處理器指令集在設(shè)計時有兩個特點：其一是最大限度的使用了處理器的硬件資源，因此往往是在單個指令中并行完成若干操作。例如在完成主要算術(shù)運算的同時，并行地從存儲器提取一個或兩個數(shù)據(jù)以及完成地址指針的更新。其次是指令所使用的存儲空間減到最小，為縮短指令字長，往往用狀態(tài)寄存器的模式來控制處理器的操作特性，例如舍入或飽和的處理，而不再將這些信息作為指令的一部分來處理。

　　由于傳統(tǒng)DSP芯片指令集的高度專門化及多功能操作使它難以用高級語言編譯，所以一般C編譯效率不高。另外C語言也不適合用來描述這種多存儲空間、多組總線、高度專門化結(jié)構(gòu)的硬件系統(tǒng)，這些都是導(dǎo)致用C編譯傳統(tǒng)DSP處理器效率不高的原因。

　　綜上所述DSP處理器實現(xiàn)高速運算的主要途徑可以概括為：具有硬件乘法器及乘-加單元；高效的存儲器訪問；零開銷循環(huán)；專門的適應(yīng)硬件結(jié)構(gòu)的指令集；多執(zhí)行單元；數(shù)據(jù)流的線性I/O口。

　　DSP處理器性能指標(biāo)

　　對DSP處理器缺乏一種諸如對PC機那樣公正合理的性能評價體系，這是由于各DSP廠商推出的產(chǎn)品在結(jié)構(gòu)和數(shù)據(jù)傳輸能力上有很大的差異，它是專門為某種目的而設(shè)計的，因而正確評價只有與特定的應(yīng)用聯(lián)系起來，評價結(jié)果才有意義。這里將常用的指標(biāo)評價方法做一介紹。

　　傳統(tǒng)評價方法，這是最簡單的評價指標(biāo)：

　　MIPS(Millions of Instructions Per Second)，一般DSP為20~100MIPS，使用超長指令字的TMS320B2XX為2400MIPS。

　　MOPS(Millions of Operations Per Second)，每秒執(zhí)行百萬操作。這個指標(biāo)的問題是什么是一次操作。通常操作包括CPU操作外，還包括地址計算、DMA訪問數(shù)據(jù)傳輸、I/O操作等。一般說MOPS越高意味著乘積-累加和運算速度越快。

　　MFLOaPS（Million Floating Point Operations Per Second），這是衡量浮點DSP芯片的重要指標(biāo)。例如TMS320C31在主頻為40MHZ時，處理能力為40MFLOPS，TMS320C6701在指令周期為6ns時，單精度運算可達1GFLOPS。

　　MBPS(Million Bit Per Second)，它是對總線和I/O口數(shù)據(jù)吞吐率的度量，也就是某個總線或I/O的帶寬。例如對TMS320C6XXX、200MHZ時鐘、32bit總線時，總線數(shù)據(jù)吞吐率則為800Mbyte/s或6400MBPS。

　　MACS（Multiply-Accumulates Per Second），例如TMS320C6XXX乘加速度達300MMACS~600MMACS。

　　以上傳統(tǒng)指標(biāo)雖然可以作為設(shè)計時可選的參考指標(biāo)，但是有很大的局限性。例如它沒有考慮存儲器的使用和器件的功耗，一旦器件與外部速度較慢的存儲器進行數(shù)據(jù)交換時，運行速度馬上就會被降低。

　　另一評價指標(biāo)是核心算法評價指標(biāo)。它是利用構(gòu)成大多數(shù)DSP系統(tǒng)的基本運算模塊，例如FIR、IIR、FFT、向量加等典型運算。規(guī)定大小適度、統(tǒng)一輸入、輸出要求，在保證功能一致性的條件下，也允許程序員針對所使用的處理進行代碼的優(yōu)化，評價指標(biāo)是執(zhí)行時間、存儲器的使用和能耗等。

　　表1是對一些處理器評價的結(jié)果，其中DSP53611和MSC8101是MOTOROLA產(chǎn)品，TMS320C54166203是TI公司產(chǎn)品。TMS320C6701和Pentium Ⅲ屬于浮點運算。

　　這種評價方法很容易用軟件仿真或基于硬件應(yīng)用的開發(fā)工具來決定執(zhí)行的周期數(shù)。

　　從上列執(zhí)行時間可以看出處理器結(jié)構(gòu)對其性能的影響。例如TMS320C6203，時鐘300MHZ，由于采用超長指令字結(jié)構(gòu)、每個指令周期內(nèi)處理8條指令，因此等效為2400MIPS，與TMS320C5416相比MIPS之比為15：1。但執(zhí)行同樣的256點復(fù)數(shù)FFT所需時間之比為7.8：1，因此兩者用MIPS作為比較指標(biāo)就有差距。其原因是C6203指令比C5416簡單，因而完成同樣任務(wù)需要更多的指令，另外也由于數(shù)據(jù)的獨立和流水作業(yè)的影響等因素，C6203的并行性不能同時得到最佳的發(fā)揮。并且，這種核心算法評估指標(biāo)并沒有反映出計算精度，提高計算精度意味著字長的增加或采用浮點運算，相應(yīng)的存儲器容量增加，這些情況都沒有能在指標(biāo)中反映。

　　DSP處理器還有其他評估指標(biāo)，各類評估指標(biāo)之間都有其自身的不足，因而正確的選用器件要根據(jù)任務(wù)需要量身定做，不可一味追求某項高指標(biāo)，要根據(jù)性能價格比合理選用器件。

新聞中心

數(shù)字信號處理器概論

評論

相關(guān)推薦

技術(shù)專區(qū)