3G系統(tǒng)中Turbo譯碼改進(jìn)及DSP實(shí)現(xiàn)
2譯碼器實(shí)現(xiàn)的關(guān)鍵改進(jìn)與優(yōu)化
Turbo碼譯碼是一個(gè)復(fù)雜的過(guò)程,之所以這么說(shuō),除了算法本身復(fù)雜外,還有兩個(gè)主要的原因,一個(gè)是遞推計(jì)算過(guò)程中前、反向度量不斷增大給信號(hào)處理器帶來(lái)的麻煩,即經(jīng)常說(shuō)的溢出;另一個(gè)是大存儲(chǔ)量需求。這里,就這兩個(gè)細(xì)節(jié)問(wèn)題進(jìn)行討論和總結(jié),并且給出詳細(xì)解決方案。
2.1狀態(tài)量度歸一化問(wèn)題
由式(1),式(2)可注意到,隨著計(jì)算的不斷深入,狀態(tài)量度值不斷增加,為防止計(jì)算溢出和減小硬件復(fù)雜度,必須對(duì)其進(jìn)行歸一化處理。一種方法是減去前一時(shí)刻狀態(tài)度量的最小值,這種方法在每個(gè)時(shí)刻都需要減法器和用于計(jì)算最小值的比較器,當(dāng)狀態(tài)數(shù)較多時(shí),由此帶來(lái)的額外的時(shí)延和硬件消耗是不能忽略的。本算法采用一種十分有效的歸一化方法(以Ak(s)為例),在每個(gè)計(jì)算時(shí)刻,判斷有沒(méi)有狀態(tài)度量值(A或B)大于某一門(mén)限值T,若有則所有節(jié)點(diǎn)的狀態(tài)度量值(A或B)都減去T,若沒(méi)有則保持原值不變。這樣便大大減少了減法器使用的次數(shù),也無(wú)需計(jì)算最小值。由于所有的節(jié)點(diǎn)都減去了相同的值,因此式(5)的結(jié)果不會(huì)受到影響。T值不宜設(shè)置太大,但設(shè)置得太小,歸一化發(fā)生的很頻繁,會(huì)增加譯碼時(shí)延和硬件開(kāi)銷(xiāo)。通過(guò)試驗(yàn)仿真,若q代表狀態(tài)量度值的量化字長(zhǎng),則T設(shè)為2q-2為合適。
2.2 引入滑動(dòng)窗減小存儲(chǔ)量由于Turbo碼譯碼算法的迭代特性,每一級(jí)Map譯碼器需要大量存儲(chǔ)器。在譯碼時(shí)引入滑動(dòng)窗,能有效減少所需的存儲(chǔ)量。采用滑動(dòng)窗的Map譯碼步驟為:每次譯碼過(guò)程被分為若干段以間隔L(假設(shè)滑動(dòng)窗的長(zhǎng)度為L(zhǎng),L《N)連續(xù)進(jìn)行,只需在對(duì)nL長(zhǎng)的數(shù)據(jù)進(jìn)行前向處理后,每個(gè)反向子處理過(guò)程即可執(zhí)行,而未使用滑動(dòng)窗時(shí),需要對(duì)整個(gè)數(shù)據(jù)塊處理后才能進(jìn)行。實(shí)驗(yàn)證明,滑動(dòng)窗大小選擇7~8倍的約束長(zhǎng)度時(shí)對(duì)誤碼率的性能影響幾乎可以忽略。本算法中約束長(zhǎng)度為4,選擇窗口大小為32。下面給出采用滑動(dòng)窗譯碼前后兩種算法存儲(chǔ)空間分配情況的比較。假設(shè)編碼幀長(zhǎng)為L(zhǎng),B表示窗口長(zhǎng)度,L為B的整數(shù)倍。
按照表1,這個(gè)存儲(chǔ)空間為26L,當(dāng)L=1K時(shí),為26K。如果我們采用分塊譯碼,按照表2,那么整個(gè)譯碼的存儲(chǔ)需求為20B+8L,B一般取編碼約束長(zhǎng)度的5~10倍,對(duì)于8狀態(tài)編碼,取B=32,那么這個(gè)存儲(chǔ)空間為640+8L,與表1的26L相比要小的多。
當(dāng)L=1K時(shí),存儲(chǔ)空間只占原來(lái)的33.2%。當(dāng)編碼幀長(zhǎng)L的取更大值時(shí),存儲(chǔ)空間的節(jié)約更加可觀,比較得知采用滑動(dòng)窗后,Turbo譯碼能夠大大節(jié)省硬件的存儲(chǔ)資源。
3 Turbo譯碼的DSP實(shí)現(xiàn)
3.1 TMS320C6416簡(jiǎn)介
TM S320C6416是TI公司推出的功能強(qiáng)大的DSP產(chǎn)品,他采用先進(jìn)的VelociTI結(jié)構(gòu),將超長(zhǎng)指令字VLIW結(jié)構(gòu)和高并行性結(jié)合起來(lái),通過(guò)增加指令級(jí)的并行性使其性能有了較大的飛躍。C6416的最高工作時(shí)鐘達(dá)到1 GHz,指令周期僅為1 ns,最大處理能力可以達(dá)到9 000 MIPS,比TMS320C62系列芯片性能高出15倍之多,是當(dāng)前市場(chǎng)上最先進(jìn)的定點(diǎn)數(shù)字信號(hào)處理器。
片內(nèi)有8個(gè)可完全并行運(yùn)算的功能模塊(2個(gè)乘法器和6個(gè)算術(shù)邏輯單元),他們分為相同的兩組,屬于兩個(gè)數(shù)據(jù)通道,每個(gè)數(shù)據(jù)通道與一組32個(gè)32位寄存器相連,不同組的兩個(gè)功能模塊之間的數(shù)據(jù)交換是通過(guò)兩個(gè)寄存器組之間的交叉總線實(shí)現(xiàn)。典型片內(nèi)資源還包括1 MB的片內(nèi)RAM和一個(gè)32位的外部存儲(chǔ)器接口,可以支持多類型RAM,包括同步隨機(jī)訪問(wèn)存儲(chǔ)器(SDRAM)和同步突發(fā)靜態(tài)隨機(jī)存儲(chǔ)器SBSRAM等。 DMA控制器包括4個(gè)可編程通道和一個(gè)輔助通道,能夠在內(nèi)存、片內(nèi)輔助資源及外部器件之間以CPU的時(shí)鐘速率實(shí)現(xiàn)高速數(shù)據(jù)傳輸,這種傳輸發(fā)生在CPU運(yùn)行后臺(tái)。CPU和DMA控制器對(duì)數(shù)據(jù)存儲(chǔ)器的操作可以按8位字節(jié),16位半字或者32位字的長(zhǎng)度進(jìn)行。
3.2 用DSP實(shí)現(xiàn)Turbo譯碼器的優(yōu)化措施和技術(shù)
TMS320C6416的特殊結(jié)構(gòu)對(duì)編譯器和軟件設(shè)計(jì)結(jié)構(gòu)提出了很高的要求,軟件的設(shè)計(jì)與優(yōu)化將成為整個(gè)系統(tǒng)性能的決定因素,代碼的高度并行性將是獲得超強(qiáng)性能的關(guān)鍵。采用流水線技術(shù)和功能模塊多重化技術(shù)是開(kāi)發(fā)處理器的指令級(jí)并行性的兩個(gè)主要手段。C6416對(duì)指令獲取、指令分配、指令執(zhí)行、數(shù)據(jù)存儲(chǔ)等階段進(jìn)行了多級(jí)流水線的劃分,不同指令執(zhí)行的流水延遲也不相等,因此各種指令的安排要盡量不中斷指令流水執(zhí)行,同時(shí),使盡可能多的功能模塊并行運(yùn)行。
由于TMS320C6416芯片的結(jié)構(gòu)對(duì)于基于匯編語(yǔ)言的編程過(guò)于復(fù)雜,這里采用C語(yǔ)言編寫(xiě)主程序。Turbo譯碼采用并行算法,為提高程序執(zhí)行效率,充分利用Max-Log-Map譯碼算法的結(jié)構(gòu)特點(diǎn),對(duì)程序進(jìn)行寄存器級(jí)優(yōu)化:把Viusal C++實(shí)現(xiàn)的浮點(diǎn)算法改為定點(diǎn)算法,將前后向累積路徑度量計(jì)算的最內(nèi)層循環(huán)展開(kāi),合理分配寄存器,使指令中參與運(yùn)算的寄存器盡量屬于同一個(gè)數(shù)據(jù)通道,以減少交叉數(shù)據(jù)通道沖突,對(duì)于訪問(wèn)頻繁的變量,置成寄存器型。同時(shí)利用功能強(qiáng)大TMS320C6416的C語(yǔ)言編譯器和優(yōu)化器對(duì)程序進(jìn)行全程優(yōu)化,從而得到效率較高的代碼。
評(píng)論