首页 TI公司三大系列DSP内部结构之比较

TI公司三大系列DSP内部结构之比较

TI公司三大系列DSP内部结构之比较TI公司三大系列DSP内部结构之比较 TI公司三大DSP系列产品的内部结构之比摘要：可编程DSP芯片是一种具有特殊结构的微处理器，为了达到快速进行数字信号处理的目的，DSP芯片一般都具有程序和数据分开的总线结构、流水线操作功能、单周期完成乘法的硬件乘法器以及一套适合数字信号处理的指令集。本文将首先介绍DSP芯片的基本结构，然后介绍TI公司的三大DSP系列芯片, TMS320C2000、TMS320C5000、TMS320C6000的内部结构特征。关键字：DSP TMS320C2000 TMS320C5000 T...

TI公司三大系列DSP内部结构之比较 TI公司三大DSP系列产品的内部结构之比摘要：可编程DSP芯片是一种具有特殊结构的微处理器，为了达到快速进行数字信号处理的目的，DSP芯片一般都具有程序和数据分开的总线结构、流水线操作功能、单周期完成乘法的硬件乘法器以及一套适合数字信号处理的指令集。本文将首先介绍DSP芯片的基本结构，然后介绍TI公司的三大DSP系列芯片, TMS320C2000、TMS320C5000、TMS320C6000的内部结构特征。关键字：DSP TMS320C2000 TMS320C5000 TMS320C6000 内部结构 Abstract: Programmable DSP chip is a microprocessor with a special structure. Generally, DSP chips have a separate program and data bus structure, Pipelined function, Single cycle to complete the multiplication of the hardware multiplier, and a suitable digital signal processing instruction set, in order to achieve rapid digital signal processing. The article will frist introduce the basic structure of DSP chips, and then describe the internal structure characteristics of TI’s three series of DSP chips -- TMS320C2000 TMS320C5000 TMS320C6000. Keyword: DSP TMS320C2000 TMS320C5000 TMS320C6000 Internal Structrue 1. DSP芯片的基本结构为了快速地实现数字信号处理运算，DSP芯片一般都采用特殊的软硬件结构。下面以TMS320系列为例介绍DSP芯片的基本结构。 TMS320系列DSP芯片的基本结构包括：（1）哈佛结构；（2）流水线操作；（3）专用的硬件乘法器；（4）特殊的DSP指令；（5）快速的指令周期。这些特点使得TMS320系列DSP芯片可以实现快速的DSP运算，并使大部分运算（例如乘法）能够在一个指令周期内完成。由于TMS320系列DSP芯片是软件可编程器件，因此具有通用微处理器具有的方便灵活的特点。下面分别介绍TMS320系列产品内部结构特点，同时阐述这些特点如何在TMS320系列DSP芯片中应用并使得芯片的功能得到加强的。 1.1 哈佛结构哈佛结构是不同于传统的冯·诺曼（Von Neuman）结构的并行体系结构，其主要特点是将程序和数据存储在不同的存储空间中，即程序存储器和数据存储器是两个相互独立的存储器，每个存储器独立编址，独立访问。与两个存储器相对应的是系统中设置了程序总线和数据总线两条总线，从而使数据的吞吐率提高了一倍。而冯·诺曼结构则是将指令、数据、地址存储在同一存储器中，统一编址，依靠指令计数器提供的地址来区分是指令、数据还是地址。取指令和取数据都访问同一存储器，数据吞吐率低。在哈佛结构中，由于程序和数据存储器在两个分开的空间中，因此取指和执行能完全重叠运行。为了进一步提高运行速度和灵活性，TMS320系列DSP芯片在基本哈佛结构的基础上作了改进，一是允许数据存放在程序存储器中，并被算术运算指令直接使用，增强了芯片的灵活性；二是指令存储在高速缓冲器（Cache）中，当执行此指令时，不需要再从存储器中读取指令，节约了一个指令周期的时间。如TMS320C30具有64个字的Cache。 1.2 流水线与哈佛结构相关，DSP芯片广泛采用流水线以减少指令执行时间，从而增强了处理器的处理能力。TMS320系列处理器的流水线深度从2~6级不等。第一代TMS320处理器采用二级流水线，第二代采用三级流水线，而第三代则采用四级流水线。也就是说，处理器可以并行处理2~6条指令，每条指令处于流水线上的不同阶段。图2.1所示为一个三级流水线操作的例子。在三级流水线操作中，取指、译码和执行操作可以独立地处理，这可使指令执行能完全重叠。在每个指令周期内，三个不同的指令处于激活状态，每个指令处于不同的阶段。例如，在第N个指令取指时，前一个指令即第N-1个指令正在译码，而第N-2个指令则正在执行。一般来说，流水线对用户是透明的。 1.3 专用的硬件乘法器在一般形式的FIR滤波器中，乘法是DSP的重要组成部分。对每个滤波器抽头，必须做一次乘法和一次加法。乘法速度越快，DSP处理器的性能就越高。在通用的微处理器中，乘法指令是由一系列加法来实现的，故需许多个指令周期来完成。相比而言，DSP芯片的特征就是有一个专用的硬件乘法器。在TMS320系列中，由于具有专用的硬件乘法器，乘法可在一个指令周期内完成。从最早的TMS32010实现FIR的每个抽头算法可以看出，滤波器每个抽头需要一条乘法指令MPY： LT ；装乘数到T寄存器；在存储器中移动数据以实现延迟；将乘法结果加到ACC中 DMOV MPY APAC 其他三条指令用来将乘数装入到乘法器电路（ LT），移动数据（DMOV）以及将乘法结果（存在乘积寄存器P中）加到ACC中（APAC）。因此，若采用256抽头的FIR滤波器，这四条指令必须重复执行256次，且256次乘法必须在一个抽样间隔内完成。在典型的通用微处理器中，每个抽头需要30 ~ 40个指令周期，而TMS32010只需4条指令。如果采用特殊的DSP指令或采用 TMS320C54X等新一代的DSP芯片，可进一步降低FIR抽头的计算时间。 1.4 特殊的DSP指令 DSP芯片的另一个特征是采用特殊的指令。2.2.3节中介绍的DMOV就是一个特殊的DSP指令，它完成数据移位功能。在数字信号处理中，延迟操作非常重要，这个延迟就是由DMOV来实现的。TMS32010中的另一个特殊指令是LTD，它在一个指令周期内完成LT、DMOV和APAC三条指令。LTD和MPY指令可以将FIR滤波器抽头计算从4条指令降为2条指令。在第二代处理器中，如TMS320C25，增加了2条更特殊的指令，即RPT和MACD指令，采用这2条特殊指令，可以进一步将每个抽头的运算指令数从2条降为1条： RPTK 255 ；重复执行下条指令256次；LT, DMOV, MPY 及 APAC MACD 1.5 快速的指令周期哈佛结构、流水线操作、专用的硬件乘法器、特殊的DSP指令再加上集成电路的优化设计，可使DSP芯片的指令周期在200ns 以下。TMS320系列处理器的指令周期已经从第一代的200ns降低至现在的20ns 以下。快速的指令周期使得DSP芯片能够实时实现许多DSP应用。 2. TI定点DSP芯片自1982年TI推出第一个定点DSP芯片TMS32010以来，TI的定点DSP芯片已经经历了TMS320C1X、TMS320C2X/C2XX、TMS320C5X 、TMS320C54X、TMS320C62X等几代产品，产品的性能价格比不断提高，应用越来越广泛。下面将详细介绍TI公司的TMSC2000、TMSC5000、TMSC6000系列产品的主要内部结构特征。 2.1 TMS320C2X 第二代TMS320 DSP芯片包括TMS32020、TMS320C25/E25、TMS320C26及TMS320C28。在这些芯片中，TMS32020是一个过渡的产品，其指令周期为200ns，与TMS32010相当，而其硬件结构则与TMS320C25一致。在第二代DSP芯片中，TMS320C25是一个典型的代表，其他芯片都是由TMS320C25派生出来的。其中TMS320E25将内部4K字的ROM改为EPROM；TMS320C26去掉了内部的4K字ROM，而将片内RAM增加到 1.5K字；TMS320C28则将内部ROM增加到8K字。由于TMS320C25的典型性，下面就讨论TMS320C25的基本特征和结构。 2.1.1 TMS320C25的基本特征 ? 指令周期： TMS320C25：100ns，TMS320C25-33：120ns，TMS320C25-50：80ns ? 片内掩膜ROM：4K 字 ? 片内RAM：544字，分B0、B1和B2三块 ? 程序和数据空间均为64K字 ? 具有8级硬件堆栈、8个辅助寄存器 ? 具有全静态双缓冲串行口，可与许多串行器件直接接口 ? 与低速片外存储器通信的等待状态插入 ? 采用HOLD操作的DMA ? FFT变换用的比特反转寻址 ? 扩展精度算术和自适应滤波支持 ? 从外部存储器全速执行的MAC/MACD指令 ? 具有在多处理器之间进行同步的能力，支持多处理器共享存储器 ? 1.8μm CMOS工艺，68脚PGA或PLCC封装寄存器组包含8个辅助寄存器（AR0~AR7），它们可用作数据存储器的间接寻址和暂存，从而增加芯片的灵活性和效率。这些寄存器既可用指令直接寻址，也可用3比特的辅助寄存器指针（ARP）间接寻址。辅助寄存器和ARP既可从数据存储器装数，也可装入立即数。寄存器的内容也可存入数据存储器中。辅助寄存器组与辅助寄存器算术单元（ARAU）相连接，用ARAU访问信息表无需CALU参与地址操作，这样可让CALU进行其他操作。 2．中央算术逻辑单元 CALU包含一个16位的定标移位器（Scaling），一个16×16位的并行乘法器，一个32位的累加器和一个32位的算术逻辑单元（ALU）。移位器根据指令要求提供0到16位的数据左移。累加器和乘法器输出端的移位器适合于数值的归一化、比特提取、扩展精度算术和溢出保护。典型的ALU指令实现包含以下三步： (1) 数据在数据总线上从RAM中获取； (2) 数据移交给完成算术运算的定标移位器和ALU； (3) 结果送回累加器。 32位累加器可分为2个16位以进行数据存储：SACH（高16位）和ACCL（低16位）。累加器有一个进位位可方便加法和减法的多精度运算。 3．硬件乘法器 TMS320C25具有一个16×16位的硬件乘法器，它能在一个指令周期内计算一个32位乘积。有两个寄存器与乘法器相关：①16位暂存寄存器TR，用于保存乘法器的一个操作数；②32位乘积寄存器PR，用于保存乘积。乘积寄存器的输出可左移1位或4位，这对于实现小数算术运算或调整小数乘积很有用。PR的输出也可右移6位，这样可连续执行128次乘/加而无溢出。无符号乘（MPYU）指令可方便扩展精度乘法。 4．I/O接口 I/O空间由16个输入口和16个输出口组成。这些口可提供全16位并行I/O接口。输入（IN）和输出（OUT）操作典型的是2个周期，但若用重复指令，可变成单周期指令。I/O器件映射到I/O地址空间，其方式与存储器映射方式相同。与不同速度的存储器或I/O器件接口采用READY线完成。 TMS320C25也支持外部程序/数据存储器的DMA，其他处理器通过置HOLD\ 为低后可完全控制TMS320C25的外部存储器，使C25将其地址、数据和控制线呈高阻状态。外部处理器和C25的通信可通过中断来完成。TMS320C25芯片提供两种DMA方式，一种是加上HOLD后停止执行；另一种是C25继续执行，但执行是在片内ROM和RAM中进行，这可大大提高性能。 2.1.3 TMS320C25的软件 TMS320C25的指令总共有133条，其中97条是单周期指令。在另外36条指令中，21条包括跳转、调用、返回等，这些指令需重新装入程序计数器，使执行流水线中断。另外7条指令是双字和长立即数指令。剩下的8条指令（IN，OUT，BLKD，BLKP，TBLR，TBLW，MAC，MACD）支持I/O操作、存储器之间的数据交换或提供处理器内部额外的并行操作，而且这8条指令与重复计数器配合使用时可成为单周期指令。这主要利用了处理器的并行机制，使得复杂的计算可用很少的几条指令来完成。由于大多数指令用单16位字编码，故可在一个周期内完成。存储器寻址方式有三种：直接寻址、间接寻址和立即数寻址。直接寻址和间接寻址都用来访问数据存储器，立即数寻址利用由程序计数器确定的存储器内容。使用直接寻址方式时，指令字的7位和9位数据存储器页指针（DP）构成16位的数据存储器地址。其中，每页长128字，共有512页，故可寻址64K的数据空间。间接寻址借助于8个辅助寄存器（AR0~AR7）。表2.2 列出了7种间接寻址方式。其中的比特反转寻址可大大提高 FFT运算的I/O效率。其中，OP表示某种运算，NARP表示新的ARP。表2.2 TMS320C25的寻址方式 2.2 TMS320C5X TMS320C5X是TI公司的第五代产品，是继TMS320C1X和TMS320C2X之后的第三代定点DSP处理器。它的核心中央处理器（CPU）以TMS320C25的核心CPU为基础，增强型结构大幅度地提高了整体性能。TMS320C5X工作速度是TMS320C25的2倍以上，对于TMS320C1X和TMS320C2X具有源代码向上兼容特性。这种兼容性保留了过去开发的软件，便于系统升级到更高性能的DSP系统。TMS320C5X系列有TMS320C50/C51/C52/C53等多种产品，它们的主要区别是片内RAM、ROM等资源的多少，如TMS320C50内部具有10K字RAM和2K字ROM，其中2K字ROM已经固化了引导程序；TMS320C51内部具有2K字RAM和8K字ROM；TMS320C52内部具有1K字RAM和4K字ROM，减少了一个串行口；TMS320C53内部则有4K字RAM和16K字ROM。芯片的其他性能则是完全相同的。下面以TMS320C50为例介绍TMS320C5X DSP 芯片。 2.2.1 TMS320C50的基本特征 TMS320C50的主要特点包括: ? 25/35/50ns的指令周期（20 ~ 40 MIPS） 224K×16位最大可寻址外部存储空间（64K程序、64K数据、64K I/O、32K全局） ? 算术逻辑单元（ALU），32位累加器（ACC）以及32位加法器的缓冲器（ACCB） ? 并行逻辑单元（PLU） ? 结果具有32位的16×16位并行乘法器 ? 单周期乘累加指令 ? 具有一个专用算术单元的8个辅助寄存器，可用于间接寻址 ? 8级硬件堆栈 0～16位数据左移和右移 ? 两个间接寻址的循环缓冲器，用于循环寻址 ? 程序代码的单指令重复和程序块重复 ? 全双工同步串行口，用于完成TMS320C5X与其他串行器件之间的直接通信 ? 时分多址访问（TDM ）串行口 ? 内部定时器，可用软件控制 ? 64K 并行I/O 口，其中16个有存储器映像 ? 可软件编程的等待状态发生器 ? 扩展保持操作，用于并发外部DMA ? 四级流水线操作，用于延迟跳转、调用、返回指令 ? 比特反转寻址方式，用于FFT运算 ? JTAG扫描仿真接口（IEEE 标准，P1149.1） 1．核心CPU TMS320C5X CPU的增强功能在提高性能和通用性的同时，保持了对TMS320C1X和TMS320C2X源代码的兼容性。硬件的改进包括：一个32位累加器缓冲器，附加定标能力，利用附加硬件功能的新指令。新的控制功能包括：独立的并行逻辑单元（PLU）和一组文本交换寄存器。数据管理方面的改进包括：采用新的块搬移指令和存储器映像寄存器指令。TMS320C50有28个存储器映像寄存器和16个存储器映像的I/O口。 2．片内ROM TMS320C50拥有2K×16位掩蔽ROM，内部固化了引导程序。该存储器把程序从外部ROM/EPROM、串行口或并行I/O口引导至运行速度较快的SRAM中。这块引导ROM可通过PMST状态寄存器中的MP/MC\ 位从程序存储空间去除。如果该ROM未选，则TMS320C50由片外存储器启动执行。 3．片内数据RAM TMS320C50具有1056字的片内RAM，这块RAM 可在每个机器周期内访问两次（双寻址RAM），只要两次访问不是“写”操作。这块存储空间主要用于存储数据，但是如果需要也可用于存储程序和数据。其配置有两种方式：所有的1056字都作为数据存储区，或者将其中的544字作为数据存储器，512字作为程序存储区。可通过状态寄存器ST1中的CNF位选择设置。 4．片内程序/数据RAM TMS320C50还具有9K字的片内RAM。这一存储区可以由软件设置映射到程序或数据存储空间。程序从片外存储器引导后，可装入到该存储区全速运行。 5．片内存储器安全 TMS320C50可以通过可屏蔽选择来保护片内存储器的内容。当相关比特置位时，外部无法访问片内存储空间。 6．有地址映射的软件等待状态发生器软件等待状态逻辑不需要任何外部硬件就可以实现TMS320C50与速度较慢的片外存储器和I/O设备接口。该电路系统拥有16个等待状态发生器，其中可由用户编程操作的有逻辑操作。PLU提供了高速控制器需要的位处理能力，并简化了控制和状态寄存器需要的置位、清零和测试操作。乘法器以单指令周期完成16×16位的乘法，结果为32位。乘法器由三部分组成，分别是乘法器阵列、PREG（乘积寄存器）、TREG0（临时寄存器）。16位的TREG0存储乘数，PREG保存32位的乘积结果。乘法器中的数值来自数据存储器，当使用MAC/MACD/MADS/MADD指令时来自程序存储器，或者来自乘立即数指令（MPY #）。片内快速乘法器对执行诸如卷积、相关和滤波等基本的DSP操作十分有效。 TMS320C50的定标移位器有一个16位的输入来自数据总线，32位的输出连接到ALU。定标移位器依照指令的编程使输入数据产生0到16位的左移。移位量取决于指令或移位计数寄存器（TREG1）中的定义值。输出的最低有效位（LSB）补零，最高有效位补0或符号扩展（取决于状态寄存器ST1的符号扩展模式位SXM）。附加的移位能力使处理器能执行数值定标、二进制位提取、符号扩展运算和溢出防止等功能。 8级硬件堆栈用于在中断及子程序调用时保存程序计数器的内容。中断发生时，重要寄存器（ACC、ACCB、ARCR、INDX、PMST、PREG、ST0、ST1和TREG）压入堆栈，中断返回时弹出，实现了无开销的中断文本切换 2.3.4 TMS320C2XX TMS320C2XX是继TMS320C2X和TMS320C5X之后出现的一种低价格、高性能定点DSP芯片，主要包括TMS320C20X、TMS320C24X两个子系列。TMS320C2XX系列DSP芯片具有如下特点： (1) 处理能力强。指令周期最短为25ns，运算能力达40MIPS； (2) 片内具有较大的闪烁存储器。TMS320C2XX是最早使用闪烁存储器的DSP芯片。闪烁存储器具有比ROM灵活、比RAM便宜的特点。TMS320F206和TMS320F207片内具有32K字的闪烁存储器和4.5K字的RAM。利用闪烁存储器存储程序，不仅降低了成本，减小了体积，同时系统升级也比较方便； (3) 功耗低。TMS320C2XX系列DSP芯片在5V工作时每个MIPS消耗1.9mA，在3.3V工作时每个MIPS消耗1.1mA。使用DSP核的省电模式可进一步降低功耗； (4) 资源配置灵活。现有10多种具有不同资源配置的芯片。表2.3是TMS320C2XX系列DSP芯片比较表。此外，TMS320C24X系列芯片为数字控制系统的应用做了优化设计。表2.3 TMS320C2XX系列芯片的资源配置 2.2.3 TMS320C54X TMS320C54X是为实现低功耗、高性能而专门设计的定点DSP芯片，其主要应用是无线通信系统等。该芯片的内部结构与TMS320C5X不同，因而指令系统与TMS320C5X和TMS320C2X等是互不兼容的。 TMS320C54X的主要特点包括： (1) 运算速度快。指令周期为25/20/15/12.5/10ns，运算能力为40/50/66/80/100 MIPS； (2) 优化的CPU结构。内部有1个40位的算术逻辑单元，2个40位的累加器，2个40位加法器，1个17×17的乘法器和1个40位的桶形移位器。有4条内部总线和2个地址产生器。此外，内部还集成了维特比加速器，用于提高维特比编译码的速度。先进的DSP结构可高效地实现无线通信系统中的各种功能，如用TMS320C54X实现全速率的GSM 需12.7 MIPS，实现半速率GSM 需26.2 MIPS，而实现全速率GSM 语音编码器仅需2.3 MIPS，实现IS-54/136 VSELP语音编码仅需12.8 MIPS； (3) 低功耗方式。TMS320C54X可以在3.3V或2.7V电压下工作，三个低功耗方式（IDLE1、IDLE2和IDLE3）可以节省DSP的功耗，TMS320C54X特别适合于无线移动设备。用TMS320C54X实现IS54/136 VSELP语音编码仅需31.1mW，实现GSM 语音编码器仅需5.6mW； (4) 智能外设。除了标准的串行口和时分复用（TDM）串行口外，TMS320C54X还提供了自动缓冲串行口BSP（auto-Buffered Serial Port）和与外部处理器通信的HPI（Host Port Interface）接口。BSP可提供2K字数据缓冲的读写能力，从而降低处理器的额外开销，指令周期为20ns时，BSP的最大数据吞吐量为50M bit/s，即使在IDLE方式下，BSP也可以全速工作。HPI可以与外部标准的微处理器直接接口。表2.4是TMS320C54X系列部分DSP芯片比较表。表2.4 TMS320C54X的资源配置 2.3 TMS320C62X 这是TI公司于1997年开发的一种新型定点DSP芯片。该芯片的内部结构与以前的DSP芯片不同，内部集成了多个功能单元，可同时执行8条指令，运算能力达1600MIPS。其主要特点有： (1) 运行速度快。指令周期为5ns，运算能力为1600MIPS； (2) 内部结构不同于一般DSP芯片。内部同时集成了2个乘法器和6个算术运算单元，且它们之间是高度正交的，使得在一个指令周期内最大能支持8条32bit的指令； (3) 指令集不同。为充分发挥其内部集成的各执行单元的独立运行能力，TI公司使用了VelociTT 超长指令字（VLIW）结构。它在一条指令中组合了几个执行单元，结合其独特的内部结构，可在一个时钟周期内并行执行几个指令； (4) 大容量的片内存储器和大范围的寻址能力。片内集成了512K字程序存储器和512K字数据存储器，并拥有32bit的外部存储器界面； (5) 智能外设。内部集成了 4个DMA接口，2个多通道缓存串口，2个32bit 计时器； (6) 低廉的使用成本。在一个无线基站的应用中，每片TMS320C62X能同时完成30路的语音编解码，每路成本为3美元，而以前的DSP系列最大只能完成5路，每路的成本为7美元。这种芯片适合于无线基站、无线PDA、组合Modem、GPS导航等需要大运算能力的应用场合。 3. 小结本文首先介绍了DSP芯片的基本结构，比较详细地介绍了TI公司的系列DSP芯片的基本特征。了解DSP芯片的结构和特征是采用DSP芯片设计DSP系统的基础。需要特别指出的是，2000系列主要偏重于工控领域，这个系列的DSP自身集成了丰富的I/O口，A/D采样接口及PWM输出接口，多为定点型芯片；5000和6000系列主要偏重于视频图像处理，基本都为浮点型的，性能强大，但自身集成的外设很少，一般需要扩展。由于DSP芯片的发展速度很快，用户在选用DSP芯片时，必须根据市场行情选用生产厂家主推的产品。如TI公司目前比较流行的定点DSP芯片是TMS320C2XX、TMS320C54X、TMS320C62X等，即使是同一系列的DSP芯片，如TMS320C54X，该系列中的某些芯片也已过时，因而建议不要使用。 [1] 马云鹏，DSP芯片设计现状与前瞻，电子质量，2003,1:89-90 [2]David Skolnick, Noam Loenie,DSP结构，电子产品世界，1998,6:41-43 [3]P. Lapley. DSP Processor Fundamentals, IEEE Press, New York, 1997. [4] 燕昊. 数字信号处理器（DSP）的发展及市场动向，电子与自动化. 1998,2:7-10 [5] 马琳，DSP的广泛应用及技术发展趋势. 电子与信息化. 1996,7:14-16 [6] 彭启琮，张诗雅，常冉.TI DSP集成开发环节（CCS）使用手册 . 清华大学出版社. 2005年12月 [7] 苏涛等.DSP实用技术.西安：西安电子科技大学出版社，2002 [8] 张雄伟等.DSP集成开发与应用实例. 北京：电子工业出版社，2002 [9] 刘益成. TMS320C54x DSP应用程序设计与开发. 北京：北京航空航天大学出版社，2002 [10] Code Composer Studio User’s Guide (Rev. B)(spru328b. pdf).Texas Instruments，28 Mar 2000 TI公司三大DSP系列产品的内部结构之比摘要：可编程DSP芯片是一种具有特殊结构的微处理器，为了达到快速进行数字信号处理的目的，DSP芯片一般都具有程序和数据分开的总线结构、流水线操作功能、单周期完成乘法的硬件乘法器以及一套适合数字信号处理的指令集。本文将首先介绍DSP芯片的基本结构，然后介绍TI公司的三大DSP系列芯片, TMS320C2000、TMS320C5000、TMS320C6000的内部结构特征。关键字：DSP TMS320C2000 TMS320C5000 TMS320C6000 内部结构 Abstract: Programmable DSP chip is a microprocessor with a special structure. Generally, DSP chips have a separate program and data bus structure, Pipelined function, Single cycle to complete the multiplication of the hardware multiplier, and a suitable digital signal processing instruction set, in order to achieve rapid digital signal processing. The article will frist introduce the basic structure of DSP chips, and then describe the internal structure characteristics of TI’s three series of DSP chips -- TMS320C2000 TMS320C5000 TMS320C6000. Keyword: DSP TMS320C2000 TMS320C5000 TMS320C6000 Internal Structrue 1. DSP芯片的基本结构为了快速地实现数字信号处理运算，DSP芯片一般都采用特殊的软硬件结构。下面以TMS320系列为例介绍DSP芯片的基本结构。 TMS320系列DSP芯片的基本结构包括：（1）哈佛结构；（2）流水线操作；（3）专用的硬件乘法器；（4）特殊的DSP指令；（5）快速的指令周期。这些特点使得TMS320系列DSP芯片可以实现快速的DSP运算，并使大部分运算（例如乘法）能够在一个指令周期内完成。由于TMS320系列DSP芯片是软件可编程器件，因此具有通用微处理器具有的方便灵活的特点。下面分别介绍TMS320系列产品内部结构特点，同时阐述这些特点如何在TMS320系列DSP芯片中应用并使得芯片的功能得到加强的。 1.1 哈佛结构哈佛结构是不同于传统的冯·诺曼（Von Neuman）结构的并行体系结构，其主要特点是将程序和数据存储在不同的存储空间中，即程序存储器和数据存储器是两个相互独立的存储器，每个存储器独立编址，独立访问。与两个存储器相对应的是系统中设置了程序总线和数据总线两条总线，从而使数据的吞吐率提高了一倍。而冯·诺曼结构则是将指令、数据、地址存储在同一存储器中，统一编址，依靠指令计数器提供的地址来区分是指令、数据还是地址。取指令和取数据都访问同一存储器，数据吞吐率低。在哈佛结构中，由于程序和数据存储器在两个分开的空间中，因此取指和执行能完全重叠运行。为了进一步提高运行速度和灵活性，TMS320系列DSP芯片在基本哈佛结构的基础上作了改进，一是允许数据存放在程序存储器中，并被算术运算指令直接使用，增强了芯片的灵活性；二是指令存储在高速缓冲器（Cache）中，当执行此指令时，不需要再从存储器中读取指令，节约了一个指令周期的时间。如TMS320C30具有64个字的Cache。 1.2 流水线与哈佛结构相关，DSP芯片广泛采用流水线以减少指令执行时间，从而增强了处理器的处理能力。TMS320系列处理器的流水线深度从2~6级不等。第一代TMS320处理器采用二级流水线，第二代采用三级流水线，而第三代则采用四级流水线。也就是说，处理器可以并行处理2~6条指令，每条指令处于流水线上的不同阶段。图2.1所示为一个三级流水线操作的例子。在三级流水线操作中，取指、译码和执行操作可以独立地处理，这可使指令执行能完全重叠。在每个指令周期内，三个不同的指令处于激活状态，每个指令处于不同的阶段。例如，在第N个指令取指时，前一个指令即第N-1个指令正在译码，而第N-2个指令则正在执行。一般来说，流水线对用户是透明的。 1.3 专用的硬件乘法器在一般形式的FIR滤波器中，乘法是DSP的重要组成部分。对每个滤波器抽头，必须做一次乘法和一次加法。乘法速度越快，DSP处理器的性能就越高。在通用的微处理器中，乘法指令是由一系列加法来实现的，故需许多个指令周期来完成。相比而言，DSP芯片的特征就是有一个专用的硬件乘法器。在TMS320系列中，由于具有专用的硬件乘法器，乘法可在一个指令周期内完成。从最早的TMS32010实现FIR的每个抽头算法可以看出，滤波器每个抽头需要一条乘法指令MPY： LT ；装乘数到T寄存器；在存储器中移动数据以实现延迟；将乘法结果加到ACC中 DMOV MPY APAC 其他三条指令用来将乘数装入到乘法器电路（ LT），移动数据（DMOV）以及将乘法结果（存在乘积寄存器P中）加到ACC中（APAC）。因此，若采用256抽头的FIR滤波器，这四条指令必须重复执行256次，且256次乘法必须在一个抽样间隔内完成。在典型的通用微处理器中，每个抽头需要30 ~ 40个指令周期，而TMS32010只需4条指令。如果采用特殊的DSP指令或采用 TMS320C54X等新一代的DSP芯片，可进一步降低FIR抽头的计算时间。 1.4 特殊的DSP指令 DSP芯片的另一个特征是采用特殊的指令。2.2.3节中介绍的DMOV就是一个特殊的DSP指令，它完成数据移位功能。在数字信号处理中，延迟操作非常重要，这个延迟就是由DMOV来实现的。TMS32010中的另一个特殊指令是LTD，它在一个指令周期内完成LT、DMOV和APAC三条指令。LTD和MPY指令可以将FIR滤波器抽头计算从4条指令降为2条指令。在第二代处理器中，如TMS320C25，增加了2条更特殊的指令，即RPT和MACD指令，采用这2条特殊指令，可以进一步将每个抽头的运算指令数从2条降为1条： RPTK 255 ；重复执行下条指令256次；LT, DMOV, MPY 及 APAC MACD 1.5 快速的指令周期哈佛结构、流水线操作、专用的硬件乘法器、特殊的DSP指令再加上集成电路的优化设计，可使DSP芯片的指令周期在200ns 以下。TMS320系列处理器的指令周期已经从第一代的200ns降低至现在的20ns 以下。快速的指令周期使得DSP芯片能够实时实现许多DSP应用。 2. TI定点DSP芯片自1982年TI推出第一个定点DSP芯片TMS32010以来，TI的定点DSP芯片已经经历了TMS320C1X、TMS320C2X/C2XX、TMS320C5X 、TMS320C54X、TMS320C62X等几代产品，产品的性能价格比不断提高，应用越来越广泛。下面将详细介绍TI公司的TMSC2000、TMSC5000、TMSC6000系列产品的主要内部结构特征。 2.1 TMS320C2X 第二代TMS320 DSP芯片包括TMS32020、TMS320C25/E25、TMS320C26及TMS320C28。在这些芯片中，TMS32020是一个过渡的产品，其指令周期为200ns，与TMS32010相当，而其硬件结构则与TMS320C25一致。在第二代DSP芯片中，TMS320C25是一个典型的代表，其他芯片都是由TMS320C25派生出来的。其中TMS320E25将内部4K字的ROM改为EPROM；TMS320C26去掉了内部的4K字ROM，而将片内RAM增加到 1.5K字；TMS320C28则将内部ROM增加到8K字。由于TMS320C25的典型性，下面就讨论TMS320C25的基本特征和结构。 2.1.1 TMS320C25的基本特征 ? 指令周期： TMS320C25：100ns，TMS320C25-33：120ns，TMS320C25-50：80ns ? 片内掩膜ROM：4K 字 ? 片内RAM：544字，分B0、B1和B2三块 ? 程序和数据空间均为64K字 ? 具有8级硬件堆栈、8个辅助寄存器 ? 具有全静态双缓冲串行口，可与许多串行器件直接接口 ? 与低速片外存储器通信的等待状态插入 ? 采用HOLD操作的DMA ? FFT变换用的比特反转寻址 ? 扩展精度算术和自适应滤波支持 ? 从外部存储器全速执行的MAC/MACD指令 ? 具有在多处理器之间进行同步的能力，支持多处理器共享存储器 ? 1.8μm CMOS工艺，68脚PGA或PLCC封装

                    本文档为【TI公司三大系列DSP内部结构之比较】，请使用软件OFFICE或WPS软件打开。作品中的文字与图均可以修改和编辑，
                    图片更改请在作品中右键图片并更换，文字修改请直接点击文字进行修改，也可以新增和删除文档中的内容。 
 该文档来自用户分享，如有侵权行为请发邮件ishare@vip.sina.com联系网站客服，我们会及时删除。

                    [版权声明] 本站所有资料为用户分享产生，若发现您的权利被侵害，请联系客服邮件isharekefu@iask.cn，我们尽快处理。

                    本作品所展示的图片、画像、字体、音乐的版权可能需版权方额外授权，请谨慎使用。

                    网站提供的党政主题相关内容(国旗、国徽、党徽..)目的在于配合国家政策宣传，仅限个人学习分享使用，禁止用于任何广告和商用目的。
                

下载需要：免费已有0 人下载

立即下载

TI公司三大系列DSP内部结构之比较

你可能还喜欢