DIY编程器网

标题: 嵌入式可重构的多DSP图像并行处理系统 [打印本页]

作者: liyf 时间: 2012-1-16 19:04
标题: 嵌入式可重构的多DSP图像并行处理系统

　　引言
　　随着多媒体图像处理应用的迅速发展，体积小、重量轻、结构灵活、处理能力强的嵌入式数字图像处理系统在工业、医学等方面都有越来越广泛的需求。实时性高、计算复杂、数据量大是图像处理系统面临的重大挑战。并行计算是提高处理速度最有效的技术之一，图像并行处理技术为提高图像处理效率提供了广阔的空间。图像并行处理包括并行算法和多处理器并行硬件系统，图像处理并行算法的执行效率依赖于多处理器系统的硬件结构。通常，一种并行结构只适合于一类并行算法的映射。
　　20世纪90年代至今，图像并行处理技术一直是图像处理领域研究的热点之一。参考文献分别对并行处理结构及其实现方法进行了探讨，提出了流水结构、分列并行等很有价值的硬件并行结构框架。目前，图像并行处理结构设计面临的主要问题可以概括为两个方面：
　　①图像并行处理硬件结构复杂，在实际应用中图像处理结构的开发周期长、成本高；
　　②面向图像处理算法的硬件结构针对性设计方法导致图像处理平台的可重用性差，调整、扩展和升级困难。
　　本文构建的可重构并行计算系统可以通过配置可重构处理单元来满足不同应用的计算要求。这样的系统使图像处理结构设计与图像处理的算法设计分离，具有很高的性能并且结构灵活，能大大提高图像处理并行算法的执行效率和加速比。
　　1 传统图像并行处理技术
　　1．1 图像并行处理系统概述
　　目前，用于嵌入式图像处理系统的高速器件主要是DSP和FPGA。处理核心的合理选用是影响并行系统处理能力的一个关键因素。
　　并行处理的目的是通过采用多个处理单元同时处理输入信息来缩短任务的执行时间。在任务和算法确定的情况下，Amdahl定律可表明：加速比与任务并行度和处理单元个数密切相关。在任务并行度一定的情况下，增加处理单元所获得的加速比有一个极限值，任务的并行度制约着并行处理机的性能。
　　在实际应用中，还必须考虑各个处理单元之间的数据交换和同步时间。由于比串行程序执行增加了数据通信和同步等待等开销，因此当加速比Sp 如图1所示，在增加处理单元和任务细粒度化的同时将带来总通信量的增加，影响了Sp的增加并导致Eff呈下降趋势。

　　两种并行计算体系结构的比较如表1所列。

　　导致并行算法与并行结构不匹配的原因主要有2个：一是欲把一个系统上开发的并行算法用于另一个系统上；二是由于问题内在的并行性，使并行算法与并行结构不匹配。
　　常用图像处理算法的特点及适用的并行处理结构分析如表2所列。

　　如图5所示，可重构处理系统的组成基本相同，即通用处理器(阵列)、可重构资源(阵列)、存储器(阵列)、公用存储器、系统接口等。面向图像处理的可重构系统在器件选用上通用处理器可采用适合图像处理的高性能DSP阵列。
　　2．2 可重构数字图像并行处理系统的优点
　　可重构数字图像并行处理系统有以下优点：
　　①FPGA内部的逻辑功能可以在系统运行过程中动态重载，使系统可以实现多DSP之间拓扑的灵活改变以适应各种并行算法的需求，使算法执行效率达到最高。静态重构和动态重构使系统相比传统固定系统具有很强的通用性和适应性。
　　②系统的“多DSP+FPGA”结构能将系统任务划分成适合FPGA处理的低层信号处理和图像预处理部分及适合DSP处理的算法，便于发挥两者的优势；且FPGA可通过软件适应不同时序格式的数字图像，使得系统具有很高的性能和灵活性。
　　3 系统设计实例
　　3．1 系统硬件结构
　　基于TI公司C6000系列DSP和Xilinx公司Spartan一3系列FPGA，构建基于图像的点源目标识别系统，对在线可重构数字图像并行处理系统的可实现性和性能进行验证。

　　处理过程包括图像时序采集、转换，图像滤波，去除噪声，姿态融合和目标识别等环节。图像分配和算法执行所需平均时间仅为9．5 ms。
　　若用共享总线系统来实现，则多路图像数据的存储和分配以及处理器之间的通信将消耗大量时间，大大降低系统效率。若用分布式并行系统来实现，则姿态和多路图像的综合处理会给某一个处理器带来很大的通信量和运算量。将实验中的图像处理任务在同等规模的3种系统上分别实现，执行时间如图8所示。

　　结语
　　传统固定结构并行图像处理系统不能适应多种图像处理并行算法。而可重构数字图像并行处理系统数据流和结构组织灵活，适于模块化设计，能大大提高并行算法的执行效率；有较强的通用性，同时其开发周期较短，易于维护和扩展。可重构数字图像并行处理系统为多媒体图像处理提供了一个非常有价值的发展方向。

欢迎光临 DIY编程器网 (http://diybcq.com/)