DIY编程器网

 找回密码
 注册

QQ登录

只需一步,快速开始

扫一扫,访问微社区

查看: 210|回复: 0
打印 上一主题 下一主题

MPEG-4实时编码器在ADSP-BF533上的实现

[复制链接]
跳转到指定楼层
楼主
发表于 2012-1-16 14:25:39 | 只看该作者 回帖奖励 |倒序浏览 |阅读模式
引言
  MPEG-4视频编码技术可以在较小的带宽下传输高质量的视频数据,节省大量存储空间,但编码复杂度也较高,目前丰要有3种实现方案:在通用PC上编程实现;通过ASIC硬件实现以及使用通用DSP芯片实现。与前两者相比,通用DSP芯片实现方案具有以下优势:运算性能强;可升级性好,与PC类似,通用DSP芯片的功能仍是通过编程来实现的,能快速、方便地进行软件升级及添加新的功能,以适应技术发展和市场变化;成本低、功耗低、适应场合广泛。
系统硬件设计
  编码系统处理核心为ADSP-bF533(以下简称bF533),利用其多功能并行接口PPI采集视频数据,该PPI具有DMA功能,无需内核干预便可进行高速数据传输,传输完成后可自动向内核发出DMA中断。
  视频采集部分选用0mniVision公司的CIF级彩色CMOS图像传感芯片OV6630,其最大分辨率为352×288,采集速率最高可达60fps,且片内硬件实现了原始RGb数据到4:2:2YUV格式数据的转换,用户无需自行编写复杂的RGb转YUV应用程序,大大减少了代码量,很适合用作MPEG-4编码。
  设置OV6630

输出为4:2:2 YUV视频数据格式,bF533的PPI即可直接接收该格式视频数据。二者可实现无缝连接,无需中间电路。
  考虑到目前还有大量模拟制式的摄像机仍在广泛应用,系统中还增加了视频ADC ADV7183,该芯片可以把PAL制模拟电视信号转为ITU-R656标准4:2:2格式数字视频,同样将ADV7183输出端口与bF533的PPI相连。这样,既可以采用系统自带CMOS图像传感器采集视频,也可以外接PAL制模拟摄像机,用户可自由选择。
  由于bF533片内存储空间有限,而视频采集、编码数据量巨大,选用一片Hynix公司的4MbSDRAM HY57V56162(内含4个内部子集)作为bF533片外大容量动态存储器。同时,为存放程序启动代码,利用一片容量为1Mb的闪存芯片PSD4256G6V构成bF533的片外非易失性存储器。系统硬件构成如图1所示。



编码器设计实现
存储器空间分配
  bF533采用统一的32位、共4Gb可寻址空间,包括位于片内的L1高速SRAM,片外的同步存储器空间SDRAMSpace,以及异步存储器空间(A syn chronousMemory Space)。
  片内Ll SRAM包括:64Kb指令SRAM、16Kb指令Cache/SRAM、32Kb数据SRAM、32Kb数据Cache/SRAM,以及4Kb便签存储器。
  L1 SRAM工作在内核时钟频率,内核可以对其进行高速带宽访问。它是所有存储器中访问速度最快的,但容量有限,因此,只应将那些最关键的代码和数据存放在L1SRAM里。同时,指令Cache和数据Cache全部使能,这样可以大大提高访问片外存储器的效率。Cache设置是通过相应的I M E M_C O N T R O L、DMEM_CONtrOL,以及CPLb寄存器配置实现的。
  由于bF533片内存储空间有限,而原始视频数据量较大:CIF级4:2:2格式每帧图像占用的空间为202752字节,如果采用模拟PAL制式视频输入,每帧占用空间更是高达829440字节,只能将其放至SDRAM中。同样,视频编码数据也应存放在SDRAM中。此外,系统启动完成boot loader引导后,主要关键代码放在片内L1程序SRAM中执行,但大部分程序代码仍需从SDRAM中执行。由于SDRAM特殊的读/写方式,如果下次访问内存页与当前活动页(Active Page)不同,即出现了页错失(Page Miss),SDRAM就必须首先关闭当前页,再打开新的页,大大降低了SDRAM读写速率。而该系统中SDRAM又需存储多种数据,内核、DMA均需要频繁访问SDRAM,因此,应精心分配SDRAM空间,以使页错失现象尽量少发生。
  bF533的SDRAM控制器(SDC)可以支持SDRAM每个内部子集中的一个活动页,且在这4个I-bank中进行切换时无需任何延迟。这样,将不同的数据、代码映射至不同的I-bank,可使页错失现象降到最少,进而改善访问SDRAM的效率。
  由于需要实时编码,为保证视频采集和压缩可以同步执行,采用乒乓缓冲技术:设置了两块视频帧接收缓冲区bUF1和bUF2,采用bF533的DMA传输链方式进行传输。当某一DMA缓冲区填满后,内核对其作MPEG-4编码(同时也在构建参考帧),此时DMA开始对另一块缓冲区进行填充。由于bUF1、bUF2、程序代码以及参考帧均位于不同的I-bank,减少了SDRAM页面切换的机会,实现了对SDRAM的高效访问。

MPEG-4
程序流程
  MPEG-4编码是基于宏块(Macro block)进行的,每个宏块包含4个8×8亮度子块和2个8×8色度子块。MPEG-4编码原理主要包括对I帧和P帧的编码,P帧比I帧多出了运动估计和补偿模块,二者编码流程如图2所示。




代码编写及优化
  bF533支持C/C++高级语言,但高级语言执行效率较低,为达到最大执行效率,采用全汇编语言实现MPEG-4编码。
  对于I帧编码,主要的运算量是前向离散余弦变换FDCT和反向离散余弦变换IDCT,这里采用了ADI提供的优化代码,它基于chen氏快速DCT算法,大量运用了bF533特有的并行指令,完成一次8×8 DCT仅需293个时钟周期。
  与I帧相比,P帧编码相对复杂,其中,运动估计是P帧编码最费时的部分,即在参考帧中搜索与当前编码宏块或子块最匹配的位置。
  SAD(绝对误差和)准则具有无需乘除运算、实现简单方便等优点,选用它作为运动估计匹配准则。
  运动估计搜索算法则采用菱形搜索法(又称钻石搜索法),搜索精度为半像素,菱形搜索法具有简单、鲁棒、高效的特点。
  blackfin汇编指令集中有专门用于SAD计算的指令S

AA(src_reg_O,src_reg_1),一条该指令即可同时完成4个字节的SAD计算。此外,综合使用其它一些视频专用操作指令,如bYTEPACK(_将4个字节打包至一个3 2位寄存器中)、bYTEUNPACK(与bYTEPACK功能相反)、bYTEOPl6M(对4个字节作减法处理),可以使代码运行效率得到显著改善。
  bF533集成开发环境VisualDSP++中还提供了Profile功能,可以利用该功能对程序代码性能进行评估,发现程序执行的瓶颈,从而进行有针对性的优化。主要的优化方法有:1.尽量减少分支、条件判断指令,因为这些指令会破坏bF533流水线,造成额外的时钟延迟;同时,对部分较简单的子程序用宏改写,免去子程序调用过程中的堆栈操作和参数传递;
  2.采用并行执行指令,bF533并非超标量结构DSP,但仍能有限地支持最多3条指令并行执行,如:saa(r1:0,r3:2)Ⅱr0=[i0++]Ⅱr2=[i1++];使用该并行指令即可在一个时钟周期内完成4个字节的SAD计算,同时完成r0、r2的数据更新,以便下次计算;
  3.在DCT/IDCT的量化过程及其它一些模块中,要牵涉到除法,而bF533计算除法需要耗费大量时钟周期,因此,这里将除法变为乘以量化因子的倒数,求倒数可以通过查找表方式实现。再结合移位操作,即可在基本不损失精度的同时达到高效计算除法的目的。
  经过前述的优化过程后,成功地在bF533上实现了MPEG-4 SP的CIF级实时编码。此外,对于CIF级CMOS传感器OV6630,系统可以直接对其实时编码。但如果是外接PAL制式模拟摄像头,经ADV7183作A/D转换后,其分辨率为720×576,受bF533的性能限制,尚无法对该级别分辨率做到实时编码,因此,应先使其分辨率降为352×288,然后再作:MPEG-4编码。
实验结果
  bF533内核时钟(CLK)设为594MHz,系统时钟(SLK)为118.8MHz。选取CIF级标准测试序列flower(帧速率为25fps,共75帧)对系统进行验证。
  图3、图4给出了分别采用I帧编码和P帧编码后的重建图像。I帧编码压缩率为11.5:1,重建图像信噪比为33.43db。P帧编码压缩率则达到了65.7:1,重建图像信噪比为32.65db。经采用bF533片内实时时钟RTC精确计时,整个视频序列共75帧,编码耗费2.27s,平均编码率达到了33fps,满足实时编码要求。



结语
  本文介绍了CIF级别的MPEG-4 SP实时编码在bF533 DSP;DSP片上的实现,该编码器可以灵活地选用系统自带CMOS传感器及用户自选PAL制模拟摄像机两种视频采集源。该系统可以用在IP可视电话、交通检测、超市监视、智能小区安保等领域,具有很强的实用价值。
                          
                       
                          
                               
分享到:  QQ好友和群QQ好友和群 QQ空间QQ空间 腾讯微博腾讯微博 腾讯朋友腾讯朋友 微信微信
收藏收藏 分享分享 支持支持 反对反对
您需要登录后才可以回帖 登录 | 注册

本版积分规则

小黑屋|文字版|手机版|DIY编程器网 ( 桂ICP备14005565号-1 )

GMT+8, 2025-12-23 10:33 , 耗时 0.094508 秒, 18 个查询请求 , Gzip 开启.

各位嘉宾言论仅代表个人观点,非属DIY编程器网立场。

桂公网安备 45031202000115号

DIY编程器群(超员):41210778 DIY编程器

DIY编程器群1(满员):3044634 DIY编程器1

diy编程器群2:551025008 diy编程器群2

QQ:28000622;Email:libyoufer@sina.com

本站由桂林市临桂区技兴电子商务经营部独家赞助。旨在技术交流,请自觉遵守国家法律法规,一旦发现将做封号删号处理。

快速回复 返回顶部 返回列表