以太网环境下实时音频传输的研究

admin · 发表于 2014-10-13 14:42:03

摘要　本文对VoIP原理和基本实现流程做了介绍，并对以太网环境下音频时延构成进行了分析。实验结果证明以太网环境下音频时延主要由缓冲区时延和API调用时延构成，其中最主要的部分是API调用时延。论文提出了采用DirectSound接口函数降低API调用时延的方法，并对进一步降低API时延策略进行了探讨。
　　随着网络技术的快速发展，VoIP技术得到了广泛的应用。特别是在局域网环境下，VoIP凭借其应用便捷，价格低廉的优点，已经成为了人们即时交流的主要方式之一。从实际应用效果来看，时延成为影响VoIP话音质量的关键因素。ITU-TG.114规定，对于高质量语音可接受的时延是300 ms。一般来说，如果时延在300～400 ms，通话的交互性比较差，但还可以接受。时延大于400 ms时，则交互通信非常困难，所以如何确保音频实时传输已经成为VoIP技术中首要解决的问题之一。
　　本文首先介绍了VoIP原理和基本实现流程，然后对以太网环境下实时音频传输进行了实验研究，分析了缓冲区设置和音频API调用对音频时延的影响，并根据分析结果，提出了解决以太网音频时延的对策。
1、VoIP原理及其基于PC平台的实现流程
　　VoIP的基本原理是：发送端通过语音的压缩算法对采集到的原始语音数据进行压缩处理，然后把这些压缩后的语音数据按TCP/IP标准进行打包，经过IP网络把数据包发送至接收端；接收端将分组话音重组，经过解压处理后，恢复成原来的语音信号，从而达到由网络传送语音的目的。
　　图1为基于PC平台的VoIP实现流程。如图所示，基于PC平台的VoIP应用的基本实现包括接收模块、发送模块和网络传输三部分构成。其中，发送模块主要由音频采集、音频编码、分组话音封装等部分组成。接收模块的实现过程一般由发送模块的逆过程构成，主要包括分组话音的接收，音频解码及音频播放等部分组成。

图1　基于PC平台的VoIP实现流程

　　下面分别介绍各部分功能以及常规的实现方式。
　　音频采集和播放模块主要对音频信号进行采集和回放操作，完成模拟语音和数字语音之间的转换。它主要通过音频API函数来实现其功能。在Windows操作系统中，常见的音频API函数有：WaveX、DirectSound和ASIO等。
　　音频编码与解码模块主要完成对语音数据的压缩与解压功能。在发送端由于采集到的原始语音数据量比较大，需要对原始语音数据以特定的音频格式进行压缩编码。同理，在接收端需要对接收到的语音数据进行解压还原。在Windows操作系统中，ACM（Audio Compression Manager，音频压缩管理器）管理着系统中的所有音频编码译码器（CODEC），负责对语音数据进行压缩与解压缩。CODEC是一小段用于压缩（Compress）及解压缩（Decompress）数据流的代码。CODEC可以是由操作系统本身附带的CODEC，也可由系统中所安装的应用程序安装其他的CODEC。
　　分组话音封装和分组话音接收模块主要是为压缩后的语音数据加上相应的报头，使其成为一个语音包，然后送给传输模块。TCP/IP协议体系中有两个不同的传输层协议，分别是面向连接的传输控制协议TCP和无连接的用户数据报协议UDP。这两种协议的不同之处在于UDP提供无连接的服务，在传输数据之前不需要先建立连接，远程主机接收到UDP数据后，不需要给出任何确认；而TCP则提供面向连接的服务，在传送数据之前必须先建立连接，数据传送结束后要释放连接。对于音频应用来说，一般使用UDP协议。这是因为虽然UDP协议不提供错误重传的功能，但是它可以保证音频数据的实时性。
　　网络传输模块就是将封装好的IP语音数据包从发送端发往接收端。在Windows操作系统中，主要通过Winsock函数来完成。
2、缓冲区大小与时延的关系
　　缓冲区大小与时延有着密切的关系。一般来说，缓冲区大时，时延较大，但是可以有效地进行失序重组等操作，话音质量较好；缓冲区较小时，时延较小，但由于缓冲并没有很好地消除时延抖动等因素，导致话音质量较差。所以要将缓冲设为合适的大小，使得时延较小，同时又保持着较好的语音质量。
　　实验程序是我们前期编写的PCtoPC的VoIP程序，是由VC++编写的，使用低阶的音频API-WaveX函数来实现音频的采集和回放；使用ACM来进行语音的压缩和解压缩；使用Winsock来进行网络通信。实验程序实现了网络语音传输的基本功能，程序中采集和回放缓冲区大小相同，个数均为2，采用乒乓制。
　　我们在以太网环境下对缓冲区大小与端到端时延的关系进行了测量。其中端到端时延测量的思路是：运行程序，从麦克风输入一个激励，从耳机端得到一个输出，如果能获得两者时间之差即为端到端时延。可以在本机拨打本机运行测试，这样不需要考虑同步的问题，而且由于测试环境基于100Mbit/s以太网链路，链路传输时延为微秒级，可以忽略不计，所以本机环回测试得出的结果基本可以表征端到端时延。测量的具体方法是通过示波器，产生一个适当的信号，模拟语音输入，然后观察输出，得到两者时延。测试程序中使用的编解码算法是GSM610，参数为11.025kHz的采样频率，8位单声道方式，音频API为WaveX的情况下进行了测量，实验结果如表1所示。

表1　缓冲区大小与时延关系

缓冲区大小（byte）	512	768	1024	1536	2048	4096
语音的时长（ms）	46	70	93	140	196	392
测得的端到端时延(ms)	约350	约400	约500	约600	约700	约800

		自动登录	找回密码
密码			注册

[待整理] 以太网环境下实时音频传输的研究

浏览过的版块