由实验结果可以看出,在编码比特流中进行特征提取时间和识别的(上接第121页)时间都远小于解码重建后的语音特征提取时间和识别时间,满足实时说话人识别的需要。
在文本相关的说话人识别中,对比使用同样G.729压缩码流特征的GMM模型, DTW方法的识别率和处理效率均高于GMM模型,能够实时应用于VoIP网络监管中。 参考文献
[1] 石如亮.编码域说话人识别技术研究[D].郑州:解放军信息工程大学,2007.
[2] PETRACCA M, SERVETTI A, DEMARTIN J C. Performance analysis of compressed-domain automatic speaker recognition as a function of speech coding technique and bit rate [A]. In: International Conference on Multimedia and Expo (ICME) [C]. Toronto,Canada, 2006:1393-1396.
[3] 石如亮,李弼程,张连海,等. 基于编码比特流的说话人识别[J].信息工程大学学报,2007,8(3): 323-326.
[4] 王炳锡,屈丹,彭煊.实用语音识别基础[M].北京:国防工业出版社,2004: 264-286.
[5] 李邵梅,刘力雄,陈鸿昶.实时说话人辨别系统中改进的DTW算法[J].计算机工程,2008,34(4):218-219.
[6] DUNN R b, QUATIERI T F, REYNOLDS D A. et al. Speaker recognition from coded speech in matched and mismatched conditions [A]. In: Proc. Speaker Recognition Workshop’01 [C]. Grete, Greece, 2001:115-120.
[7] AGGARWAL C C, OLSHEFSKI D, SAHA D et al. CSR: Speaker recognition from compressed VoIP packet stream [A]. In: International Conference on Multimedia and Expo (ICME) [C]. Amsterdam, Holand, 2005: 970-973.