首页 > 代码库 > 【论文:麦克风阵列增强】Speech Enhancement Based on the General Transfer Function GSC and Postfiltering

【论文:麦克风阵列增强】Speech Enhancement Based on the General Transfer Function GSC and Postfiltering

作者:桂。

时间:2017-06-06  16:10:47

链接:http://www.cnblogs.com/xingshansi/p/6951494.html

原文链接:http://pan.baidu.com/s/1i51Kymp


未完待续

前言

  这篇文章是TF-GSC的改进版。虽然TF-GSC对于方向性干扰的抑制效果不错,对于弥散噪声(diffuse noise,题外话:不同方向directional noise的均值,或者接近这种效果,可以理解为diffuse noise.)TF-GSC性能下降明显,如果diffuse noise还是non-stationary,性能下降就更严重了。本文的思路是在TF-GSC的基础上,引入postfiltering(后置滤波),文中提到了三种方法:两种基于single channel-1)mixture maximum;2)OMLSA;但如果噪声both diffused and nonstationary,基于single channel的方法不再适用,这时候方法3仍然有效:a  new multimicrophone postfilter method。

  本文主要梳理基于TF-GSC的multimicrophone postfilter method,因为基于single channel的两种方法都是单独使用,后面有时间另写文章整理。

一、OMLSA思想

  A-利用不存在概率的增强

首先回顾利用absence probability的思路

技术分享

容易推理基于MMSE准则的估计器

技术分享

如果考虑语音存在概率,则估计器扩展为

技术分享

理论上技术分享的值为0,上式简化为

技术分享

  B-语音不存在概率与最大似然准则估计器ML 结合

例如在语音增强一文中介绍的,基于最大似然准则的估计器为

技术分享

从Y的概率密度形式

技术分享

易知ML是基于语音存在的假设,结合语音存在概率,则基于ML准则的估计器为

技术分享

对于技术分享)的计算可以利用贝叶斯准则

技术分享

这里利用一个假设(也就是约束条件):噪声服从均值为0,方差相同的复高斯分布技术分享,此时容易证明噪声幅度服从瑞利分布(相位为均匀分布,且二者独立),

技术分享

H1假设下,技术分享此时

技术分享

关于技术分享的计算参考语音增强一文的最大似然估计。例如假设语音存在/不存在是等可能的,技术分享,此时完成了技术分享的估计:

技术分享

其中技术分享是a posteriori SNR,技术分享a priori SNR。这个就是一般意义的参数估计了,在语音增强一文也给出了两个实现思路:1)Maximum-Likelihood Method;2)Decision-Directed Approach.至此也就完成了结合不存在概率的语音增强。

   C-语音不存在概率与最小均方误差估计器MMSE 结合

其实基本思路都是一样的:

技术分享

然后是利用贝叶斯进行概率估计

技术分享

不同点在于这里进行了转化

技术分享

其中

技术分享

其中技术分享,denotes the a priori probability of speech absence for frequency bin k.从而技术分享

与ML准则不同的是,只有噪声时,是噪声D的分布,而不是其幅度(其实如果是幅度,也有一套方法,感兴趣可以自己推导推导)。技术分享仍是高斯分布

技术分享

H1时,技术分享且认为D与X不相关,易得

技术分享

代入上面的估计器,有

技术分享

其中技术分享就是技术分享,则技术分享.进一步求解条件概率

技术分享

其中

技术分享

参数估计的细节与ML中的估计思路一致。从而实现信号的增强:

技术分享

G就是MMSE估计器

技术分享

不同之处是里边的技术分享替换成技术分享。 

题外话:看看之前的参数估计与此处参数估计的联系

技术分享

技术分享技术分享

不得不佩服,这些理论的研究者真有一套。

   D-语音不存在概率与对数最小均方误差估计器Log-MMSE 结合(OMLSA)

原理与其他方法一致

技术分享

X的估计器

技术分享

可以进一步写为

技术分享

其中技术分享就是语音增强一文中的对数MMSE估计器。这里要有一点不同了,这里的概率是指数形式,有学者研究这样的增强效果并不比直接LSA更好,所以对其变形

技术分享

还是与其他方法类似:概率相乘的形式。这里的技术分享与MMSE中的一致。至此完成了LSA与语音不存在概率的结合。但这套理论比较粗糙,一些学者(原文见这里,P262)提出了不同的角度:只有噪声时,不再认为严格为0,而是接近0:

技术分享

技术分享

其中技术分享,第一项技术分享就是最开始的LSA与语音存在概率的原始结合,这就是optimally modified log-spectrum amplitude (OMLSA) estimator ,即

技术分享

参数估计的改进(此处没写完,待补充):

Implementation Issues Regarding A Priori Snr Estimation
Methods For Estimating The A Priori Probability Of Speech Absence

二、论文理论框架

麦克风接收的信号

技术分享

其中m代表第m个麦克,技术分享是TF的时域形式(acoustical transfer function,ATF),技术分享对应the stationary noise component,即稳态噪声,技术分享对应the transient noise component,即瞬态噪声。对应频域变换

技术分享

其中

技术分享

TF-GSC框架前文已经梳理,这里主要分析 the multimicrophone postfiltering:

技术分享

假设TF-GSC处理之后的信号为Y,则后处理操作

技术分享

其中

技术分享

[找时间再补充,明天要开会,就此打住,休息]

 

参考

  • Gannot, Sharon, and Israel Cohen. "Speech enhancement based on the general transfer function GSC and postfiltering." IEEE Transactions on Speech and Audio Processing 12.6 (2004): 561-571.
  • Loizou, Philipos C. Speech enhancement: theory and practice. CRC press, 2013.

【论文:麦克风阵列增强】Speech Enhancement Based on the General Transfer Function GSC and Postfiltering