首页 > 代码库 > 数字语音信号处理学习笔记——语音信号的短时频域分析(1)
数字语音信号处理学习笔记——语音信号的短时频域分析(1)
4.1 概述
傅里叶分析是分析线性系统和平稳信号稳态特性的强有力的工具,它在许多工程领域得到了广泛应用。它理论完善,且有快速算法,在语音信号处理领域也是一个重要工具。
语音信号本质上是非平稳信号,其非平稳特性是由发声器官的物理运动过程产生的。发声器官的运动由于存在惯性,所以可以假设语音信号在10~30ms这样短的时间内是平稳的,这是短时分帧处理的基础,也是短时傅里叶分析的基础。短时傅里叶分析就是基于短时平稳的假设下,用稳态分析方法处理非平稳信号的一种方法。
根据语音信号的二元激励模型,语音被看成一个受准周期脉冲或随机噪声源激励的线性系统的输出。输出频谱是声道系统的频率响应与激励源频谱的乘积,一般标准的傅里叶变换适用于周期及平稳随机信号的表示,但不能直接用于语音信号。因为语音信号可被看做短时平稳信号,所以可采用短时傅里叶分析。某一帧的短时傅里叶变换的定义如下:
式中,是窗函数。不同的窗函数,可得到不同的傅里叶变换的结果。在式中,短时傅里叶变换有两个变量,即离散时间n及频率w,若令,则可得到离散的短时傅里叶变换如下:
它实际上就是的频率的抽样。由上面两个式子可以看出:当n固定时,它们就是序列的傅里叶变换或离散傅里叶变换;当w或k固定时,它们是一个卷积,这相当于滤波器的运算。因此,语音信号的短时频域分析可以解释为傅里叶变换或滤波器。
4.2 傅里叶变换的解释
将上式写为:
时变傅里叶变换是时间n的函数,当n变化时,窗w(n - m)沿着x(m)滑动。
此外,由功率谱定义,可以写出短时功率谱与短时傅里叶变换的关系:
功率谱是自相关函数:
的傅里叶变换。
选择的窗函数和窗宽的不同,对短时傅里叶谱的影响是不同的。
可以看出在矩形窗和汉明窗两种窗函数下,短时频谱图都有两种变化:由周期性激励引起的快变化,反映了基音频率的各次谐波;由声道的共振峰引起的慢变化,反映了各共振峰的频率和带宽。还可以看出两个频谱图之间存在明显的差别。采用矩形窗时,基音谐波的各个峰都比较尖锐,且整个频谱图显得比较破碎(类似于噪声),这是因为矩形窗的主瓣较窄,具有较高的频率分辨率,但它也具有较高的旁瓣,因而使基音的相邻谐波之间的干扰比较严重。在相邻谐波间隔内有时叠加,有时抵销,出现了一种随机变化的现象。相邻谐波之间的这种严重“泄露”现象,抵消了矩形窗主瓣窄的优点,因此,在语音短时频谱分析中极少采用矩形窗。当加汉明窗时,得到的短时频谱要平滑的多,因而在语音分析中汉明窗用得比较普遍。
综上所述,关于短时谱和移动窗可以得到以下结论。
1.长窗具有较高的频率分辨率,较低的时间分辨率。从一个基音周期到另一个基音周期,共振峰是要发生变化的,这一点即使从语音波形上也能够看出来。然而如果采用较长的窗,这种变化便被模糊了,因为长窗起到了时间上的平均作用。
2.短窗具有较低的频率分辨率,较高的时间分辨率。采用矩形窗时,能够从短时谱中提取出共振峰从一个基音周期到另一个基音周期所发生的变化。当然,激励源的谐波的细致结构也从短时频谱图上消失了。
3.窗宽的选择需折中考虑。短窗具有较好的时间分辨率,能够提取出语音信号中的短时变化,损失了频率分辨率。但应注意到,语音信号的基音周期提取范围很大。因此,窗宽的选择应当考虑到这个因素。
4.矩形窗和汉明窗的频谱特性都具有低通的性质,在截止频率出都比较尖锐,当其通带都比较窄时(窗越宽,其带通越窄),加窗后得到的频谱能够很好逼近短时语音信号的频谱。窗越宽,逼近效果越好。