首页 > 代码库 > 数字语音信号处理学习笔记——语音信号的短时时域分析(2)

数字语音信号处理学习笔记——语音信号的短时时域分析(2)

3.3 短时平均能量

      由于语音信号的能量随时间而变化,清音和浊音之间的能量差别相当显著。因此,对短时能量和短时平均幅度进行分析,可以描述语音的这种特征变化情况。

      定义n时刻某语音信号的短时平均能量为:

      

      式中,N为窗长,可见短时能量为一帧样点值的加权平方和。特殊地,当窗函数为矩形窗时,有

      

      也可以从另外一个角度来解释。令:

      

      平均能量还可以表示为:

      

      上式可以理解为:首先语音信号各个样点值平方,然后通过一个冲激相应为h(n)的滤波器,输出为由短时能量构成的时间序列:

      

      冲激响应的选择或者说窗函数的选择直接影响着短时能量的计算。通常N的选择与语音的基音周期相联系,一般要求窗长为几个基音周期的数量级。由于语音基音频率范围为50~500Hz,因此折中选择帧长为10~20ms。

      短时平均能量的主要用途如下:

      1.可以作为区分清音和浊音的特征参数。实验结果表明浊音的能量明显高于清音。通过设置一个能量门限值,可以大致判定浊音变为清音或者清音变为浊音的时刻,同时可以大致划分浊音区间和清音区间

      2.在信噪比比较高的情况下,短时能量还可以作为区分有声和无声的依据

      3.可以作为辅助的特征参数用于语音识别中

3.4 短时平均幅度函数

      短时能量的一个主要问题是对信号电平值过于敏感。由于需要计算信号样值的平方和,在定点实现时很容易产生溢出。为了克服这个缺点,可以定义一个短时平均幅度函数来衡量语音幅度的变化:

      

      上式可以理解为w(n)对|x(n)|的线性滤波运算,实现框图如下。与短时能量比较,短时平均幅度相当于用绝对值之后代替了平方和,简化了运算。

      

3.5 短时平均过零率

      短时平均过零率是语音信号时域分析中的一种特征参数。它是指每帧内信号通过零值的次数。对有时间横轴的连续语音信号,可以观察到语音的时域波形通过横轴的情况。在离散时间语音信号情况下,如果相邻的采样具有不同的代数符号就称为发生了过零,因此可以计算过零的次数。单位时间内过零的次数就称为过零率。一段长时间内的过零率称为平均过零率。如果是正弦信号,其平均过零率就是信号频率的两倍除以采样频率,而采样频率是固定的。因此过零率在一定程度上可以反映信号的频率信息。短时平均过零率的定义为:

      

       其中,sgn[ ]为符号函数,即

       

        短时平均过零率的运算图:

        

        短时平均过零率可以用于语音信号请浊音的判断。如果过零率高,语音信号就是清音,如果过零率低,语音信号就是浊音。但有的音,位于浊音和清音的重叠区域,这时,只根据短时平均过零率就不可能来明确地判别清、浊音。