首页 > 代码库 > 语音交互技术——语音编码

语音交互技术——语音编码

1.语音编码目的:为了减少传输码率或存储量,以提高传输或存储的效率。经过这样的编码之后,同样的信道容量能传输更多路的信号,存储只需要较小容量的存储器。因而这类编码又称为压缩编码。压缩编码需要在保持可懂度与音质、降低数码率和降低编码过程的计算代价三方面折衷。

 

2.编码分类:波形编码、参数编码、混合编码。

波形编码器:没有使用模型,而是试图使重构的语音和原始语音之间的误差最小化。波形编码的方法简单,数码率较高,在64kbit/s至32kbit/s之间音质优良,例如脉冲编码调制PCM,自适应增量调制ADM等。

image

a.均匀量化PCM:

image

image

b.非均匀量化PCM:是对数压扩方法。编码时,利用语音信号的幅度统计特性,对幅度按对数变换进行压缩,然后再进行均匀量化。在语音信号中,样本的幅度值不是均匀分布的,信号大量地集中在小幅度值上。如果对小幅度样本使用小的量化间隔,进行精确量化,而对大幅度样本使用大的量化间隔,则既可成功地提高信噪比,又可避免大信号的过载。例如u 律变换、A律变换等。

image

image

image

c.自适应量化APCM:一个自适应量化器的量化间隔应自适应地改变,并与输入信号的幅度方差保持相匹配。

image

d.增量调制DM:

imageimage

e.自适应预测编码APC:

image

image

imageimage

f.子带编码:

imageimage

参数编码:基于参数或模型的编码器提供了一种可用来模拟语音产生的模型,并从原始语音中提取可用来描述此模型的参数,然后随着语音信号特征的改变来周期地更新模型参数 。声码器编码后的码率可以做得很低,如1.2kbit/s、2.4kbit/s。缺点:合成语音质量较差,不自然,难辨认说话人。例如通道声码器、共振峰声码器、线性预测声码器等。

a.通道声码器(channel vocoder)

image

b.线性预测声码器(linear predictive vocoder)

image

c.多脉冲激励(multi-pulse excitation)

image

d.码激励线性预测编码(code excitation LPC)

imageimage

混合编码:将波形编码和声码器的原理结合起来,数码率约在4kbit/s—16kbit/s之间,音质比较好,最近有个别算法所取得的音质可与波形编码相当,复杂程度介乎与波形编码器和声码器之间。例:多脉冲激励线性预测声码器(MPLPC),规则脉冲激励线性预测声码器(RPELPC),码激励线性预测声码器(CELP)。

image

3.矢量量化(vector quantization):将若干个取样信号分成一组,即构成一个矢量,然后对此矢量一次进行量化。将某一范围内的矢量归为某一类,即矢量量化。

image

image

矢量量化特点:有高度保密的优良性能;用于传输时,其传输速率可以进一步降低;稳定性能好。

两个问题:a.如何划分M个区域边界:这个过程称为“训练”或建立码书,方法是将大量的欲处理的信号的波形帧矢量或参数帧矢量进行统计划分,进一步确定这些划分边界的中心矢量值来得到码书。b.如何确定两矢量在进行比较时的测度:这个测度就是两矢量之间的距离,或以其中某一矢量为基准时的失真度。它描述了当输入矢量用码书所对应的矢量来表征时所应付出的代价。

均方误差:输入信号的某个k维矢量X,与码书中某个k维矢量Y进行比较,xi、yi分别表示X和Y的元素 (1≤i≤k),则定义均方误差为欧氏距离,即有

image

最佳码书:对于给定的区域边界Si,找出最佳码书矢量,使码书的平均失真最小,也就是得到码书yM

LBG算法:

image

4.语音编码的国际标准:

image