语音中的关于语音识别的一些知识

首页 > 代码库 > 语音中的关于语音识别的一些知识

语音中的关于语音识别的一些知识

2024-08-18 01:47:53 221人阅读

以下内容都是抄的，哈哈哈

1.mel频率：

是模拟人耳对不同频率语音的感知。

人类对不同频率语音有不同的感知能力：对1kHz以下，与频率成线性关系，对1kHz以上，与频率成对数关系。频率越高，感知能力就越差了。因此，在应用中常常只使用低频MFCC，而丢弃中高频MFCC。
在Mel频域内，人对音调的感知能力为线性关系，如果两段语音的Mel频率差两倍，则人在感知上也差两倍。转换公式：B(f)=1125ln(1＋f/700) 其中f为频率，B为Mel－频率。

2.倒谱：

同态处理的结果，分为复数和实数倒谱，常用实数倒谱，是语音识别中的重要系数。

3，Mel频率倒谱系数参数的提到中：有一步：分帧，然后再加上窗，原因呢：,下面写的：技术分享

4,那现在总结下倒谱分析，它实际上是这样一个过程：

1）将原语音信号经过傅里叶变换得到频谱：X[k]=H[k]E[k]；
只考虑幅度就是：|X[k] |=|H[k]||E[k] |；
2）我们在两边取对数：log||X[k] ||= log ||H[k] ||+ log ||E[k] ||。
3）再在两边取逆傅里叶变换得到：x[k]=h[k]+e[k]。
这实际上有个专业的名字叫做同态信号处理。它的目的是将非线性问题转化为线性问题的处理方法。对应上面，原来的语音信号实际上是一个卷性信号（声道相当于一个线性时不变系统，声音的产生可以理解为一个激励通过这个系统），第一步通过卷积将其变成了乘性信号（时域的卷积相当于频域的乘积）。第二步通过取对数将乘性信号转化为加性信号，第三步进行逆变换，使其恢复为卷性信号。这时候，虽然前后均是时域序列，但它们所处的离散时域显然不同，所以后者称为倒谱频域.

最后几个图：技术分享

技术分享

引用：

http://www.cnblogs.com/gogly/archive/2013/11/24/3440441.html

很好的文献，可以参考哦:http://blog.csdn.net/zouxy09/article/details/9156785/

语音中的关于语音识别的一些知识

声明：以上内容来自用户投稿及互联网公开渠道收集整理发布，本网站不拥有所有权，未作人工编辑处理，也不承担相关法律责任，若内容有误或涉及侵权可进行投诉：投诉/举报工作人员会在5个工作日内联系你，一经查实，本站将立刻删除涉嫌侵权内容。

联系
我们

首页 > 代码库 > 语音中的关于语音识别的一些知识

语音中的关于语音识别的一些知识

看完仍有疑问？有类似问题直接问程序猿