首页 > 代码库 > 数字语音信号处理学习笔记——绪论(1)

数字语音信号处理学习笔记——绪论(1)

1.绪论

1.1概述

语言是人类交换信息最方便、最快捷的一种方式,在高度发达的信息社会中,用数字化的方法进行语音的传送、存储、识别、合成和增强等是整个数字化通信网中最重要、最基本的组成部分之一。

     语音信号处理技术主要可以应用到:

     1) 数字电话通信

     2) 高音质的窄带语音通信系统

     3) 语言学习机

     4) 声控打字机

     5) 自动翻译机

     6) 智能机器人

     7) 新一代计算机语音智能终端

     8) 许多军事上的应用

     语音信号处理是一门新兴的边缘科学,它是语音学数字信号处理两个学科相结合的产物。它和认知科学、心理学、语音学、计算机科学、模式识别人工智能等学科有着紧密的联系。

     语音信号处理的目的是要得到某些语音特征参数以便高效地传输或存储;或者是通过某种处理运算以达到某种用途的要求,例如人工合成语音、辨识出讲话者、识别出讲话的内容等。

     随着现代科学和计算机技术的发展,除了人与人之间的自然语言的通信方式之外,人机对话及智能机器等领域也开始使用语言。通常认为,语音信息的交换大致上可以分为三大类:

     1) 人与人之间的语音通信:包括语音压缩与编码、语音增强等

     2) 第一类人机语言通信问题,指的是机器讲话、人听话的研究,即语音合成

     3) 第二类人机语音通信问题,指的是人讲话、机器听话的情况,即语音识别和理解

     1.2 语音信号处理的发展

     1876年:贝尔电话的发明,该技术首次用声电、电声转换技术实现了远距离的语音传输。

     1939年:Homer Dudley提出并研制成功的第一个声码器,从此奠定了语音产生模型的基础。

     19世纪60年代:亥姆霍兹应用声学方法对元音和歌唱进行了研究,从而奠定了语言的声学基础。

     20世纪40年代:一种语言声学的专用仪器——语谱图仪问世了。

     1948年:美国Haskins实验室研制成功“语音回放机”,该仪器可以把手工绘制在薄膜上的语谱图自动转换成语音,                     并进行语音合成

      20世纪50年代:语言产生的声学理论开始有了系统的论述。

      随着计算机的出现,语音信号处理的研究工作得到了计算机技术的帮助,使得过去受人力、时间限制的大量的语音统计分析工作,得以在电子计算机上进行。在此基础上,语音信号处理不论在基础研究方面,还是在技术应用方面,都取得了突破性的发展。

      下面分别论述语音信号处理的三个主要分支(语音合成技术、语音编码和语音识别技术)的发展和现状。

1.2.1 语音合成

     最早的合成器:

     1835年:W.von Kempelen发明,经Weston改进的机械式会讲话的机器。该机器完全模仿人的发音生理过程,分别用风箱、特别设计的哨和软管来模拟肺部的空气动力、模拟口腔。

     最早的电子式语音合成器:

     1939年:Homer Dudley发明的声码器,它不是简单地模拟人的生理过程,而是通过电子线路来实现基于语音产生的源-滤波器理论。

     但真正具有实用意义的近代语音合成技术是随着计算机技术和数字信号处理技术的发展而发展起来的,主要是采用计算机产生高清晰度、高自然度的连续语音。

     早期的研究主要采用参数合成方法:

     1973年:Holmes发明的并联共振峰合成器

     1980年:Klatt发明的串/并联共振峰合成器

     最具代表性的文本转换系统:

     1987年:美国DEC公司的DECtalk

     自20世纪80年代末期至今,语音合成技术又有了新的进展,特别是1990年提出的基因同步叠加(PSOLA)方法,使基于时域波形拼接方法合成的语音的音色和自然度大大提高。

     20世纪90年代:基于PSOLA技术的法语、德语、英语、日语等语种的文语转换系统都已经研制成功。

     我国的汉语语音合成研究起步较晚,但从20世纪80年代初就基本上与国际研究同步发展。大致也经历了共振峰合成、LPC合成到应用PSOLA技术的过程。

     现阶段语音合成的最大进展是已经能实时地将任意文本转换成连续可懂的自然语句输出。