首页 > 代码库 > *音频-2

*音频-2

4.2音频

4.2.1数字声音基础

1.声音信号

声音是通过空气传播的一种连续的波,称为声波,声波在时间和幅度上都是连续的模拟信号,通常称为模拟声音(音频)信号。人们对声音的感觉主要有音量、音调和音色三个指标

(1)      音量(响度)。声音的强弱程度,取决于声音波形的幅度,即取决于振幅的大小和强弱。

(2)      音调。人对声音频率的感觉表现为音调的高低,取决于声波的基频,基频越低,给人的感觉越低沉,频率高则声音尖锐。

(3)      音色。由混入基音(基波)的泛音所决定,每种声音又都有其固定的频率和不同音强的泛音,从而使得它们具有特殊的音乐效果,人们能够分辨具有相同音高的钢琴和小号声音。

复合信号:声音信号由许多频率不同的信号组成。

分量信号:单一频率的信号称为分量信号。

带宽:用来描述组成声音的信号的频率范围

PC处理的音频信号主要是人耳能听到的音频信号。带宽的是20-20Khz.

声音信号的两个基本参数是幅度和频率。

幅度:是指声波的振幅,通常用动态范围表示,一般以分贝(dB)为单位来计量。

频率:指声波每秒钟变化的次数,用HZ来表示,人们把频率小于20HZ的称为亚音信号,20HZ-20KHZ称为音频信号,高于20KHZ称为超声波。

2.声音信号的数字化

声音信号是一种模拟信号,计算机要对它进行处理,必须将它转换成为数字声音信号,即用二进制数字的编码形式来表示声音,最基本的声音信号数字化方法是取样-量化法

(1)      采样。就是把连续的模拟信号转换成时间离散、幅度连续的信号,在某些时刻获取声音信号幅度值叫做采样,由让这些特定时刻采样得到的信号称为离散时间信号,一般都是每隔相等的一小段时间采样一次,其时间间隔称为取样周期,它的倒数称为采样频率,一般语音信号的采样频率一般为8KHZ,音乐信号的采样频率则就在40KHZ以上,采样频率越高,可恢复的声音信号分量越丰富,其声音的保真度越好。

(2)      量化。量化处理是把在幅度上连续取值的每一个样本转换为离散值表示,因此量化过程也称为A/D转换,量化后的样本是用二进制数来表示的,二进制数位的多少反映了度量声音波形幅度的精度,称为量化精度,也称为量化分辨率。量化精度越高,声音质量越好,需要的存储空间也越多。‘

(3)      编码。经过采样和量化处理后的声音已经是数字形式了,但为了便于计算机的存储、处理和传输,还必须按照一定的要求进行数据压缩和编码,即选择某一种或几种方法对它进行数据压缩,以减少数据量,再按照某种规定的格式将数据组织成为文件。


3.声音的表示

计算机中的数字声音有两种表示方法:波形声音(自然声音)和合成声音

波形声音:取样和量化而获得的。

合成声音:使用符号对声音进行描述,然后通过合成的方法生成声音,如MIDI音乐

4.波形声音

数据传输率(b/s=采样频率(HZ*量化位数(b*声道数

声音信号数据量=数据传输率*持续时间/8

例:语音信号的带宽通常为300-3400KHZ,若量化精度为8位,单声道输出,计算每秒钟及每小时的数据量。

采样频率*量化位数*声道数=8KHZ*8b*1=64Kb/s=8KB/s 

则每小时的数字语音的数据量大约是28MB;

就是64*3600/8=28800KB;

数字波形声音数据量非常大,因此在编码的时候常常采用压缩的方式来压缩数字数据以减少存储空间和提高传输效率,一个好的数据压缩算法通常就能满足就能满足下列需求。

(1)      压缩倍数高,压缩扣的数据率低

(2)      解码后的信号失真小,质量高

(3)      算法简单,执行速度快,延迟时间短

(4)      编码器的成本低

从原理上可分为如下三类

(1)      波形编码。这是一种直接对取样、量化后的波形进行压缩处理的方法,

(2)      参数编码。这是一种基于声音生成模型的压缩方法

(3)      混合编码。波形编码虽然可提供高质量的语音,但数据率比较高,很难低于16Kb/s,混合编码是上述两种方法的结合,它既能达到较高的压缩比,又能保证一定的质量。

数字语音压缩编码有多种国际标准,如G.711G..712等等。

5.声音合成

使用符号表示的,由计算机合成的声音,包括语音合成和音乐合成。

1) 语音合成

就是从文本到语音的合成,也称为文语转换,应预先建立语音参数数据库、发音规则库等。

原理:第一步:将文字序列转换成音的序列,

     第二步:再由语音合成器生成语音波形,如下图所示,

 

注意:第一步涉及语言学处理、如分词、字音转换等,第二步需要使用语音合成技术。

     从合成采用的技术来说,可分为:发音参数合成、声道模数合成和波形编辑合成。

(1)      发音参数合成。这种方法对人的发音过程进行直接模拟,它定义了唇、舌、声带的相关参数,合成语音质量目前不理想

(2)      声道模型参数合成,基于声道截面积函数或声道揩振特性合成语音。

(3)波形编辑合成。波形编辑合成技术是直接把语音波形数据库中的波形相互拼接在一起。其质量普遍高于 参数合成。

2)音乐合成

音乐是用乐谱进行描述,由乐器演奏而成的,乐谱的基本组成单元是音符,最基本的音符有7个,音乐与噪声的区别主要在于它们是否有周期性,乐音的波形随着时间作周期性变化,噪声则不然。电子乐器由如下两部分组成

(1)      演奏控制器。一种输入和记录实时乐曲演奏信息的设备,它的作用是像传统乐器那样用于演奏,驱动音源发声,

(2)      音源(音乐合成器)。音源是具体产生声音波形的部分,即电子乐器的发声部分,它通过电子线路把演奏控制器送来的乐音合成,最常用的音源有如下两类。

 数字调频合成器(FM)。FM是使高频振荡波的频率按调制信号规律变化的一种调制方式。

 PCM波形合成器。使用FM合成法来产生逼真的乐音是不理想的,

6.MIDI

MIDI(Musical instrument digital interface,乐器数字接口)泛指数字音乐的国际标准。

4.2.2声音文件格式

(1)Wace文件(.wav)Microsoft公司的音频文件格式,质量高,数据量大。

(2)Module 文件(.mod)存入乐谱乐曲…

(3)MPEG(.MP3)压缩率大,音质差

(4)RealAudio(.RA),还有MIDI文件(.mid/.rmi),Voice(.voc),Sound(.snd),Audio(.au)

AIEF(.AIF),CMF(.CMF)