首页 > 代码库 > 语音交互技术——语音基础
语音交互技术——语音基础
语音技术是研究用数字信号处理技术和机器学习方法对语音信号进行处理的一门学科。语音技术的目的: 得到某些参数以便高效传输或存储;或者是用于某种应用,如人工合成出语音、辨识出讲话者、识别出讲话内容、进行语音增强等。
语音编码:在保持可以接受的失真的情况下,采用尽可能少的比特数表示语音。脉冲编码调制(PCM)、自适应预测编码、自适应变换编码、线性预测编码、线性预测声码器、共振峰声码器、相位声码器。
语音识别(ASR):把声音变成文字(耳朵的功能),相当于给机器装上了人工的耳朵。孤立词识别技术、连续语音识别、关键词识别技术、话者识别技术。
语音合成(TTS):把文字变成声音(嘴巴的功能);相当于给机器装上了人工的嘴巴。语音应答系统、自动报站、信息查询、语言学习软件、TTS(Text to Speech)技术。
语音参数:基频(音高,发浊音时声门振动频率,男60~200Hz,女:200~450Hz)、能量(音强)、过零率(单位时间信号过零点次数,清音高于浊音)、信噪比10lg(δx2/δe2)
声明:以上内容来自用户投稿及互联网公开渠道收集整理发布,本网站不拥有所有权,未作人工编辑处理,也不承担相关法律责任,若内容有误或涉及侵权可进行投诉: 投诉/举报 工作人员会在5个工作日内联系你,一经查实,本站将立刻删除涉嫌侵权内容。