廉价的语音技术

2024-07-08 10:49:02 224人阅读

语音和图像、视频一样，是人与人之间沟通的交流方式。

语音信号处理是一门综合性的学科，它与语音学、心理学、数字信号处理、计算机科学、模式识别等有着密切联系。

语音技术一般可以分为三大类：

1.人与人之间的通信：语音增强、语音编码、语音通信、VOIP等　　

简单的说，以网络为载体，实现人与人之间的语音通信，涉及到语音前端去噪，增强，语音压缩编码等。

语音增强、语音去噪等，主要解决的是前端问题，单纯的语音、音频处理技术主要应用在嵌入式方向。

语音编码，做标准的很少，单纯做算法的也很少。主要需求集中围绕着具体的芯片在代码和性能做底层汇编优化，一般很少能涉及到算法的优化。

VOIP、语音通信主要对网络协议等需求更多一些，VOIP和传统移动语音通信相比，主要体现在价格上的优势，通话质量上和传统相比还是有一定差距。现在移动运营商的收益也在逐渐减低，当价格上有所调整时，VOIP估计也很难生存了。

这一类岗位主要集中在芯片类、通信类、语音类、嵌入式、少数互联网公司：高通、联发科、展讯、科大讯飞、华为、思科、爱立信、哈曼、创新科技、微软Skype、腾讯等。

2.语音合成：

简单的说，机器说话给人听，代替人把相关的信息绘声绘色的念出来。

3.语音识别和理解：

简单的说，人说话，机器能够听懂，能够按照人说的内容和指示，代替人完成相关的操作。相关的还有说话人识别、情感识别、语种识别、语音测评、语义理解等。

行业现状：

传统的语音公司：Nuance、科大讯飞、捷通华声等。

传统的软件类公司：微软、IBM等。

互联网公司：云知声、百度等。

一方面语音识别是最难的语音技术，它包含了许多个模块技术，门槛很高，这一类的人才更加稀少。

首先，必须要准备好大量的语音库，做好训练和识别。

其次，就算你只深入到语音识别的某一项技术，首先必须搭建一整套识别流程来检测实验的效果。

再者，基本上各个模块都能影响到识别率，所以也必须要熟悉这些模块。

最后，还有更难的技术还在等着你，中文分词、语言模型的训练和建立、以及后期的自然语言处理、语义识别、云端服务等。

另一方面，目前语音识别盈利模式还不是很明朗，所以也决定了投入这一块的人力也很稀缺。

早期做这一块的微软和IBM基本上也不靠这个盈利，Nuance的赢利点主要在车载、医疗转录等，最后也是与苹果合作，做了款SIRI，火了一把。

国内的科大讯飞，在识别方向盈利也很低。

http://www.huxiu.com/article/9885/1.html

该公司的营收主要依靠传统业务如普通话测评、英语测评、呼叫中心、嵌入式语音导航和毛利率很低的信息工程业务。

所以“科大讯飞”、云知声正在朝着平台开放的路径去开拓产品，将语音技术融入到互联网当中。

总而言之，语音技术做好真的很难，它也真的很廉价，它将何去何从？

声明：以上内容来自用户投稿及互联网公开渠道收集整理发布，本网站不拥有所有权，未作人工编辑处理，也不承担相关法律责任，若内容有误或涉及侵权可进行投诉：投诉/举报工作人员会在5个工作日内联系你，一经查实，本站将立刻删除涉嫌侵权内容。

联系
我们