语音识别开放化开发平台有哪些?

语音识别开放化开发平台有哪些?,第1张

商业化的语音交互平台:

1)微软Speech API微软的Speech API(简称为SAPI)是微软推出的包含语音识别(SR)和语音合成(SS)引擎的应用编程接口(API),在Windows下应用 广泛。目前,微软已发布了多个SAPI版本(最新的是SAPI 54版),这些版本要么作为于Speech SDK开发包发布,要么直接被包含在windows 操作系统中发布。SAPI支持多种语言的识别和朗读,包括英文、中文、日文等。

2)IBM viaVoiceIBM是较早开始语音识别方面的研究的机构之一,早在20世纪50年代末期,IBM就开始了语音识别的研究,计算机被设计用来检测特定的语言 模式并得出声音和它对应的文字之间的统计相关性。1999年,IBM发布了VoiceType的一个免费版。2003年,IBM授权ScanSoft公司拥有基于ViaVoice的桌面产品的全球独家经销权,随后ScanSoft与Nuance合并,如今viaVoice早已淡出人们的视线,取而代之的是Nuance。

3)NuanceNuance通讯是一家跨国计算机软件技术公司,总部设在美国马萨诸塞州伯灵顿,主要提供语音和图像方面的解决方案和应用。目前的业务集中 在服务器和嵌入式语音识别,电话转向系统,自动电话目录服务等。Nuance语音技术除了语音识别技术外,还包扩语音合成、声纹识别等技术。世界语音技术市场,有超过80%的语音识别是采用Nuance识别引擎技术, 其名下有超过1000个专利技术,公司研发的语音产品可以支持超过50种语言,在全球拥有超过20亿用户。苹果的iPhone 4S的Siri语音识别中就应用了Nuance的语音识别服务。

4)科大讯飞科大讯飞作为中国最大的智能语音技术提供商,在智能语音技术领域有着长期的研究积累,并在中文语音合成、语音识别、口语评测等多项 技术上拥有国际领先的成果。占有中文语音技术市场60%以上市场份额,语音合成产品市场份额达到70%以上。

5)其他其他的影响力较大商用语音交互平台有谷歌的语音搜索(Google Voice Search),百度和搜狗的语音输入法等等。

百度语音识别为开发者提供业界优质且免费的语音服务,通过场景识别优化,为车载导航,智能家居和社交聊天等行业提供语音解决方案,准确率达到90%以上,让您的应用绘“声”绘色百度也在做语音技术,现在已经完全免费开放了语音识别和语音合成技术,个人开发者都可以免费的使用。由吴恩达带领的百度大脑团队,也在为语音识别、语音合成等技术提供支持,百度的语音技术在未来不容小觑。科大讯飞是国内语音产业的先行者,应用领域从军用到民用,包括移动互联网、教育、车联网、智能家居等。讯飞提供语音云,支持多种方言,国内大部分应用的语音识别功能都是用了讯飞的接口,如高德地图。百度、搜狗、腾讯等互联网公司也有自家的语音识别技术,依托自身丰富的用户资源和数据,发展迅速。从语音识别技术上来说,上面提到的公司用的都是深度神经网络(DNN)算法,降噪方面可能有所差异,更多的差异是在语料库,讯飞经过多年的积累,已经有了丰富的语料库,当然那些互联网公司的大数据也不容小觑。从个人体验来说,目前讯飞在方言识别上是最出色的,标点符号根据停顿和语义自动给出。

要说离线语音识别和在线语音识别有什么区别哪个更好用?,我想最好结合着使用场景和使用条件来衡量;因为离线语音识别和在线语音识别各有利弊,具体如下:

a 离线语音识别

优势

1、响应速度快(02S以下),可快速响应对应命令词指令;

2、不需要网络,不需要APP;

3、语音识别功能在出现故障的情况,不会影响产品其他功能的使用;

4、用户不用担心其他谈话内容会被录音上传到云端;

5、模块体积小,工程师画板方便。

劣势: 1、命令词固定,且词条数和词条长度会被限制; 2、项目较在线方案开发周期偏久,毕竟量产的离线语音产品都需要重新录词并在服务器上训练。

b 在线语音识别

优势:

1、消费者使用方便,不限制命令词;

2、厂商开发方便,市场方案很多选择,BAT巨头都有玩云。

劣势:

1、需要联网,对接云端;

2、响应速度慢;

3、成本较高。

推荐DF家卖的一款Gravity:I2C语音识别模块 ,无需机器学习,识别率高达95%;中文语音识别,兼容主流控制器如:单片机、esp32、arduino、树莓派、microbit、掌控板等;

DABAN RP主题是一个优秀的主题,极致后台体验,无插件,集成会员系统
网站模板库 » 语音识别开放化开发平台有哪些?

0条评论

发表评论

提供最优质的资源集合

立即查看 了解详情