语音云的讯飞语音开放介绍
近年来国内外IT巨头纷纷投入巨资加大对智能语音技术市场的争夺,科大讯飞作为亚太地区最大的语音上市公司,拥有全球领先的中文智能语音技术,多年来一直致力于研发将语音技术应用到千家万户,MSP(iFLY Mobile Speech Platform)便在此背景下诞生。通过MSP,移动互联网的终端用户可以随时随地的使用语音服务。语音技术带来品质生活,始终是MSP团队所坚持不懈的理念。
主要功能
iFLY Mobile Speech Platform(以下简称MSP)是一个应用于移动互联网的语音服务平台,其主要目标是:
1)实现可面向移动2G/3G网络及互联网提供语音服务的服务器,在现有科大讯飞电信级语音服务平台ISP基础上为移动终端应用程序提供多路并发的语音合成、语音识别、语音听写功能,通过架设在互联网的语音应用服务器,用户可以随时随地获得高质量的语音服务;
2)实现基于移动终端以及桌面平台的语音应用客户端,提供统一的语音应用开发接口,通过该接口用户可以方便、快速地开发语音应用;同时,MSP也将开放一些基于移动以及桌面平台的语音应用,用于展示MSP语音服务平台的功能和使用方法,让用户直接体验到最新的语音技术;
MSP最终提供了架构于互联网的语音云服务和一套移动互联网语音解决方案、应用示例,把语音服务的应用范围拓宽到移动互联网领域,为语音服务产品走向移动互联网市场开辟全新的应用模式。
MSP平台整合了科大讯飞研究院、中国科技大学讯飞语音实验室以及清华大学讯飞语音实验室在语音识别、语音合成等技术上多年的技术成果,语音核心技术上达到了国际领先水平。
MSP系统采用分布式架构,继承了科大讯飞成熟的电信级语音平台高稳定的特点,可以满足电信级应用的高可靠性、高可用性要求。针对传统语音应用集成开发困难,业务设计繁琐的问题,MSP产品大大简化了集成开发和业务开发的复杂度,为系统集成人员和业务开发人员提供了便捷、高效的开发环境。
MSP作为一个向互联网和移动互联网开放的语音引擎,提供了功能完善、简单易用的集成开发接口,以便开发人员能够将其与应用程序进行集成,实现具有完整语音能力的应用。MSP提供的主要开发接口从提供功能考虑可以分为语音识别(包含语音听写)、语音合成开发
接口和语音检测开发接口:
1)语音识别开发接口 语音识别接口(QISR)是应用开发者使用识别引擎和语音听写引擎进行语音应用开发所必需使用的接口,该接口接受用户输入的语音,把语音识别结果返回给应用程序。
2)语音合成开发接口 语音合成接口(QTTS)可以让应用开发者在应用程序中集成讯飞语音合成引擎的功能,该接口接受应用程序传入的文本内容,返回符合应用要求格式的音频数据。
3)语音检测开发接口 语音检测(VAD)是语音识别一个重要的输入环节,用于判断用户语音何时开始、何时结束,该接口集成在MSC客户端内部,通过QISR接口的参数来返回语音状态。
移动互联网应用程序需要使用在成千上万各式各样的用户终端之上,用户终端类型从非智能终端到智能终端、从手机到智能玩具、从PC到互联网电视,应用操作系统环境形形色色、品类众多。为了满足各类客户端操作系统环境上都能够使用讯飞语音云提供的语音功能,MSC为多种终端环境提供了语音开发接口,主要包含Android、iOS、Windows Phone、Windows、Linux、Java、Flash等。
基于讯飞语音云,第三方开发者可以通过集成SDK,轻松实现产品的语音能力,基于讯飞语音云诞生了一批有代表性的产品。
讯飞输入法
全球首创“蜂巢”输入模型,独家支持拼音、手写、语音“云+端”立体输入引擎。讯飞输入法,创造极致输入体验!
灵犀语音助手
由科大讯飞和中国移动共同打造的贴心生活小秘书,基于科大讯飞语音云、语义云,能够完美支持普通话及部分方言,更能深入理解用户的对话,智能的提供相应的服务。灵犀语音助手集打电话、发短信、设置提醒、音乐查找与播放、打开应用、餐饮美食、火车航班、查询天气、查询股票、查询酒店、查询话费流量等众多生活领域。
讯飞语音+
面向终端用户与开发者提供不同的功能。
终端用户提供的微信输入助手,通过语音在微信中直接快速输入文字,让你成为输入达人不再是梦!
面向开发者提供语音合成、语音识别、语音唤醒等能力,轻松集成,就能让你的应用实现能听会说。
用UT
UTalk是一款主要针对网络游戏用户和局域网游戏用户而开发的团队语音通信工具。 具有小巧、灵活、专业、全中文界面、上手简单等优点。即使在拨号上网情况下,也
能以极小的带宽占用,穿越防火墙,提供清晰高质的语音服务。UTalk也可用于商业或
者家庭的多人语音会议。
1支持多人同时语音交流,音质清晰流畅。
2软件小巧,占用资源低,主要操作均有语音提示,可在后台运行,完全不影响正常
游戏或者工作。
3支持UC号、新浪通行证直接登录。
4支持多种方式查找语音服务器:可通过服务器的ID、IP、关键字地区信息等条件查
找,也可以在收藏夹和最近登陆服务器快速找到自己常用的服务器。
5方便的好友体系:可以很方便的将频道中用户加为好友,随时文字或者语音交流。
6完善的管理体系:可设置多种不同级别的管理员,拥有不同权限,管理随心所欲。
7方便的服务器和频道管理:管理员可以对频道中的其它用户禁言、踢出,可以设置
服务器的禁止登陆或者允许登陆用户。
同时支持UTalk官方服务器和用户自架服务器:UTalk官方服务器支持用户自建频道用
于交流,同时,UTalk目前也免费提供服务器软件的下载,用户可以自己架设服务器,
并完全按照自己的需要来设置和管理。
下载地址:
http://utgamessinacomcn/down_clienthtml
垃圾再不要误导少年 听哥哥说: 你再打开游戏时 1右键在游戏图标上点击一下 2打开游戏目录 进入文件 然后3 关键 !! 打开LANGUAGE文件 继续 reZ 继续 seD2 进去之后可以看见两个文件一个是chinese english 将english这个文件复制后在前一步 粘贴 做个备份 删除原文件 继续工作 将chinese文件重新改名为english 然后改english 文件的名字为chinese然后将盖好的文件 放回他第一次的位置 就好了 哥哥的忠告 !!!!!!!!!!!!! 绝对牛Q 改完名后 进游戏 你会发现 和买了飞虎队没啥两样 ! 哈哈 感谢我
序言
随着人工智能命题的提出,近年来涌现出一大批基于人工智能的呼叫中心业务服务商和集成商,仅智能外呼这一模块儿就将近百家公司在推广和运营。可以说整个基于人工智能技术的市场开始蓬勃的发展起来了。
简单介绍一下什么叫做智能语音交互平台。其实大实话就是在呼叫中心基础上,集成 ASR、 TTS、的呼叫服务平台。
那么如何我们自己去搭建智能语音系统呢?
我们先列出搭建智能外呼系统的搭建需要那些技术和服务:
个人认为:
[if !supportLists]· [endif] 首先最重要的是交换机:
[if !supportLists]1 [endif]PBX也就是交换机,商用设备原厂包括像华为、Avaya、思科、东汇等这些生产硬件交换机,
[if !supportLists]2 [endif]还有就是目前FreeSitch、asterrisk、OpenPBX这些软件交换机。
[if !supportLists]· [endif] 其次是AI技术: 及包含语音识别、语义理解、语音合成这三种技术是核心组成部分。语音识别相当于人的“耳朵”,接进电话后,对人的话语进行处理转义成系统能够识别的数据交由系统处理去识别。在进一步的话,可以转义为文字。语义理解相当于人的"大脑",根据话语识别人的意图。语音合成,相当于人的”嘴巴“,识别人的意图之后,依照特定的回答方式,去回复和引导对话。
[if !supportLists]· [endif] 再者是前端服务平台:即用户登录、配置呼叫流程,建立呼叫任务、统计呼叫数据、导出呼叫报表的网站,这个是终端用户唯一可以看到并且操作的界面。
[if !supportLists]· [endif] 最后是外呼线路:其中包括三大运营商以及其他小型的集成线路供应商,主要目的是外呼电话或者是接入电话。
也有人可能有疑问:”智能语音交互系统最重要的不是人工智能么,和交换机有啥关系?”为什么说最重要的是交换机呢,原因是不管我们是外呼还是接入电话、都需要前端服务平台把外呼请求发送给交换机,通过外呼线路而拨出去。换句话说交换机是控制整体的外呼情况。硬件的交换机,比如说像华为的交换机,价格在大约几万到几百万不等的价格。对于想要建立自己的智能语音交互系统来说,价格对于一些小型公司来说承受不起,而FreeSitch这种软交换则大大方便了小型公司建立自己的智能语音交互系统。
什么是FreeSwitch?
FreeSitch是一个电话的软交换解决方案,包括一个软电话和软交换机用以提供语音和聊天的产品驱动。FreeSitch 可以用作交换机引擎、PBX、多媒体网关以及多媒体服务器等。支持多种通讯技术标准,包括 SIP, H323, IAX2 以及 GoogleTalk ,同时也可以方便的与其他开源的PBX系统进行对接。而且具有很强的伸缩性。旨在为音频、视频、文字或任何其他形式的媒体,提供路由和互连 通信协议 。
FreeSwitch 的典型功能
[if !supportLists]· [endif]在线计费、预付费功能。
[if !supportLists]· [endif]电话路由服务器。
[if !supportLists]· [endif]语音转码服务器。
[if !supportLists]· [endif]支持资源优先权和QoS的服务器。
[if !supportLists]· [endif]多点会议服务器。
[if !supportLists]· [endif]IVR、语音通知服务器。
[if !supportLists]· [endif]VoiceMail服务器。
[if !supportLists]· [endif]PBX应用和软交换。
[if !supportLists]· [endif]应用层网关。
[if !supportLists]· [endif]防火墙/NAT穿越应用。
[if !supportLists]· [endif]私有服务器。
[if !supportLists]· [endif]SIP网间互联网关。
[if !supportLists]· [endif]SBC及安全网关。
FreeSwitch最典型的功能是作为一个服务器,并用电话客户端软件连接到它。虽然FreeSwitch支持众多的通信协议,但其最主要的协议还是SIP,通过SIP中继发起会话协议。
使用FreeSwitch这种软交换的好处在于,你只需要一台服务器就可以随时搭建自己的外呼中心,而且FreeSwitch支持跨平台运行。能够原生运行Windows、Linux、BSD等诸多32/64位平台。
FreeSwitch内部使用线程模型来处理并发请求,每个连接都在单独的线程中进行处理,不同的线程间通过Mutex互斥访问共享资源,并通过消息和异步事件等方式进行通信。FreeSwitch本身是比较稳定的,它是比较优秀的开源软件。另一方面来讲,FreeSwitch又是比较激进的,它的开发分支里会有大量的新特性加入,因此在测试不全面的情况下,很容易出现不稳定的情况。而在用于生产环境的情况下,系统的稳定性是系统能否正常被使用的关键。之前我们在做项目的过程中,就遇到一些FreeSwitch不稳定的情况,导致外呼情况不理想。举一个例子:我们在进行测试外呼的时候,语音通话断断续续,虽然前端服务平台可以很好的接受到数据的传输,但是,真正在与人工进行沟通的时候,会出现各种各样的沟通障碍,为了解决这一个问题,我们花费了几个月的时间,去研究FreeSwitch的结构特性。终于把这个问题解决掉。我们的项目才得以继续推动,最终得以真正落地部署实施。
也有人可能有疑问:”FreeSwitch软交换虽然重要,但是既然是智能语音交互系统人工智能不重要吗?”,重要,当然重要!容我慢慢道来~
AI 技术
1 通信原理
先简单解释一下正常打电话这个流程
流程:A→PSTN→B
解释:PSTN是Public
Switched Telephone Network,意思为公共交换电话网络,也就是我们的运营商的网络电话,
那我们平时如何给呼叫中心比如打电话是如何打的?:个人A打电话给呼叫中心16 打电话,拨通后听到录音,您好,拨打人工台,请按0键,按键之后,出现盲音,真正接通之后,客服接通了电话。
流程:A→PSTN→PBX→IVR→客服
解释:PBX也叫交换机、相当于整个呼叫中心的出入口
IVR也叫互动/交互式语音应答,语音导航,也就是相当于咨询业务请按键,这一环节,根据业务去分流到客服。
智能语音交互平台(智能机器人)落实到具体具体业务场景是如何实现的:
如:”个人A要在某一个大型酒店预订位子“,
A拨通后先听到了声音,“您好,我是机器人小岳,需要我帮您订位子是吗?
个人A说,“我不要和机器人说话,找个真人来”。
然后听到录音,“为您转接很贵的真人客服,排队中,请稍后”。
几分钟后接通,真人客服接了电话。
流程:A→PSTN→PBX→IVR(TTS→ASR→NLP→TTS)→ACD→客服
解释:在IVR部分:不再需要提示按键,而是直接问来电方需要办理什么业务,然后识别语音、理解意图后,根据用户的需求,回答后转入对应的业务队列排队。
上边是接通的流程,呼出的流程与之相反,就不在赘述了。
2 现在市场上的AI技术的运用
目前市场上的不管是ASR、TTS、NLP都被阿里百度科大讯飞等巨头公司所占据,这些技术在国内基本已经成为定局。像ASR这类引擎市场上大部分都是用的阿里云和讯飞云的,要不就是百度云。阿里云和讯飞云的识别率高一些,可以达到97%左右、百度的差一些,识别率在80%左右,我们当初在做项目的时候选择ASR做过测试,事实证明阿里云识别率更高同时也可以识别方言。因此,我们在做项目的时候,当仁不让的选择了阿里云的
TTS我们选择的是讯飞的,选择的理由很简单,毕竟科大讯飞是人工智能领域巨头级的公司,质量当然有的保证。
3 AI 能力对接
在具体落地中,这个领域的常规参与者通常具备呼叫中心能力或者AI能力其中一种,而主要的对接点也就在于AI能力与呼叫中心设备去对接,而ASR/TTS与呼叫中心设备对接的常规协议主要是mrcp/sip。
媒体资源控制协议(Media Resource Control
Protocol, MRCP)是一种通讯协议,用于语音服务器向客户端提供各种语音服务(如语音识别和语音合成)。有两个版本的MRCP协议,版本2使用SIP作为控制协议,版本1使用RTSP。
实际对接的时候,会遇到不少技术问题,当我们ASR/TTS引擎做私有云部署,为了避免了内外网穿透时防火墙的诸多设置和语音流的时延。这在我们当时对接的时候也花费了好大一番功夫。
前端服务平台:
其中最重要的就是配置呼叫流程这一块儿了,
这一块儿很容易被忽视,但是这反而是可以出成绩的地方。一般来说一套最佳话术模板,可以以一敌万。心理学基础必须要有,一句话怎么说能让接电话的人最大概率的顺着自己的思路走,达成目的,从而形成特定细分领域机器人话术模板,得到最佳的外呼效果(接通率、通话时长、电销意愿、催收意愿)或者是接通效果(满意度)
其余的基本就是web端的东西了,具体功能点呢,即用户登录、配置呼叫流程,建立呼叫任务、统计呼叫数据、导出呼叫报表,这些功能点基本实现就可以,因为站在产品角度,产品最重要的价值就是可以呼通或者接通用户的电话,并且能够准确的识别用户的意图,并且准确的回答用户。这就是智能语音交互系统的最终目标,也一直是我们的最终目标。
外呼线路厂商:
一般如果是购买系统的话,是给提供线路的,只需交一些线路费用。如果是自己做项目的话,网上、淘宝上一大堆,费用可以谈,也给提供线路对接的接口。
结语
虽然现在市场上做智能语音交互系统的比较多,但一般只限于各个行业的电话销售,真正意义上的智能语音交互还是很少的。原因很简单,虽然原理不是很难但是真正落地实施的时候,遇到的困难非常的多,几乎是一步一个坑。好在现在已经真正的落地实施了,方方面面的效果都还是很不错的。一年多的辛苦没有白费。哈哈~
写这篇文章尝试给大家简单介绍一下智能语音交互系统,然才疏学浅,疏漏和不当之处在所难免,权当给大家抛砖引玉。
诸多细节限于主题和篇幅的要求不做详细记述,如有问题,欢迎随时交流。
0条评论