随着智能硬件的迅速发展,以及对语音交互的迫切需求,我们设计了具有全链路语音能力的NUI(Natural User Interaction)SDK。SDK聚合了端&云语音核心算法能力,包括远场信号处理、语音唤醒、语音识别、语义理解及语音合成等语音交互全链路模块。通过十分简单的接口,快速完成对产品的语音赋能。
目前提供的prebuilt SDK仅适用于炬芯ATS3605D芯片定制Linux系统软件环境,使用双路数据及一路参考声道(总共三路)作为输入,算法效果仅在特定设备上有效,其他芯片支持敬请期待。
功能简介
需要说明的是,NUI SDK不同于智能语音交互通用SDK(一句话识别、实时识别、语音合成、长文本语音合成),其主要用在如智能音箱、儿童教育故事机、语音IoT家电等需要远近场语音交互的智能硬件设备端。和智能语音交互通用SDK比,NUI SDK提供了一套完整的端到端远场语音解决方案。
设备端语音交互SDK特性
远场信号处理
在远场语音交互场景中,智能设备通常要面对设备回声、人声干扰、环境噪声、房间混响等诸多不利声学因素的影响。NUI SDK提供了一套音频前端系统来对原始音频进行增强,提高目标信号的信噪比和语音可懂度,从而提升人机/人人交互的用户体验。
语音唤醒
支持定制词语的唤醒模型。当SDK检测到有人说出该词后,便抛出唤醒信号。唤醒服务支持多个唤醒词和命令词,从唤醒词录制到模型训练完成大约需要2~3周时间。
人声检测
为了节约设备计算资源、减少端侧功耗,NUI SDK自建人声检测功能,只有通过人声检测的音频才会发送给云端进行语音识别。
在线语音识别
对时长较短(一分钟以内)的语音进行识别。适用于较短的语音交互场景,如语音搜索、语音指令、语音短消息和语音对话等。
在线语音合成
语音合成服务,通过先进的深度学习技术,将文本转换成自然流畅的语音。多种音色可供您选择,并提供调节语速、语调和音量等功能。
NUI SDK与其他原子SDK区别
对比项 | 语音识别SDK(含一句话识别、实时语音识别和录音文件识别) | 语音合成SDK(含语音合成、长文本语音合成) | NUI SDK |
---|---|---|---|
打断唤醒能力 | × | × | √ |
远场降噪 | × | × | √ |
命令词&快捷词 | × | × | √ |
人声检测 | × | × | √ |
语音识别 | √ | √ | √ |
语音合成 | √ | √ | √ |
计费方式 |
| 按调用次数或字数计费。 | 按激活台数计费。 |
服务地址
访问类型 | 说明 | URL |
---|---|---|
外网访问 | 所有服务器均可使用外网访问服务URL(SDK中默认设置了外网访问URL)。 | wss://nls-gateway.cn-shanghai.aliyuncs.com/ws/v1 |
交互状态机
交互系统分为4个状态,分别为:
UNINIT:未初始化状态(默认状态)。
STOP:暂停状态。SDK初始化后处于STOP状态。
IDLE:待机状态。该状态接收语音输入可以进行语音唤醒,当发生唤醒事件后SDK仍然处于IDLE状态,可以通过interactive接口直接切换至INTERACTIVE状态。
INTERACTIVE:识别状态。该状态可以接收音频输入,当识别结束或者识别出错则会自动切换至IDLE状态。
每个状态的交互特性如下表所示。
特性 | UNINIT | STOP | IDLE | INTERACTIVE |
---|---|---|---|---|
是否接收外部音频输入 | 否 | 否 | 是 | 是 |
是否可唤醒 | 否 | 否 | 是 | 是 |
是否可进行语音识别 | 否 | 否 | 否 | 是 |
在文档使用中是否遇到以下问题
更多建议
匿名提交