全部产品

版本说明

更新时间:2021-04-07 10:16:25

本文介绍了智能语音交互产品发布后的更新情况。

2021年3月23日

功能分类

功能名称

功能描述

更新类型

文档链接

语音合成

新增离线语音合成

离线语音合成能力发布。

新增

离线语音合成

新增超高清合成声音

新增超高清声音:知琪、知厨。

新增

长文本语音合成

新增合成声音

  • 新增发音人:粤语女声佳佳、粤语女声桃子、日语男声智也、日语男声智香、美式英语Annie、印尼语女声Indah。

  • 文学场景资讯声音:艾笑、艾树、艾茹、艾倩。

  • 直播场景:柜姐、Stella等。

新增

语音合成

提升个性化人声定制算法

个性化声音合成相似比例提升8.3%,badcase 比例由30.22%下降至0.8%,整体出包时间加速3倍。

优化

个性化人声定制

优化停顿控制

整体升级前端停顿模型,增加后处理规则,客服、小说、新闻、百科等领域的不可接受率有显著的下降。

优化

词典及数字符号正则化规则修复

  • 增加词条,如:“䶮(yan3),熀(huang3)”。

  • 修复中文多音字的合成发音问题,如:“新冠肺炎、新冠病毒、新冠疫苗”等。

  • 优化数字符号正则化规则,如:“新增对罗马数字1到10的大小写”。

  • 增加英式及美式英语部分词条,如:“EB病毒,iOS”。

  • 印尼语正则化规则及词典更新。

修复

语音识别

中文普通话模型

提升生僻字识别效果;提升8k-通用-电话客服模型对小音量语音的识别效果。

优化

中文普通话模型(升级版)

  • 提升噪音场景下识别效果。

  • 提升生僻字识别效果。

  • 提升普通话中混杂的口音的识别效果。

  • 提升对鬼畜音频的识别效果,减少识别结果中的异常重复现象。

  • 提升直播场景下中英混读的识别效果。

优化

录音文件识别(包括极速版)增加对音频通道选择的参数

对于多通道文件,用户可通过参数指定需要转写的通道,可略过不需要转写的通道以节省成本。

新增

录音文件识别

录音文件识别(包括极速版)增加语义断句功能

可通过参数控制是否开启语义断句功能。

新增

录音文件识别

产品文档更新

  • 关于方言,口音,增加更多通俗易懂的说明。

  • 增加产品应用视频。

  • 增加录音文件识别调用QPS的相关说明。

新增

语音识别

2020年11月27日

功能分类

功能名称

功能描述

更新类型

相关文档

语音识别

录音文件识别极速版

录音文件识别极速版支持全场景的语音识别模型,管控台支持录音文件识别极速版的调用量查询。

新增

录音文件识别极速版

语音识别对WAV文件的支持优化

优化ASR对WAV文件的支持。支持更多格式的WAV文件头,减少文件头对识别结果的影响。

优化

录音文件识别极速版超时

录音文件识别极速版使用16k模型进行8k语音识别时没有直接返回错误,导致超时断开的问题。

修复

访问令牌

令牌生成机制优化

改进令牌生成机制,增加令牌有效期,避免原有“每24小时更新令牌”机制下,可能造成的请求失败发生。

优化

获取Token

2020年8月23日

功能分类

功能名称

功能描述

更新类型

相关文档

语音合成

语音合成新增资源和场景配置

  • 语音合成的SSML增加资源标签,可解析“多模态交互使用的离线资源”,并可取代时间戳中每个字的位置信息。

  • 语音合成的RESTful接口支持在管控台配置说话人、音量、语速和语调参数功能,方便接口调参配置。

  • 语音合成新增文学场景发音人:艾楠、艾颜、艾浩、艾茗,为您提供更多选择。

新增

语音合成

语音识别

实时语音识别断句时长优化

实时语音识别默认最大断句时长由60秒缩短至15秒,方便您进行相关接口调用。

优化

实时语音识别

语音识别通用模型和客服质检问题修复

  • 语音识别16k中文通用模型,改善语音活动检测(Voice Activity Detectio)效果,解决纯静音数据误检出语音的问题。

  • 语音识别8k中文客服质检/8k英文客服质检/16k韩语模型:语言模型常规更新,修复部分识别有误的场景。

修复

语音识别

2020年7月23日

功能分类

功能名称

功能描述

更新类型

相关文档

自学习训练

自学习模型开发免费使用

自学习模型全面开放免费使用,为您提供零成本个性化语音定制服务,助力业务创新。

新增

自学习平台

自学习平台训练流程

  • 新增推荐最佳基线模型,方便您进行训练。

  • 结合自动化测试,增加模型可量化的测试指标结果

新增

自学习平台

语音合成

长文本语音合成

长文本Restful接口集成字幕能力对外正式发布,官网开发文档上线。

新增

长文本语音合成

SDK

上线Android/iOS双端新版SDK

  • Android SDK体积减少34.6%、iOS SDK体积减少17.5%,经历日亿次调用次数考验,稳定性极强。

  • 完善SDK的状态管理(开/关音频、数据推送等),您可以专注业务实现而无需进行复杂的状态与线程管理。

  • 与全链路解决方案保持接口一致。后续可无缝对接唤醒、声纹、对话理解、离线语音合成等智能语音交互场景。

优化

语音识别

语音识别问题修复

英文后处理效果优化,解决部分情况下,启用标点后识别结果格式错误的问题。

修复

2020年7月9日

功能分类

功能名称

功能描述

更新类型

相关文档

语音识别

语音识别模型优化

一句话识别/实时语音识别/录音文件识别8K音频采样率的英文识别模型更新,在通用测试集字识别准确率没有下降的情况下,提升模型口音覆盖的广度,同时在语言模型上更加通用。

优化

语音识别

语音合成

语音合成模型修复

  • Abby(发音人名称):降低漏字率。

  • Wendy(发音人名称):解决较长文本合成不稳定的问题。

  • 英文场景:解决英文文本出现非标空格导致单词解析失败的情况,提高单词识别准确率。

  • 中文场景:修复多音字和分词问题。

修复