通过本文,您可以了解Windows端语音数据处理的功能介绍。
场景
语音识别
阿里云的语音识别指的是将本地发布端或订阅端的音频数据转化为文字,实现流程如下:
- 阿里云RTC会将音频数据发送至音频识别SDK中。
- 音频识别SDK将音频数据发送至音频识别服务进行实时语音处理并返回识别结果。
- 音频识别SDK为用户提供识别结果。
方案架构图

调用时序图

接口及使用
通过继承AliRtcEventListener回调类,实现onAudioSampleCallback回调接收音频媒体数据,并根据业务场景使用相应的数据源。
onAudioSampleCallback:订阅的音频数据回调。
参数 | 类型 | 描述 |
---|---|---|
type | AliRtcAudioSource | 音频源类型 |
audioSample | AliRtcAudioDataSample * | 音频数据 |
AliRtcAudioSource:音频裸数据源类型。
枚举名 | 描述 |
---|---|
AliRtcAudiosourceRawData | 本地采集的原始音频数据。 |
AliRtcAudiosourcePub | 经过音频3A处理后的音频数据。 |
AliRtcAudiosourceSub | 当前订阅到的远端用户混音后的音频数据。 |
语音数据处理
RTC获取音频数据方式如下:
语音服务操作,详细请参见:智能语音交互。
在文档使用中是否遇到以下问题
更多建议
匿名提交