通过本文,您可以了解iOS和Mac端语音数据处理的功能。
场景
语音识别
阿里云的语音识别指的是将本地发布端或订阅端的音频数据转化为文字,实现流程如下:
- 阿里云RTC会将音频数据发送至音频识别SDK中。
- 音频识别SDK将音频数据发送至音频识别服务进行实时语音处理并返回识别结果。
- 音频识别SDK为用户提供识别结果。
方案架构图

调用时序图

接口及使用
通过调用接口subscribeAudioData得到回调数据,从回调接口onAudioSampleCallback获取音频数据,并根据业务场景使用相应的数据源。
onAudioSampleCallback接口参数如下:
参数 | 类型 | 描述 |
---|---|---|
audioSource | AliRtcAudioSource | 音频裸数据源类型 |
audioSample | AliRtcAudioDataSample * | 音频裸数据 |
AliRtcAudioSource音频裸数据源类型说明如下:
枚举名 | 描述 |
---|---|
AliRtcAudiosourcePub | 推流音频数据 |
AliRtcAudiosourceSub | 拉流音频数据 |
AliRtcAudiosourceRawData | 采集音频裸数据 |
AliRtcAudiosourceVolume | 音量 |
说明 采集音频裸数据为本地采集的原始音频数据,推流音频数据为经过音频3A处理后的音频数据。
AliRtcAudioDataSample音频裸数据说明如下:
参数 | 描述 |
---|---|
dataPtr | 裸数据 |
numOfSamples | 音频样本点数 |
bytesPerSample | 量化位数 |
numOfChannels | 声道数 |
samplesPerSec | 采样率 |
语音数据处理
RTC获取音频数据方式如下:
语音服务操作,详细请参见:智能语音交互。
在文档使用中是否遇到以下问题
更多建议
匿名提交