通过 WebSocket 连接进行实时语音转文本,支持双向流式通信。
连接方式:
ws://host/v1/stt/realtime 或 wss://host/v1/stt/realtime(安全连接)Authorization: Bearer YOUR_API_KEY header 进行认证消息格式:
所有消息均为 JSON 格式,包含 type 字段标识消息类型
客户端发送的消息类型:
init: 初始化消息(连接后必须首先发送)
language (可选): 语言代码format (必需): 音频格式 (pcm, mp3, wav, ogg 等)sample_rate (必需): 采样率(特别是 PCM 等原始格式需要指定)enable_timestamps (可选): 是否返回时间戳enable_confidence (可选): 是否返回置信度enable_speaker_diarization (可选): 是否启用说话人识别keywords (可选): 关键词列表custom_vocabulary (可选): 自定义词汇列表audio: 音频数据消息
data (必需): Base64编码的音频数据块服务端发送的消息类型:
ready: 连接就绪确认
request_id: 请求IDlanguage: 语言代码format: 音频格式sample_rate: 采样率partial: 部分识别结果(流式输出,中间结果)
text: 部分识别的文本final: 最终识别结果(流式输出,最终结果)
text: 最终识别的文本confidence: 置信度(如果启用)start_time_ms: 开始时间(毫秒)end_time_ms: 结束时间(毫秒)words: 词级别信息数组(如果启用)speakers: 说话人信息数组(如果启用说话人识别)error: 错误消息
error: 错误描述code: 错误代码request_id: 请求ID详细说明请参考 API 设计文档
使用 Bearer Token 进行认证,Token 为 API Key
协议升级为 WebSocket