通过 WebSocket 连接进行实时文本转语音,支持双向流式通信。
连接方式:
ws://host/v1/tts/realtime 或 wss://host/v1/tts/realtime(安全连接)Authorization: Bearer YOUR_API_KEY header 进行认证消息格式:
所有消息均为 JSON 格式,包含 type 字段标识消息类型
客户端发送的消息类型:
init: 初始化消息(连接后必须首先发送)
voice_id (必需): 语音IDlanguage (可选): 语言代码format (可选,默认: mp3): 音频格式 (mp3, wav, ogg, pcm, webm)sample_rate (可选,默认: 16000): 采样率speed (可选,默认: 1.0): 语速 (0.5-2.0)pitch (可选,默认: 0): 音调 (-12到12半音)volume (可选,默认: 1.0): 音量 (0.0-1.0)voice_config (可选): 语音特定配置text: 文本数据消息
text (必需): 文本内容is_final (可选,默认: false): 是否为最后一个文本片段服务端发送的消息类型:
ready: 连接就绪确认
request_id: 请求IDvoice_id: 语音IDformat: 音频格式sample_rate: 采样率audio: 音频数据
data: Base64编码的音频数据is_final (可选): 是否为最后一个音频数据块error: 错误消息
error: 错误描述code: 错误代码request_id: 请求ID详细说明请参考 API 设计文档
使用 Bearer Token 进行认证,Token 为 API Key
协议升级为 WebSocket