🧲GLM 系列音频模型总结:输入、输出与文件格式全解析
type
Post
status
Published
date
Feb 16, 2026
slug
summary
category
技术分享
tags
LLM
icon
password
AI summary
Blocked by
Blocking
Category
智谱 GLM 系列音频模型
智谱音频模型家族主要分为以下独立模型(不同 model 字符串,不同端点/能力):
- GLM-ASR-2512:语音 → 文本(高精度多语言/方言识别)
- GLM-TTS:文本 → 语音(预设音色,情感超自然合成)
- GLM-TTS-Clone:音色克隆 + 文本 → 个性化语音(3 秒样本复刻)
- GLM-Realtime / GLM-4-Voice:实时对话模型(端到端语音交互,非纯 TTS/ASR)
体验地址:https://audio.z.ai/(主要展示 GLM-TTS & GLM-TTS-Clone 的合成与克隆效果)
1. GLM-ASR-2512 —— 语音 → 文本
输入核心
一段短音频(说话内容转文字)
端点 & 请求
POST <https://open.bigmodel.cn/api/paas/v4/audio/transcriptions>multipart/form-data关键参数
model: "glm-asr-2512"(必填)
file: 音频文件(@路径)
stream: true(SSE 流式逐句) / false(默认,一次性)
格式 & 限制
- 支持:.wav、.mp3 等常见格式
- 限制:≤ 30 秒,≤ 25 MB
- 采样率/位深:自动适配(推荐 16kHz/16bit/单声道)
输出
- 非流式:单个 JSON 对象
- 流式:SSE 事件流(逐段 text)
- 核心字段:
"text"(转录字符串,中文 CER 仅 0.0717,极高精度)
- 附加:
created、id、usage等
数据格式
纯 UTF-8 文本字符串(嵌入 JSON),无音频输出。
典型场景
会议纪要、短视频字幕、语音输入、多语言/方言转录。
2. GLM-TTS —— 文本 → 标准预设音色语音
输入核心
待合成文本 + 预设音色
端点 & 请求
POST <https://open.bigmodel.cn/api/paas/v4/audio/speech>application/json关键参数
model: "glm-tts"
input: 文本字符串
voice: 预设音色(彤彤/tongtong(默认)、小陈、锤锤、jam、kazi、douji、luodo 等;或简化如 "female")
speed: 0.5–2.0(默认 1.0)
volume: 默认 1.0
stream: true/false
response_format: "wav"(默认,非流式) / "pcm"(流式强制)
encode_format: "base64"(pcm 流式时)
输出
- 非流式:HTTP Body 为完整音频二进制
- 流式:SSE,每 chunk
data: {"content": "base64 PCM 片段", "return_sample_rate": 24000, ...}
- 首帧延迟:≤ 400ms
- 核心:PCM 波形数据
音频格式科普
format | 容器/类型 | 头部 | 流式编码 | 规格 | 使用建议 |
wav | WAV (RIFF 容器) | 有 | 无需 | 24kHz, 16bit PCM, 单声道 | 非流式,保存/播放最通用 |
pcm | 裸 PCM 序列 | 无 | base64 | 24kHz, 16bit, 单声道 | 流式实时播放,低延迟首选 |
一句话:无损 PCM 数据,要么封装 WAV(带头部,便于文件使用),要么裸 PCM + base64 分片(实时低开销)。
典型场景
播报、配音、有声书、客服语音。
3. GLM-TTS-Clone —— 音色克隆 + 个性化语音合成
输入核心
文本 + 已克隆音色(通过 GLM-TTS-Clone 创建)
端点 & 请求
- 克隆创建:单独接口(上传 3 秒音频 → 获取 voice_name 或 ID)
- 合成:同 GLM-TTS 端点
/audio/speech,但model="glm-tts-clone"或 GLM-TTS + 自定义voice_name
关键参数(合成阶段)
voice_name: 自定义音色名称(如 "my_custom_voice_001")
- 其余同 GLM-TTS(input、speed、stream、response_format 等)
输出
完全同 GLM-TTS:wav 或 pcm(流式 base64)
克隆流程科普
- 上传 3–10 秒清晰参考音频 → GLM-TTS-Clone 接口创建音色 → 获得 voice_name
- 合成时传入该 voice_name,即复刻音色、语气、节奏、口音(支持普通话 + 轻口音)
- 情感表达强,适配对话/讲解/旁白等多种风格。
典型场景
虚拟人、个性化客服、有声书、角色配音。
4. 实时对话模型(GLM-Realtime & GLM-4-Voice)—— 非纯 TTS/ASR
- GLM-Realtime:WebSocket (
wss://.../realtime) 多模态实时通话(音频/视频/文本输入 → 音频输出),支持打断、唱歌、视频理解、2 分钟记忆。纯音频模式下可实现实时“边听边说”。
- GLM-4-Voice:端到端语音对话(chat completions 接口,model="glm-4-voice"),输入文本/音频 → 输出音频,支持情感/语调/方言/语速调节,中英双语实时交互。
输出格式:PCM 音频(base64 delta 片段,24kHz 单声道)
一句话:它们是“对话级”模型(集成 ASR + TTS + 推理),适合实时交互,而非独立合成/转录。
快速对比表(核心模型)
模型 | 输入本质 | 输入格式 | 核心输出 | 输出格式选项 | 个性化/克隆 | 端点类型 | 典型场景 |
GLM-ASR-2512 | 短音频 | multipart/form-data | 文本 | JSON text | 无 | /transcriptions | 转录、字幕、语音输入 |
GLM-TTS | 文本 + 预设音色 | JSON | PCM 波形 | wav / pcm (base64 流式) | 预设音色 | /speech | 播报、配音、有声书 |
GLM-TTS-Clone | 文本 + 自定义音色引用 | JSON | PCM 波形(克隆) | 同上 | 3秒克隆 | /speech + 克隆接口 | 虚拟人、个性化语音 |
GLM-Realtime | 实时音频/视频/文本 | WebSocket | 实时音频 | PCM delta (base64) | 对话级动态 | wss realtime | 实时通话、唱歌、打断交互 |
GLM-4-Voice | 文本/音频 + 指令 | Chat completions JSON | 实时音频 | Base64 WAV/PCM | 提示调节情感 | chat completions | 角色陪伴、英语学习、智能导游 |
Prev
读「阿里巴巴管理三板斧」
Next
超大规模MaaS System Design
Loading...