🧲GLM 系列音频模型总结:输入、输出与文件格式全解析

type
Post
status
Published
date
Feb 16, 2026
slug
summary
category
技术分享
tags
LLM
icon
password
AI summary
Blocked by
Blocking
Category

智谱 GLM 系列音频模型

智谱音频模型家族主要分为以下独立模型(不同 model 字符串,不同端点/能力):
  • GLM-ASR-2512:语音 → 文本(高精度多语言/方言识别)
  • GLM-TTS:文本 → 语音(预设音色,情感超自然合成)
  • GLM-TTS-Clone:音色克隆 + 文本 → 个性化语音(3 秒样本复刻)
  • GLM-Realtime / GLM-4-Voice:实时对话模型(端到端语音交互,非纯 TTS/ASR)
体验地址:https://audio.z.ai/(主要展示 GLM-TTS & GLM-TTS-Clone 的合成与克隆效果)

1. GLM-ASR-2512 —— 语音 → 文本

输入核心
一段短音频(说话内容转文字)
端点 & 请求
POST <https://open.bigmodel.cn/api/paas/v4/audio/transcriptions>
multipart/form-data
关键参数
  • model: "glm-asr-2512"(必填)
  • file: 音频文件(@路径)
  • stream: true(SSE 流式逐句) / false(默认,一次性)
格式 & 限制
  • 支持:.wav、.mp3 等常见格式
  • 限制:≤ 30 秒,≤ 25 MB
  • 采样率/位深:自动适配(推荐 16kHz/16bit/单声道)
输出
  • 非流式:单个 JSON 对象
  • 流式:SSE 事件流(逐段 text)
  • 核心字段:"text"(转录字符串,中文 CER 仅 0.0717,极高精度)
  • 附加:createdidusage
数据格式
纯 UTF-8 文本字符串(嵌入 JSON),无音频输出。
典型场景
会议纪要、短视频字幕、语音输入、多语言/方言转录。

2. GLM-TTS —— 文本 → 标准预设音色语音

输入核心
待合成文本 + 预设音色
端点 & 请求
POST <https://open.bigmodel.cn/api/paas/v4/audio/speech>
application/json
关键参数
  • model: "glm-tts"
  • input: 文本字符串
  • voice: 预设音色(彤彤/tongtong(默认)、小陈、锤锤、jam、kazi、douji、luodo 等;或简化如 "female")
  • speed: 0.5–2.0(默认 1.0)
  • volume: 默认 1.0
  • stream: true/false
  • response_format: "wav"(默认,非流式) / "pcm"(流式强制)
  • encode_format: "base64"(pcm 流式时)
输出
  • 非流式:HTTP Body 为完整音频二进制
  • 流式:SSE,每 chunk data: {"content": "base64 PCM 片段", "return_sample_rate": 24000, ...}
  • 首帧延迟:≤ 400ms
  • 核心:PCM 波形数据
音频格式科普
format
容器/类型
头部
流式编码
规格
使用建议
wav
WAV (RIFF 容器)
无需
24kHz, 16bit PCM, 单声道
非流式,保存/播放最通用
pcm
裸 PCM 序列
base64
24kHz, 16bit, 单声道
流式实时播放,低延迟首选
一句话:无损 PCM 数据,要么封装 WAV(带头部,便于文件使用),要么裸 PCM + base64 分片(实时低开销)。
典型场景
播报、配音、有声书、客服语音。

3. GLM-TTS-Clone —— 音色克隆 + 个性化语音合成

输入核心
文本 + 已克隆音色(通过 GLM-TTS-Clone 创建)
端点 & 请求
  • 克隆创建:单独接口(上传 3 秒音频 → 获取 voice_name 或 ID)
  • 合成:同 GLM-TTS 端点 /audio/speech,但 model="glm-tts-clone" 或 GLM-TTS + 自定义 voice_name
关键参数(合成阶段)
  • voice_name: 自定义音色名称(如 "my_custom_voice_001")
  • 其余同 GLM-TTS(input、speed、stream、response_format 等)
输出
完全同 GLM-TTS:wav 或 pcm(流式 base64)
克隆流程科普
  1. 上传 3–10 秒清晰参考音频 → GLM-TTS-Clone 接口创建音色 → 获得 voice_name
  1. 合成时传入该 voice_name,即复刻音色、语气、节奏、口音(支持普通话 + 轻口音)
  1. 情感表达强,适配对话/讲解/旁白等多种风格。
典型场景
虚拟人、个性化客服、有声书、角色配音。

4. 实时对话模型(GLM-Realtime & GLM-4-Voice)—— 非纯 TTS/ASR

  • GLM-Realtime:WebSocket (wss://.../realtime) 多模态实时通话(音频/视频/文本输入 → 音频输出),支持打断、唱歌、视频理解、2 分钟记忆。纯音频模式下可实现实时“边听边说”。
  • GLM-4-Voice:端到端语音对话(chat completions 接口,model="glm-4-voice"),输入文本/音频 → 输出音频,支持情感/语调/方言/语速调节,中英双语实时交互。
输出格式:PCM 音频(base64 delta 片段,24kHz 单声道)
一句话:它们是“对话级”模型(集成 ASR + TTS + 推理),适合实时交互,而非独立合成/转录。

快速对比表(核心模型)

模型
输入本质
输入格式
核心输出
输出格式选项
个性化/克隆
端点类型
典型场景
GLM-ASR-2512
短音频
multipart/form-data
文本
JSON text
/transcriptions
转录、字幕、语音输入
GLM-TTS
文本 + 预设音色
JSON
PCM 波形
wav / pcm (base64 流式)
预设音色
/speech
播报、配音、有声书
GLM-TTS-Clone
文本 + 自定义音色引用
JSON
PCM 波形(克隆)
同上
3秒克隆
/speech + 克隆接口
虚拟人、个性化语音
GLM-Realtime
实时音频/视频/文本
WebSocket
实时音频
PCM delta (base64)
对话级动态
wss realtime
实时通话、唱歌、打断交互
GLM-4-Voice
文本/音频 + 指令
Chat completions JSON
实时音频
Base64 WAV/PCM
提示调节情感
chat completions
角色陪伴、英语学习、智能导游
 
Prev
读「阿里巴巴管理三板斧」
Next
超大规模MaaS System Design
Loading...
Article List
如果去做,还有一丝希望;但是不去做,就毫无希望
个人总结
技术分享
LLM
k8s
knative
agentic
istio
HAMI
Golang
转发
计算机网络
Redis
MySQL
Mysql