Forrest’s 博客

Ctrl+K

如果去做，还有一丝希望；但是不去做，就毫无希望

技术分享

🏅 Embedding Model

🧲 GLM 系列音频模型总结：输入、输出与文件格式全解析

⛓️ 阿里云核心服务概念梳理： FC / ECS /ECI / ACK /ACS

🧵 prometheus为代表的监控构建

📹 限流、熔断与降级：微服务高可用性的核心保障机制

🏹 kubebuilder 总结

🌚 版本控制规范

🕹️ kafka学习笔记

📽️ 如何构建一个短链系统

🎤 mac VMware Fusion 虚拟机安装

💈 MongoDB 总结

🎯 深入理解 IO 多路复用：从 select、poll 到 epoll 的演进

🎰 常见的网络设备

🚍 高可用的常见手段

🌇 基于Casbin的RBAC权限认证｜权限管理

🪩 从0到1，利用kubevirt构建ubuntu虚拟机

🧩 iptables in linux

🏓 在mac中，如何将标准输出保存到剪切板中

🌦️ nvidia驱动和cuda安装记录

🌞 正则表达式

🧮 内存对齐

👨‍💻 go中常见的内存泄露场景

🐒 常用限流组件及其实现

⛺ pprof的使用

🏁 sqlite内存模式下的性能测试

🌐 全局唯一ID生成方案

🌑 linux笔记

个人总结

🎮 任务拆分&优先级定义

🎭 读「阿里巴巴管理三板斧」

🔇 2025年终总结

🏐 我的MBTI

🎯 2024年终总结

LLM

🔐 超大规模MaaS System Design

🎉 OpenAI API格式

🔇 读「大模型训练与推理加速实战：基于CUDA计算平台（python版）」

📔 读「大模型时代的基础架构：大模型算力中心建设指南」

🚡 深度学习模型架构解析：以Encoder-Decoder为核心的分类体系

k8s

🏞️ 初探 Volcano Scheduler

🧭 AI 时代下的 Kubernetes 调度器：架构、挑战与演进路径

🛑 Kubelet → CRI → containerd/CRI-O → runc/kata：Kubernetes 容器运行时完整调用链

🎎 CloudEvents

🏪 深入解析 Kubernetes Informer 架构

♠️ K8s网络深度解析：CNI、VXLAN与主流插件的实现差异

♦️ Kube-proxy 机制深度解析：API Server 交互与 iptables 规则生成

☄️ openEBS lvm_localpv

📱 CNI In k8s

🛻 k8s架构简介

🚓 Kind相关操作

knative

🌑 Knative Service 多版本管理指南

🌑 Knative + Istio 环境下的会话亲和性实现方案

🛻 Knative Architecture

🎻 Knative Hands-on

🎎 Knative-Overview

agentic

🎣 从模型视角看上下文工程

🚪 Function Calling、MCP、Skill 三者本质区别与适用场景

⚱️ Prompt Engineering

🥌 vLLM 初体验

istio

🩻 服务网格 | istio

HAMI

♦️ 在k8s环境中使用vgpu | HAMI

Golang

🎗️ Golang map

🔒 如何避免channel重复关闭

🪝 Golang channel

🔒 golang的单机锁

🔂 sync/atomic包

📂 Golang 内存分配与管理机制

转发

🧿 【转】如何阅读源码

计算机网络

📌 计算机网络-网络层

📌 计算机网络-传输层

📌 计算机网络-应用层

Redis

📌 Redis-内存过期和内存淘汰策略

🥎 Redis-大key问题

🛩️ Redis-高可用

📅 Redis-缓存

✨ Redis-持久化

⛑️ Redis-基础数据类型

MySQL

☃️ MySQL-日志

✂️ MySQL-事务

Mysql

⌚ MySQL-索引

⌚ MySQL-存储引擎

🧲GLM 系列音频模型总结：输入、输出与文件格式全解析

type

Post

status

Published

date

Feb 16, 2026

slug

summary

category

技术分享

tags

LLM

icon

password

AI summary

Blocked by

Blocking

Category

智谱 GLM 系列音频模型

智谱音频模型家族主要分为以下独立模型（不同 model 字符串，不同端点/能力）：

GLM-ASR-2512：语音 → 文本（高精度多语言/方言识别）

GLM-TTS：文本 → 语音（预设音色，情感超自然合成）

GLM-TTS-Clone：音色克隆 + 文本 → 个性化语音（3 秒样本复刻）

GLM-Realtime / GLM-4-Voice：实时对话模型（端到端语音交互，非纯 TTS/ASR）

体验地址：https://audio.z.ai/（主要展示 GLM-TTS & GLM-TTS-Clone 的合成与克隆效果）

1. GLM-ASR-2512 —— 语音 → 文本

输入核心

一段短音频（说话内容转文字）

端点 & 请求

POST <https://open.bigmodel.cn/api/paas/v4/audio/transcriptions>

multipart/form-data

关键参数

model: "glm-asr-2512"（必填）

file: 音频文件（@路径）

stream: true（SSE 流式逐句） / false（默认，一次性）

格式 & 限制

支持：.wav、.mp3 等常见格式

限制：≤ 30 秒，≤ 25 MB

采样率/位深：自动适配（推荐 16kHz/16bit/单声道）

输出

非流式：单个 JSON 对象

流式：SSE 事件流（逐段 text）

核心字段："text"（转录字符串，中文 CER 仅 0.0717，极高精度）

附加：created、id、usage 等

数据格式

纯 UTF-8 文本字符串（嵌入 JSON），无音频输出。

典型场景

会议纪要、短视频字幕、语音输入、多语言/方言转录。

2. GLM-TTS —— 文本 → 标准预设音色语音

输入核心

待合成文本 + 预设音色

端点 & 请求

POST <https://open.bigmodel.cn/api/paas/v4/audio/speech>

application/json

关键参数

model: "glm-tts"

input: 文本字符串

voice: 预设音色（彤彤/tongtong（默认）、小陈、锤锤、jam、kazi、douji、luodo 等；或简化如 "female"）

speed: 0.5–2.0（默认 1.0）

volume: 默认 1.0

stream: true/false

response_format: "wav"（默认，非流式） / "pcm"（流式强制）

encode_format: "base64"（pcm 流式时）

输出

非流式：HTTP Body 为完整音频二进制

流式：SSE，每 chunk data: {"content": "base64 PCM 片段", "return_sample_rate": 24000, ...}

首帧延迟：≤ 400ms

核心：PCM 波形数据

音频格式科普

format	容器/类型	头部	流式编码	规格	使用建议
wav	WAV (RIFF 容器)	有	无需	24kHz, 16bit PCM, 单声道	非流式，保存/播放最通用
pcm	裸 PCM 序列	无	base64	24kHz, 16bit, 单声道	流式实时播放，低延迟首选

一句话：无损 PCM 数据，要么封装 WAV（带头部，便于文件使用），要么裸 PCM + base64 分片（实时低开销）。

典型场景

播报、配音、有声书、客服语音。

3. GLM-TTS-Clone —— 音色克隆 + 个性化语音合成

输入核心

文本 + 已克隆音色（通过 GLM-TTS-Clone 创建）

端点 & 请求

克隆创建：单独接口（上传 3 秒音频 → 获取 voice_name 或 ID）

合成：同 GLM-TTS 端点 /audio/speech，但 model="glm-tts-clone" 或 GLM-TTS + 自定义 voice_name

关键参数（合成阶段）

voice_name: 自定义音色名称（如 "my_custom_voice_001"）

其余同 GLM-TTS（input、speed、stream、response_format 等）

输出

完全同 GLM-TTS：wav 或 pcm（流式 base64）

克隆流程科普

上传 3–10 秒清晰参考音频 → GLM-TTS-Clone 接口创建音色 → 获得 voice_name

合成时传入该 voice_name，即复刻音色、语气、节奏、口音（支持普通话 + 轻口音）

情感表达强，适配对话/讲解/旁白等多种风格。

典型场景

虚拟人、个性化客服、有声书、角色配音。

4. 实时对话模型（GLM-Realtime & GLM-4-Voice）—— 非纯 TTS/ASR

GLM-Realtime：WebSocket (wss://.../realtime) 多模态实时通话（音频/视频/文本输入 → 音频输出），支持打断、唱歌、视频理解、2 分钟记忆。纯音频模式下可实现实时“边听边说”。

GLM-4-Voice：端到端语音对话（chat completions 接口，model="glm-4-voice"），输入文本/音频 → 输出音频，支持情感/语调/方言/语速调节，中英双语实时交互。

输出格式：PCM 音频（base64 delta 片段，24kHz 单声道）

一句话：它们是“对话级”模型（集成 ASR + TTS + 推理），适合实时交互，而非独立合成/转录。

快速对比表（核心模型）

模型	输入本质	输入格式	核心输出	输出格式选项	个性化/克隆	端点类型	典型场景
GLM-ASR-2512	短音频	multipart/form-data	文本	JSON text	无	/transcriptions	转录、字幕、语音输入
GLM-TTS	文本 + 预设音色	JSON	PCM 波形	wav / pcm (base64 流式)	预设音色	/speech	播报、配音、有声书
GLM-TTS-Clone	文本 + 自定义音色引用	JSON	PCM 波形（克隆）	同上	3秒克隆	/speech + 克隆接口	虚拟人、个性化语音
GLM-Realtime	实时音频/视频/文本	WebSocket	实时音频	PCM delta (base64)	对话级动态	wss realtime	实时通话、唱歌、打断交互
GLM-4-Voice	文本/音频 + 指令	Chat completions JSON	实时音频	Base64 WAV/PCM	提示调节情感	chat completions	角色陪伴、英语学习、智能导游

读「阿里巴巴管理三板斧」

超大规模MaaS System Design

Loading...

Catalog

Last update: 2026-02-16

Article List

如果去做，还有一丝希望；但是不去做，就毫无希望

技术分享

🏅 Embedding Model

🧲 GLM 系列音频模型总结：输入、输出与文件格式全解析

⛓️ 阿里云核心服务概念梳理： FC / ECS /ECI / ACK /ACS

🧵 prometheus为代表的监控构建

📹 限流、熔断与降级：微服务高可用性的核心保障机制

🏹 kubebuilder 总结

🌚 版本控制规范

🕹️ kafka学习笔记

📽️ 如何构建一个短链系统

🎤 mac VMware Fusion 虚拟机安装

💈 MongoDB 总结

🎯 深入理解 IO 多路复用：从 select、poll 到 epoll 的演进

🎰 常见的网络设备

🚍 高可用的常见手段

🌇 基于Casbin的RBAC权限认证｜权限管理

🪩 从0到1，利用kubevirt构建ubuntu虚拟机

🧩 iptables in linux

🏓 在mac中，如何将标准输出保存到剪切板中

🌦️ nvidia驱动和cuda安装记录

🌞 正则表达式

🧮 内存对齐

👨‍💻 go中常见的内存泄露场景

🐒 常用限流组件及其实现

⛺ pprof的使用

🏁 sqlite内存模式下的性能测试

🌐 全局唯一ID生成方案

🌑 linux笔记

个人总结

🎮 任务拆分&优先级定义

🎭 读「阿里巴巴管理三板斧」

🔇 2025年终总结

🏐 我的MBTI

🎯 2024年终总结

LLM

🔐 超大规模MaaS System Design

🎉 OpenAI API格式

🔇 读「大模型训练与推理加速实战：基于CUDA计算平台（python版）」

📔 读「大模型时代的基础架构：大模型算力中心建设指南」

🚡 深度学习模型架构解析：以Encoder-Decoder为核心的分类体系

k8s

🏞️ 初探 Volcano Scheduler

🧭 AI 时代下的 Kubernetes 调度器：架构、挑战与演进路径

🛑 Kubelet → CRI → containerd/CRI-O → runc/kata：Kubernetes 容器运行时完整调用链

🎎 CloudEvents

🏪 深入解析 Kubernetes Informer 架构

♠️ K8s网络深度解析：CNI、VXLAN与主流插件的实现差异

♦️ Kube-proxy 机制深度解析：API Server 交互与 iptables 规则生成

☄️ openEBS lvm_localpv

📱 CNI In k8s

🛻 k8s架构简介

🚓 Kind相关操作

knative

🌑 Knative Service 多版本管理指南

🌑 Knative + Istio 环境下的会话亲和性实现方案

🛻 Knative Architecture

🎻 Knative Hands-on

🎎 Knative-Overview

agentic

🎣 从模型视角看上下文工程

🚪 Function Calling、MCP、Skill 三者本质区别与适用场景

⚱️ Prompt Engineering

🥌 vLLM 初体验

istio

🩻 服务网格 | istio

HAMI

♦️ 在k8s环境中使用vgpu | HAMI

Golang

🎗️ Golang map

🔒 如何避免channel重复关闭

🪝 Golang channel

🔒 golang的单机锁

🔂 sync/atomic包

📂 Golang 内存分配与管理机制

转发

🧿 【转】如何阅读源码

计算机网络

📌 计算机网络-网络层

📌 计算机网络-传输层

📌 计算机网络-应用层

Redis

📌 Redis-内存过期和内存淘汰策略

🥎 Redis-大key问题

🛩️ Redis-高可用

📅 Redis-缓存

✨ Redis-持久化

⛑️ Redis-基础数据类型

MySQL

☃️ MySQL-日志

✂️ MySQL-事务

Mysql

⌚ MySQL-索引

⌚ MySQL-存储引擎