🥌vLLM 初体验
type
status
date
slug
summary
category
tags
icon
password
AI summary
Blocked by
Blocking
Category
vLLM
vLLM (Virtual Large Language Model) 是一个高性能 LLM 推理框架,通过革命性的内存管理和调度系统,实现了行业顶级的吞吐量和效率。
API Server (FastAPI + Uvicorn)
- 功能: 作为 OpenAI 兼容的推理网关。
- 价值: 提供标准化的 HTTP 接口 (
/v1/chat/completions),允许所有支持 OpenAI 标准的客户端无缝接入,并利用 Uvicorn 的异步能力高效处理高并发请求。
高性能推理内核 (PagedAttention)
- 核心技术: PagedAttention KV Cache (分页注意力)。
- 价值: 借鉴操作系统分页机制,将 KV Cache 块进行逻辑与物理分离,实现 KV Cache 内存利用率最大化,并支持 KV 缓存块的共享与复用。这是 vLLM 高效节省显存的基石。
推理调度器 (Scheduler)
- 核心技术: Continuous Batching (连续批处理)。
- 价值: vLLM 的 异步推理调度系统。它动态地将新请求添加到正在处理的批次中,并支持抢占式调度 (Preemption)。这确保了 GPU 始终满载,实现了极高的 QPS 和流畅的 Token 输出。
vLLM = 高性能推理内核 + 推理调度器 + API Server「略」autoDL租赁机器
…
环境准备
conda准备
安装vllm和hf tools
模型下载
模型部署
最终效果

Prev
【MySQL学习笔记】存储引擎
Next
分词
Loading...