🥌vLLM 初体验

type
status
date
slug
summary
category
tags
icon
password
AI summary
Blocked by
Blocking
Category

vLLM

vLLM (Virtual Large Language Model) 是一个高性能 LLM 推理框架,通过革命性的内存管理和调度系统,实现了行业顶级的吞吐量和效率

API Server (FastAPI + Uvicorn)

  • 功能: 作为 OpenAI 兼容的推理网关
  • 价值: 提供标准化的 HTTP 接口 (/v1/chat/completions),允许所有支持 OpenAI 标准的客户端无缝接入,并利用 Uvicorn 的异步能力高效处理高并发请求。

高性能推理内核 (PagedAttention)

  • 核心技术: PagedAttention KV Cache (分页注意力)。
  • 价值: 借鉴操作系统分页机制,将 KV Cache 块进行逻辑与物理分离,实现 KV Cache 内存利用率最大化,并支持 KV 缓存块的共享与复用。这是 vLLM 高效节省显存的基石。

推理调度器 (Scheduler)

  • 核心技术: Continuous Batching (连续批处理)。
  • 价值: vLLM 的 异步推理调度系统。它动态地将新请求添加到正在处理的批次中,并支持抢占式调度 (Preemption)。这确保了 GPU 始终满载,实现了极高的 QPS 和流畅的 Token 输出。
 
vLLM = 高性能推理内核 + 推理调度器 + API Server
 

「略」autoDL租赁机器

环境准备

conda准备

安装vllm和hf tools

模型下载

模型部署

最终效果
notion image
 
Prev
【MySQL学习笔记】存储引擎
Next
分词
Loading...
Article List
如果去做,还有一丝希望;但是不去做,就毫无希望
技术分享
个人总结
转发