vllm-project/vllm
GitHub: vllm-project/vllm
一个高性能的大语言模型推理和服务引擎,通过 PagedAttention 技术实现高吞吐量和内存效率。
Stars: 71937 | Forks: 13950
轻松、快速且低成本的 LLM 服务,面向所有人
🔥 我们建立了一个 vllm 网站来帮助您开始使用 vllm。请访问 [vllm.ai](https://vllm.ai) 了解更多信息。 有关活动,请访问 [vllm.ai/events](https://vllm.ai/events) 加入我们。 ## 关于 vLLM 是一个快速且易于使用的库,用于 LLM 推理和服务。 vLLM 最初是在 UC Berkeley 的 [Sky Computing Lab](https://sky.cs.berkeley.edu) 开发的,现在已经发展成为一个由学术界和工业界共同贡献的社区驱动项目。 vLLM 的速度快得益于: - 业界领先的吞吐量 - 通过 [**PagedAttention**](https://blog.vllm.ai/2023/06/20/vllm.html) 高效管理注意力键值内存 - 对传入请求的连续批处理 - 利用 CUDA/HIP graph 实现快速模型执行 - 量化:[GPTQ](https://arxiv.org/abs/2210.17323)、[AWQ](https://arxiv.org/abs/2306.00978)、[AutoRound](https://arxiv.org/abs/2309.05516)、INT4、INT8 和 FP8 - 优化的 CUDA 内核,包括与 FlashAttention 和 FlashInfer 的集成 - 推测解码 - 分块预填充 vLLM 灵活且易于使用,具有以下特点: - 与流行的 Hugging Face 模型无缝集成 - 支持多种解码算法的高吞吐量服务,包括 *并行采样*、*束搜索* 等 - 支持分布式推理的张量、流水线、数据和专家并行 - 流式输出 - 兼容 OpenAI 的 API 服务器 - 支持 NVIDIA GPU、AMD CPU 和 GPU、Intel CPU 和 GPU、PowerPC CPU、Arm CPU 和 TPU。此外,还支持多种硬件插件,如 Intel Gaudi、IBM Spyre 和华为 Ascend。 - 前缀缓存支持 - Multi-LoRA 支持 vLLM 无缝支持 HuggingFace 上大多数流行的开源模型,包括: - Transformer 架构的 LLM(例如 Llama) - 混合专家 LLM(例如 Mixtral、Deepseek-V2 和 V3) - 嵌入模型(例如 E5-Mistral) - 多模态 LLM(例如 LLaVA) 在[此处](https://docs.vllm.ai/en/latest/models/supported_models.html)查找受支持模型的完整列表。 ## 入门指南 使用 `pip` 或[从源码](https://docs.vllm.ai/en/latest/getting_started/installation/gpu/index.html#build-wheel-from-source)安装 vLLM: ``` pip install vllm ``` 访问我们的[文档](https://docs.vllm.ai/en/latest/)了解更多信息。 - [安装](https://docs.vllm.ai/en/latest/getting_started/installation.html) - [快速开始](https://docs.vllm.ai/en/latest/getting_started/quickstart.html) - [支持的模型列表](https://docs.vllm.ai/en/latest/models/supported_models.html) ## 引用 如果您在研究中使用 vLLM,请引用我们的[论文](https://arxiv.org/abs/2309.06180): ``` @inproceedings{kwon2023efficient, title={Efficient Memory Management for Large Language Model Serving with PagedAttention}, author={Woosuk Kwon and Zhuohan Li and Siyuan Zhuang and Ying Sheng and Lianmin Zheng and Cody Hao Yu and Joseph E. Gonzalez and Hao Zhang and Ion Stoica}, booktitle={Proceedings of the ACM SIGOPS 29th Symposium on Operating Systems Principles}, year={2023} } ``` ## 联系我们 - 如有技术问题和功能请求,请使用 GitHub [Issues](https://github.com/vllm-project/vllm/issues) - 如需与其他用户讨论,请使用 [vLLM 论坛](https://discuss.vllm.ai) - 如需协调贡献和开发,请使用 [Slack](https://slack.vllm.ai) - 如需安全披露,请使用 GitHub 的 [Security Advisories](https://github.com/vllm-project/vllm/security/advisories) 功能 - 如有合作与伙伴关系事宜,请通过 [collaboration@vllm.ai](mailto:collaboration@vllm.ai) 联系我们 ## 媒体素材 - 如果您希望使用 vLLM 的 logo,请参考[我们的媒体素材仓库](https://github.com/vllm-project/media-kit)标签:AWQ, CUDA优化, DLL 劫持, DNS解析, FlashAttention, FP8, GPTQ, HuggingFace, LLM推理, PagedAttention, Petitpotam, Python, Spyse API, Transformer, Vectored Exception Handling, vLLM, 人工智能, 内存管理, 内核优化, 凭据扫描, 吞吐量优化, 大语言模型, 开源项目, 推测解码, 无后门, 服务引擎, 模型服务, 深度学习, 用户模式Hook绕过, 连续批处理, 逆向工具, 量化技术, 高性能计算