Tencent/AngelSlim

GitHub: Tencent/AngelSlim

腾讯开源的一站式大模型压缩工具包，集成多种量化、推测解码和 Token 压缩算法，帮助开发者高效地将大模型部署到资源受限环境中。

Stars: 890 | Forks: 95

English | [简体中文](README_cn.md)

AngelSlim

一个更易用、全面且高效的大模型压缩工具包。

✒️ 技术报告 | 📖 文档 | 🤗 Hugging Face | 🤖 ModelScope

## 📣 最新消息 - [26/04/29] 我们发布了腾讯 Hy-MT1.5-1.8B 翻译模型的 2-bit 和 1.25-bit 版本：[Hy-MT1.5-1.8B-2bit](https://huggingface.co/AngelSlim/Hy-MT1.5-1.8B-2bit) 和 [Hy-MT1.5-1.8B-1.25bit](https://huggingface.co/AngelSlim/Hy-MT1.5-1.8B-1.25bit)。此外，我们还提供了一个[离线翻译演示](https://huggingface.co/AngelSlim/Hy-MT1.5-1.8B-1.25bit/blob/main/Hy-MT-demo.apk)供您试用。欢迎大家体验！🔥🔥🔥 - [26/04/23] 我们现已支持 **Hy3-preview** (MoE A20B) 的 FP8-Static 量化。 - [26/03/25] 我们发布了 **DAQ**，这是一种在后训练更新参数相对较小的情况下，能够保留已获取知识的量化算法。[[论文]](https://arxiv.org/abs/2603.22324) | [[文档]](docs/source/features/quantization/daq.md) - [26/02/09] 我们发布了 HY-1.8B-2Bit，一款 2-bit 的端侧大语言模型，[[Huggingface]](https://huggingface.co/AngelSlim/HY-1.8B-2Bit)。 - [26/01/13] 我们发布了 v0.3 版本。我们支持所有规模 LLM/VLM/音频模型的 Eagle3 训练与部署，详情请参阅[指引文档](https://angelslim.readthedocs.io/zh-cn/latest/features/speculative_decoding/eagle/index.html)。同时，我们发布了 **Sherry**，一种硬件高效的 1.25 bit 量化算法 [[论文]](https://arxiv.org/abs/2601.07892) | [[代码]](https://github.com/Tencent/AngelSlim/tree/sherry/Sherry)🔥🔥🔥

历史消息

- [25/11/05] 我们发布了 v0.2 版本。新增对 `GLM-4.6`、`Qwen3-VL` 和 `Qwen3-Omni` 等新模型的量化支持，开源了 Eagle3 推测解码训练框架，并更新了 Diffusion 模型量化工具。 - [25/09/30] 我们发布了 **SpecExit**，一种推理提前退出算法：[[论文]](http://arxiv.org/abs/2509.24248) | [[文档]](https://angelslim.readthedocs.io/zh-cn/latest/features/speculative_decoding/spec_exit.html) | [[vLLM 代码]](https://github.com/vllm-project/vllm/pull/27192) - [25/09/26] 我们发布了 **TEQUILA**，一种三值量化算法 [[论文]](https://arxiv.org/abs/2509.23809) | [[代码]](https://github.com/Tencent/AngelSlim/tree/tequila/TernaryQuant) - [25/09/24] 我们现已支持 Qwen3 系列模型的 NVFP4 PTQ 量化。同时我们也开源了 [Qwen3-32B-NVFP4](https://huggingface.co/AngelSlim/Qwen3-32B_nvfp4) 和 [Qwen3-235B-A22B-NVFP4](https://huggingface.co/AngelSlim/Qwen3-235B-A22B_nvfp4) 权重。 - [25/09/01] 我们现已支持 [Hunyuan-MT-7B](https://huggingface.co/tencent/Hunyuan-MT-7B-fp8) 翻译模型的 FP8 量化。并为 Eagle3 启用了 Torch 推理和 Benchmark 评估。同时实现了对 [FLUX](https://github.com/Tencent/AngelSlim/tree/main/configs/flux) 的量化和 Cache 支持。并支持对 [Seed-OSS](https://github.com/Tencent/AngelSlim/tree/main/configs/seed_oss) 的量化。 - [25/08/06] 我们现已支持 `Hunyuan 0.5B/1.8B/4B/7B` 和多模态模型 `Qwen2.5VL 3B/7B/32B/72B` 的量化，包括 `FP8/INT4` 算法，以及 `DeepSeek-R1/V3` 和 `Kimi-K2` 的量化，包括 `FP8-Static` 和 `W4A8-FP8` 算法。我们也开源了 `Hunyuan 1.8B/4B/7B` 系列 Eagle3 模型权重。 - [25/07/04] 我们现已支持 `Hunyuan/Qwen2.5/Qwen3/DeepSeek-R1-Distill-Qwen` 等模型的量化，包括 `INT8/FP8/INT4` 算法。我们也开源了 `Qwen3` 系列 Eagle3 模型权重。

## 🌟 核心特性 - **高度集成**：该工具包将主流的压缩算法集成到统一的框架中，为开发者提供一键式访问，具有极佳的易用性。 - **持续创新**：除了集成业界广泛使用的算法外，我们还在不断研究更好的压缩算法，并将在未来逐步开源。 - **性能驱动**：我们持续优化模型压缩工作流和算法部署的端到端性能，例如实现在单张 GPU 上对 Qwen3-235B 和 DeepSeek-R1 等模型进行量化。 ## 💼 技术概览

场景	模型	压缩策略
场景	模型	量化	推测解码	其他技术
大语言模型	Hunyuan-Dense Hunyuan-MoE Qwen3 DeepSeek-V3/R1 GLM-4.6 Qwen2.5	FP8-Static/Dynamic INT8-Dynamic INT4-GPTQ/AWQ/GPTAQ NVFP4 LeptoQuant Tequila \| Sherry	Eagle3 SpecExit	稀疏注意力 Stem
视觉语言模型	Hunyuan-VL HunyuanOCR Qwen3-VL Qwen2.5-VL	FP8-Static/Dynamic INT8-Dynamic INT4-GPTQ/AWQ/GPTAQ	Eagle3	Token 剪枝 IDPruner
Diffusion 模型	Hunyuan-Image Hunyuan-Video Hunyuan-3D Qwen-Image FLUX Wan SDXL	FP8-Dynamic FP8-Weight-Only	-	Cache DeepCache TeaCache TaylorCache
语音模型 (TTS/ASR)	Qwen3-Omni Qwen2-Audio Fun-CosyVoice3	FP8-Static/Dynamic INT8-Dynamic	Eagle3	Token 剪枝开发中

## 🛎️ 如何使用 ### 1. 安装 AngelSlim 我们推荐使用 `pip` 来安装最新稳定版的 `AngelSlim`： ``` pip install angelslim ``` 或者，您可以克隆仓库并以可编辑模式从源码安装： ``` cd AngelSlim && python setup.py install ``` 有关更详细的安装说明和特定平台的指导，请参阅[安装文档](https://angelslim.readthedocs.io/zh-cn/latest/getting_started/installation.html)。 ### 2. 快速开始 #### 2.1 推测解码安装 AngelSlim 后，您可以使用以下脚本快速启动 Eagle3 训练： ``` # 启动 vLLM 服务器 bash scripts/speculative/run_vllm_server.sh # 生成训练数据 bash scripts/speculative/generate_data_for_target_model.sh # 对 Eagle3 模型进行在线训练 bash scripts/speculative/train_eagle3_online.sh ``` Eagle3 的训练和部署指南：[LLM](https://angelslim.readthedocs.io/zh-cn/latest/features/speculative_decoding/eagle/eagle.html) | [VLM](https://angelslim.readthedocs.io/zh-cn/latest/features/speculative_decoding/eagle/vlm_eagle.html) | [音频 (ASR)](https://angelslim.readthedocs.io/zh-cn/latest/features/speculative_decoding/eagle/audio_asr_eagle.html) | [音频 (TTS)](https://angelslim.readthedocs.io/zh-cn/latest/features/speculative_decoding/eagle/audio_tts_eagle.html)。 #### 2.2 LLM/VLM/音频模型量化安装 `AngelSlim` 后，您可以通过以下单行脚本对 Qwen3-1.7B 模型启动静态 FP8 量化： ``` python3 tools/run.py -c configs/qwen3/fp8_static/qwen3-1_7b_fp8_static.yaml ``` 此示例通过对从 HuggingFace 加载的模型执行 PTQ 校准来生成量化模型权重。对于 **Hy3-preview** (MoE A20B) FP8-Static 量化： ``` python tools/run.py -c configs/hunyuan/fp8_static/hunyuanv3_a20b_fp8_static_c8.yaml ```

基于代码的启动

要对 `Qwen3-1.7B` 执行动态 `FP8` 量化： ``` from angelslim.engine import Engine slim_engine = Engine() # 准备模型 slim_engine.prepare_model(model_name="Qwen", model_path="Qwen/Qwen3-1.7B",) # 初始化 Compressor slim_engine.prepare_compressor("PTQ", default_method="fp8_dynamic") # 压缩模型 slim_engine.run() # 保存压缩后的模型 slim_engine.save("./output") ```

获取更多细节，请参阅[快速开始文档](https://angelslim.readthedocs.io/zh-cn/latest/getting_started/quickstrat.html)。 #### 2.3 Diffusion 模型量化使用 `scripts/diffusion/run_diffusion.py` 进行量化和推理： ``` # 在线量化和推理 python scripts/diffusion/run_diffusion.py \ --model-name-or-path black-forest-labs/FLUX.1-schnell \ --quant-type fp8-per-tensor \ --prompt "A cat holding a sign that says hello world" \ --height 1024 --width 1024 --steps 4 --guidance 0.0 --seed 0 ``` 获取更多量化推理方法，请参阅 [Diffusion 模型量化文档](https://angelslim.readthedocs.io/zh-cn/latest/features/diffusion/quantization.html)。 #### 2.4 Token 压缩 AngelSlim 为视觉 Token 剪枝和合并提供了一个通用的元数据驱动框架。您可以通过冒烟测试快速验证压缩策略（例如，**VisionZip**）： ``` python tools/test_universal_pruning.py \ --model_path "Qwen/Qwen2.5-VL-3B-Instruct" \ --config "configs/qwen2_5_vl/pruning/visionzip_r0.9.yaml" ``` 获取更多实现新策略的细节，请参阅 [Token Compressor 文档](https://angelslim.readthedocs.io/zh-cn/latest/features/token_compressor/index.html)。 ### 3. 部署与测试 #### 3.1 离线推理测试使用通过 `transformers` 加载的量化模型进行离线推理。

运行脚本详情

``` python scripts/deploy/offline.py $MODEL_PATH "Hello, my name is" ``` 其中 `MODEL_PATH` 是输出的量化模型路径。

#### 3.2 API 服务部署指定量化模型路径 `MODEL_PATH` 后，您可以使用 **vLLM** 和 **SGLang** 推理框架部署兼容 OpenAI 的 API 服务。

运行脚本详情

- **vLLM** 使用以下脚本启动 [vLLM](https://github.com/vllm-project/vllm) 服务器，推荐版本为 `vllm>=0.8.5.post1`。对于 MOE INT8 量化模型，需要 vllm>=0.9.0。 bash scripts/deploy/run_vllm.sh --model-path $MODEL_PATH --port 8080 -d 0,1,2,3 -t 4 -p 1 -g 0.8 --max-model-len 4096 其中 `-d` 是可见设备，`-t` 是张量并行大小，`-p` 是流水线并行大小，`-g` 是 GPU 显存利用率。 - **SGLang** 使用以下脚本启动 [SGLang](https://github.com/sgl-project/sglang) 服务器，推荐版本为 `sglang>=0.4.6.post1`。 bash scripts/deploy/run_sglang.sh --model-path $MODEL_PATH --port 8080 -d 0,1,2,3 -t 4 -g 0.8

#### 3.3 服务调用通过 [OpenAI API 格式](https://platform.openai.com/docs/api-reference/introduction) 调用请求。

运行脚本详情

``` bash scripts/deploy/openai.sh -m $MODEL_PATH -p "Hello, my name is" --port 8080 --max-tokens 4096 --temperature 0.7 --top-p 0.8 --top-k 20 --repetition-penalty 1.05 --system-prompt "You are a helpful assistant." ``` 其中 `-p` 是输入 prompt。

#### 3.4 性能评估使用 [lm-evaluation-harness](https://github.com/EleutherAI/lm-evaluation-harness) 评估量化模型的性能，推荐版本为 `lm-eval>=0.4.8`。

运行脚本详情

``` bash scripts/deploy/lm_eval.sh -d 0,1 -t 2 -g 0.8 -r $RESULT_PATH -b "auto" --tasks ceval-valid,mmlu,gsm8k,humaneval -n 0 $MODEL_PATH ``` 其中 `RESULT_PATH` 是保存测试结果的目录，`-b` 是 batch size，`--tasks` 指定评估任务，`-n` 是 few-shot 示例的数量。

获取更多细节，请参阅[部署文档](https://angelslim.readthedocs.io/zh-cn/latest/deployment/deploy.html)。 ## 📈 基准测试 ### 1. 推测解码我们在 vLLM 上评估了由 AngelSlim 训练的 Eagle3 模型，评估任务包括代码生成、数学推理、指令跟随、文本生成和多模态理解。我们在 num_speculative_tokens = 2 或 4 的设置下展示了训练模型的推理加速和上下文长度性能，其接受长度为 1.8–3.5，最大加速比达 1.4–1.9×。

AngelSlim

#### 1.1 Qwen3 系列模型 Qwen3 系列模型在 vLLM (v0.11.2) 上使用 Eagle3 推测解码在 **MT-bench**、**HumanEval**、**GSM8K** 和 **Alpaca** 数据集上的基准测试结果，使用单张 GPU (**tp=1, ep=1, num_speculative_tokens=2, batch_size=1, output_len=1024**)。

模型	方法	GSM8K		Alpaca		HumanEval		MT-bench		平均值
		吞吐量 (tokens/s)	接受长度	吞吐量 (tokens/s)	接受长度	吞吐量 (tokens/s)	接受长度	吞吐量 (tokens/s)	接受长度	吞吐量 (tokens/s)	接受长度
Qwen3-1.7B	Vanilla	376.42	1	378.86	1	378.38	1	390.53	1	381.05	1
Qwen3-1.7B	Eagle3	616.9	2.13	653.29	2.19	680.1	2.2	621.44	2.17	642.93	2.17
Qwen3-4B	Vanilla	229.05	1	235.29	1	234.66	1	234.04	1	233.26	1
Qwen3-4B	Eagle3	389.35	2.07	395.97	2.1	377.84	2.08	384.6	2.07	386.94	2.08
Qwen3-8B	Vanilla	149.63	1	149.93	1	153.85	1	153.81	1	151.81	1
Qwen3-8B	Eagle3	257.32	2	266.69	2.02	244.89	1.97	258.2	1.97	257.52	1.99
Qwen3-14B	Vanilla	92.97	1	92.66	1	92.94	1	94.46	1	93.26	1
Qwen3-14B	Eagle3	153.72	1.87	140.46	1.78	144.68	1.76	142.45	1.74	145.33	1.79
Qwen3-32B	Vanilla	43.49	1	43.38	1	43.19	1	43.3	1	43.32	1
Qwen3-32B	Eagle3	80.43	2.01	72.49	1.9	71.57	1.86	74.1	1.86	74.1	1.91
Qwen3-30B-A3B	Vanilla	311.84	1	320.43	1	325.77	1	325.42	1	320.87	1
Qwen3-30B-A3B	Eagle3	453.97	2.1	432.45	2.04	428.81	2.02	437.06	2.01	438.07	2.04

#### 1.2 VLM 模型 ##### 1.2.1 Qwen3-VL 系列模型 Qwen3-VL 系列模型在 vLLM (v0.12.0) 上使用 Eagle3 推测解码在语言和多模态任务上的基准测试结果，使用单张 GPU (**tp=1, ep=1, num_speculative_tokens=4, batch_size=1, output_len=1024**)。

模型	方法	GSM8K		Alpaca		HumanEval		MT-bench		MATH-500		MMMU		MMStar		平均值
		吞吐量 (tokens/s)	接受长度	吞吐量 (tokens/s)	接受长度	吞吐量 (tokens/s)	接受长度	吞吐量 (tokens/s)	接受长度	吞吐量 (tokens/s)	接受长度	吞吐量 (tokens/s)	接受长度	吞吐量 (tokens/s)	接受长度	吞吐量 (tokens/s)	接受长度
Qwen3-VL-2B-Instruct	Vanilla	348.55	1	350.9	1	346.07	1	346.31	1	82.96	1	83.27	1	81.63	1	234.24	1
Qwen3-VL-2B-Instruct	Eagle3	511.52	2.11	560.55	2.26	826.01	3.39	555.22	2.29	163.09	2.57	154.18	2.55	139.73	2.31	415.76	2.5
Qwen3-VL-4B-Instruct	Vanilla	212.87	1	213.24	1	211.69	1	212.1	1	67.96	1	65.88	1	67.75	1	150.21	1
Qwen3-VL-4B-Instruct	Eagle3	415.29	2.57	372.89	2.26	459.37	2.82	382.33	2.34	141.87	2.72	104.44	2.05	107.07	2.1	283.32	2.41
Qwen3-VL-30B-A3B-Instruct	Vanilla	179.94	1	184.6	1	168.68	1	180.57	1	31.08	1	31.51	1	30.93	1	115.33	1
Qwen3-VL-30B-A3B-Instruct	Eagle3	281.93	2.82	241.42	2.13	223.05	2.57	240.47	2.19	75.31	2.79	48.47	1.78	52.57	1.94	166.17	2.32

##### 1.2.2 HunyuanOCR 模型 HunyuanOCR 模型在 vLLM (v0.13.0) 上使用 Eagle3 推测解码在 **[OmniDocBench](https://huggingface.co/datasets/opendatalab/OmniDocBench)** 数据集上的基准测试结果，使用单张 GPU (**tp=1, ep=1, num_speculative_tokens=4, batch_size=1, output_len=1024**)。

模型	方法	OmniDocBench
		吞吐量 (tokens/s)	接受长度
Hunyuan-OCR	Vanilla	70.12	1
Hunyuan-OCR	Eagle3	108.1	2.08

#### 1.3 音频模型 ##### 1.3.1 Qwen2-Audio 模型 Qwen2-Audio 模型在 vLLM (v0.12.0) 上使用 Eagle3 推测解码在 **[LibriSpeech](https://www.openslr.org/12)** 数据集上的基准测试结果，使用单张 GPU (**tp=1, ep=1, num_speculative_tokens=4, batch_size=1, output_len=1024**)。

模型	方法	LibriSpeech
		吞吐量 (tokens/s)	接受长度
Qwen2-Audio	Vanilla	78.76	1
Qwen2-Audio	Eagle3	146.66	3.51

##### 1.3.2 Fun-CosyVoice3 模型 Fun-CosyVoice3 模型使用 Eagle3 推测解码在 **[LibriTTS](https://www.openslr.org/60/)** 数据集上的基准测试结果，使用单张 GPU (**tp=1, ep=1, num_speculative_tokens=4, batch_size=1, output_len=1024**)。

模型	方法	LibriTTS
		吞吐量 (tokens/s)	接受长度
Fun-CosyVoice3	Vanilla	-	1
Fun-CosyVoice3	Eagle3	-	1.96

### 2. 量化部分模型的性能测试结果如下所示。有关完整的基准测试，请参阅 [Benchmark 文档](https://angelslim.readthedocs.io/zh-cn/latest/performance/quantization/benchmarks.html) #### 2.1 Hunyuan 系列模型 `Hunyuan-Instruct` 模型在 `OlympiadBench`、`AIME 2024` 和 `DROP` 数据集上使用 `FP8`、`INT4-AWQ` 和 `INT4-GPTQ` 量化算法的基准测试结果：

模型	量化	OlympiadBench	AIME 2024	DROP	GPQA-Diamond
Hunyuan-A13B-Instruct	BF16	82.7	87.30	91.1	71.2
	FP8-Static	83.0	86.7	91.1	-
	Int4-GPTQ	82.7	86.7	91.1	-
	Int4-AWQ	82.6	85.6	91.0	-
Hunyuan-7B-Instruct	BF16	76.5	81.1	85.9	60.1
	FP8-Static	76.6	80.9	86.0	60.1
	Int4-GPTQ	76.2	81.0	85.7	60.0
	Int4-AWQ	76.4	80.9	85.9	60.1
Hunyuan-4B-Instruct	BF16	73.1	78.3	78.2	61.1
	FP8-Static	73.1	76.6	78.3	60.2
	Int4-GPTQ	72.9	-	78.1	58.1
	Int4-AWQ	72.8	-	78.2	-
Hunyuan-1.8B-Instruct	BF16	63.4	56.7	76.7	47.2
	FP8-Static	62.5	55.2	75.1	47.7
	Int4-GPTQ	60.9	-	73.0	44.4
	Int4-AWQ	61.7	-	71.7	43.6
Hunyuan-0.5B-Instruct	BF16	29.6	17.2	52.8	23.3
	FP8-Static	29.6	17.2	51.6	22.5
	Int4-GPTQ	26.8	-	50.9	23.3
	Int4-AWQ	26.3	-	48.9	23.3

#### 2.2 Qwen3 系列模型 Qwen3 系列模型在 `CEVAL`、`MMLU`、`GSM8K` 和 `HUMANEVAL` 数据集上使用 `FP8-Static`、`FP8-Dynamic`、`INT4-GPTQ` 和 `INT4-AWQ` 量化算法的基准测试结果：

模型	量化	CEVAL	MMLU	GSM8K	HUMANEVAL
Qwen3-0.6B	BF16	45.84	47.21	42.99	19.51
	FP8-Static	45.99	46.87	38.06	18.90
	FP8-Dynamic	45.99	46.93	38.29	20.73
	INT8-Dynamic	45.17	46.95	41.17	21.34
Qwen3-8B	BF16	79.27	74.78	87.79	63.41
	FP8-Static	78.23	74.79	86.96	62.20
	FP8-Dynamic	78.45	74.75	87.64	62.80
	INT8-Dynamic	78.01	74.84	86.96	67.07
	INT4-GPTQ	77.19	73.26	86.43	62.20
	INT4-AWQ	76.15	73.59	86.96	63.41
Qwen3-14B	BF16	83.06	78.90	88.40	55.49
	FP8-Static	82.62	78.57	89.46	57.32
	FP8-Dynamic	82.24	78.92	88.32	52.44
	INT8-Dynamic	81.87	78.13	86.28	56.10
	INT4-GPTQ	81.05	78.02	87.34	57.93
	INT4-AWQ	82.02	77.68	84.23	61.59
Qwen3-32B	BF16	86.55	82.00	74.53	37.80
	FP8-Static	86.92	81.78	70.20	39.63
	FP8-Dynamic	86.55	81.89	70.43	38.41
	INT4-GPTQ	86.18	81.01	-	43.29
	INT4-AWQ	86.18	81.54	-	36.59
Qwen3-30B-A3B	BF16	83.66	79.36	89.99	31.71
	FP8-Static	83.95	79.47	89.01	31.10
	FP8-Dynamic	84.10	79.40	89.16	32.93
	INT8-Dynamic	83.36	79.48	89.16	34.15
Qwen3-235B-A22B	BF16	89.60	86.28	85.29	27.44
	FP8-Static	89.67	86.19	86.96	27.44
	FP8-Dynamic	89.67	86.18	85.22	28.05
	INT8-Dynamic	88.93	86.20	86.20	23.78

#### 2.3 DeepSeek 系列模型 DeepSeek-R1-0528 系列模型在 `GPQA Diamond`、`IME 2024`、`SimpleQA` 和 `LiveCodeBench` 数据集上使用 `FP8-Block-Wise` 和 `W4A8-FP8` 量化算法的基准测试结果：

模型	量化	GPQA Diamond	AIME 2024	SimpleQA	LiveCodeBench
DeepSeek-R1-0528	FP8-Block-Wise	78.28	88.67	27.8	77.1
	W4A8-FP8	77.37	88.67	26.83	78.86

注

#### 2.4 Qwen-VL 系列模型 **Qwen3-VL 基准测试** Qwen3-VL 系列模型在 `MMMU_VAL`、`DocVQA_VAL` 和 `ChartQA_TEST` 数据集上使用 `BF16`、`FP8-Static` 和 `FP8-Dynamic` 量化算法的基准测试结果：

模型	量化	MMMU_VAL	DocVQA_VAL	ChartQA_TEST
Qwen3-VL-32B-Instruct	BF16	60.11	96.08	94.64
	FP8-Static	61.22	96.00	94.64
	FP8-Dynamic	60.78	96.19	94.72
Qwen3-VL-30B-A3B-Instruct	BF16	50.44	95.28	95.36
Qwen3-VL-30B-A3B-Instruct	FP8-Dynamic	50.67	95.25	95.20

Qwen2.5VL 基准测试

Qwen2.5VL 系列模型在 `MMMU_VAL`、`DocVQA_VAL` 和 `ChartQA_TEST` 数据集上使用 `BF16`、`FP8-Static`、`FP8-Dynamic`、`INT4-GPTQ`、`INT4-AWQ` 量化算法的基准测试结果：

模型	量化	MMMU_VAL	MMLDocVQA_VALU	ChartQA_TEST
Qwen2.5VL-3B	BF16	47.11	78.57	80.32
	FP8-Static	47.33	79.34	79.68
	FP8-Dynamic	45.99	46.93	38.29
	INT4-GPTQ	46.56	77.20	78.96
	INT4-AWQ	45.78	-	79.60
Qwen2.5VL-7B	BF16	45.44	89.71	84.64
	FP8-Static	47.00	89.83	85.92
	FP8-Dynamic	47.22	89.80	88.64
	INT4-GPTQ	46.67	90.45	-
	INT4-AWQ	45.67	89.28	-
Qwen2.5VL-32B	BF16	57.00	90.03	-
	FP8-Static	57.00	89.88	-
	FP8-Dynamic	56.44	89.88	-
	INT4-GPTQ	55.22	89.80	-
	INT4-AWQ	55.22	90.30	-
Qwen2.5VL-72B	BF16	58.78	94.39	85.60
	FP8-Static	57.89	94.41	85.84
	FP8-Dynamic	58.67	94.38	85.60
	INT4-GPTQ	57.56	94.46	86.48
	INT4-AWQ	58.78	94.19	87.28

#### 2.5 Qwen-Omni 系列模型 **Qwen3-Omni 文本到文本基准测试** Qwen3-Omni 系列模型在 BF16、FP8-Static 和 FP8-Dynamic 下针对 aime25、gpqa_diamond 和 mmlu_redux 的基准测试结果如下：

模型	量化	aime25	gpqa_diamond	mmlu_redux
Qwen3-Omni-30B-A3B-Instruct	BF16	73.32	56.77	88.09
	FP8-Static	71.33	56.57	87.91
	FP8-Dynamic	73.33	55.15	88.07

注

#### 2.6 其他模型 GLM-4.6、Qwen2.5 和 Seed-OSS 等其他模型已在 `CEVAL`、`MMLU` 和 `GSM8K` 等基准测试中，使用包括 `FP8-Static`、`FP8-Dynamic`、`INT4-GPTQ` 和 `INT4-AWQ` 在内的量化策略进行了评估。

基准测试实验详情

INT4-AWQ

模型	量化	CEVAL	MMLU	GSM8K
Qwen2.5-1.5B-Instruct	BF16	67.01	60.05	54.28
	FP8-Static	66.27	60.23	-
	FP8-Dynamic	66.79	60.08	51.71
Qwen2.5-7B-Instruct	BF16	81.20	74.55	79.98
	FP8-Static	81.13	74.03	79.30
	FP8-Dynamic	80.31	74.07	79.00
	INT4-GPTQ	79.05	73.05	74.75
	INT4-AWQ	79.35	73.22	79.38
Qwen2.5-32B-Instruct	BF16	87.30	83.21	81.73
	FP8-Static	87.59	83.08	81.58
	FP8-Dynamic	87.30	83.04	81.58
	INT4-GPTQ	86.70	82.45	82.03
	INT4-AWQ	87.00	82.64	-
DeepSeek-R1-Distill-Qwen-7B	BF16	53.49	53.80	75.74
	FP8-Static	53.57	54.17	76.19
	FP8-Dynamic	52.97	54.13	74.15
	INT4-GPTQ	51.86	52.44	75.89
	INT4-AWQ	53.49	53.70	-
DeepSeek-R1-Distill-Qwen-14B	BF16	77.71	74.28	85.67
	FP8-Static	77.56	74.66	86.73
	FP8-Dynamic	76.82	74.63	87.11
	INT4-GPTQ	74.29	72.37	84.61
	INT4-AWQ	74.81	73.00	86.05
DeepSeek-R1-Distill-Qwen-32B	BF16	84.18	80.89	87.41
	FP8-Static	83.43	80.90	87.57
	FP8-Dynamic	83.73	81.10	86.43
	INT4-GPTQ	84.10	79.80	86.73
	82.84	80.15	87.19

### 3. Token 压缩我们在多个多模态基准测试上评估了 **Qwen2.5-VL-3B-Instruct** 模型的各种视觉 Token 压缩策略。您可以使用以下命令复现这些结果： ``` python tools/run_pruning_eval.py \ --model_path "Qwen/Qwen2.5-VL-3B-Instruct" \ --configs "configs/qwen2_5_vl/pruning/visionzip_r0.9.yaml" \ --tasks "textvqa" \ --output_dir "./results/visionzip_test" ```

详细基准测试结果 (Qwen2.5-VL-3B-Instruct)

方法	AI2D	ChartQA	DocVQA	MMB^CN	MMB	MME	MMStar	OCRBench	POPE	SQA	VQA^Text	平均值
Baseline	79.11	83.56	92.48	73.28	77.32	1517	56.05	80.10	87.41	80.81	78.79	100.0%
保留 25% Tokens (75% 压缩率)
FastV	72.70	70.04	75.98	63.40	66.92	1437	47.39	36.60	86.42	79.33	73.51	86.02%
VisionZip	74.19	71.32	70.11	67.35	71.22	1452	49.37	42.50	85.51	81.36	68.12	87.34%
HiPrune	73.83	72.76	72.10	67.27	72.34	1449	48.93	41 标签：1.25比特量化, 2比特量化, AngelSlim, Apex, DLL 劫持, FP8, Hugging Face, LLM, ModelScope, MoE, Unmanaged PE, Vectored Exception Handling, 人工智能, 低比特量化, 凭据扫描, 大语言模型, 推理加速, 机器学习, 模型优化, 模型压缩, 模型压缩工具包, 深度学习, 用户模式Hook绕过, 知识蒸馏, 神经网络压缩, 离线翻译, 移动端AI, 稀疏化, 端侧大模型, 端侧部署, 系统调用监控, 逆向工具, 量化