FastFlowLM/FastFlowLM

GitHub: FastFlowLM/FastFlowLM

FastFlowLM 是一款专为 AMD Ryzen AI NPU 深度优化的本地大模型推理运行时，旨在以极高能效和零 GPU 占用实现快速、私密的模型部署。

Stars: 825 | Forks: 47

## ⚡ FastFlowLM (FLM) — 解锁 Ryzen™ AI NPU 只需几分钟，即可在 **AMD Ryzen™ AI NPU** 上运行大型语言模型 — 现已支持 **Vision**、**Audio**、**Embedding** 和 **MoE**。 **无需 GPU。速度更快，能效提升 10 倍以上。支持高达 256k tokens 的上下文长度。超轻量级 (16 MB)。20 秒内完成安装。** 📦 **唯一专为 Ryzen™ AI 打造的开箱即用、NPU 优先的运行时。** 🤝 **就像 Ollama — 但针对 NPU 进行了深度优化。** ✨ **化闲置硅片为瞬时算力 — FastFlowLM 让 Ryzen™ AI 大放异彩。** ## 🔗 快速链接 🔽 **[下载](https://github.com/FastFlowLM/FastFlowLM/releases/latest/download/flm-setup.exe)** | 📊 **[基准测试](https://fastflowlm.com/docs/benchmarks/)** | 📦 **[模型列表](https://fastflowlm.com/docs/models/)** 🐧 **[Linux 入门指南](docs/linux-getting-started.md)** 📖 **[文档](https://fastflowlm.com/docs)** | 📺 **[演示](https://www.youtube.com/@FastFlowLM-YT/playlists)** | 🧪 **[试驾](https://fastflowlm.com/docs/#-test-drive-remote-demo)** | 💬 **[Discord](https://discord.gg/z24t23HsHF)** ## 🚀 快速入门此处提供了打包好的 FLM Windows 安装程序：[**flm-setup.exe**](https://github.com/FastFlowLM/FastFlowLM/releases/latest/download/flm-setup.exe)。欲了解更多详情，请参阅[发行说明](https://github.com/FastFlowLM/FastFlowLM/releases/)。 📺 [**观看快速入门视频**](https://www.youtube.com/watch?v=mYOfDNkyBII) 安装完成后，打开 **PowerShell** (`Win + X → I`)。要在终端中运行模型（**CLI 模式**）： ``` flm run llama3.2:1b ``` 🎉🚀 FastFlowLM (FLM) 已就绪 — 您的 NPU 已解锁，您可以立即开始与模型聊天！打开 **任务管理器** (`Ctrl + Shift + Esc`)。转到 **性能** 选项卡 → 点击 **NPU** 以监控使用情况。要启动本地服务器（**服务器模式**）： ``` flm serve llama3.2:1b ``` **[![FastFlowLM 文档](https://img.shields.io/badge/FastFlowLM-Detailed%20Instructions-red?style=flat&logo=readthedocs)](https://fastflowlm.com/docs/instructions/)** ## 📰 新闻动态 - 10/01/2025 🎉 FLM 已集成到 AMD 的 **[Lemonade Server](https://lemonade-server.ai/)** 🍋 中。观看此**[简短演示](https://www.youtube.com/watch?v=w0Tb3h4WUnE)**，了解如何在 Lemonade 中使用 FLM。 ## 🧠 在 NPU 上运行本地 AI FLM 让本地运行前沿的 **LLM**（以及现在的 **VLM**）变得简单，具备以下特点： - ⚡ 快速且低功耗 - 🧰 简单的 CLI 和 API（REST 和 OpenAI API） - 🔐 完全私密且离线无需重写模型，无需调优 — 开箱即用。 ## ✅ 亮点 - **完全在 AMD Ryzen™ AI NPU 上运行** — 无 GPU 或 CPU 负载 - **轻量级运行时 (16 MB)** — **20 秒内**安装完成，易于集成 - **开发者优先的流程** — 像 Ollama 一样，但针对 NPU 进行了优化 - **支持长上下文窗口** — 高达 256k tokens（例如 Qwen3-4B-Thinking-2507） - **无需底层调优** — 您只需专注于您的应用，剩下的交给我们 ## 📄 许可证 - 所有编排代码和 CLI 工具均在 [MIT 许可证](./LICENSE_RUNTIME.txt)下开源。 - NPU 加速内核为**专有二进制文件**，**年度公司收入在 1000 万美元以下**可免费商用。 - 超过此门槛（**1000 万美元**）的公司必须获取商业许可证。请参阅 [LICENSE_BINARY.txt](./LICENSE_BINARY.txt) 和 [TERMS.md](./TERMS.md) 了解完整详情。 - **免费版用户：** 请在您的 README/项目页面（或产品）中按如下方式提及 FastFlowLM：由 [FastFlowLM](https://github.com/FastFlowLM/FastFlowLM) 提供支持如有商业许可咨询，请发送邮件至：info@fastflowlm.com 💬 有**反馈/问题**或想要**抢先体验**我们的新版本？[提出 Issue](https://github.com/fastflowlm/fastflowlm/issues/new) 或[加入我们的 Discord 社区](https://discord.gg/z24t23HsHF) ## 🙏 致谢 - 由先进的 **AMD Ryzen™ AI NPU 架构**提供支持 - 灵感源自广泛使用的 [llama.cpp](https://github.com/ggml-org/llama.cpp) 和 [Ollama](https://github.com/ollama/ollama) - 使用 [MLC-ai/tokenizers-cpp](https://github.com/mlc-ai/tokenizers-cpp) 加速 Tokenization - 通过 [Google/minja](https://github.com/google/minja) 进行聊天格式化 - 使用强大的 [IRON](https://github.com/amd/iron)+[AIE-MLIR](https://github.com/Xilinx/mlir-aie) 优化底层内核 ## 🛠️ 从源码构建对于想要从源码构建 FastFlowLM 的开发者，我们提供了 CMake 预设，以带来便捷且一致的构建体验。 ### 前置条件 - Git - CMake (版本 3.22 或更高) - 兼容 C++20 的编译器（例如 GCC, Clang, MSVC） - Ninja（推荐） ### 构建说明 1. **克隆仓库：** git clone --recursive https://github.com/FastFlowLM/FastFlowLM.git cd FastFlowLM/src 2. **使用预设配置 CMake：** - **对于 Linux：** cmake --preset linux-default 这会将构建配置为安装到 `/opt/fastflowlm`。 - **对于 Windows（在开发者命令提示符中）：** cmake --preset windows-default 3. **构建项目：** cmake --build build 4. **安装项目（可选）：** - **对于 Linux：** sudo cmake --install build - **对于 Windows（具有管理员权限）：** cmake --install build

标签：AMD NPU, Bash脚本, DLL 劫持, Linux兼容, LLM推理, MoE架构, Ollama替代, Petitpotam, Ryzen AI, Windows AI, 人工智能, 多模态, 大语言模型, 文本嵌入, 无GPU运行, 本地部署, 模型运行时, 深度学习, 用户模式Hook绕过, 硬件加速, 端侧AI, 视觉语言模型, 语音识别, 超轻量级, 边缘计算, 长上下文, 高能效计算