llm-d/llm-d-router
GitHub: llm-d/llm-d-router
面向 Kubernetes 环境的 LLM 推理流量智能路由器,通过缓存感知与负载感知调度优化大规模推理服务的性能与资源利用率。
Stars: 188 | Forks: 200
[](https://goreportcard.com/report/github.com/llm-d/llm-d-inference-scheduler)
[](https://pkg.go.dev/github.com/llm-d/llm-d-inference-scheduler)
[](/LICENSE)
[](https://llm-d.slack.com/archives/C08SBNRRSBD)
# llm-d 路由器
**llm-d Router** 是推理流量的智能入口,提供 LLM 负载和前缀缓存感知路由、请求优先级划分以及跨多种请求格式的高级流量控制,以实现复杂的服务目标。它支持灵活的部署模型:可以运行在**独立模式**(在同一个 Pod 中运行自管理的 Envoy 代理和 EPP),也可以通过 Kubernetes Gateway API 集成 L7 负载均衡器——包括自管理实例(例如 Istio、AgentGateway)和云托管服务(例如 Google Cloud 的 Application Load Balancer)。
该 Router 通过与生产级代理(如 [Envoy])通过 [ext-proc] 协议集成的 **Endpoint Picker (EPP)** 来实现其智能化,将实时信号注入数据平面以优化请求的放置策略。
标签:AI基础设施, Endpoint Picker, Envoy代理, EVTX分析, Golang, InferencePool, Istio, Kubernetes网关API, KV Cache感知调度, L7负载均衡, llm-d, LLM推理网关, MacOS取证, 云原生AI, 大模型推理, 安全编程, 微服务架构, 日志审计, 智能路由, 模型服务部署, 流量控制, 网关, 请求优先级管理, 请求拦截, 负载均衡, 路由调度