naranor/agent-coderag

GitHub: naranor/agent-coderag

面向AI编程智能体的轻量级语义代码搜索与提炼工具，通过本地实时API签名提取和向量索引解决LLM的环境知识盲区问题。

Stars: 1 | Forks: 0

# agent-coderag

agent-coderag Logo

AI 编程智能体的 API 知识桥梁。
本地、快速且节省 token 的语义搜索，通过提供实时的本地上下文来消除 LLM 幻觉。

## 为什么选择 agent-coderag？在 2026 年，AI 编程智能体仍受限于过时的训练数据。因为不了解您的具体环境，它们会产生有关库调用的幻觉。 * **痛点：** 您的智能体为 Pydantic v1 编写代码，而您实际安装的是 v2。您在一个“失败-修复-失败”的循环中浪费了 5000+ 个 token。 * **解决方案：** agent-coderag 从您的本地环境中提取实时的 API 签名和技术意图。它为 LLM 恰好提供其所需的内容——不多也不少。 ## 核心特性 - **极速启动：** 基于 onnxruntime 和基于 Rust 的分词器构建。零 PyTorch 开销。 - **上下文压缩：** 用 200 个 token 的语义摘要替代 10,000 行原始代码。 - **多解析器引擎：** 针对 Python (AST) 和 Java (javalang) 的原生结构化分析。 - **API 发现：** 从 Maven/Gradle 缓存和 Python site-packages 中即时提取公共签名。 - **本地优先：** 所有嵌入和数据均通过高性能 DuckDB VSS 索引保存在您的本地机器上。 ## 快速开始 ### 安装 ``` pip install agent-coderag ``` ### 初始设置 ``` # 下载预训练的多语言 embedding 模型 (~130MB) agent-coderag setup # （可选）连接您首选的 LLM 进行 semantic distillation # 使用 Ollama（本地） agent-coderag config --url "http://localhost:11434" --provider "ollama" --model "qwen2.5-coder" # 使用 OpenAI 兼容 API（例如 Groq, OpenRouter, DeepSeek） agent-coderag config --url "https://api.deepseek.com" --key "your-api-key" --model "deepseek-chat" ``` ### 离线模式（无 Provider）如果您未配置 LLM provider，agent-coderag 将在 **100% 离线模式**下运行： - **解析与 API 发现：** 使用本地 AST 引擎和 javap 仍可完美运行。 - **搜索：** 保持快速准确。 - **提炼：** 系统不使用 AI 生成的摘要，而是使用代码签名和实体名称作为备选元数据。任何数据都不会离开您的机器。 ### 首次同步与搜索 ``` # 索引您的整个项目（自动遵循 .gitignore） agent-coderag sync --all # 执行 semantic search agent-coderag search "how does the authentication middleware work?" ``` ## 工作原理 agent-coderag 使用多阶段流水线为您的代码库创建语义映射： ``` graph LR Code[Local Codebase] --> Parser[Multi-Language Parser] Parser --> Delta[Delta-Sync SHA-256] Delta -- New/Changed --> Distill[LLM Distiller] Delta -- Unchanged --> Cache[Local Cache] Distill --> Embed[ONNX Embedder] Cache --> Embed Embed --> DuckDB[(DuckDB VSS)] DuckDB --> Agent[AI Agent Response] ``` 1. **结构化解析：** 识别类、方法和关系（导入）。 2. **技术提炼：** 为每个代码单元生成简洁的“意图摘要”。 3. **向量化：** 本地 ONNX 模型创建 384 维嵌入。 4. **VSS 存储：** DuckDB 实现亚毫秒级的相似度搜索。 ## 原生智能体用法 agent-coderag 旨在成为您 AI 智能体的主要工具。 ### 协议： 1. **搜索优先：** 智能体不再直接读取文件，而是运行 agent-coderag --json search。 2. **验证签名：** 智能体运行 agent-coderag api 以获取真实的签名。 3. **阅读摘要：** 智能体使用摘要字段来判断哪些文件是真正相关的。 **程序化输出：** ``` agent-coderag --json search "database init" --limit 1 ``` ## 开发与测试我们保持着严格的质量标准。 ``` # 安装开发依赖项 make install # 运行带有覆盖率报告的完整测试套件 make test # 运行 linters（Prospector, MyPy, Bandit） make lint ``` ## 许可证基于 MIT 许可证分发。更多信息请参见 LICENSE。 [🔝 返回顶部](#table-of-contents)

为智能体而生。由人类驱动。

标签：AI编程助手, AI风险缓解, API签名提取, DLL 劫持, DuckDB, LLM, NLP, ONNX Runtime, Petitpotam, Python, RAG, Ruby, Rust, SOC Prime, Token优化, Unmanaged PE, 上下文压缩, 人工智能, 代码分析, 代码提炼, 代码搜索, 凭证管理, 向量数据库, 向量索引, 大语言模型, 幻觉消除, 开发工具, 开发效率, 意图分析, 数据管道, 文本嵌入, 无后门, 本地推理, 检索增强生成, 用户模式Hook绕过, 知识库, 网络可观测性, 网络流量审计, 自动化payload嵌入, 语义搜索, 软件工程, 轻量级工具, 逆向工具