kabNath/vidimus

GitHub: kabNath/vidimus

Vidimus 是一个为LLM评估管道提供防篡改审计、校准不确定性和密码学证明的工具，使AI行为可验证和可审计。

Stars: 0 | Forks: 0

# Vidimus ### 面向智能体AI的信任层 *可验证、可审计、经密码学证明的LLM和智能体行为——适用于AI决策必须事后可审查的安全关键、工业及研究部署场景。* [![Version](https://img.shields.io/badge/version-0.1.0a1-blue)](https://github.com/kabNath/vidimus/releases) [![Python](https://img.shields.io/badge/python-3.11%2B-blue)](https://www.python.org/downloads/) [![License](https://img.shields.io/badge/license-Apache%202.0-green)](LICENSE) [![Build](https://static.pigsec.cn/wp-content/uploads/repos/2026/05/8057c43351182848.svg)](https://github.com/kabNath/vidimus/actions) [![Docker](https://img.shields.io/badge/docker-ready-2496ed?logo=docker&logoColor=white)](#run-with-docker) [快速开始](docs/quickstart.md) • [架构](ARCHITECTURE.md) • [路线图](ROADMAP.md)

Vidimus demo: instrument, attest, verify, detect tampering

## 为何需要 Vidimus 现代的LLM可观测性工具只能告诉你你的智能体*做了什么*。但没有一个能证明这一点。当合规官询问：“你能保证这份评估报告事后未被篡改吗？”——答案是否定的。当监管机构问：“那个幻觉分数的置信区间是多少？”——答案是沉默。当客户问：“我能在不信任你方供应商的情况下，独立验证这次审计吗？”——答案是“请相信我们”。 Vidimus 用现有技术栈缺失的三个原语来弥补这些缺陷： 1. **防篡改追踪** —— 每一次智能体交互都被哈希并链接到一个Merkle树中，因此任何事后修改都可被检测。 2. **校准不确定性** —— 每个评估指标都附带引导置信区间和多评审员一致性分数，而不是伪装成真相的点估计。 3. **密码学证明** —— 经Ed25519签名的评估报告，可选锚定在链上（BNB Chain、以太坊或任何EVM），任何第三方均可离线验证。只需三行代码即可将其集成到您现有的可观测性工具旁，或作为独立工具运行。 ## 快速开始 ``` pip install vidimus ``` ``` import vidimus vidimus.init(workspace="acme-prod") @vidimus.audit def my_agent(query: str) -> str: # your existing agent code return llm.invoke(query) ``` 生成过去24小时追踪的签名证明： ``` vidimus attest --since 24h --output report.json ``` 世界上的任何人都可以现在离线验证它，无需联系您的服务器： ``` vidimus verify report.json # ✓ Merkle root 匹配 4,318 条 traces # ✓ Ed25519 签名有效 (密钥: vidimus-ai/acme-prod) # ✓ 幻觉率: 3.2% [95% CI: 2.7% – 3.8%, n=4,318, k=3 评审员, 一致性 κ=0.82] # ✓ 可选链上锚点: BNB Chain 区块 47,892,134 (交易: 0xae9f...) ``` 就这样。您现在拥有一个可移植、经密码学验证的智能体行为产物。 ### 使用 Docker 运行如果您偏爱容器化设置： ``` docker build -t vidimus:latest . docker run --rm vidimus:latest version # 或使用 docker compose，配备持久化密钥存储和证明输出： docker compose run --rm vidimus keys generate docker compose run --rm vidimus attest --since 24h --output /output/report.json ``` 该镜像为多阶段构建（最终约150 MB），以非root用户运行，且在生产环境中不包含任何构建工具。参见 [`Dockerfile`](Dockerfile) 和 [`docker-compose.yml`](docker-compose.yml)。 ### 示例 | 文件 | 展示内容 | |---|---| | [`examples/basic_agent.py`](examples/basic_agent.py) | 最小化端到端示例：为智能体插桩、证明、验证、检测篡改 | | [`examples/rag_with_vidimus.py`](examples/rag_with_vidimus.py) | 教学用RAG（TF-IDF检索器 + 桩生成器），展示插桩模式 | | [`examples/rag_production.py`](examples/rag_production.py) | **生产级RAG**，使用sentence-transformers嵌入、FAISS索引和Ollama生成器 | | [`examples/opik_integration.py`](examples/opik_integration.py) | 双重装饰（`@opik.track` + `@vidimus.audit`）—— Vidimus 叠加在 Comet Opik 之上 | | [`examples/langchain_integration.py`](examples/langchain_integration.py) | 通过 OpenTelemetry 用 Vidimus 插桩的 LangChain 问答链 | ## 架构 ``` your application │ ▼ ┌──────────────────────────────────┐ │ @vidimus.audit or OTel exporter │ └─────────────────┬────────────────┘ │ (spans, traces) ▼ ┌──────────────────────────────────┐ │ vidimus.audit (this module) │ │ │ │ • Merkle-chained trace store │ │ (DuckDB or ClickHouse) │ │ • Multi-judge eval pipeline │ │ • Bootstrap CI calibration │ │ • Ed25519 signer │ │ • Optional EVM anchor │ └─────────────────┬────────────────┘ │ ▼ ┌──────────────────────────────────┐ │ signed attestation.json │ │ verifiable offline, anywhere │ └──────────────────────────────────┘ ``` 完整的技术设计见 [ARCHITECTURE.md](ARCHITECTURE.md)。 ## 路线图 Vidimus 将在一个项目下发布三个有序模块——为整个智能体生命周期提供的信任栈。 | 模块 | 状态 | 提供功能 | |---|---|---| | **`vidimus.audit`** (模块 A) | 🚧 alpha，本仓库 | 防篡改追踪、校准不确定性、密码学证明 | | **`vidimus.optimize`** (模块 B) | 🗓 2026 | 基于DRL的提示和智能体优化（PPO，MADDPG），并为优化过程本身应用相同的审计保证 | | **`vidimus.federate`** (模块 C) | 🗓 2027 | 联邦评估，采用安全聚合和差分隐私，适用于数据不能离开其环境的场景 | 将它们联系在一起的核心论点是：**能够在不损害隐私的前提下持续改进的可信智能体。** 每个模块独立有用且可独立安装。详见 [ROADMAP.md](ROADMAP.md) 了解详细计划。 ## 使用场景 **受监管行业。** 金融服务、医疗、法律、公共部门——任何审计员最终会要求“证明一下”的地方。Vidimus 就能产出该证明。 **高风险智能体决策。** 当一个智能体做出影响金钱、健康或权利的推荐时，决策路径应当是可密码学验证的，而不是一张截图。 **开放评估与基准测试。** 研究人员和实验室可以发布其评估运行的签名证明，任何人都可验证，从而消除排行榜和论文中的“他们是否挑选数据？”的疑虑。 **投资者与客户报告。** 用签名的评估产物，而非不可证伪的仪表盘，来支持性能声明。 ## 状态 Vidimus 处于 **alpha** 阶段。在 v1.0.0 之前，Python SDK 的接口可能会发生变化。密码学原语（Ed25519签名、SHA-256 Merkle树、RFC 8785规范JSON）是稳定的，不会破坏兼容性。在 v1.0 之前，用于生产环境需自行承担风险。我们正在积极寻求： - 对证明格式进行密码学评审 - 改进校准方法（替代引导CI的方法，更好的多评审员聚合） - 更多的 OpenTelemetry 导出器集成 - 文档翻译员（特别是法语和中文） ## 贡献参见 [CONTRIBUTING.md](CONTRIBUTING.md)。对于实质性贡献，请先开启一个讨论。 ## 许可证 Apache 2.0。参见 [LICENSE](LICENSE)。 ## 引用如果您在研究中使用 Vidimus，请引用： ``` @software{vidimus2026, author = {Kaboré, Wendenda Nathanael}, title = {Vidimus: A Trust Layer for Agentic AI}, year = {2026}, url = {https://github.com/kabNath/vidimus}, license = {Apache-2.0} } ``` ## 相关项目 Vidimus 是更广泛研究组合的一部分，该组合处于 **AI原生无线系统** 与**可信AI基础设施** 的交叉点。 ### AI原生无线系统 - **[cuda-phy-channel-estimation](https://github.com/kabNath/cuda-phy-channel-estimation)** —— 基于CUDA的GPU加速5G/6G物理层信道估计。与参考Python实现的性能基准对比。 - **[sionna-link-adaptation-drl](https://github.com/kabNath/sionna-link-adaptation-drl)** —— 基于NVIDIA Sionna的5G/6G链路自适应深度强化学习。在用户吞吐量上优于基于规则的AMC基线。 - **[federated-csi-feedback](https://github.com/kabNath/federated-csi-feedback)** —— 用于CSI反馈压缩的联邦学习，保护用户侧隐私的同时降低跨小区开销。 - **[sagin-maddpg-hfl](https://github.com/kabNath/sagin-maddpg-hfl)** —— 部署在大安区（台北）并使用Starlink回传的多无人机中继系统，通过MADDPG和分层联邦学习进行优化。 ### 可信AI基础设施与应用 - **Vidimus** *（本仓库）* —— 用于LLM评估的密码学来源和校准不确定性。 - **[AI Capital](https://ai-capital-ir.vercel.app)** —— 部署在QuantConnect上的实时算法交易系统。跨资产动量、市场状态检测、风险平价。Vidimus证明的首位生产用户。统一的论点是：**从无线物理层到智能体，构建兼具性能与可问责性的AI系统。** ## 致谢 Vidimus 站在 OpenTelemetry、Pydantic、FastAPI、DuckDB 以及更广泛的LLM可观测性社区（Opik、Langfuse、LangSmith、OpenLLMetry、Phoenix）的肩膀上。统计方法借鉴了 Fleiss (1971)、Krippendorff (1970)、Efron (1979) 的研究，以及迄今为止LLM作为评判者文献在很大程度上忽略的评阅者间信度的长期工作。

标签：API集成, BNB链, CVE, Docker容器化, Ed25519签名, Force Graph, LLM评估工具, Merkle树, OpenTelemetry监控, Python编程, RAG, 不确定性量化, 人工智能安全, 信任层, 加密证明, 区块链集成, 可审计性, 可观测性, 可验证性, 合规性, 合规性审计, 大型语言模型评估, 安全关键系统, 工业AI, 敏捷评估, 数字签名, 校准不确定性, 检索增强生成, 用户代理, 研究部署, 篡改检测, 评估管道, 请求拦截, 逆向工具