kabNath/vidimus

GitHub: kabNath/vidimus

Vidimus 是一个为LLM评估管道提供防篡改审计、校准不确定性和密码学证明的工具,使AI行为可验证和可审计。

Stars: 0 | Forks: 0

# Vidimus ### 面向智能体AI的信任层 *可验证、可审计、经密码学证明的LLM和智能体行为——适用于AI决策必须事后可审查的安全关键、工业及研究部署场景。* [![Version](https://img.shields.io/badge/version-0.1.0a1-blue)](https://github.com/kabNath/vidimus/releases) [![Python](https://img.shields.io/badge/python-3.11%2B-blue)](https://www.python.org/downloads/) [![License](https://img.shields.io/badge/license-Apache%202.0-green)](LICENSE) [![Build](https://static.pigsec.cn/wp-content/uploads/repos/2026/05/8057c43351182848.svg)](https://github.com/kabNath/vidimus/actions) [![Docker](https://img.shields.io/badge/docker-ready-2496ed?logo=docker&logoColor=white)](#run-with-docker) [快速开始](docs/quickstart.md) • [架构](ARCHITECTURE.md) • [路线图](ROADMAP.md)

Vidimus demo: instrument, attest, verify, detect tampering

## 为何需要 Vidimus 现代的LLM可观测性工具只能告诉你你的智能体*做了什么*。但没有一个能证明这一点。 当合规官询问:“你能保证这份评估报告事后未被篡改吗?”——答案是否定的。当监管机构问:“那个幻觉分数的置信区间是多少?”——答案是沉默。当客户问:“我能在不信任你方供应商的情况下,独立验证这次审计吗?”——答案是“请相信我们”。 Vidimus 用现有技术栈缺失的三个原语来弥补这些缺陷: 1. **防篡改追踪** —— 每一次智能体交互都被哈希并链接到一个Merkle树中,因此任何事后修改都可被检测。 2. **校准不确定性** —— 每个评估指标都附带引导置信区间和多评审员一致性分数,而不是伪装成真相的点估计。 3. **密码学证明** —— 经Ed25519签名的评估报告,可选锚定在链上(BNB Chain、以太坊或任何EVM),任何第三方均可离线验证。 只需三行代码即可将其集成到您现有的可观测性工具旁,或作为独立工具运行。 ## 快速开始 ``` pip install vidimus ``` ``` import vidimus vidimus.init(workspace="acme-prod") @vidimus.audit def my_agent(query: str) -> str: # your existing agent code return llm.invoke(query) ``` 生成过去24小时追踪的签名证明: ``` vidimus attest --since 24h --output report.json ``` 世界上的任何人都可以现在离线验证它,无需联系您的服务器: ``` vidimus verify report.json # ✓ Merkle root 匹配 4,318 条 traces # ✓ Ed25519 签名有效 (密钥: vidimus-ai/acme-prod) # ✓ 幻觉率: 3.2% [95% CI: 2.7% – 3.8%, n=4,318, k=3 评审员, 一致性 κ=0.82] # ✓ 可选链上锚点: BNB Chain 区块 47,892,134 (交易: 0xae9f...) ``` 就这样。您现在拥有一个可移植、经密码学验证的智能体行为产物。 ### 使用 Docker 运行 如果您偏爱容器化设置: ``` docker build -t vidimus:latest . docker run --rm vidimus:latest version # 或使用 docker compose,配备持久化密钥存储和证明输出: docker compose run --rm vidimus keys generate docker compose run --rm vidimus attest --since 24h --output /output/report.json ``` 该镜像为多阶段构建(最终约150 MB),以非root用户运行,且在生产环境中不包含任何构建工具。参见 [`Dockerfile`](Dockerfile) 和 [`docker-compose.yml`](docker-compose.yml)。 ### 示例 | 文件 | 展示内容 | |---|---| | [`examples/basic_agent.py`](examples/basic_agent.py) | 最小化端到端示例:为智能体插桩、证明、验证、检测篡改 | | [`examples/rag_with_vidimus.py`](examples/rag_with_vidimus.py) | 教学用RAG(TF-IDF检索器 + 桩生成器),展示插桩模式 | | [`examples/rag_production.py`](examples/rag_production.py) | **生产级RAG**,使用sentence-transformers嵌入、FAISS索引和Ollama生成器 | | [`examples/opik_integration.py`](examples/opik_integration.py) | 双重装饰(`@opik.track` + `@vidimus.audit`)—— Vidimus 叠加在 Comet Opik 之上 | | [`examples/langchain_integration.py`](examples/langchain_integration.py) | 通过 OpenTelemetry 用 Vidimus 插桩的 LangChain 问答链 | ## 架构 ``` your application │ ▼ ┌──────────────────────────────────┐ │ @vidimus.audit or OTel exporter │ └─────────────────┬────────────────┘ │ (spans, traces) ▼ ┌──────────────────────────────────┐ │ vidimus.audit (this module) │ │ │ │ • Merkle-chained trace store │ │ (DuckDB or ClickHouse) │ │ • Multi-judge eval pipeline │ │ • Bootstrap CI calibration │ │ • Ed25519 signer │ │ • Optional EVM anchor │ └─────────────────┬────────────────┘ │ ▼ ┌──────────────────────────────────┐ │ signed attestation.json │ │ verifiable offline, anywhere │ └──────────────────────────────────┘ ``` 完整的技术设计见 [ARCHITECTURE.md](ARCHITECTURE.md)。 ## 路线图 Vidimus 将在一个项目下发布三个有序模块——为整个智能体生命周期提供的信任栈。 | 模块 | 状态 | 提供功能 | |---|---|---| | **`vidimus.audit`** (模块 A) | 🚧 alpha,本仓库 | 防篡改追踪、校准不确定性、密码学证明 | | **`vidimus.optimize`** (模块 B) | 🗓 2026 | 基于DRL的提示和智能体优化(PPO,MADDPG),并为优化过程本身应用相同的审计保证 | | **`vidimus.federate`** (模块 C) | 🗓 2027 | 联邦评估,采用安全聚合和差分隐私,适用于数据不能离开其环境的场景 | 将它们联系在一起的核心论点是:**能够在不损害隐私的前提下持续改进的可信智能体。** 每个模块独立有用且可独立安装。 详见 [ROADMAP.md](ROADMAP.md) 了解详细计划。 ## 使用场景 **受监管行业。** 金融服务、医疗、法律、公共部门——任何审计员最终会要求“证明一下”的地方。Vidimus 就能产出该证明。 **高风险智能体决策。** 当一个智能体做出影响金钱、健康或权利的推荐时,决策路径应当是可密码学验证的,而不是一张截图。 **开放评估与基准测试。** 研究人员和实验室可以发布其评估运行的签名证明,任何人都可验证,从而消除排行榜和论文中的“他们是否挑选数据?”的疑虑。 **投资者与客户报告。** 用签名的评估产物,而非不可证伪的仪表盘,来支持性能声明。 ## 状态 Vidimus 处于 **alpha** 阶段。在 v1.0.0 之前,Python SDK 的接口可能会发生变化。密码学原语(Ed25519签名、SHA-256 Merkle树、RFC 8785规范JSON)是稳定的,不会破坏兼容性。在 v1.0 之前,用于生产环境需自行承担风险。 我们正在积极寻求: - 对证明格式进行密码学评审 - 改进校准方法(替代引导CI的方法,更好的多评审员聚合) - 更多的 OpenTelemetry 导出器集成 - 文档翻译员(特别是法语和中文) ## 贡献 参见 [CONTRIBUTING.md](CONTRIBUTING.md)。对于实质性贡献,请先开启一个讨论。 ## 许可证 Apache 2.0。参见 [LICENSE](LICENSE)。 ## 引用 如果您在研究中使用 Vidimus,请引用: ``` @software{vidimus2026, author = {Kaboré, Wendenda Nathanael}, title = {Vidimus: A Trust Layer for Agentic AI}, year = {2026}, url = {https://github.com/kabNath/vidimus}, license = {Apache-2.0} } ``` ## 相关项目 Vidimus 是更广泛研究组合的一部分,该组合处于 **AI原生无线系统** 与**可信AI基础设施** 的交叉点。 ### AI原生无线系统 - **[cuda-phy-channel-estimation](https://github.com/kabNath/cuda-phy-channel-estimation)** —— 基于CUDA的GPU加速5G/6G物理层信道估计。与参考Python实现的性能基准对比。 - **[sionna-link-adaptation-drl](https://github.com/kabNath/sionna-link-adaptation-drl)** —— 基于NVIDIA Sionna的5G/6G链路自适应深度强化学习。在用户吞吐量上优于基于规则的AMC基线。 - **[federated-csi-feedback](https://github.com/kabNath/federated-csi-feedback)** —— 用于CSI反馈压缩的联邦学习,保护用户侧隐私的同时降低跨小区开销。 - **[sagin-maddpg-hfl](https://github.com/kabNath/sagin-maddpg-hfl)** —— 部署在大安区(台北)并使用Starlink回传的多无人机中继系统,通过MADDPG和分层联邦学习进行优化。 ### 可信AI基础设施与应用 - **Vidimus** *(本仓库)* —— 用于LLM评估的密码学来源和校准不确定性。 - **[AI Capital](https://ai-capital-ir.vercel.app)** —— 部署在QuantConnect上的实时算法交易系统。跨资产动量、市场状态检测、风险平价。Vidimus证明的首位生产用户。 统一的论点是:**从无线物理层到智能体,构建兼具性能与可问责性的AI系统。** ## 致谢 Vidimus 站在 OpenTelemetry、Pydantic、FastAPI、DuckDB 以及更广泛的LLM可观测性社区(Opik、Langfuse、LangSmith、OpenLLMetry、Phoenix)的肩膀上。统计方法借鉴了 Fleiss (1971)、Krippendorff (1970)、Efron (1979) 的研究,以及迄今为止LLM作为评判者文献在很大程度上忽略的评阅者间信度的长期工作。
标签:API集成, BNB链, CVE, Docker容器化, Ed25519签名, Force Graph, LLM评估工具, Merkle树, OpenTelemetry监控, Python编程, RAG, 不确定性量化, 人工智能安全, 信任层, 加密证明, 区块链集成, 可审计性, 可观测性, 可验证性, 合规性, 合规性审计, 大型语言模型评估, 安全关键系统, 工业AI, 敏捷评估, 数字签名, 校准不确定性, 检索增强生成, 用户代理, 研究部署, 篡改检测, 评估管道, 请求拦截, 逆向工具