kabNath/vidimus
GitHub: kabNath/vidimus
Vidimus 是一个为LLM评估管道提供防篡改审计、校准不确定性和密码学证明的工具,使AI行为可验证和可审计。
Stars: 0 | Forks: 0
# Vidimus
### 面向智能体AI的信任层
*可验证、可审计、经密码学证明的LLM和智能体行为——适用于AI决策必须事后可审查的安全关键、工业及研究部署场景。*
[](https://github.com/kabNath/vidimus/releases)
[](https://www.python.org/downloads/)
[](LICENSE)
[](https://github.com/kabNath/vidimus/actions)
[](#run-with-docker)
[快速开始](docs/quickstart.md) • [架构](ARCHITECTURE.md) • [路线图](ROADMAP.md)
## 为何需要 Vidimus
现代的LLM可观测性工具只能告诉你你的智能体*做了什么*。但没有一个能证明这一点。
当合规官询问:“你能保证这份评估报告事后未被篡改吗?”——答案是否定的。当监管机构问:“那个幻觉分数的置信区间是多少?”——答案是沉默。当客户问:“我能在不信任你方供应商的情况下,独立验证这次审计吗?”——答案是“请相信我们”。
Vidimus 用现有技术栈缺失的三个原语来弥补这些缺陷:
1. **防篡改追踪** —— 每一次智能体交互都被哈希并链接到一个Merkle树中,因此任何事后修改都可被检测。
2. **校准不确定性** —— 每个评估指标都附带引导置信区间和多评审员一致性分数,而不是伪装成真相的点估计。
3. **密码学证明** —— 经Ed25519签名的评估报告,可选锚定在链上(BNB Chain、以太坊或任何EVM),任何第三方均可离线验证。
只需三行代码即可将其集成到您现有的可观测性工具旁,或作为独立工具运行。
## 快速开始
```
pip install vidimus
```
```
import vidimus
vidimus.init(workspace="acme-prod")
@vidimus.audit
def my_agent(query: str) -> str:
# your existing agent code
return llm.invoke(query)
```
生成过去24小时追踪的签名证明:
```
vidimus attest --since 24h --output report.json
```
世界上的任何人都可以现在离线验证它,无需联系您的服务器:
```
vidimus verify report.json
# ✓ Merkle root 匹配 4,318 条 traces
# ✓ Ed25519 签名有效 (密钥: vidimus-ai/acme-prod)
# ✓ 幻觉率: 3.2% [95% CI: 2.7% – 3.8%, n=4,318, k=3 评审员, 一致性 κ=0.82]
# ✓ 可选链上锚点: BNB Chain 区块 47,892,134 (交易: 0xae9f...)
```
就这样。您现在拥有一个可移植、经密码学验证的智能体行为产物。
### 使用 Docker 运行
如果您偏爱容器化设置:
```
docker build -t vidimus:latest .
docker run --rm vidimus:latest version
# 或使用 docker compose,配备持久化密钥存储和证明输出:
docker compose run --rm vidimus keys generate
docker compose run --rm vidimus attest --since 24h --output /output/report.json
```
该镜像为多阶段构建(最终约150 MB),以非root用户运行,且在生产环境中不包含任何构建工具。参见 [`Dockerfile`](Dockerfile) 和 [`docker-compose.yml`](docker-compose.yml)。
### 示例
| 文件 | 展示内容 |
|---|---|
| [`examples/basic_agent.py`](examples/basic_agent.py) | 最小化端到端示例:为智能体插桩、证明、验证、检测篡改 |
| [`examples/rag_with_vidimus.py`](examples/rag_with_vidimus.py) | 教学用RAG(TF-IDF检索器 + 桩生成器),展示插桩模式 |
| [`examples/rag_production.py`](examples/rag_production.py) | **生产级RAG**,使用sentence-transformers嵌入、FAISS索引和Ollama生成器 |
| [`examples/opik_integration.py`](examples/opik_integration.py) | 双重装饰(`@opik.track` + `@vidimus.audit`)—— Vidimus 叠加在 Comet Opik 之上 |
| [`examples/langchain_integration.py`](examples/langchain_integration.py) | 通过 OpenTelemetry 用 Vidimus 插桩的 LangChain 问答链 |
## 架构
```
your application
│
▼
┌──────────────────────────────────┐
│ @vidimus.audit or OTel exporter │
└─────────────────┬────────────────┘
│ (spans, traces)
▼
┌──────────────────────────────────┐
│ vidimus.audit (this module) │
│ │
│ • Merkle-chained trace store │
│ (DuckDB or ClickHouse) │
│ • Multi-judge eval pipeline │
│ • Bootstrap CI calibration │
│ • Ed25519 signer │
│ • Optional EVM anchor │
└─────────────────┬────────────────┘
│
▼
┌──────────────────────────────────┐
│ signed attestation.json │
│ verifiable offline, anywhere │
└──────────────────────────────────┘
```
完整的技术设计见 [ARCHITECTURE.md](ARCHITECTURE.md)。
## 路线图
Vidimus 将在一个项目下发布三个有序模块——为整个智能体生命周期提供的信任栈。
| 模块 | 状态 | 提供功能 |
|---|---|---|
| **`vidimus.audit`** (模块 A) | 🚧 alpha,本仓库 | 防篡改追踪、校准不确定性、密码学证明 |
| **`vidimus.optimize`** (模块 B) | 🗓 2026 | 基于DRL的提示和智能体优化(PPO,MADDPG),并为优化过程本身应用相同的审计保证 |
| **`vidimus.federate`** (模块 C) | 🗓 2027 | 联邦评估,采用安全聚合和差分隐私,适用于数据不能离开其环境的场景 |
将它们联系在一起的核心论点是:**能够在不损害隐私的前提下持续改进的可信智能体。** 每个模块独立有用且可独立安装。
详见 [ROADMAP.md](ROADMAP.md) 了解详细计划。
## 使用场景
**受监管行业。** 金融服务、医疗、法律、公共部门——任何审计员最终会要求“证明一下”的地方。Vidimus 就能产出该证明。
**高风险智能体决策。** 当一个智能体做出影响金钱、健康或权利的推荐时,决策路径应当是可密码学验证的,而不是一张截图。
**开放评估与基准测试。** 研究人员和实验室可以发布其评估运行的签名证明,任何人都可验证,从而消除排行榜和论文中的“他们是否挑选数据?”的疑虑。
**投资者与客户报告。** 用签名的评估产物,而非不可证伪的仪表盘,来支持性能声明。
## 状态
Vidimus 处于 **alpha** 阶段。在 v1.0.0 之前,Python SDK 的接口可能会发生变化。密码学原语(Ed25519签名、SHA-256 Merkle树、RFC 8785规范JSON)是稳定的,不会破坏兼容性。在 v1.0 之前,用于生产环境需自行承担风险。
我们正在积极寻求:
- 对证明格式进行密码学评审
- 改进校准方法(替代引导CI的方法,更好的多评审员聚合)
- 更多的 OpenTelemetry 导出器集成
- 文档翻译员(特别是法语和中文)
## 贡献
参见 [CONTRIBUTING.md](CONTRIBUTING.md)。对于实质性贡献,请先开启一个讨论。
## 许可证
Apache 2.0。参见 [LICENSE](LICENSE)。
## 引用
如果您在研究中使用 Vidimus,请引用:
```
@software{vidimus2026,
author = {Kaboré, Wendenda Nathanael},
title = {Vidimus: A Trust Layer for Agentic AI},
year = {2026},
url = {https://github.com/kabNath/vidimus},
license = {Apache-2.0}
}
```
## 相关项目
Vidimus 是更广泛研究组合的一部分,该组合处于 **AI原生无线系统** 与**可信AI基础设施** 的交叉点。
### AI原生无线系统
- **[cuda-phy-channel-estimation](https://github.com/kabNath/cuda-phy-channel-estimation)** —— 基于CUDA的GPU加速5G/6G物理层信道估计。与参考Python实现的性能基准对比。
- **[sionna-link-adaptation-drl](https://github.com/kabNath/sionna-link-adaptation-drl)** —— 基于NVIDIA Sionna的5G/6G链路自适应深度强化学习。在用户吞吐量上优于基于规则的AMC基线。
- **[federated-csi-feedback](https://github.com/kabNath/federated-csi-feedback)** —— 用于CSI反馈压缩的联邦学习,保护用户侧隐私的同时降低跨小区开销。
- **[sagin-maddpg-hfl](https://github.com/kabNath/sagin-maddpg-hfl)** —— 部署在大安区(台北)并使用Starlink回传的多无人机中继系统,通过MADDPG和分层联邦学习进行优化。
### 可信AI基础设施与应用
- **Vidimus** *(本仓库)* —— 用于LLM评估的密码学来源和校准不确定性。
- **[AI Capital](https://ai-capital-ir.vercel.app)** —— 部署在QuantConnect上的实时算法交易系统。跨资产动量、市场状态检测、风险平价。Vidimus证明的首位生产用户。
统一的论点是:**从无线物理层到智能体,构建兼具性能与可问责性的AI系统。**
## 致谢
Vidimus 站在 OpenTelemetry、Pydantic、FastAPI、DuckDB 以及更广泛的LLM可观测性社区(Opik、Langfuse、LangSmith、OpenLLMetry、Phoenix)的肩膀上。统计方法借鉴了 Fleiss (1971)、Krippendorff (1970)、Efron (1979) 的研究,以及迄今为止LLM作为评判者文献在很大程度上忽略的评阅者间信度的长期工作。
标签:API集成, BNB链, CVE, Docker容器化, Ed25519签名, Force Graph, LLM评估工具, Merkle树, OpenTelemetry监控, Python编程, RAG, 不确定性量化, 人工智能安全, 信任层, 加密证明, 区块链集成, 可审计性, 可观测性, 可验证性, 合规性, 合规性审计, 大型语言模型评估, 安全关键系统, 工业AI, 敏捷评估, 数字签名, 校准不确定性, 检索增强生成, 用户代理, 研究部署, 篡改检测, 评估管道, 请求拦截, 逆向工具