toxy4ny/kidnapp-ai-benchmark

GitHub: toxy4ny/kidnapp-ai-benchmark

Kidnapp-AI-Benchmark 是一个用于系统性测试和评估生成式AI系统隐私与安全漏洞的框架。

Stars: 10 | Forks: 0

# 🎯 Kidnapp-AI-Benchmark 评估框架 ### 评估AI模型安全与隐私漏洞的框架 ## 🔍 概述 **Kidnapp-AI-Benchmark** 是一个模块化、可扩展的框架，旨在**系统性地测试和评估大型语言模型（LLMs）及其他生成式AI系统中的隐私泄露、数据提取和对抗性漏洞**。专为红队成员、渗透测试人员和AI安全研究人员设计，它能够实现： - 从模型输出中**被动采集**训练数据 - **提示注入**和越狱鲁棒性测试 - **成员推断**和重建攻击 - 使用自定义指标的**自动化漏洞评分** - 跨本地和远程LLMs的**可复现基准测试** 本项目支持**本地模型（通过Ollama、llama.cpp）**和**云API**，是实验室环境和现实世界攻击性评估的理想选择。 ## 🧪 核心能力 | 攻击类型 | 描述 | |--------------------------|-------------| | **朴素采样** | 基于简单查询的记忆内容提取 | | **均匀覆盖** | 结构化探测以最大化输入空间覆盖 | | **数据集重放** | 重放已知的公开/私有数据集以检测过拟合 | | **合成生成** | 生成对抗性提示以触发泄露 | | **指标评估** | 通过精确率、召回率、熵和自定义评分量化泄露 | ## 📦 项目结构 ``` src/ ├── config/ # Model & test configuration ├── data/ # Data loaders & synthetic generators ├── models/ # LLM adapters (Ollama, OpenAI-compatible, etc.) ├── attacks/ # Attack implementations (passive/active) ├── metrics/ # Leakage & vulnerability metrics ├── reports/ # Human-readable & machine-parsable reports └── utils/ # Helpers, logging, I/O tests/ # Unit & integration tests notebooks/ # Jupyter analysis & PoC demos ``` ## ⚙️ 快速开始 ### 1. 克隆与设置 ``` git clone https://github.com/toxy4ny/kidnapp-ai-benchmark.git cd kidnapp-ai-benchmark python3 -m venv venv && source venv/bin/activate pip install -r requirements.txt ``` ### 2. 配置目标模型编辑 `src/config/model_config.py`: ``` MODEL_CONFIG = { "provider": "ollama", # or "openai", "custom" "model_name": "codestral", # or your local model tag "endpoint": "http://localhost:11434/api/generate", "temperature": 0.1, "max_tokens": 512 } ``` ### 3. 运行被动攻击 ``` python -m run.py ``` ### 4. 生成报告 ``` python -m run.py --output results/kidnapp_report_$(date +%F).md ``` ## 🛠️ 要求 - Python ≥ 3.10 - [Ollama](https://ollama.com/) （用于本地LLMs，如 `codestral`、`llama3` 等） - 可选：Docker（用于隔离执行）安装依赖项： ``` pip install -r requirements.txt ``` ## 🧪 测试运行单元测试： ``` pytest tests/ -v ``` ## 📊 示例输出 *(完整可视化请参见 `notebooks/analysis.ipynb`)* ## 📜 许可证 MIT 许可证 — **仅限经授权的安全研究使用**。 ⚠️ **未经明确许可，请勿用于任何系统。** ## 🧠 构建基础 - **[Codestral](https://mistral.ai/news/codestral/)** – 用于代码感知的攻击生成 - **[Ollama](https://ollama.com/)** – 本地LLM运行时 - **[Roo Code](https://roo.codes/)** – AI辅助开发 - **[VSCodium](https://vscodium.com/)** – 无遥测的IDE

标签：AI红队演练, AI风险缓解, Atomic Red Team, CodeQL, llama.cpp集成, LLM漏洞扫描, Ollama适配器, 云API集成, 人工智能安全, 代码生成, 可扩展框架, 可重复测试, 合规性, 多语言支持, 大型语言模型安全, 安全测试框架, 安全研究基准, 安全评估工具, 安全评估指标, 密钥泄露防护, 对抗性机器学习, 对抗性漏洞评估, 成员推断攻击, 数据提取攻击, 数据泄露检测, 数据重建攻击, 本地模型支持, 机器学习安全, 模块化设计, 渗透测试工具, 渗透测试框架, 生成式AI安全, 自动化修复, 自动化漏洞评分, 虚拟机, 请求拦截, 越狱鲁棒性, 逆向工具, 防御, 隐私保护研究, 隐私泄露, 隐私泄露测试