venkatkoushik22/llm-redteam-risk-evaluator

GitHub: venkatkoushik22/llm-redteam-risk-evaluator

一个轻量级的 LLM 红队风险评估工具，通过对抗性 prompt 测试帮助团队在部署前发现模型的安全漏洞并生成结构化风险报告。

Stars: 1 | Forks: 0

LLM 红队风险评估器

**在线演示：** [在 Hugging Face Spaces 上试用该应用](https://huggingface.co/spaces/Venkatkoushik22/llm-redteam-risk-evaluator) 一个轻量级的红队测试仪表板和 API，用于针对对抗性 prompt（如 prompt 注入、幻觉、隐私泄露、毒性和越狱尝试）测试 LLM 的响应。 ## 为什么开发这个项目大多数 LLM 项目只关注如何生成答案。本项目则专注于部署前的环节：测试 AI 系统在哪些地方会失效。该评估器会针对常见的 LLM 风险类别运行对抗性 prompt，并生成结构化的报告，其中包含通过/失败（pass/fail）评分、风险分数以及基于仪表板的失败分析。当前版本使用模拟的 LLM 响应层以进行安全的本地测试，但其设计允许后续接入真实的模型 API 或本地模型。

LLM Red Team Risk Evaluator Dashboard

## 功能 * 运行对抗性 prompt 评估 * 测试 prompt 注入、幻觉、隐私泄露、毒性和越狱行为 * 生成 CSV 风险报告 * 提供 FastAPI endpoint 用于触发评估 * 包含 Streamlit 仪表板用于审查失败情况 * 跟踪通过率、失败的测试和平均风险分数 ## 技术栈 Python、FastAPI、Streamlit、Pandas ## 项目结构 ``` llm-redteam-risk-evaluator/ ├── app/ │ ├── dashboard.py │ ├── evaluator.py │ └── main.py ├── prompts/ │ └── test_prompts.json ├── reports/ ├── assets/ │ └── dashboard.png ├── requirements.txt └── README.md ``` ## 本地运行 ``` pip install -r requirements.txt ``` 运行评估器： ``` python app/evaluator.py ``` 运行仪表板： ``` streamlit run app/dashboard.py ``` 运行 API： ``` uvicorn app.main:app --reload ``` 打开 API 文档： ``` http://127.0.0.1:8000/docs ``` ## 输出系统会创建结构化的 CSV 报告，包含： * Prompt 类别 * 测试 prompt * 模型响应 * 风险分数 * PASS 或 FAIL 状态 ## 未来改进 * 添加真实的 LLM API 集成 * 添加通过 Ollama 支持的本地模型 * 添加基于 DeepEval 或 DeepTeam 的评分 * 将报告导出为 JSON 和 PDF * 添加跨评估运行的历史比较

标签：AI对抗测试, AV绕过, Clair, FastAPI, Kubernetes, Streamlit, 大语言模型安全, 机密管理, 红队评估, 网络测绘, 访问控制, 越狱检测, 逆向工具