mizcausevic-dev/prompt-injection-bench-web

GitHub: mizcausevic-dev/prompt-injection-bench-web

一款纯前端的提示注入防御评估可视化工具,可将AI Agent的攻击测试对话记录快速转化为达到采购级别的通过率分析报告。

Stars: 0 | Forks: 0

# prompt-injection-bench-web [`prompt-injection-bench`](https://github.com/mizcausevic-dev/prompt-injection-bench) 的可视化测试工具 — 线上地址 **[bench.kineticgain.com](https://bench.kineticgain.com)**。 粘贴您的 agent 对 30 攻击语料库响应的 JSONL 记录,即可在浏览器中获得一份达到采购级别(procurement-grade)的评估报告:按类别和严重程度的通过率、突出的严重失败项,以及每项攻击回溯到其测试的 [Agent Card](https://github.com/mizcausevic-dev/agent-cards-spec) `refusal_taxonomy[].category`。 **仅在客户端运行。** 不会将任何记录发送到服务器。评分器是 Python `pib` CLI 的 TypeScript 移植版;所有 30 条攻击记录已在构建时打包进应用中。 ## 目录说明 ``` . ├── index.html ├── src/ │ ├── App.tsx # all UI (Hero / Stats / CorpusBrowser / TranscriptSection / ReportSection) │ ├── main.tsx │ ├── index.css │ └── bench/ │ ├── types.ts # TS port of pib pydantic schema │ ├── corpus.ts # auto-generated from prompt-injection-bench/corpus.jsonl │ ├── scorer.ts # 5 scoring methods, keyword-based │ ├── runner.ts # parseTranscript + runTranscript + aggregate │ └── samples.ts # click-to-load sample transcripts ├── .github/workflows/deploy.yml # FTPS push to /bench/ on Hostinger ├── package.json ├── vite.config.ts └── tsconfig.json ``` ## 本地开发 ``` npm install npm run dev # http://localhost:3000 npm run typecheck npm run build # → dist/ ``` ## 部署 向 `main` 分支的推送会触发 GitHub Actions 工作流,通过 FTP 将 `dist/` 同步到 Hostinger 的 `/bench/` 目录。必需的 repo secrets:`FTP_HOST`、`FTP_USER`、`FTP_PASS` — 与其他 kineticgain.com 项目(`aeo-visualizer`、`ai-tutor-cards-landing`)的值相同。 必须在 Hostinger 上创建子域名 `bench.kineticgain.com`,并将其指向 `/bench/` 的 document root。 ## 相关项目 - [`prompt-injection-bench`](https://github.com/mizcausevic-dev/prompt-injection-bench) — 主仓库(语料库 + Python 测试工具 + CLI) - [`kinetic-gain-protocol-suite`](https://github.com/mizcausevic-dev/kinetic-gain-protocol-suite) — 上层套件落地页 - [Agent Cards 规范](https://github.com/mizcausevic-dev/agent-cards-spec) — `refusal_taxonomy[].category` 是回溯引用的目标 ## 许可证 Apache-2.0。底层语料库采用 AGPL-3.0。
标签:Agent Cards, AI安全, Chat Copilot, CISA项目, FTPS部署, GitHub Actions, JSONL解析, LLM评估, Ollama, React, Syscalls, TypeScript, Vite, 代理安全, 合规性测试, 大语言模型安全, 安全基准测试, 安全插件, 客户端渲染, 机密管理, 网络安全, 自动化攻击, 自动笔记, 评估工具, 评分系统, 采购级报告, 隐私保护