assafkip/trust-safety-recon
GitHub: assafkip/trust-safety-recon
一款基于 Claude Code 的 AI 产品滥用风险评估工具,帮助团队在发布后快速梳理专属滥用面并生成可执行的 30 天整改计划。
Stars: 0 | Forks: 0
# 信任与安全防备侦察
*(仓库: `trust-safety-recon`)*
你发布了一款 AI 产品。你尚不知道它会被如何滥用。其他人会先发现这一点,而且他们不会提交 bug 报告。此工具能在他们之前描绘出你的滥用面,评估你的准备情况,并为你提供未来 30 天的行动计划。它在 Claude Code 中运行,针对你的产品进行范围界定,并拒绝捏造不适用于你的威胁。
我在 LinkedIn、Google、Meta 和 ElevenLabs 从事了 12 年的威胁情报和滥用调查工作。这份工作的本质始终如一:在那些滥用系统的人引发足以上新闻的轩然大波之前,像他们那样去审视系统。
AI 产品是一个全新的攻击面,面临着传统的滥用模式。Prompt injection。没人希望自己的 logo 出现在其旁边的生成内容。模型被用作他人实施诈骗的引擎。通过免费层级批量注册账号。
大多数团队都是在一次次事件中发现这些问题。这种方式的代价太高昂了。
## 最重要的规则
这基于你的产品,而不是一份通用的威胁列表。你需要描述它的功能以及用户可以在其上执行哪些操作。它只会映射出你实际功能所开启的攻击向量,并将每一个向量与开启它的具体功能绑定。如果你的产品无法生成图像,你就不会看到为了凑字数而硬塞进来的图像滥用章节。一份充斥着不相关威胁的报告,只会掩盖那两个真正会发生的威胁。
如果描述过于简略,无法判断其攻击面,它会主动提问。它不会靠瞎猜将你的产品硬套入它不存在的风险,也不会让它逃避真实存在的风险。
## 它的产出
- **滥用向量图。** 你的产品被滥用的具体方式,每一种都与启用它的功能绑定,并附带一个针对你产品的具体场景。不是 OWASP 列表的复制粘贴。
- **准备情况记分卡。** 六个维度:detection、response、policy、escalation、logging、human-in-the-loop。每一项都按缺失、部分就绪或已就位进行评级,并提供一项能改善该维度的关键行动。
- **首要缺口排名。** 三到五个缺口,按严重程度乘以发生概率排序。那个足以毁掉公司的致命风险在理应出现的位置独居榜首。
- **头 30 天。** 一份按顺序排列的计划。优先推进什么,暂缓什么,以及原因。与排好序的缺口紧密关联。
- **排除项。** 一份诚实清单,列出不适用的滥用类别及其原因。明确的范围界定是可信度的基础。
## 使用方式(两种途径)
**最简单,免安装。** 打开 Claude Code,然后复制 [`PASTE-THIS.md`](PASTE-THIS.md) 中的代码块并粘贴。它会询问关于你产品的问题并开始运行。完整的设置步骤(包括 Claude Code 要求的文件夹操作步骤)都在该文件中。
**作为命令。** 安装此插件:
```
/plugin install github:assafkip/trust-safety-recon
```
然后在任意 Claude Code 会话中运行 `/trust-safety-recon`。
请参阅 [`example-brief.md`](example-brief.md) 了解完成的评估报告样例。
## 开发者简介
我为 AI 产品构建滥用防御系统,这正是大多数团队往往建立得太晚的环节。这个仓库是我所从事的付费工作的免费、轻量级版本。如果你需要专人来构建并统筹此图谱背后的 detection、policy 和 escalation,这就是我作为兼职信任与安全负责人提供的服务。通过 assaf@askconsulting.io 联系我。
## 许可证
MIT。请参阅 [`LICENSE`](LICENSE)。
## 由 Assaf 构建
我在威胁情报领域工作了 12 年,看着各个团队发现同样的失败并重复修复四次。经验教训从未被汲取。我构建工具来让这些教训深入人心。
这是免费版本。付费工具包位于 [claudedaddy.io](https://claudedaddy.io)。
**希望将此集成到你团队的 repo 中,或者需要更重型的 spec-and-review pipeline?** 这属于我的咨询服务。[预约通话。](https://calendar.app.google/cMFvhvDsfi9iyWYy9)
标签:AI安全, Chat Copilot, 信任与安全, 合规审查, 威胁情报, 开发者工具, 滥用防御, 防御加固