assafkip/trust-safety-recon

GitHub: assafkip/trust-safety-recon

一款基于 Claude Code 的 AI 产品滥用风险评估工具,帮助团队在发布后快速梳理专属滥用面并生成可执行的 30 天整改计划。

Stars: 0 | Forks: 0

# 信任与安全防备侦察 *(仓库: `trust-safety-recon`)* 你发布了一款 AI 产品。你尚不知道它会被如何滥用。其他人会先发现这一点,而且他们不会提交 bug 报告。此工具能在他们之前描绘出你的滥用面,评估你的准备情况,并为你提供未来 30 天的行动计划。它在 Claude Code 中运行,针对你的产品进行范围界定,并拒绝捏造不适用于你的威胁。 我在 LinkedIn、Google、Meta 和 ElevenLabs 从事了 12 年的威胁情报和滥用调查工作。这份工作的本质始终如一:在那些滥用系统的人引发足以上新闻的轩然大波之前,像他们那样去审视系统。 AI 产品是一个全新的攻击面,面临着传统的滥用模式。Prompt injection。没人希望自己的 logo 出现在其旁边的生成内容。模型被用作他人实施诈骗的引擎。通过免费层级批量注册账号。 大多数团队都是在一次次事件中发现这些问题。这种方式的代价太高昂了。 ## 最重要的规则 这基于你的产品,而不是一份通用的威胁列表。你需要描述它的功能以及用户可以在其上执行哪些操作。它只会映射出你实际功能所开启的攻击向量,并将每一个向量与开启它的具体功能绑定。如果你的产品无法生成图像,你就不会看到为了凑字数而硬塞进来的图像滥用章节。一份充斥着不相关威胁的报告,只会掩盖那两个真正会发生的威胁。 如果描述过于简略,无法判断其攻击面,它会主动提问。它不会靠瞎猜将你的产品硬套入它不存在的风险,也不会让它逃避真实存在的风险。 ## 它的产出 - **滥用向量图。** 你的产品被滥用的具体方式,每一种都与启用它的功能绑定,并附带一个针对你产品的具体场景。不是 OWASP 列表的复制粘贴。 - **准备情况记分卡。** 六个维度:detection、response、policy、escalation、logging、human-in-the-loop。每一项都按缺失、部分就绪或已就位进行评级,并提供一项能改善该维度的关键行动。 - **首要缺口排名。** 三到五个缺口,按严重程度乘以发生概率排序。那个足以毁掉公司的致命风险在理应出现的位置独居榜首。 - **头 30 天。** 一份按顺序排列的计划。优先推进什么,暂缓什么,以及原因。与排好序的缺口紧密关联。 - **排除项。** 一份诚实清单,列出不适用的滥用类别及其原因。明确的范围界定是可信度的基础。 ## 使用方式(两种途径) **最简单,免安装。** 打开 Claude Code,然后复制 [`PASTE-THIS.md`](PASTE-THIS.md) 中的代码块并粘贴。它会询问关于你产品的问题并开始运行。完整的设置步骤(包括 Claude Code 要求的文件夹操作步骤)都在该文件中。 **作为命令。** 安装此插件: ``` /plugin install github:assafkip/trust-safety-recon ``` 然后在任意 Claude Code 会话中运行 `/trust-safety-recon`。 请参阅 [`example-brief.md`](example-brief.md) 了解完成的评估报告样例。 ## 开发者简介 我为 AI 产品构建滥用防御系统,这正是大多数团队往往建立得太晚的环节。这个仓库是我所从事的付费工作的免费、轻量级版本。如果你需要专人来构建并统筹此图谱背后的 detection、policy 和 escalation,这就是我作为兼职信任与安全负责人提供的服务。通过 assaf@askconsulting.io 联系我。 ## 许可证 MIT。请参阅 [`LICENSE`](LICENSE)。 ## 由 Assaf 构建 我在威胁情报领域工作了 12 年,看着各个团队发现同样的失败并重复修复四次。经验教训从未被汲取。我构建工具来让这些教训深入人心。 这是免费版本。付费工具包位于 [claudedaddy.io](https://claudedaddy.io)。 **希望将此集成到你团队的 repo 中,或者需要更重型的 spec-and-review pipeline?** 这属于我的咨询服务。[预约通话。](https://calendar.app.google/cMFvhvDsfi9iyWYy9)
标签:AI安全, Chat Copilot, 信任与安全, 合规审查, 威胁情报, 开发者工具, 滥用防御, 防御加固