CP-Evenings-and-Weekends/harden-ai-study-assistant

GitHub: CP-Evenings-and-Weekends/harden-ai-study-assistant

强化AI学习助手，提升AI系统安全性。

Stars: 0 | Forks: 0

# 强化AI学习助手 ## 缓解措施 1 — 提示注入防御（输入 + 上传文档） ### 要求 ## 缓解措施 2 — 速率限制 ### 验证 ## 需要考虑的事项 - 缓解措施 1 中的您的清理器是一个字符串匹配。一个足够聪明的攻击者能否绕过它？如何绕过？（提示：Unicode相似字符，句子重述，base64编码指令。） - 缓解措施 1 中的“将上下文包裹在定界符中并告诉LLM它是数据”的防御是否完全无懈可击？如果文档本身包含关闭定界符序列会发生什么？ - 在API层进行速率限制并不能阻止恶意**内部**调用者对你的账户进行计费。你可以在哪些其他层添加上限？（提示：在API密钥本身上设置提供方支出上限。） - 输出审查有误报率——一些合法的答案会被标记。你将如何构建一个用于“标记答案——让人类审查并解锁”的用户体验？ ## 扩展 - **输入过程中的PII擦除**：在将问题发送到嵌入API之前，运行一个正则表达式遍历，将电子邮件、电话号码、SSN形状的字符串替换为 `[REDACTED]` 占位符。 - **支出上限**：在OpenAI API密钥本身上配置一个硬性每月支出限制（控制台→限制）并添加一个服务器端软性上限，一旦达到每日预算则返回503。 - **审计日志**：将每个（用户、问题、检索到的片段、LLM答案、审查结果）元组存储在 `RequestLog` 模型中。对于事件审查很有用。 - **第二次LLM验证器**：除了（或与）审查端点之外，进行第二次LLM调用，询问“以下响应违反了 <政策> 吗？回答是/否。”在回答是的情况下阻止。 - **按用户支出跟踪**：按用户计数令牌并当他们超过每日配额时进行速率限制（或拒绝）。

标签：请求拦截, 逆向工具