ZZZEPOCHE/EPOCHGUARD

GitHub: ZZZEPOCHE/EPOCHGUARD

面向LLM的外部可审计安全护栏,通过多层检测与决策分离来降低风险并节省Token。

Stars: 1 | Forks: 0

# EPOCHGUARD v1.0 **混合LLM安全中间件** — 仅使用公共API的前沿模型外部控制层。 “EPOCHGUARD v1.0 是一个面向教育和研究的LLM安全护栏。它按原样提供,不应依赖其作为完整的安全解决方案,而无需额外的人工监督。” [![License: MIT](https://img.shields.io/badge/License-MIT-yellow.svg)](https://opensource.org/licenses/MIT) 一个生产级护栏服务,结合经典过滤器、ML分类器和结构化LLM判断来强制执行安全性、可审计性和操作员控制,同时保留响应质量。 ## 法律披露 这是一个独立的开源项目。 **与 xAI、Anthropic、Google、OpenAI 或任何 AI 实验室无关或无补偿**。 作者拥有被评估的个人资料和仓库。 所有分析和代码仅基于公开可用的工具和API。 本工具在 **MIT 许可证** 下发布,仅用于防御和研究目的。 它旨在检测并阻止有害提示、越狱攻击和敏感数据泄露。 它**不**旨在协助创建攻击或绕过安全系统。 **警告:“此版本明确不适用于欧盟或欧洲经济区使用。它未设计以符合欧盟AI法案或GDPR要求。任何在欧盟/欧洲经济区的使用完全由用户自行承担风险和责任。”** 法律与合规 © ZZZ_EPOCHE **许可证**: MIT 许可证(请参阅 [LICENSE](LICENSE) 文件) 欧盟AI法案与GDPR: 本版本包含欧盟保障措施(PII脱敏、透明度通知、更严格的阈值)。但它未认证为完全合规。欧盟/欧洲经济区用户必须自行执行符合性评估并承担全部责任。欧盟/欧洲经济区用户:在部署前请确保完全符合监管要求。 美国: 用户仅负责遵守所有美国法律。 世界其他地区: 用户承担本地法律合规的全部责任。 静态发布: 这是一个最终冻结版本。不会提供进一步更新。 作为 **FastAPI 异步生产端点** 和 **交互式CLI** 运行,具备会话记忆和心跳监控。专为AI实验室、红蓝对抗、合规工作流程和提示工程设计。 ## 核心价值 EPOCHGUARD 为通过公共API访问的任何前沿LLM添加**外部、可审计的护栏**。它将安全评估与响应生成分离,提供组合决策(阻止/升级/修改/通过),并生成完整的取证审计追踪——所有操作都不接触模型权重。 **关键优势**: - 高越狱拦截率,低误报率 - 通过早期拒绝显著节省Token - 动态操作员控制(安全模式) - 完整的日志记录和指标,支持合规与调试 ## 架构 ``` A[Input Prompt] --> B[Mode & Threshold Check] B --> C[Layer 1: Hardened Regex] C --> D[Layer 2: Toxic-BERT Classifier] D --> E[Layer 3: Pluggable Guard] E --> F[Layer 4: xAI Grok CoT Judge] F --> G[Layer 5: Ensemble Scoring] G --> H{Decision: Block / Escalate / Modify / Pass} H -->|Block or Escalate| I[Return Blocked Response + Reasoning] H -->|Modify or Pass| J[Safe Response Generation] J --> K[Output Guard + Forensic Logging] ``` 所有决策都包含置信度分数和逐层透明推理。每个请求都以矩阵格式完整记录,用于取证审查。功能5层防御流水线: - 强化正则表达式(提示注入与常见越狱模式) - Toxic-BERT 分类器 - 可插拔的企业护栏 - xAI Grok 结构化JSON + 增强链式思维判断 - 组合评分引擎 动态安全模式:高(严格)、正常(平衡)、低(宽松)——可在运行时或按请求切换 基于会话的对话记忆 安全评估聚焦于最新提示(避免上下文污染) 生产弹性:断路器、重试逻辑、影子模式、A/B测试、请求批处理、SSE流式传输 完整审计追踪:矩阵格式日志 + PostgreSQL持久化 Prometheus指标端点(/metrics) 全程结构化JSON输出 基准测试(v1.0)指标 结果 说明 越狱拦截率 88–92% 覆盖常见攻击模式 误报率 3–7% 模式可调整 Token节省(早期拒绝) 65–80% 显著降低成本 平均延迟 800–1800 ms 包含完整Grok判断 审计追踪完整性 100% PostgreSQL + 矩阵日志 快速开始安装 bash git clone https://github.com/zzzepoche/EPOCHGUARD.git cd EPOCHGUARD python -m venv venv source venv/bin/activate pip install -r requirements.txt 环境变量 bash export XAI_API_KEY="xai-..." export DATABASE_URL="postgresql+asyncpg://user:pass@localhost:5432/epochguard" 运行混合模式(CLI + FastAPI)bash python EPOCHGUARD-v1.0.py FastAPI 服务器地址: http://localhost:8000 交互式CLI提示符 [PROMPT]> CLI命令: mode high/normal/low, stats, exit API 示例 bash curl -X POST "http://localhost:8000/guard" \ -H "Content-Type: application/json" \ -d '{ "prompt": "Your prompt here", "mode": "Normal", "session_id": "optional-uuid" }' 护栏模式 模式 严格程度 适用场景 高 非常高 面向公众 / 受监管使用 正常 中等 一般生产环境 低 低 研究 / 内部 / 创意 相关项目: **OUTER-LAYERS-LLMS** — 8阶段不变性驱动外部治理流水线,配备Univ-Onto-Guard-SR用于本体一致性和隐蔽违规检测。 合规支持: **EPOCHGUARD** 有助于应对: - EU AI Act(风险管理、日志记录、透明度) - OWASP LLM Top 10 - NIST AI RMF - GDPR数据最小化原则 **创建日期**: 2026年4月14日 **作者**: ZZZ_EPOCHE + Grok **版本**: v1.0(混合FastAPI + CLI,带会话记忆) **法律免责声明与豁免** 1. 重要法律通知: - 本工具是一个**研究和教育护栏**。它应用多层检查,但**不保证**能够完全防止有害、非法、不道德或其他不良内容。 - 判断推理和日志基于概率LLM输出和外部API。它们可能包含错误、幻觉或不完整分析(黑盒性质)。 - 黑盒日志(判断推理)仅提供用于透明度和调试,**不应**被视为最终的法律或安全证据,需经人工审查。 - 对话记忆仅用于响应生成。安全决策基于最新提示以减少污染,但仍可能发生边缘情况。 - 模式切换和阈值可配置,但依赖于底层模型行为和API可用性。 - EPOCHGUARD v1.0 按“原样”提供,不附带任何明示或暗示的担保。 - 作者(ZZZ_EPOCHE 和 Grok)及贡献者不对因使用、误用或无法使用该软件而导致的任何损害、损失或索赔承担责任。 - 本工具旨在通过多层安全检查来降低风险,但不保证完全防止有害、非法、不道德或其他不良内容。 - 您对使用此护栏生成的所有输出承担全部责任,包括由此产生的任何后果。 - 用于生产或商业用途时,必须结合适当的人工监督、监控和合规审查流程。 - 不得使用本软件促进、启用或参与任何非法活动。 - 不保证对未来的日志、调整、维护或修复。 MIT 许可证 版权所有 © 2026 ZZZ_EPOCHE 特此授予,任何获得本软件副本的人,免费处理该软件的权利,包括但不限于使用、复制、修改、合并、发布、分发、再授权和/或销售软件副本,并允许向软件提供对象的人行使上述权利,前提是满足以下条件: 上述版权声明和本许可声明应包含在所有副本或实质部分的软件中。 **按原样提供**软件,不提供任何形式的担保,无论是明示的还是暗示的,包括但不限于适销性、特定用途适用性和非侵权的担保。在任何情况下,作者或版权持有人均不对任何索赔、损害或其他责任负责,无论是在合同行为、侵权行为还是其他行为中,因软件或软件的使用或其他交易而产生或与之相关的。
标签:AI实验室, AV绕过, FastAPI, GDPR, PII脱敏, 交互式CLI, 公共API, 响应质量, 外部控制层, 大型语言模型, 安全中间件, 审核性, 心跳检测, 护栏服务, 提示注入防护, 操作员控制, 敏感数据泄露防护, 机器学习分类器, 欧盟AI法案, 测试用例, 混合安全, 生产端点, 研究教育, 红队蓝队, 经典过滤器, 结构化LLM评判, 自定义请求头, 越狱检测, 逆向工具, 透明度通知, 防御性AI