hemapradhiksha01/shield-net-v1

GitHub: hemapradhiksha01/shield-net-v1

一个基于装饰器架构的LLM护栏系统,用于在提示词到达模型前进行安全验证并过滤恶意输入,同时提供基线响应与受保护响应的可视化对比。

Stars: 0 | Forks: 0

# Shield-Net GenAI 护栏系统,始于 **GenAI Works Hackathon 2025**。 它为大型语言模型(LLM)引入了一个中间件层,用于在无需修改底层模型的情况下强制执行**提示词安全性和响应控制**。 ## 概述 Shield-Net 展示了如何使用装饰器架构拦截和控制不安全的提示词(例如提示词注入、恶意输入)。 该应用提供**并排对比 UI**来可视化: - 🔹 基线 LLM 响应 - 🔹 护栏保护的响应 这有助于更好地理解安全层如何影响 LLM 的行为。 ## 核心功能 - **LLM 中间件层** - 使用装饰器(`shield_net`)来包装 LLM 调用 - 在模型推理过程中添加预处理和后处理 - **提示词安全验证** - 在提示词到达 LLM 之前进行拦截 - 阻止不安全或恶意的输入 - **响应后处理** - 允许过滤或修改模型输出 - **并排对比 UI** - 使用 :contentReference[oaicite:0]{index=0} 构建 - 实时对比基线响应与受保护响应 - **LLM 提供商抽象** - 支持与不同 LLM 提供商的灵活集成 ## 架构 ``` User Input ↓ prepare_messages() ↓ LLM Provider (Baseline) ↓ Response A User Input ↓ shield_net decorator ↓ Prompt Safety Check ↓ LLM Provider ↓ Post-processing ↓ Response B (Protected) ``` ## 项目结构 ``` api/ │ ├── main.py # Streamlit UI entry point ├── llm_provider/ # LLM abstraction layer ├── utils/ # Message preparation utilities │ ├── shield_net/ │ ├── decorators/ # Guardrail decorator (core logic) │ └── services/ # Safety checks & post-processing (extensible) │ ├── examples/ # Example usage scripts └── requirement.txt # Dependencies ``` ## 工作原理 ### 1. 基线流程 - 用户提示词 → LLM → 响应 ### 2. Shield-Net 流程 - 用户提示词 → 安全检查 - 如果安全 → LLM → 后处理 → 响应 - 如果不安全 → 返回阻止响应 ## ▶️ 入门指南 ### 1. 克隆仓库 ``` git clone https://github.com/hemapradhiksha01/shield-net.git cd shield-net/api 2. Install dependencies pip install -r requirement.txt 3. Setup environment variables Create a .env file: LLM_PROVIDER= LLM_NAME= 4. Run the app streamlit run main.py --- Example Use Case Test how LLM responds to normal vs malicious prompts Compare safety filtering effectiveness Experiment with guardrail logic --- Guardrail Design Shield-Net uses a decorator-based approach: This enables: Non-intrusive safety enforcement Easy integration across LLM pipelines Reusable and extensible design --- Hackathon Context Built as part of GenAI Works Hackathon 2024, this project explores practical approaches to: LLM safety Prompt injection handling Middleware-based AI security ```
标签:AI安全, API密钥检测, Chat Copilot, Decorator模式, GenAI Works Hackathon 2025, Kubernetes, LLM Guardrail, LLM Provider抽象, Prompt安全, Prompt注入防护, Python, Streamlit, 中间件, 人工智能防护, 后处理, 响应过滤, 大语言模型安全, 无后门, 机密管理, 访问控制, 输入验证, 逆向工具, 预处理器