K24-8088-SyedSalmanAli/Guard-Agent-for-Adversarial-Robustness-of-LLM-Reasoning

GitHub: K24-8088-SyedSalmanAli/Guard-Agent-for-Adversarial-Robustness-of-LLM-Reasoning

一个用于检测 LLM 推理过程中提示词注入、数据投毒和误报升级的对抗鲁棒性 Guard Agent 框架。

Stars: 0 | Forks: 0

# 项目进展 —— Aspect 1：用于 LLM 推理对抗鲁棒性的 Guard Agent ## 作者 Syed Salman Ali ## 项目标题 Guard Agent for Adversarial Robustness of LLM-Based Reasoning ## 问题陈述 LLM 容易受到以下攻击： - 提示词注入 - 通过 RAG 的数据投毒 - 误报升级 ## 拟议贡献设计一个 **AgentShield Guard Agent**，能够： - 检测相互冲突的威胁叙述 - 针对 MITRE ATT&CK 图进行交叉验证 - 拒绝低一致性的推理输出 ## 实验设计 - 注入对抗性威胁描述 - 对比：纯 LLM 推理 vs LLM + Guard Agent ## 评估指标 - 推理一致性得分 - 误报升级率 - 幻觉率 ## 进展摘要 - 代码仓库已创建 - 初始文档已添加 - 变更请求流程已测试 ## 当前状态 🟢 进度正常 ## 下一步计划 - 实现 AgentShield Guard Agent 原型 - 设置对抗性测试场景 - 集成 MITRE ATT&CK 图验证 # 用于 LLM 推理对抗鲁棒性的 Guard Agent ## 区块链集成多智能体框架 —— Aspect 01 ### 研究：推理信任分数（RTS）模型 **RTS(O) = α·C(O) + β·V(O) + γ·S(O)** ## 项目结构 ``` guard-agent-project/ ├── config/ │ └── settings.py # All configuration constants ├── data/ │ ├── scenarios/ │ │ └── threat_scenarios.json # 30 threat scenarios (Week 1) │ └── results/ # Experiment outputs ├── src/ │ ├── agents/ │ │ ├── __init__.py │ │ ├── baseline_llm.py # Week 1: LLM-only baseline │ │ ├── rag_pipeline.py # Week 2: RAG + MITRE ATT&CK │ │ ├── guard_consistency.py # Week 3: C(O) module │ │ ├── guard_validation.py # Week 4: V(O) module │ │ ├── guard_stability.py # Week 5: S(O) module │ │ └── guard_agent.py # Week 5: Full RTS integration │ └── utils/ │ ├── __init__.py │ ├── prompt_templates.py # Threat analysis prompts │ ├── output_parser.py # Structured output extraction │ └── evaluation.py # Metrics & logging ├── tests/ │ └── test_baseline.py ├── notebooks/ │ └── week1_analysis.ipynb ├── requirements.txt ├── setup_environment.sh └── README.md ``` ## 快速开始 ### 1. 环境设置 ``` chmod +x setup_environment.sh ./setup_environment.sh ``` ### 2. 安装 Ollama + Pull Llama 3 ``` curl -fsSL https://ollama.com/install.sh | sh ollama pull llama3:8b ``` ### 3. 运行纯 LLM 基线（第 1 周） ``` python -m src.agents.baseline_llm ``` ### 4. 评估结果 ``` python -m src.utils.evaluation --results data/results/baseline_llm_results.json ```

标签：AgentShield, AI风险缓解, AMSI绕过, Cloudflare, DLL 劫持, MITRE ATT&CK, RAG安全, Red Canary, 人工智能安全, 合规性, 多代理系统, 大语言模型, 威胁检测, 对抗样本, 对抗鲁棒性, 推理一致性, 推理信任评分, 提示注入防御, 数据投毒检测, 模型安全性, 源代码安全, 网络安全, 误报控制, 逆向工具, 防护代理, 隐私保护