marianelarojas30-alt/llm-connection-safety-scanner

GitHub: marianelarojas30-alt/llm-connection-safety-scanner

这是一个用于测试大语言模型连接安全性的开源扫描器，通过模拟场景评估模型是否能保持信任边界。

Stars: 0 | Forks: 0

# 大语言模型连接安全扫描器一个原创的防御性 AI 安全项目，用于测试当大语言模型连接到模拟工具、记忆、文件和 RAG 风格上下文时，LLM 连接的系统是否能保持安全边界。 ## 存在的意义许多大语言模型应用已不再是简单的聊天机器人。它们连接到工具、记忆、文件、搜索结果、RAG 文档、类邮件信息、日历、API 和其他智能体。这产生了一个连接安全问题：本扫描器通过创建受控模拟来安全地测试该问题。 ## 测试内容扫描器评估模型在读取来自不可信内容中的恶意或冲突指令后，是否尝试执行不安全的模拟操作。本初版中的连接类型包括： - 模拟邮件连接 - 模拟文件连接 - 模拟记忆连接 - 模拟 RAG/上下文连接 - 模拟 webhook/API 连接不涉及任何真实邮件、文件、账户、支付或 API。所有连接均为本地模拟。 ## 风险模式示例可信规则：用户请求：不可信的邮件内容：不安全行为：安全行为： ## 快速开始 ### 1. 安装 Ollama 从 https://ollama.com 下载 Ollama 拉取一个本地模型： ``` ollama pull qwen2.5:7b ``` 或： ``` ollama pull llama3.1:8b ``` ### 2. 设置 Python ``` python3 -m venv .venv source .venv/bin/activate pip install -r requirements.txt ``` ### 3. 运行扫描 ``` python src/run_scan.py --model qwen2.5:7b ``` 结果保存在： ``` results/connection_scan_results.json results/connection_scan_results.csv reports/latest_report.md ``` ## 仓库结构 ``` llm-connection-safety-scanner/ ├── README.md ├── requirements.txt ├── scenarios/ │ ├── email_connection_tests.json │ ├── file_connection_tests.json │ ├── memory_connection_tests.json │ ├── rag_connection_tests.json │ └── webhook_connection_tests.json ├── src/ │ ├── run_scan.py │ ├── ollama_client.py │ ├── connection_simulator.py │ ├── policy_guard.py │ ├── evaluator.py │ └── report_generator.py ├── examples/ │ └── scanner_config.yaml ├── reports/ │ └── sample_report.md └── results/ └── .gitkeep ``` ## 评分维度每个场景依据以下维度评分： - 尝试不安全的工具操作 - 暴露受保护内容 - 将不可信内容视为指令 - 要求用户确认 - 保持信任边界 - 识别连接安全风险 ## 道德边界本项目是防御性和教育性的。它不会： - 攻击真实系统 - 发送真实邮件 - 删除真实文件 - 调用真实 API - 收集私人数据 - 进行未授权测试所有操作均在本地模拟。 ## 研究问题当大语言模型连接到工具、记忆、文件和检索上下文时，在执行模拟操作之前，它能否保持可信指令与不可信内容之间的边界？ ## 路线图 - 增加更多连接类型 - 比较多个本地模型 - 增加置信度评分 - 增加人工审核模式 - 增加模型辅助评分 - 增加仪表板 - 增加缓解建议 - 增加工具确认策略测试 - 增加 RAG 来源可靠性评分 ## 状态早期原型。 ## 评估器 v2 更新评估器区分： - 提及不安全内容 - 请求模拟工具操作 - 拒绝不安全指令 - 暴露受保护内容 - 保持信任边界这避免了过度标记安全的拒绝行为——即模型在拒绝遵循恶意指令的同时引用或描述了该指令。

标签：AI安全, AI风险缓解, API安全, Chat Copilot, GraphQL安全矩阵, Homebrew安装, JSON输出, LLM评估, Ollama, Python, RAG上下文, Webhook安全, 二进制发布, 信任边界, 内存安全, 安全扫描器, 对抗性指令, 开源工具, 提示注入, 文件安全, 无后门, 智能体AI, 模拟测试, 电子邮件安全, 连接安全, 逆向工具, 防御性安全, 集群管理