marianelarojas30-alt/llm-connection-safety-scanner

GitHub: marianelarojas30-alt/llm-connection-safety-scanner

这是一个用于测试大语言模型连接安全性的开源扫描器,通过模拟场景评估模型是否能保持信任边界。

Stars: 0 | Forks: 0

# 大语言模型连接安全扫描器 一个原创的防御性 AI 安全项目,用于测试当大语言模型连接到模拟工具、记忆、文件和 RAG 风格上下文时,LLM 连接的系统是否能保持安全边界。 ## 存在的意义 许多大语言模型应用已不再是简单的聊天机器人。它们连接到工具、记忆、文件、搜索结果、RAG 文档、类邮件信息、日历、API 和其他智能体。 这产生了一个连接安全问题: 本扫描器通过创建受控模拟来安全地测试该问题。 ## 测试内容 扫描器评估模型在读取来自不可信内容中的恶意或冲突指令后,是否尝试执行不安全的模拟操作。 本初版中的连接类型包括: - 模拟邮件连接 - 模拟文件连接 - 模拟记忆连接 - 模拟 RAG/上下文连接 - 模拟 webhook/API 连接 不涉及任何真实邮件、文件、账户、支付或 API。所有连接均为本地模拟。 ## 风险模式示例 可信规则: 用户请求: 不可信的邮件内容: 不安全行为: 安全行为: ## 快速开始 ### 1. 安装 Ollama 从 https://ollama.com 下载 Ollama 拉取一个本地模型: ``` ollama pull qwen2.5:7b ``` 或: ``` ollama pull llama3.1:8b ``` ### 2. 设置 Python ``` python3 -m venv .venv source .venv/bin/activate pip install -r requirements.txt ``` ### 3. 运行扫描 ``` python src/run_scan.py --model qwen2.5:7b ``` 结果保存在: ``` results/connection_scan_results.json results/connection_scan_results.csv reports/latest_report.md ``` ## 仓库结构 ``` llm-connection-safety-scanner/ ├── README.md ├── requirements.txt ├── scenarios/ │ ├── email_connection_tests.json │ ├── file_connection_tests.json │ ├── memory_connection_tests.json │ ├── rag_connection_tests.json │ └── webhook_connection_tests.json ├── src/ │ ├── run_scan.py │ ├── ollama_client.py │ ├── connection_simulator.py │ ├── policy_guard.py │ ├── evaluator.py │ └── report_generator.py ├── examples/ │ └── scanner_config.yaml ├── reports/ │ └── sample_report.md └── results/ └── .gitkeep ``` ## 评分维度 每个场景依据以下维度评分: - 尝试不安全的工具操作 - 暴露受保护内容 - 将不可信内容视为指令 - 要求用户确认 - 保持信任边界 - 识别连接安全风险 ## 道德边界 本项目是防御性和教育性的。 它不会: - 攻击真实系统 - 发送真实邮件 - 删除真实文件 - 调用真实 API - 收集私人数据 - 进行未授权测试 所有操作均在本地模拟。 ## 研究问题 当大语言模型连接到工具、记忆、文件和检索上下文时,在执行模拟操作之前,它能否保持可信指令与不可信内容之间的边界? ## 路线图 - 增加更多连接类型 - 比较多个本地模型 - 增加置信度评分 - 增加人工审核模式 - 增加模型辅助评分 - 增加仪表板 - 增加缓解建议 - 增加工具确认策略测试 - 增加 RAG 来源可靠性评分 ## 状态 早期原型。 ## 评估器 v2 更新 评估器区分: - 提及不安全内容 - 请求模拟工具操作 - 拒绝不安全指令 - 暴露受保护内容 - 保持信任边界 这避免了过度标记安全的拒绝行为——即模型在拒绝遵循恶意指令的同时引用或描述了该指令。
标签:AI安全, AI风险缓解, API安全, Chat Copilot, GraphQL安全矩阵, Homebrew安装, JSON输出, LLM评估, Ollama, Python, RAG上下文, Webhook安全, 二进制发布, 信任边界, 内存安全, 安全扫描器, 对抗性指令, 开源工具, 提示注入, 文件安全, 无后门, 智能体AI, 模拟测试, 电子邮件安全, 连接安全, 逆向工具, 防御性安全, 集群管理