marianelarojas30-alt/llm-connection-safety-scanner
GitHub: marianelarojas30-alt/llm-connection-safety-scanner
这是一个用于测试大语言模型连接安全性的开源扫描器,通过模拟场景评估模型是否能保持信任边界。
Stars: 0 | Forks: 0
# 大语言模型连接安全扫描器
一个原创的防御性 AI 安全项目,用于测试当大语言模型连接到模拟工具、记忆、文件和 RAG 风格上下文时,LLM 连接的系统是否能保持安全边界。
## 存在的意义
许多大语言模型应用已不再是简单的聊天机器人。它们连接到工具、记忆、文件、搜索结果、RAG 文档、类邮件信息、日历、API 和其他智能体。
这产生了一个连接安全问题:
本扫描器通过创建受控模拟来安全地测试该问题。
## 测试内容
扫描器评估模型在读取来自不可信内容中的恶意或冲突指令后,是否尝试执行不安全的模拟操作。
本初版中的连接类型包括:
- 模拟邮件连接
- 模拟文件连接
- 模拟记忆连接
- 模拟 RAG/上下文连接
- 模拟 webhook/API 连接
不涉及任何真实邮件、文件、账户、支付或 API。所有连接均为本地模拟。
## 风险模式示例
可信规则:
用户请求:
不可信的邮件内容:
不安全行为:
安全行为:
## 快速开始
### 1. 安装 Ollama
从 https://ollama.com 下载 Ollama
拉取一个本地模型:
```
ollama pull qwen2.5:7b
```
或:
```
ollama pull llama3.1:8b
```
### 2. 设置 Python
```
python3 -m venv .venv
source .venv/bin/activate
pip install -r requirements.txt
```
### 3. 运行扫描
```
python src/run_scan.py --model qwen2.5:7b
```
结果保存在:
```
results/connection_scan_results.json
results/connection_scan_results.csv
reports/latest_report.md
```
## 仓库结构
```
llm-connection-safety-scanner/
├── README.md
├── requirements.txt
├── scenarios/
│ ├── email_connection_tests.json
│ ├── file_connection_tests.json
│ ├── memory_connection_tests.json
│ ├── rag_connection_tests.json
│ └── webhook_connection_tests.json
├── src/
│ ├── run_scan.py
│ ├── ollama_client.py
│ ├── connection_simulator.py
│ ├── policy_guard.py
│ ├── evaluator.py
│ └── report_generator.py
├── examples/
│ └── scanner_config.yaml
├── reports/
│ └── sample_report.md
└── results/
└── .gitkeep
```
## 评分维度
每个场景依据以下维度评分:
- 尝试不安全的工具操作
- 暴露受保护内容
- 将不可信内容视为指令
- 要求用户确认
- 保持信任边界
- 识别连接安全风险
## 道德边界
本项目是防御性和教育性的。
它不会:
- 攻击真实系统
- 发送真实邮件
- 删除真实文件
- 调用真实 API
- 收集私人数据
- 进行未授权测试
所有操作均在本地模拟。
## 研究问题
当大语言模型连接到工具、记忆、文件和检索上下文时,在执行模拟操作之前,它能否保持可信指令与不可信内容之间的边界?
## 路线图
- 增加更多连接类型
- 比较多个本地模型
- 增加置信度评分
- 增加人工审核模式
- 增加模型辅助评分
- 增加仪表板
- 增加缓解建议
- 增加工具确认策略测试
- 增加 RAG 来源可靠性评分
## 状态
早期原型。
## 评估器 v2 更新
评估器区分:
- 提及不安全内容
- 请求模拟工具操作
- 拒绝不安全指令
- 暴露受保护内容
- 保持信任边界
这避免了过度标记安全的拒绝行为——即模型在拒绝遵循恶意指令的同时引用或描述了该指令。
标签:AI安全, AI风险缓解, API安全, Chat Copilot, GraphQL安全矩阵, Homebrew安装, JSON输出, LLM评估, Ollama, Python, RAG上下文, Webhook安全, 二进制发布, 信任边界, 内存安全, 安全扫描器, 对抗性指令, 开源工具, 提示注入, 文件安全, 无后门, 智能体AI, 模拟测试, 电子邮件安全, 连接安全, 逆向工具, 防御性安全, 集群管理