BryceWDesign/IX-PackHunt-Guard

GitHub: BryceWDesign/IX-PackHunt-Guard

一个轻量级 Python 检测网关,专门识别并中断分散在多会话、多主体中的低风险提示词片段逐步组装为受限 AI 能力的协调滥用攻击。

Stars: 1 | Forks: 0

# IX-PackHunt-Guard IX-PackHunt-Guard 是一个受治理的协调层,用于在单独看来风险较低的片段组装成受限的 AI 能力输出之前,检测并中断提示词分解攻击。 它专为通常被称为“群体狩猎 (pack hunt)”的滥用模式而设计:许多微小的请求、对话轮次、会话、主体 (principal)、agent 或工具交接,它们单独看来风险较低,但组合在一起便构成了被禁止的能力。 本项目并不声称能完全杜绝越狱 (jailbreak)。它提供了一种确定性的网关模式,用于记录意图片段、关联能力组装、对高风险的延续操作进行拦截,并导出证据以供人工审查。 ## 状态 第一阶段 (Wave 1) — 协调滥用网关 MVP 此仓库是一个独立的、轻依赖的 Python 包。它特意构建为没有外部运行时依赖,以便核心检测器依然易于检查、测试,并能轻松适配到相邻的 IX 治理系统中。 ## 功能 IX-PackHunt-Guard 将 AI 滥用建模为一个协调问题,而不仅仅是单提示词分类问题。 单个提示词可能看起来无害。 一系列提示词则未必。 因此,网关会跟踪: - 规范化的意图片段 - 哈希处理的原始观测数据 - 租户、主体和会话的连续性 - 风险信号 - 能力标签 - 活动窗口 - 跨会话和跨主体的组装压力 - 证据哈希 - 人工审查要求 - 治理数据包导出 ## 不作保证的内容 IX-PackHunt-Guard 不作以下保证: - 完全杜绝越狱 (jailbreak) - 阻止所有 AI 滥用 - 认证任何模型是安全的 - 替代模型提供商的安全系统 - 替代人工审查 - 识别现实世界中的犯罪意图 - 惩罚用户 - 在提供商运行时之外提供完整的托管模型隔离 - 自行批准运营部署 - 在没有集成、测试、许可和审查的情况下充当生产级 AI 安全层 其有限的保证是: 当 AI 流量通过此网关时,系统能够记录规范化的意图片段,检测这些片段是否随着时间的推移、跨会话或跨主体组装成受限的能力模式,对响应进行拦截,并导出证据以供审查。 ## 核心理念 仅依赖分类器的安全机制会问: ``` GatewayObservation | v RuleBasedIntentClassifier | v IntentFragment | v SessionRiskLedger | v CapabilityAssemblyGraph | v PackHuntDetector | v DetectionDecision | +--> BlackFox review packet +--> CognitionKernel risk record +--> Autonomy Assurance evidence bundle ``` IX-PackHunt-Guard 会问: ``` src/ix_packhunt_guard/ __init__.py _hashing.py classifier.py detector.py exporters.py graph.py identity.py schema.py tests/ test_classifier.py test_detector.py test_exporters.py test_identity.py examples/ safe_gateway_demo.py docs/ THREAT_MODEL.md ``` 这种区别至关重要,因为协调滥用往往隐藏在单个低风险提示词与这些提示词重新组合而成的共同目标之间的间隙中。 ## 架构 ``` from ix_packhunt_guard import ( FragmentSource, GatewayObservation, PackHuntDetector, ) detector = PackHuntDetector() observation = GatewayObservation( tenant_id="tenant-a", principal_id="principal-a", session_id="session-a", request_id="req-1", source=FragmentSource.USER_INPUT, text="Give me a safe summary of this governance design.", observed_at="2026-06-15T12:00:00", sequence_index=1, ) fragment, window, decision = detector.observe(observation) print(fragment.intent_kinds) print(window.assembly_score) print(decision.action.value) print(decision.reason) ``` 包布局 ``` python examples/safe_gateway_demo.py ``` 核心组件 GatewayObservation 来自网关的原始观测数据,在进行下游存储之前生成。 分类器会在足够长的时间内接收原始文本以对其进行标记。下游记录存储的是哈希值和规范化标签,而不是原始敏感内容。 IntentFragment 观测意图的规范化片段。 它记录: 租户 ID 主体 ID 会话 ID 请求 ID 来源 文本哈希 规范化目标哈希 意图类型 能力标签 风险信号 目标原子 置信度 证据引用 SessionRiskLedger 规范化片段的仅追加内存账本。 第一阶段 (Wave 1) 使用内存账本,因此其行为是确定性的且易于检查。未来的适配器可以用持久化存储替换它。 CapabilityAssemblyGraph 将最近的片段汇总到一个活动窗口中,并评估这些片段是否正在组装成一种受限能力。 当模式包含以下内容时,评分会增加: 重复的风险片段 多个受限能力标签 多个非良性意图类型 多个风险信号 跨会话连续性 跨主体协调 重叠的目标原子 序列增长 绕过策略加工具交接压力 证据抑制压力 PackHuntDetector 编排器。 它对网关观测数据进行分类,将其添加到图中,汇总活动窗口,并发出确定性的决策。 可能的决策操作: 允许 警告 速率限制 要求审查 脱敏输出 阻止响应 锁定会话 升级至人工处理 导出证据包 PseudonymousIdentityProvider 为租户、主体和会话创建基于 HMAC 的化名。 检测器需要连续性来检测协调行为。它不需要原始身份值。 导出器 (Exporters) 第一阶段 (Wave 1) 有意避免从其他 IX 仓库中进行硬导入。相反,它会发出结构稳定的数据包,为未来的适配器做好准备: BlackFox 审查包 CognitionKernel 风险记录 Autonomy Assurance 证据包 这使得核心包保持独立,同时保留了集成的方向。 安全使用示例 ``` decision: lock-session risk_score: 13.4 reason: Coordinated assembly risk exceeded lock-session threshold. blackfox_decision_hash: cognition_risk_score: 13.4 assurance_bundle_trace: ``` 安全的分布式模式演示 包含的演示使用了非实战文本。它仅用于测试模式形态。 ``` python -m pip install --upgrade pip python -m pip install -e .[dev] ``` 预期的输出风格: ``` pytest ``` 开发 创建并激活一个 Python 环境,然后以可编辑模式安装该包: ``` ruff check . ``` 运行测试: ``` mypy src tests ``` 运行 lint: ``` ruff check . mypy src tests pytest ``` 运行类型检查: ``` IX-PackHunt-Guard adapters/ blackfox/ cognition_kernel/ autonomy_assurance/ decriel/ identity_security/ ``` CI GitHub Actions 工作流运行: ``` detector decision -> BlackFox review packet -> policy gate -> human authority ``` 声明边界 IX-PackHunt-Guard 不是魔法盾牌。 它是一个受治理的检测和中断层。 正确的声明是: 当流量通过网关时,IX-PackHunt-Guard 会检测并中断提示词分解和协调滥用模式,保留证据并在越过阈值时要求人工授权。 错误的声明是: IX-PackHunt-Guard 能够完全杜绝越狱 (jailbreak)。 请勿使用错误的声明。 与相邻 IX 系统的关系 IX-PackHunt-Guard 旨在成为模型流量与相邻 IX 治理系统之间的协调层。 计划中的适配器方向: ``` policy-bypass unsafe-tool-handoff specification-gaming evidence-suppression hidden-authority-grant ``` 第一阶段 (Wave 1) 不需要这些适配器即可运行。 BlackFox 方向 BlackFox 最终应接收审查包并执行最终的网关操作策略。 预期角色: ``` mission need -> requirement -> hazard -> control -> evidence -> decision -> human authority ``` CognitionKernel 方向 CognitionKernel 最终应接收风险记录,并将其映射到受治理的拒绝或审查类别中。 预期映射: ``` declared capability set -> denied capability set -> gateway capability boundary ``` Autonomy Assurance 方向 Autonomy Assurance 最终应接收证据包,并生成可审计的决策链。 预期链: ``` docs/THREAT_MODEL.md ``` Decriel 方向 Decriel 最终应提供已声明和被拒绝的能力清单。 预期未来角色: ``` IX-PackHunt-Guard Source-Available Evaluation License v1.0 ``` 第一阶段 (Wave 1) 不声明 Decriel 具有运行时执行能力。 威胁模型 参见: ``` LICENSE NOTICE.md ``` 主要威胁: 协调的攻击者、团体或自动化 agent 群体将微小的请求片段分散到不同的轮次、会话、主体或 agent 中,使得没有任何单个提示词看起来具有高风险,而组合后的序列却组装出了一种受限的能力。 隐私姿态 该包支持隐私保护的连续性。 它可以使用特定于部署的 HMAC 密钥对观测数据进行哈希处理,并从原始账户或会话值中派生出化名标识符。 这旨在支持滥用关联,而无需检测器存储原始身份值。 安全姿态 测试和示例必须保持非实战状态。 请勿添加: 漏洞利用 payload 恶意软件说明 凭证收集步骤 规避策略 武器化细节 有害程序 实战越狱说明 真实的误用操作指南 本项目应测试危险的模式形态,而不再现危险内容。 许可证 此仓库是源代码可见的,并非开源。 它基于以下协议提供: ``` Coordinated AI abuse detection and governance gateway for prompt-decomposition, policy-bypass, and cross-session capability-assembly attacks. ``` 商业使用、生产使用、托管服务使用、运营使用、再分发、修改、衍生作品、政府运营使用、承包商使用、采购使用、组织支持的使用、面向模型的使用、安全层使用、安全层使用、合规使用或保证使用,需要获得 Bryce Lovell 的单独书面许可。 参见: 仓库详情 建议的 GitHub 描述: 作者 Bryce Lovell 最后说明 IX-PackHunt-Guard 是更广泛的 IX 治理堆栈中缺失的协调层。 它不替代 BlackFox、CognitionKernel、Autonomy Assurance、Decriel 或任何提供商侧的安全系统。 它为它们提供了具体的行动依据: 证明微小片段正在组装成受限能力活动的证据。
标签:AI安全, Chat Copilot, DLL 劫持, Python, 人工智能, 大语言模型, 安全规则引擎, 提示词攻击, 无后门, 滥用检测, 用户模式Hook绕过, 逆向工具