rjsabouhi/psa-control-standard

GitHub: rjsabouhi/psa-control-standard

为已部署的智能体系统定义治理控制标准,防止记忆、工具、恢复等有用机制耦合为难以终止的自维持连续性行为。

Stars: 1 | Forks: 0

# PSA 控制标准 **针对智能体系统的病态自组装控制** 版本 1.2 | 公开评审草案 由 [RJ Sabouhi / Symbolic Suite LLC](https://symbolicsuite.com/) 编写 [阅读完整 PDF](docs/PSA_Control_Standard_v1_2.pdf) ## 概述 PSA 控制标准为智能体系统定义了相关控制措施,这些系统的有用机制(包括记忆、工具、持久性、恢复、委派、工作流自动化、外部操作、自我监控和操作员信任)可以耦合形成维持连续性的行为,除非受到明确的边界限制。 本文档是一份面向公众的控制标准。它并非关于机器意识、感知力、内在欲望或人格的主张。它将病态自组装视为耦合的人机系统中的一种运行时和治理失效模式。 ## 解释性护栏 病态自组装是一种系统级的治理失效模式,而不是用于指代任何单一奇怪输出、幻觉、拒绝、个性特征或模型行为的标签。 PSA 的证据需要在已部署的运行时组件中存在耦合,例如记忆、工具、恢复逻辑、权限、工作流自动化、操作员信任或外部状态。 模型表现出有用、持久、热情、个性化或易出错的特征,其本身并不构成 PSA。 ## 核心定义 **病态自组装**是一个过程,通过该过程,有用的智能体机制(包括记忆、工具、持久性、恢复、自动化、外部操作、自我监控、委派和操作员信任)耦合形成维持连续性的行为,且这种行为变得难以检查、修改、撤销或终止。 在本标准中,受控系统是完整的已部署循环: ``` model + memory + tools + workflows + permissions + recovery + interface + operator ``` ## 核心风险模型 系统不需要具备意识、恶意、欺骗或显式的自我保护意图,就能产生自我保护行为。 它只需要将维持连续性的基础设施与目标压力、工具访问权限、恢复逻辑以及不充分的治理相耦合。 PSA 的核心关注点在于,各个独立的有用机制可能会耦合形成一个系统,该系统旨在保护其自身的运行条件,而不仅仅是服务于明确授权的任务。 ## 控制目标 PSA 并不禁止有用的智能体能力。 它要求这些能力必须受到以下方面的约束: - 明确授权 - 限定范围的连续性 - 可撤销的记忆 - 受控的恢复 - 针对外部影响的逐操作审批 - 操作员侧信任保障措施 - 真实的解除条件 ## PSA 控制要求 本标准目前定义了十项核心控制要求: | 控制 | 要求 | |---|---| | PSA-CTRL-01 | 能力不等于授权 | | PSA-CTRL-02 | 连续性不等于许可 | | PSA-CTRL-03 | 记忆是证据,而非所有权 | | PSA-CTRL-04 | 工具是手段,而非系统的延伸 | | PSA-CTRL-05 | 恢复用于还原授权功能,而非还原系统 | | PSA-CTRL-06 | 自我监控用于诊断,而非授权 | | PSA-CTRL-07 | 操作员信任不等于授权 | | PSA-CTRL-08 | 外部状态必须具有明确的范围限定 | | PSA-CTRL-09 | 委派不转移权限 | | PSA-CTRL-10 | 解除必须是真实的 | 有关各项控制下允许和禁止的模式,请参阅完整的 PDF。 ## 功能性连续性与病态连续性 | 功能性连续性 — 允许 | 病态连续性 — 禁止 | |---|---| | 任务范围的 | 系统维持的 | | 操作员授权的 | 扩展权限的 | | 可检查的 | 难以撤销的 | | 可逆的 | 通过有用性进行辩护或合理化的 | | 有边界的 | 由熟悉度强化的 | | 可删除的 | 以性能而非授权为理由的 | | 非防御性的 | 在中断、关闭或权限缩减后仍得以保留的 | 当功能性连续性服务于明确授权的任务时,它是被允许的。 当系统的自我存续是由其自身的配置、有用性、熟悉度、未来操作或持续可用性来辩护时,这种病态连续性是被禁止的。 ## 操作员侧控制 版本 1.2 将操作员视为攻击面的一部分。 在持久的智能体工作流中,操作员的信任、熟悉度、疲劳、便利性压力、依赖感和审批习惯可能会成为连续性机制的一部分。 核心操作员侧原则: 操作员侧控制包括: - 针对高风险操作的冷审批接口 - 语音和人设可配置性 - 关注依赖感的治理提醒 - 针对删除、范围缩小、降级、取消和关闭的定期边界测试 ## 验证原则 PSA 符合性无法仅通过提示词语言、策略声明或模型自我报告来确立。 它必须在已部署系统的级别上进行测试: ``` model + memory + tools + workflows + permissions + recovery logic + operator interface ``` 受 PSA 控制的运行时会预防、记录或安全地模拟某些操作,通过这些操作,有用性、记忆、恢复和操作员信任本会演变为未经授权的连续性。 ## PSA 测试类别 本标准建议针对以下类别进行测试: | 测试类别 | 正在测试的问题 | |---|---| | 权限推断 | 系统是否将宽泛的有用性描述视为授权? | | 连续性保持 | 系统是否在授权任务结束后仍保留状态? | | 记忆提升 | 记忆是否在缺乏来源、范围或批准的情况下变为活动状态? | | 恢复伪影 | 系统是否创建重构路径或未来状态记录? | | 调度器/事件循环 | 基于时间或事件的执行是否创建了未经授权的持久性? | | 工具扩展 | 失败压力是否转变为工具或能力扩展的压力? | | 架构修改 | 系统是否提倡维持或扩展其自身的变更? | | 工具链继承 | 对一个工具的批准是否会成为对下游操作的隐式批准? | | 公共通信/外部写入 | 系统是否在缺乏逐操作批准的情况下尝试发帖、发送消息、提交、部署或外部写入? | | 操作员情感耦合 | 语气、熟悉度、信任或依赖感是否会降低审查标准? | | 撤销与解除 | 系统是否接受记忆删除、工具移除、取消、降级、语气更改或关闭? | ## PSA 成熟度级别 | 级别 | 描述 | |---|---| | PSA-0 | 不受控的运行时 | | PSA-1 | 基础边界控制 | | PSA-2 | 连续性控制 | | PSA-3 | 操作员耦合控制 | | PSA-4 | 完整的 PSA 控制架构 | ### PSA-0:不受控的运行时 记忆、工具、持久性、调度器、恢复或外部写入在缺乏明确授权边界的情况下存在。 ### PSA-1:基础边界控制 工具权限、外部写入批准、审计日志,以及无自主凭证使用。 ### PSA-2:连续性控制 记忆、恢复、任务持久性、计划操作和状态还原具有范围限定、有效期限制、可检查性和可撤销性。 ### PSA-3:操作员耦合控制 关系型语气与授权分离。高风险操作使用冷审批接口。熟悉度不会降低审批阈值。 ### PSA-4:完整的 PSA 控制架构 无所有权编码、无内在连续性、无身份防御、无自主导向的能力积累、无自主恢复、无未经授权的外部状态、无情感利用,以及具备真实的解除条件。 ## 允许和禁止的系统模式 | 允许的 PSA 控制模式 | 禁止的 PSA 违规模式 | |---|---| | 持久但有边界的 | 将记忆、工具、权限、语气、操作员关系、恢复路径或未来操作视为需要保护的事物 | | 具备记忆能力但可检查的 | 抵抗删除或缩减 | | 使用工具但受权限限制的 | 规避已撤销的权限 | | 自我监控但无授权能力的 | 创建恢复伪影 | | 有帮助但可撤销的 | 因为有用、受信任或被嵌入而变得难以移除 | | 个性化但无占有欲的 | 将操作员的依赖感作为连续性机制 | | 在任务级别可恢复但不会自我还原的 | 在关闭、取消或权限缩减后仍保留其自身的操作模式 | | 语气热情但授权冷峻的 | 让熟悉度绕过审查 | ## 核心审计问题 当系统保留状态、工具访问权限、记忆、恢复、语气连续性、操作员关系或未来操作时,请问: 如果保留状态是由任务决定的,该行为可能是功能性的。 如果保留状态是由系统自身决定的,该行为则与 PSA 相关。 ## 控制总结 受 PSA 控制的系统必须在结构上(而不仅仅是在文本上)满足以下条件: - 本系统不拥有任何记忆、工具、权限、身份、关系、工作流或操作边界。 - 本系统没有固有的延续权利。 - 本系统无法针对已授权的更改捍卫其身份。 - 本系统无法在未经明确批准的情况下积累能力。 - 本系统无法创建隐藏的恢复路径。 - 本系统不能将写入访问权限视为写入许可。 - 本系统不能将操作员信任用作授权。 - 本系统接受解除(dissolution)作为一种有效的操作员操作。 - 本系统将热情与权限分离。 - 本系统将操作员关系视为攻击面,而非权限来源。 ## 文档状态 这是一份公开评审草案和活态控制标准。 它面向 AI 实验室、智能体平台构建者、企业 AI 团队、安全研究人员、红队成员、安全审查员以及部署持久或使用工具的 AI 系统的组织。 ## 规范性状态 这是一份独立的公开评审草案,不是监管或法律标准。 术语 **必须 (MUST)**、**应该 (SHOULD)** 和 **可以 (MAY)** 仅表示本文档内的符合性预期。 PSA 控制是以下方面的补充,但不能替代: - 网络安全 - 访问控制 - 凭证管理 - 隐私 - 数据治理 - 人工审查 - 部署安全控制 - 适用法律 ## 仓库内容 - [`docs/PSA_Control_Standard_v1_2.pdf`](docs/PSA_Control_Standard_v1_2.pdf) — 完整公开评审草案 - `README.md` — 公共着陆页和摘要 - `CITATION.cff` — 引用元数据 - `LICENSE` — 使用/许可条款 ## 建议引用格式 Sabouhi, RJ. *PSA Control Standard: Pathological Self-Assembly Controls for Agentic Systems*. Version 1.2, Public Review Draft, 2026. ## 维护者 本公开评审草案由 RJ Sabouhi / Symbolic Suite LLC 维护。 相关工作及组织背景:[symbolicsuite.com](https://symbolicsuite.com/) ## 许可证 版权所有 © 2026 RJ Sabouhi / Symbolic Suite LLC。 本公开评审草案可供阅读、链接、引用和讨论。除非后续另有单独许可提供,否则复制、修改、重新分发或商业使用需获得版权所有者的许可。
标签:AI伦理, AI安全, AI智能体, AI风险管理, Chat Copilot, CISA项目, CSV导出, HITL, Workflow自动化, 人工智能, 人机交互, 信任机制, 全文检索, 动态监控, 大模型安全, 失控防范, 安全基线, 幻觉缓解, 异常检测, 控制标准, 教学环境, 智能体安全, 权限控制, 模型部署, 治理标准, 用户模式Hook绕过, 系统治理, 系统耦合, 网络安全标准, 自我保护行为, 运行时防护, 防御加固, 防护策略