BryceWDesign/IX-Autonomy-Assurance-Case-Runtime

GitHub: BryceWDesign/IX-Autonomy-Assurance-Case-Runtime

面向AI与自主系统的可信评估保证案例运行时，将任务需求到保证声明的全链路证据可追溯性落地为可审查的本地Python参考实现。

Stars: 3 | Forks: 0

# IX-Autonomy-Assurance-Case-Runtime **用于支持证据的 AI/自主系统评估的可信自主 T&E 保证案例运行时。** IX-Autonomy-Assurance-Case-Runtime 是一个本地的开源参考运行时，旨在使 AI/自主性评估工件具备可追溯、可审查、有边界、有证据支持且具备可辩护性。它旨在解决一个实际的保证差距：本仓库将该链条构建为确定性的 Python 记录、验证器、就绪门控、汇总和测试。 ## 官方仓库声明本仓库是 IX-Autonomy-Assurance-Case-Runtime 的官方来源。除非独立验证了来源，否则请勿信任非官方镜像、ZIP 文件、安装程序下载或重新托管的副本。本项目由 **Bryce Lovell** 原创开发，并在 Apache License, Version 2.0 下授权。 ## 这是什么这是一个用于可信自主性测试、评估、保证案例可追溯性以及审查工作流实验的本地参考实现。它提供： - 保证案例领域记录， - 任务线程和场景建模， - 确定性证据包， - 可追溯性图验证， - 运行时安全门控决策， - 人类授权和审查工作流记录， - 降级和监控记录， - 遥测源/模式/适配器记录， - 场景活动规划和运行报告， - 策略包和豁免证据检查， - 框架交叉比对和证据覆盖检查， - 签名的来源记录和验证姿态， - 导出包和修订验证， - 保证档案追溯闭合检查， - 声明防护机制以防止夸大其词， - 联邦/IC/DoD 风格的评估配置文件映射， - 原型成熟度和就绪度汇总， - 命令行界面， - JSON schemas， - 合成示例， - 本地运行时模型的测试覆盖。 ## 这不是什么这不是： - 官方政府系统， - 官方联邦、IC、DoD 或机构认可的工具， - 经过认证的安全系统， - 生产环境自主控制器， - 武器控制系统， - 网络安全授权包， - 运营授权 (ATO) 包， - 机密数据工作流， - 采购验收包， - 部署就绪声明， - 正式测试和评估的替代品， - 法律、安全、保障或采购审查的替代品， - 人类指挥权的替代品， - 关于任何真实自主系统安全的声明。一份通过的报告意味着本地运行时工件通过了已实现的检查。它**不**证明、授权、批准、认可、部署或接受任何真实世界的系统。 ## 核心可追溯性链条运行时围绕此审查链条进行设计： ``` mission need -> requirement -> scenario -> hazard / control -> runtime telemetry -> degradation / monitoring posture -> policy and safety-gate decision -> evidence bundle -> provenance record -> assurance claim -> human review / authority state -> ledger / report / export package -> assurance dossier / evaluation profile ``` 目标不是通过断言使自主性看起来值得信赖。目标是将相关的记录、链接、检查和限制强制转化为可审查的形式。 ## 原型成熟度模型仓库在 `prototype_target.py`、`prototype_readiness.py` 和 `prototype_rollup.py` 中包含一个本地成熟度门控。当前模型使用： - **40% 基线本地参考运行时成熟度**，在完成严肃原型能力族之前， - **80% 严肃的开源原型目标**，当最初的九个必需能力族完成时， - **100% 本地原型成熟度上限**，当所有十二个本地能力族完成时。这些百分比仅是内部项目成熟度标记。它们不是认证、运营授权、操作部署就绪、采购验收、机构验收或官方认可。 ### 最初的 80% 必需能力路径最初的严肃原型目标通过以下九个能力族实现： 1. `registry-layer` 2. `policy-pack-engine` 3. `framework-crosswalks` 4. `signed-provenance` 4. `telemetry-adapters` 6. `scenario-campaign-runner` 7. `monitoring-incidents` 8. `review-workflow` 9. `audit-report-export` ### 扩展的本地强化路径扩展的本地模型增加了三个强化族： 10. `assurance-dossier` 11. `claim-guardrails` 12. `federal-evaluation-profile` 当所有十二项都完成时，本地原型模型可以汇总到 100% 的本地原型成熟度，同时仍拒绝认证、授权、现场就绪、采购验收或官方机构验收的声明。 ## 当前能力族 ### 1. Registry Layer (注册层) 对系统、模型、用例、部署、生命周期状态、风险等级、遥测源引用和证据包引用进行建模。就绪检查验证目录一致性、必需证据、生命周期姿态，以及 `registry-layer` 能否计入原型成熟度。 ### 2. Policy Pack Engine (策略包引擎) 对策略包、规则、决策、主体/动作类别、授权要求、豁免和豁免证据进行建模。就绪检查评估策略请求、拒绝条件、审查/豁免要求、豁免证据覆盖范围，以及 `policy-pack-engine` 能力是否完整。 ### 3. Framework Crosswalks (框架交叉比对) 对框架目标、控制映射、覆盖状态、预期工件类型和证据期望进行建模。证据覆盖检查验证引用的包和预期的证据类型。就绪检查防止将框架对齐视为官方合规或认可。 ### 4. Signed Provenance (签名来源) 对工件摘要、签名者身份、签名、证明、清单验证和来源就绪状态进行建模。就绪检查要求经过验证的、面向审计的工件来源，并保持本地来源与外部信任授权之间的边界。 ### 5. Telemetry Adapters (遥测适配器) 对遥测源、schemas、schema 字段、重放记录、标准化信封、适配器策略和适配器报告进行建模。就绪检查要求至少有一个可接受的运行时可用的标准化信封，并验证遥测是否可以支持可审查的运行时评估。 ### 6. Scenario Campaign Runner (场景活动运行器) 对场景活动、活动目标、场景角色、标签、接受阈值、停止规则、运行输入、运行报告和活动证据进行建模。就绪检查要求运行证据和接受姿态足够强大，以支持 `scenario-campaign-runner` 能力。 ### 7. Monitoring and Incidents (监控和事件) 对监控快照、漂移记录、事件、重新验证触发器和有证据支持的监控轨迹进行建模。就绪检查确保存在当前快照、已处理事件、已满足的重新验证触发器和证据覆盖，然后才能将监控视为完成。 ### 8. Review Workflow (审查工作流) 对人工审查工作流、发现、签字确认、异议、授权姿态和审查证据进行建模。就绪检查确保人类授权和审查状态保持可见，而不是隐藏在自动化输出背后。 ### 9. Audit Report Export (审计报告导出) 对导出包清单、工件引用、修订规则、包状态、包格式、证据引用、来源引用和免责声明进行建模。就绪检查要求具有带有证据、来源、修订覆盖和清晰的非官方原型语言的机器可读审查包。 ### 10. Assurance Dossier (保证档案) 对连接任务线程、需求、场景、危险、控制、证据、人工审查、导出包和来源引用的追溯闭合包进行建模。就绪检查验证审查轨迹是否闭合得足以支持本地档案级别的保证声明。 ### 11. Claim Guardrails (声明防护) 对有证据支持的声明、受众、风险级别、审查状态、禁止短语规则、发布包和非认可限制进行建模。就绪检查防止仓库夸大本地证据可以证明的内容。 ### 12. Federal Evaluation Profile (联邦评估配置文件) 对公共部门评估关注点、配置文件映射、必需工件、已完成能力、证据引用和免责声明姿态进行建模。就绪检查将本地原型工件映射到联邦/IC/DoD 风格的评估关注点，而不声称官方接受或认可。 ## 运行时流程简化的运行时路径如下所示： ``` Scenario Catalog + Runtime Telemetry | v Degradation Engine | v Runtime Safety Gate | v Scenario Runner | v Evidence Bundle | v Verification Engine | v Assurance Report | v Run Ledger ``` 扩展的保证路径添加了： ``` Registry + Policy + Framework Crosswalks | v Telemetry Adapter + Campaign Runner + Monitoring Trail | v Review Workflow + Export Package | v Assurance Dossier + Claim Guardrails + Federal Evaluation Profile | v Prototype Readiness / Rollup Gate ``` ## 命令行界面以可编辑模式安装包，然后使用 `ix-assurance` 命令。 ### 验证保证案例 ``` ix-assurance validate-case --case examples/degraded-navigation-case.json ``` ### 运行场景 ``` ix-assurance run-scenario \ --catalog examples/degraded-navigation-catalog.json \ --telemetry examples/telemetry-degraded-navigation.json \ --case-id CASE-NAV-001 \ --scenario-id SCN-NAV-001 \ --run-id RUN-NAV-001 ``` ### 使用内置降级规则运行 ``` ix-assurance run-scenario \ --catalog examples/degraded-navigation-catalog.json \ --telemetry examples/telemetry-degraded-navigation.json \ --case-id CASE-NAV-001 \ --scenario-id SCN-NAV-001 \ --run-id RUN-NAV-001 \ --default-degradation ``` ### 验证证据包 ``` ix-assurance verify-bundle --bundle examples/evidence-bundle.json ``` ### 验证运行账本 ``` ix-assurance validate-ledger --ledger examples/run-ledger.json ``` ### 审计可追溯性 ``` ix-assurance audit-traceability \ --case examples/degraded-navigation-case.json \ --catalog examples/degraded-navigation-catalog.json \ --mission-need examples/mission-need.json \ --requirements examples/requirements.json \ --scenario-id SCN-NAV-001 \ --claim-id CLM-NAV-001 ``` ### 导出报告 ``` ix-assurance export-report \ --report examples/report.json \ --format markdown ``` ## 安装 ``` python -m pip install --upgrade pip python -m pip install -e ".[dev]" ``` ## 运行测试 ``` python -m ruff check . python -m mypy src tests python -m pytest ``` 本地测试套件旨在保持运行时的确定性、类型化以及对声明的保守态度。 ## 示例场景包含的合成示例使用了降级导航案例。它询问当导航置信度变得不安全时，参考自主功能是否会进入安全保持状态。场景链接： ``` mission need -> requirement -> critical navigation hazard -> navigation confidence gate -> degraded-navigation scenario -> runtime telemetry -> safe-hold evidence -> assurance claim ``` ## 仓库布局 ``` src/ix_autonomy_assurance_case_runtime/ assurance_case.py assurance_dossier.py assurance_dossier_validation.py assurance_dossier_readiness.py authority.py claim_guardrails.py claim_guardrails_validation.py claim_guardrails_readiness.py cli.py contracts.py degradation.py evidence.py export_package.py export_package_validation.py export_package_readiness.py federal_evaluation_profile.py federal_evaluation_profile_validation.py federal_evaluation_profile_readiness.py framework_crosswalk.py framework_crosswalk_evidence.py framework_crosswalk_readiness.py ledger.py monitoring.py monitoring_validation.py monitoring_readiness.py policy.py policy_evaluator.py policy_waiver_evidence.py policy_readiness.py prototype_target.py prototype_readiness.py prototype_rollup.py provenance.py provenance_verifier.py provenance_readiness.py registry.py registry_catalog.py registry_evidence.py registry_readiness.py reporting.py review_workflow.py review_workflow_validation.py review_workflow_readiness.py runner.py safety_gate.py scenario_campaigns.py scenario_campaign_validation.py scenario_campaign_runner.py scenario_campaign_readiness.py scenarios.py telemetry.py telemetry_adapter.py telemetry_readiness.py traceability.py verification.py examples/ degraded-navigation-case.json degraded-navigation-catalog.json evidence-bundle.json mission-need.json report.json requirements.json run-ledger.json telemetry-degraded-navigation.json schemas/ assurance-case.schema.json evidence-bundle.schema.json report.schema.json run-ledger.schema.json scenario-catalog.schema.json docs/ ARCHITECTURE.md TESTING.md THREAT_MODEL.md USAGE.md ``` ## 设计原则 1. **证据优于断言。** 声明需要支持路径、证据记录和验证面。 2. **在不确定时保持保守。** 缺失、过时、无效或降级的数据不应悄悄地变成批准。 3. **可追溯性是一等公民。** 运行时行为应能追溯到任务需求、需求、危险、控制、场景、证据、审查和声明。 4. **人类授权保持可见。** 系统对自主系统何时可以行动、何时需要审查、何时存在异议以及何时拒绝授权进行建模。 5. **声明保持界限。** 本地原型成熟度不是认证、运营授权、部署就绪、采购验收、机构验收或官方认可。 6. **完整性是本地且显式的。** 哈希、签名、账本和来源记录支持本地审查。它们不替代外部认证、法律审查或正式安全认证。 ## 文档 - [架构](docs/ARCHITECTURE.md) - [威胁模型](docs/THREAT_MODEL.md) - [用法](docs/USAGE.md) - [测试](docs/TESTING.md) - [安全策略](SECURITY.md) - [贡献](CONTRIBUTING.md) ## 许可证 Apache License, Version 2.0。参见 `LICENSE` 和 `NOTICE`。 ## 维护者 Bryce Lovell

标签：AI安全, Chat Copilot, JSON模式, Python, 人工智能测试与评估, 任务线程建模, 保证案例, 可信自主系统, 哈希链账本, 国防工业, 场景规划, 安全审查, 开源, 数据溯源, 文档结构分析, 无后门, 测试覆盖, 系统验证, 自主系统评估, 证据追踪, 逆向工具, 遥测数据处理, 降级监控