ProfRandom92/Comptextv7

GitHub: ProfRandom92/Comptextv7

面向长周期 AI Agent 的确定性操作重放验证框架,通过压缩、重建和 CI 审计确保工作流状态在多次迭代中保持连续性。

Stars: 0 | Forks: 0

Comptextv7 logo

Comptextv7

面向长周期 AI agent 的确定性操作重放验证。

Comptextv7 用于测试紧凑的、重放安全的操作状态能否在压缩、重建和经 CI 审计的重放检查过程中保持工作流的连续性——无需 LLM 评判、embeddings、向量数据库或外部 API。

CI Python Deterministic Replay No LLM Judging Replay Artifacts Operational State

在线演示 · 演示说明 · 基准测试说明 · 重放报告

## 存在原因 长期运行的 agent 在重放上下文变得操作上不可靠时会发生失败: - 约束消失; - 阻塞项与任务脱节; - 工具序列发生变异; - 依赖关系崩溃; - 摘要听起来流畅,但丧失了可执行的状态。 Comptextv7 专注于保留继续工作所需的状态,而非保留原始的聊天历史。 该项目将重放视为一个可审计的操作状态问题:提取关键字段,将其压缩、重建,并通过确定性检查进行验证。 ## 一览验证 | 证据 | 当前结果 | |---|---:| | 论文重放固件 | 3 篇密集技术论文 | | Agent 追踪固件 | 3 个多步骤工作流 | | 论文平均压缩率 | 1.347063 | | Agent 平均压缩率 | 1.773954 | | 论文重放一致性 | 0.791667 | | Agent 重放一致性 | 1.000000 | | Agent 操作漂移 | 0.000000 | | 评估模式 | 确定性,无 LLM 评判 | | 产物格式 | 已提交的 JSON + CI 上传 | 数据来源:[`artifacts/paper_replay_results.json`](artifacts/paper_replay_results.json) 和 [`artifacts/agent_trace_replay_results.json`](artifacts/agent_trace_replay_results.json)。 ## 如何理解这些数值 - **论文重放在密集的技术文本下是有损的。** 当前的论文固件包含实体、局限性、章节和指标,这些在压缩后更难被保留。 - **Agent 追踪重放目前接近无损,因为追踪是结构化的。** 检入的追踪暴露了明确的任务、阻塞项、依赖关系、工具顺序和恢复操作。 - **`1.000000` 的重放一致性并不意味着已解决内存问题。** 它意味着在当前的结构化追踪固件和当前的确定性验证器下实现了精确保留。 - **操作漂移是字段丢失,而不是主观质量下降。** 非零的漂移率意味着重放丢失了所需的操作字段。 - **下一个目标是迭代重放退化。** 下一个里程碑是反复压缩和重放状态,直到漂移曲线和崩溃点变得可见。 ## 独特之处 - 不是聊天历史存储。 - 不是向量记忆。 - 不是由模型评判的摘要。 - 不是自主 agent 编排。 - 确定性的操作状态重放验证。 ## 架构 ``` flowchart LR A[Raw Context / Agent Trace] --> B[Operational State Extraction] B --> C[Compact Replay State] C --> D[Replay Reconstruction] D --> E[Deterministic Validation] E --> F[CI Artifact] ``` Comptextv7 将嘈杂的上下文转换为紧凑的操作状态,然后验证重放是否重建了继续工作所需的字段。 ## 基准测试系列 ### 论文重放基准测试 - **验证内容:** 密集的技术论文摘要是否在确定性重放压缩后保留了实体、指标、局限性和章节结构。 - **产物:** [`artifacts/paper_replay_results.json`](artifacts/paper_replay_results.json)。 - **方法:** [`docs/benchmarks/paper_replay.md`](docs/benchmarks/paper_replay.md)。 - **当前平均压缩率:** `1.347063`。 - **当前重放一致性:** `0.791667`。 ### Agent 追踪重放基准测试 - **验证内容:** 多步骤 agent 工作流是否保留了活动任务、约束、依赖关系、工具序列、未解决的阻塞项、部署要求和恢复操作。 - **产物:** [`artifacts/agent_trace_replay_results.json`](artifacts/agent_trace_replay_results.json)。 - **方法:** [`docs/benchmarks/agent_trace_replay.md`](docs/benchmarks/agent_trace_replay.md)。 - **当前平均压缩率:** `1.773954`。 - **当前重放一致性:** `1.000000`。 - **操作漂移:** `0.000000`。 - **解释:** 当前设置接近无损,因为固件是结构化的;这是一个有用的基线,而不是通用的内存声明。 ## 补充对抗性重放压力套件 此套件是位于 `reports/replay_continuity/` 下的一个独立的长期压力测试面。 它仍然是有用的上下文,但重点的 README 叙述是上面的确定性操作重放基准测试系列。 | 系统 | 第 25 次迭代 | 第 50 次迭代 | 第 100 次迭代 | 第 250 次迭代 | | --- | ---: | ---: | ---: | ---: | | Naive | 0.039 | 0.039 | 0.043 | 0.039 | | Baseline | 0.294 | 0.294 | 0.294 | 0.294 | | Adaptive | 0.679 | 0.476 | 0.302 | 0.302 | | Comptextv7 | 1.000 | 0.995 | 0.824 | 0.572 | 已提交的 250 次迭代报告记录 Comptextv7 的最终平均连续性为 `0.571783`,在此四舍五入为 `0.572`。 细节保真度仍在下降:隐藏真相存活率为 `0.570173`,评估者一致性分歧为 `0.421743`。 | 系统 | 大致崩溃点 | | --- | ---: | | Naive | ~1 次迭代 | | Baseline | ~10 次迭代 | | Adaptive | ~45 次迭代 | | Comptextv7 | 在此套件中于 ~250 次迭代处审查截断 | ## 可视化产物 - [`replay_degradation_curves.svg`](reports/replay_continuity/replay_degradation_curves.svg) - [`continuity_half_life_chart.svg`](reports/replay_continuity/continuity_half_life_chart.svg) - [`semantic_drift_graph.svg`](reports/replay_continuity/semantic_drift_graph.svg) - [`replay_collapse_curves.svg`](reports/replay_continuity/replay_collapse_curves.svg) - [`evaluator_agreement_divergence.svg`](reports/replay_continuity/evaluator_agreement_divergence.svg) - [`hidden_constraint_survival_curves.svg`](reports/replay_continuity/hidden_constraint_survival_curves.svg) ## 完整性模型 - 无 LLM 评判; - 无 embeddings; - 无外部 API; - 确定性 JSON 产物; - 可在 CI 中重现; - 对审计友好。 ## 局限性 - 固件是经过精心整理并检入的。 - 结构化的 agent 追踪目前以接近无损的方式重放。 - 这并不是已经解决的 AI 记忆问题。 - 这不是生产环境遥测。 - 这不是自主 agent 框架。 - 在长期压力测试套件中,评估者分歧仍然很大。 - 下一个技术里程碑是更强的迭代退化基准测试。 ## 下一个技术里程碑 ## 审查面 | 面 | 链接 | | --- | --- | | 在线演示 | [`comptextv7.vercel.app`](https://comptextv7.vercel.app) | | 演示说明 | [`docs/DEMO_WALKTHROUGH.md`](docs/DEMO_WALKTHROUGH.md) | | 演示准备情况 | [`docs/SHOWCASE_READINESS.md`](docs/SHOWCASE_READINESS.md) | | 基准测试说明 | [`docs/BENCHMARK_EXPLANATION.md`](docs/BENCHMARK_EXPLANATION.md) | | 重放报告 | [`reports/replay_continuity/validation_report.md`](reports/replay_continuity/validation_report.md) | | API 层面 | [`docs/API_SURFACE.md`](docs/API_SURFACE.md) | ## 仓库结构图 ``` Comptextv7/ ├── artifacts/ # committed deterministic replay benchmark JSON ├── benchmarks/ # deterministic compression, replay, and audit runners ├── contracts/ # machine-readable validation and handoff contracts ├── dashboard/ # backend plus React operations console ├── docs/ # benchmark, showcase, and reviewer documentation ├── reports/replay_continuity/ # adversarial continuity metrics and SVG charts ├── scripts/ # validation, reporting, and artifact tooling ├── showcase/app/ # Vite + TypeScript showcase application ├── src/ # KVTC engine, audit, and semantic validation modules ├── tests/ # Python regression and replay validation tests └── README.md ``` ## 安全边界 不要提交: - 专有客户数据; - 密钥、API 密钥、token、cookie 或凭证; - 原始生产日志; - 未净化的重放固件; - 私有部署凭证或环境转储。 Comptextv7 是一个确定性的、仅限合成的研�原型,用于操作重放持久化和可审查的诊断基础设施。 ## 云优先验证 Comptextv7 倾向于基于产物的审查,而不是信任本地机器。 | 工作流 | 作用 | |---|---| | [`ci.yml`](.github/workflows/ci.yml) | 运行确定性重放、测试、遥测和验证门。 | | [`agent-checks.yml`](.github/workflows/agent-checks.yml) | 运行仓库/报告/契约检查以及仪表板验证。 | | [`validation_runner.yml`](.github/workflows/validation_runner.yml) | 发布紧凑的云端验证结果产物。 | ## 可重现性 安装 Python 测试依赖集: ``` python -m pip install -e '.[test]' ``` 重新生成确定性重放产物: ``` python tests/utils/paper_replay_runner.py python tests/utils/agent_trace_replay_runner.py python benchmarks/run_replay_continuity.py --iterations 250 --output-dir reports/replay_continuity ``` 使用 [`docs/validation.md`](docs/validation.md) 中的验证命令。根目录的 `package.json` 是为了审阅者的方便而设置的包装器。应用依赖项保留在 `dashboard/app` 和 `showcase/app` 中。 根目录包装器检查: ``` npm run layout npm run typecheck npm run validate npm run build npm test npm run check ``` 仪表板应用检查: ``` cd dashboard/app npm run typecheck npm run build ``` 演示应用检查: ``` cd showcase/app npm run typecheck npm run validate npm run build ``` 从仓库根目录进行 Python 检查: ``` pytest -q pytest tests/test_core_foundation_ts.py -q pytest tests/test_paper_replay_bench.py tests/test_agent_trace_replay.py tests/test_replay_continuity.py -q ``` 当触及相关界面时,仍可使用额外的仓库验证辅助工具: ``` python scripts/validate.py replay python scripts/validate.py token python scripts/validate.py forensic python scripts/validate_contracts.py python scripts/validate_api_exports.py ```
标签:AI代理, AI处理框架, CI/CD审计, DLL 劫持, Homebrew安装, JSON, pocsuite3, Python, Zenmap, 上下文管理, 云计算, 人工智能, 令牌缩减, 大语言模型, 工作流连续性, 工作流验证, 数据完整性, 无后门, 无向量数据库, 无嵌入, 状态压缩, 状态管理, 状态重建, 用户模式Hook绕过, 确定性回放, 系统可用性, 规则引擎, 软件测试, 逆向工具, 长周期任务, 防御性计算