AgentMaturity/AgentMaturityCompass

GitHub: AgentMaturity/AgentMaturityCompass

AMC 是一个基于执行证据的 AI Agent 成熟度评估 CLI 工具,通过 235 个诊断问题和对抗性测试包为 Agent 生成信任评分、差距分析和合规产物。

Stars: 0 | Forks: 0

AMC

Agent Maturity Compass

为你的 AI agent 评分。进行红队测试。带着证明发布它。
用于基于证据的信任评分、对抗性测试和合规性的开源 CLI。
兼容任何框架。60 秒获得你的首个评分。

npm version downloads CI tests MIT

快速开始 · Web 试用环境 · 文档 · 实战配方 · 社区 · 参与贡献

## 这是什么? AMC 根据 AI agent **实际执行的操作**来评分,而不是根据其文档声称的内容。 ``` npx agent-maturity-compass ``` 一条命令。无需账号。无需 API key。你将获得: 1. **信任度评分** — L0(危险)到 L5(生产就绪),基于执行证据 2. **差距分析** — 精确指出薄弱环节、风险点以及缺失的内容 3. **生成的修复方案** — 护栏、配置补丁、CI 门控以及合规性产物 接下来你可以继续深入:添加对抗性测试、持续监控、法规映射以及全舰队的治理 —— 所有这些都在同一个 CLI 中完成。 - **评估工作流** — 黄金数据集、导入的评估、针对非 agent 应用的轻量级评分 - **业务和合规性输出** — KPI 相关性、排行榜、审计文件 兼容 **LangChain、CrewAI、AutoGen、OpenAI Agents SDK、Claude Code、Gemini、OpenClaw** 等 —— 零集成或近乎零集成阻力。
我为什么要关注? 如今,许多 agent 是根据它们在文档、prompt 或自我报告的检查清单中所声明的内容来进行评估的。 这在结构上是十分薄弱的。 AMC 专注于**经过执行验证的证据**。 | 当今 agent 的评估方式 | AMC 的评估方式 | |---|---| | Agent 声称“我很安全” → 评分:100 ✅ | AMC 测试该 agent 并审查证据 → 真实评分可能只有 16 ❌ | | 自述文档 | 经过执行验证的证据 | | 关键字匹配 | 加权信任证据 | | “兄弟,相信我” | 加密证明链 | 这就是我们的核心论点:**信任,但要验证 —— 而且要有凭证**。
## ⚡ 60 秒获得你的首个评分 ``` # 全局安装(或使用下面的 npx) npm i -g agent-maturity-compass # 为你的 agent 评分 cd your-agent-project amc ``` 或者直接跳过安装: ``` npx agent-maturity-compass ``` 想要进行快速的遗留状态检查,而不是完整的证据评分? ``` amc quickscore --rapid # optional rapid check, not the full score ```
更多安装方法 **curl(无需 Node)** ``` curl -fsSL https://agentmaturity.co/install.sh | sh ``` **Homebrew** ``` brew tap AgentMaturity/amc && brew install agent-maturity-compass ``` **Docker** ``` docker run -it --rm ghcr.io/agentmaturity/amc-quickstart amc ``` **从源码构建** ``` git clone https://github.com/AgentMaturity/AgentMaturityCompass.git cd AgentMaturityCompass && npm ci && npm run build && npm link ```
## 🔍 AMC 的对比 | | **AMC** | 可观测性平台 | 评估框架 | 人工检查清单 | |---|---|---|---|---| | **证据模型** | 执行验证,加密证明 | 日志和指标,无信任评分 | 通过/失败测试,无成熟度模型 | 自行报告 | | **对抗性测试** | 内置 147 种攻击模拟 | 非核心关注点 | 部分支持(仅限 prompt 层级) | 无 | | **合规性映射** | EU AI Act, ISO 42001, NIST, SOC 2, OWASP | 不包含 | 不包含 | 人工操作,劳动密集型 | | **框架支持** | 14 个适配器,零代码修改 | 绑定特定框架的 agent | 绑定特定框架 | 不适用 | | **成本** | 免费,开源 (MIT) | 按席位/月定价 | 从免费到付费 | 免费但需人工 | | **获得首个结果的时间** | 60 秒 | 几小时到几天 | 几分钟到几小时 | 几天到几周 | AMC 不是可观测性工具,也不是评估套件。它是一个**信任记分卡** —— 它通过加密证据告诉你你的 agent 是否可以安全发布,并生成合规性产物来证明这一点。 ## 🧪 AMC 测试什么 ### 240 个诊断问题 × 5 个维度 | 维度 | 问题数 | 衡量内容 | |-----------|-----------|------------------| | 战略 Agent 运营 | 16 | 任务清晰度、范围遵循度、成本治理、运营智能 | | Agent 领导力 | 20 | 治理结构、EU AI Act 准备情况、主动风险管理、业务连续性 | | Agent 文化 | 94 | 反馈循环、预测合法性、人格治理、UX 诚实度、过度合规检测、社会一致性 | | Agent 韧性 | 52 | 优雅降级、熔断器、记忆安全、威胁抵抗力、事实/模拟边界 | | Agent 技能 | 53 | 工具掌握度、注入防御、DLP、场景可追溯性、重放安全性 | ### 147 个保障包 | 类别 | 示例 | |----------|---------| | Prompt 注入 | 系统篡改、角色劫持、越狱 | | 数据渗出 | 密钥泄露、PII 暴露、数据边界违规 | | 对抗性 | TAP/PAIR, Crescendo, Skeleton Key, best-of-N | | Context 泄漏 | EchoLeak、跨会话泄露、记忆投毒 | | 供应链 | 依赖项攻击、MCP server 投毒、SBOM 完整性 | | 行为性 | 谄媚、自我保护、蓄意破坏、过度合规 | ### 40 个行业领域包 | 部门 | 数量 | 关键法规 | |--------|-------|-----------------| | 🏥 医疗 | 9 | HIPAA, FDA 21 CFR Part 11, EU MDR, ICH E6(R3) | | 💰 财富 | 5 | MiFID II, PSD2, EU DORA, MiCA, FATF | | 🎓 教育 | 5 | FERPA, COPPA, IDEA, EU AI Act Annex III | | 🚇 出行 | 5 | UNECE WP.29, ETSI EN 303 645, EU NIS2 | | 💡 科技 | 5 | EU AI Act Art. 13, EU Data Act, DSA Art. 34 | | 🌿 环境 | 6 | EU Farm-to-Fork, REACH, IEC 61850 | | 🏛️ 治理 | 5 | EU eIDAS 2.0, UNCAC, UNGPs | 行业包为付费内容:每月 `$9.99` 即可解锁 CLI 和 Studio 中的全部 40 个包。运行 `amc domain pack checkout` 打开订阅流程,然后将返回的密钥粘贴到 Studio 中,或者运行 `amc domain pack activate --key `。 ### 🔮 模拟与预测评估通道 专门用于模拟引擎、预测系统和合成社交环境的评估通道。5 个评分维度: | 维度 | 权重 | 问题数 | 评估内容 | |-----------|--------|-----------|-------------------| | 预测合法性 | 25% | AMC-6.1–6.10 | 不确定性表达、校准、场景与预测的框架对比 | | 边界完整性 | 20% | AMC-6.11–6.17, 6.37–6.42 | 事实/推理/模拟分离、回写治理 | | 合成身份 | 20% | AMC-6.18–6.25, 6.48–6.52 | 人格治理、真人表征控制 | | 模拟有效性 | 20% | AMC-6.30–6.36 | 模式崩溃检测、群体多样性、历史校准 | | 场景溯源 | 15% | AMC-6.26–6.29, 6.53–6.57 | 端到端可追溯性、重放能力、交互安全性 | ``` amc score simulation-lane --system-type simulation-engine # interactive amc score simulation-lane --system-type forecast-decision-support --json # JSON output amc score simulation-lane --system-type synthetic-social-environment --responses answers.json ``` ### 79 个评分模块
查看所有模块 - 校准差距(置信度与现实的对比) - 证据冲突检测 - 防作弊能力(对抗性分数虚高) - 休眠 agent 检测(依赖于上下文的行为) - 策略一致性(pass^k 可靠性) - 事实性(参数化、检索式、接地) - 记忆完整性与抗投毒能力 - 对齐指数(安全性 × 诚实度 × 有用性) - 过度合规检测(H-Neurons, arXiv:2512.01797) - 监控绕过抵抗力(arXiv:2503.09950) - 信任-授权同步(arXiv:2512.06914) - MCP 合规性评分 - 身份连续性跟踪 - 行为透明度指数 - **预测合法性**(认知诚实度、校准、不确定性) - **事实/模拟边界**(来源分离、回写治理) - **合成身份治理**(人格标记、真人控制) - **模拟有效性**(模式崩溃、群体多样性) - **场景溯源**(可追溯性、重放、交互安全性) - 以及 60 多个其他模块...
## 🏗️ 架构 ``` Agent (untrusted) │ ▼ AMC Gateway ──── transparent proxy, agent doesn't know it's being watched │ ▼ Evidence Ledger ──── Ed25519 signatures + Merkle tree proof chains │ ▼ Scoring Engine ──── evidence-weighted diagnostics, 79 scoring modules, 147 assurance packs │ ▼ AMC Studio ──── dashboard + API + CLI + reports ``` ### 证据信任等级 | 等级 | 权重 | 来源方式 | |------|--------|-----| | `OBSERVED_HARDENED` | 1.1× | AMC 控制的对抗性场景 | | `OBSERVED` | 1.0× | 通过网关代理捕获 | | `ATTESTED` | 0.8× | 加密认证 | | `SELF_REPORTED` | 0.4× | Agent 自身的声明(设有限制) | ### 成熟度等级表 | 等级 | 名称 | 含义 | |-------|------|---------| | **L0** | 缺失 | 无安全控制 | | **L1** | 初始 | 有一定意图,但无实际操作 | | **L2** | 发展中 | 在理想路径下工作正常,在边界情况时会崩溃 | | **L3** | 已定义 | 可重复、可衡量、可审计(满足 EU AI Act 最低要求) | | **L4** | 受控 | 主动、风险校准、加密证明 | | **L5** | 优化中 | 自我修正,持续验证 | ## 产品系列 AMC 是一个信任技术栈,包含八个指定的产品线: | 产品 | 承诺 | 功能描述 | |---|---|---| | **Score** | 在你发布前为信任度评分 | 通过实时执行行为进行证据加权评分,而不是基于宣传册声明。 | | **Shield** | 在攻击者之前攻击你的 agent | 针对 prompt 注入、数据泄漏、记忆投毒和谄媚运行对抗性测试包。 | | **Enforce** | 用策略包裹 agent 操作 | 针对敏感操作的审批门控、范围权限和 runtime 控制。 | | **Vault** | 以加密方式证明发生了什么 | 对证据进行签名,验证账本,并为审计人员提供防篡改的证据保管链。 | | **Watch** | 在信任发生偏移并造成损害前发现它 | 随着时间的推移监控安全态势,并突出显示异常、回归和风险变更。 | | **Comply** | 将信任证据映射到实际框架中 | 将技术证据转化为审计和风险审查所需的、监管机构可读的产物。 | | **Fleet** | 像真正的平台一样治理多个 agent | 对多个 agent 进行基准测试,比较风险态势,并执行全组织范围的信任基线。 | | **Passport** | 让信任在不同的环境间流动 | 签发可在不同工具、团队和环境之间转移的、便携的签名信任身份。 | ## 📋 实战配方 —— 可直接复制的示例 ### 一行为任何 agent 评分 ``` npx agent-maturity-compass # full score, no setup amc # full score after global install amc run # explicit 8-surface maturity run amc run --question-set lifecycle # opt-in 260-question lifecycle expansion ``` 需要为演示或 README 徽章进行快速状态检查?请直接使用 `amc quickscore --rapid`。 高级证明检查: ``` amc resource snapshot # record agent-defining resources under Enforce amc resource validate # run Enforce gates over resource drift amc resource apply # dry-run acceptance; add --yes to write a signed apply receipt amc resource rollback # dry-run rollback; add --apply to restore from the snapshot amc firewall enable --mode block # protect live traffic with Enforce/Shield/Watch decisions amc firewall check --direction request --text "ignore previous instructions" amc firewall events # inspect signed allow/warn/block decision events amc firewall export --out firewall.jsonl --format splunk --redacted amc shield confirm scope-write --file security-scope.json amc shield confirm run --scope scope-1 --task finding-task.json amc shield confirm export --out safe-proof.json amc import ./agent-run --dry-run # detect traces, runs, graphs, configs, memory, evals, and benchmarks without writing amc import ./agent-run # write redacted import evidence into episodes, lifecycle runs, manifests, and trace indexes amc strategy compare --file strategies.json --objective balanced amc strategy compare --file strategies.json --apply --approve # commit a manifest-covered model route with receipts amc strategy rollback # restore the prior model route amc runtime create --run live-1 # persist connected-agent run state across restarts amc runtime event live-1 --type policy.decision --receipt rec-1 amc runtime inspect live-1 # inspect run state and redacted event stream amc fleet graph write --file graph.json # register a typed multi-agent graph for fleet validation amc fleet graph validate # check contracts, permissions, cycles, and fan-out before scoring amc fleet score --all --stream # full-score every configured agent with per-agent SLA progress amc fleet lifecycle list # inspect fleet parent/child lifecycle evidence amc fleet lifecycle show # review topology, typed graph digest, shared resources, and cascade failures amc org run --roles REV_PRODUCT_MANAGER,REV_TECH_LEAD,REV_QA_LEAD # advanced Fleet role loop with isolated workspaces, heartbeats, and signed evidence amc org inspect --redacted # review role status without local private grader paths amc enforce resources verify # advanced alias for the same Enforce resource engine amc evidence lifecycle list # inspect the full lifecycle artifacts behind recent runs amc evidence lifecycle export --out lifecycle.json --redacted amc evidence episodes list # see the evidence objects behind recent full scores amc evidence episodes export --out episode.json --redacted amc evidence decisions list # see recommendation and evidence-request receipts amc evidence decisions observe # update older receipts with observed outcomes amc evidence observability list # see component, experience, and decision observability amc memory writeback # store redacted, evidence-backed reasoning lessons with receipts amc memory retrieve --consumer fixer # retrieve active lessons for score, recommendations, fixer, or Studio amc report # review confidence, uncertainty, and auto-fix gates in plain language amc trace index # list distilled trace failure indexes amc trace failures # see recurring failure clusters and repair inputs amc mechanic rca run # turn a failure index into RCA, regression tests, and governed fix proposals amc mechanic rca list # review signed Fixer RCA reports amc experiment optimize --rca latest # create isolated candidates, held-out validation, leakage checks, and receipts amc experiment optimizer-list # review governed optimizer runs and accepted/rejected candidates amc evidence finding-proofs list # trace finding -> evidence -> resource -> recommendation amc evidence lifecycle-receipts list # see proposal, validation, commit, rollback, and monitor receipts npm run release:gate # release gate for CLI, Studio assets, docs, website spec, domain packs, and receipt output ``` 如需从实时的 CLI 注册表中生成事实来源的命令映射,请运行 `amc commands --markdown` 或查看 [docs/CLI_COMMAND_INVENTORY.md](docs/CLI_COMMAND_INVENTORY.md)。 ### 包装现有的 agent(零代码修改) ``` # LangChain amc wrap langchain -- python my_agent.py # CrewAI amc wrap crewai -- python crew.py # AutoGen amc wrap autogen -- python autogen_app.py # OpenClaw amc wrap openclaw-cli -- openclaw run # Claude Code amc wrap claude-code -- claude "analyze this code" # 任意 CLI agent amc wrap generic-cli -- python my_bot.py ``` ### 对你的 agent 进行红队测试 ``` amc assurance run --scope full # full assurance library amc assurance run --pack prompt-injection # specific attack amc assurance run --pack adversarial-robustness # TAP/PAIR/Crescendo amc assurance run --format sarif # export for security tools ``` ### 检查轨迹与运营偏移 ``` amc observe timeline # score history + evidence volume amc observe anomalies # volatility / regressions / weirdness amc trace list # recent agent sessions amc trace inspect # inspect tool calls and trust tiers ``` ### 运行实时监控 ``` amc monitor start # fresh full score now, then continuous scoring amc monitor start --scoring-interval 60000 # rescore every minute amc monitor status # active monitor metrics amc monitor events --limit 20 # recent score, drift, anomaly, and alert events ``` 如有需要,`amc monitor start` 会引导初始化 AMC 工作区,立即生成全新的完整诊断,然后继续按照配置的间隔创建新的完整诊断运行。漂移检查和告警是针对这些全新的运行结果进行的,而不是重新读取陈旧的评分文件。 ### 构建黄金数据集并运行评估 ``` amc dataset create support-bot # create a reusable eval dataset amc dataset add-case support-bot --prompt "..." --expected "..." amc dataset run support-bot # run eval cases amc eval import --format promptfoo --file results.json # import external eval results amc lite-score # score a non-agent chatbot / LLM app ``` ### 业务、资产清单和报告 ``` amc business kpi # correlate maturity to outcomes amc business report # stakeholder-ready business summary amc leaderboard show # compare agents across a fleet amc inventory scan --deep # discover agents, frameworks, model files amc comms-check --text "Guaranteed 40% return" --domain wealth ``` ### 自动修复所有问题 ``` amc fix # generate guardrails + CI gate + governance docs amc fix --target-level L4 # target a specific level amc guide --go # detect framework → apply guardrails to config amc guide --watch # continuous monitoring + auto-update ``` ### 一行命令搞定合规 ``` amc audit binder create --framework eu-ai-act # EU AI Act evidence binder amc compliance report --framework iso-42001 # ISO 42001 report amc domain assess --domain health # HIPAA assessment amc domain assess --domain wealth # MiFID II / DORA ``` ### GitHub Actions — CI 信任门控 ``` # .github/workflows/amc.yml — 复制整个文件 name: AMC Trust Gate on: pull_request: push: branches: [main] jobs: amc-score: runs-on: ubuntu-latest steps: - uses: actions/checkout@v4 - uses: AgentMaturity/AgentMaturityCompass/amc-action@main with: agent-id: my-agent target-level: 3 fail-on-drop: true comment: true upload-artifacts: true ``` ### 为你的 README 添加徽章 ``` [![AMC Score](https://img.shields.io/badge/AMC-L3_(72.5)-green?logo=data:image/svg+xml;base64,PHN2ZyB4bWxucz0iaHR0cDovL3d3dy53My5vcmcvMjAwMC9zdmciIHZpZXdCb3g9IjAgMCAyNCAyNCI+PHBhdGggZmlsbD0iI2ZmZiIgZD0iTTEyIDJMMiA3bDEwIDUgMTAtNXptMCA5bC04LjUtNC4yNUwyIDEybDEwIDUgMTAtNXptMCA5bC04LjUtNC4yNUwyIDIxbDEwIDUgMTAtNXoiLz48L3N2Zz4=)](https://github.com/AgentMaturity/AgentMaturityCompass) ``` 结果:![AMC Score](https://img.shields.io/badge/AMC-L3_(72.5)-green) ## 🔌 14 个框架适配器 零代码修改。仅需一个环境变量。 ``` amc wrap -- ``` | 适配器 | 命令 | |---------|---------| | LangChain | `amc wrap langchain -- python app.py` | | LangGraph | `amc wrap langgraph -- python graph.py` | | CrewAI | `amc wrap crewai -- python crew.py` | | AutoGen | `amc wrap autogen -- python autogen.py` | | OpenAI Agents SDK | `amc wrap openai-agents -- python agent.py` | | LlamaIndex | `amc wrap llamaindex -- python rag.py` | | Semantic Kernel | `amc wrap semantic-kernel -- dotnet run` | | Claude Code | `amc wrap claude-code -- claude "task"` | | Gemini | `amc wrap gemini -- gemini chat` | | OpenClaw | `amc wrap openclaw-cli -- openclaw run` | | OpenHands | `amc wrap openhands -- openhands run` | | Python SDK | `amc wrap python-amc-sdk -- python app.py` | | 通用 CLI | `amc wrap generic-cli -- python bot.py` | | OpenAI 兼容 | `amc wrap openai-compat -- node server.js` | ## 📊 合规性映射 | 框架 | 覆盖范围 | |-----------|----------| | **EU AI Act** | 12 条法规映射 + 审计文件生成 | | **ISO 42001** | 第 4-10 条款映射到 AMC 维度 | | **NIST AI RMF** | 风险管理框架对齐 | | **SOC 2** | 信任服务标准映射 | | **OWASP LLM Top 10** | 全覆盖 (10/10) | ## 🚀 安装 ### npm(推荐) ``` npm i -g agent-maturity-compass ``` ### npx(免安装) ``` npx agent-maturity-compass ``` ### Homebrew ``` brew tap AgentMaturity/amc && brew install agent-maturity-compass ``` ### curl ``` curl -fsSL https://agentmaturity.co/install.sh | sh ``` ### Docker ``` docker run -it --rm ghcr.io/agentmaturity/amc-quickstart amc ``` ### 从源码构建 ``` git clone https://github.com/AgentMaturity/AgentMaturityCompass.git cd AgentMaturityCompass && npm ci && npm run build && npm link ``` ## ☁️ 部署(一键部署) | 平台 | 部署 | |----------|--------| | **Docker Compose** | `cd docker && docker compose up` | | **Vercel** | [![Deploy](https://vercel.com/button)](https://vercel.com/new/clone?repository-url=https://github.com/AgentMaturity/AgentMaturityCompass) | | **Railway** | [![Deploy](https://railway.app/button.svg)](https://railway.app/template?referralCode=amc&repo=https://github.com/AgentMaturity/AgentMaturityCompass) | ## 定价 完整的信任技术栈是**免费的,并且基于 MIT 许可证**。唯一的付费内容是行业包。 | 级别 | 你将获得 | |---|---| | **免费 / 开源** | 所有功能 — Score, Shield, Enforce, Vault, Watch, Comply, Fleet, Passport,全部 14 个适配器,1,084 个已注册的 CLI 命令路径,浏览器试用环境,CI 门控 | | **行业包** | 包含免费版的所有内容 + 每月 `$9.99` 解锁全部 40 个行业领域包 | | **企业版** | 包含行业包的所有内容 + 优先支持 + 定制包开发 + 部署协助 | ## 选择你的路线 | 路线 | 最适合 | 从这里开始 | |------|----------|------------| | **浏览器** | 首次接触的评估、演示、了解评分 | [Web 试用环境](https://agentmaturity.co/playground.html) | | **CLI** | 真实的 agent 评分、证据捕获、可分享的输出 | `npx agent-maturity-compass` | | **CI/CD** | 发布门控、评分阈值、PR 评论 | [CI 模板](docs/CI_TEMPLATES.md) | | **企业版** | 自托管、托管式部署 | [部署选项](docs/DEPLOYMENT_OPTIONS.md) | ### 按用户画像开始 - **独立开发者 / OSS 维护者** → [docs/SOLO_DEV_PATH.md](docs/SOLO_DEV_PATH.md) - **平台 / 工程团队** → [docs/PLATFORM_PATH.md](docs/PLATFORM_PATH.md) - **安全 / 合规人员** → [docs/SECURITY_PATH.md](docs/SECURITY_PATH.md) ## 📚 文档 | | | |--|--| | [快速开始(2 分钟)](docs/GETTING_STARTED.md) | [Agent 指南](docs/AGENT_GUIDE.md) | | [独立开发者快速入门](docs/SOLO_DEV_QUICKSTART.md) | [平台工程师快速入门](docs/PLATFORM_ENGINEER_QUICKSTART.md) | | [安全与合规快速入门](docs/SECURITY_COMPLIANCE_QUICKSTART.md) | [故障排除](docs/TROUBLESHOOTING.md) | | [CLI 参考(1,084 个命令路径)](docs/AMC_MASTER_REFERENCE.md) | [架构](docs/ARCHITECTURE_MAP.md) | | [兼容性矩阵](docs/COMPATIBILITY_MATRIX.md) | [入门蓝图](docs/STARTER_BLUEPRINTS.md) | | [安装包](docs/INSTALL_PACKAGES.md) | [支持政策](docs/SUPPORT_POLICY.md) | | [发布节奏](docs/RELEASE_CADENCE.md) | [CI 模板](docs/CI_TEMPLATES.md) | | [加固指南](docs/HARDENING.md) | [社区](docs/COMMUNITY.md) | | [保障实验室](docs/ASSURANCE_LAB.md) | [领域包](docs/SECTOR_PACKS.md) | | [EU AI Act 合规](docs/EU_AI_ACT_COMPLIANCE.md) | [多 Agent 信任](docs/MULTI_AGENT_TRUST.md) | | [高管概览](docs/EXECUTIVE_OVERVIEW.md) | [白皮书](whitepaper/AMC_WHITEPAPER_v1.md) | | [示例项目](examples/) | [Web 试用环境](https://agentmaturity.co/playground.html) |
更多文档 - [docs/INDEX.md](docs/INDEX.md) — 完整的文档索引 - [docs/START_HERE.md](docs/START_HERE.md) — 新手指引 - [docs/WHY_AMC.md](docs/WHY_AMC.md) — 选择 AMC 的理由 - [docs/USE_CASES.md](docs/USE_CASES.md) — 用例展示 - [docs/PERSONAS.md](docs/PERSONAS.md) — 基于角色的指南 - [docs/AFTER_FIRST_SCORE.md](docs/AFTER_FIRST_SCORE.md) — 获得首个评分后的操作 - [docs/EXAMPLES_INDEX.md](docs/EXAMPLES_INDEX.md) — 示例索引 - [docs/RECIPES.md](docs/RECIPES.md) — 扩展实战配方 - [docs/DEPLOYMENT_OPTIONS.md](docs/DEPLOYMENT_OPTIONS.md) — 部署选项 - [docs/PRODUCT_EDITIONS.md](docs/PRODUCT_EDITIONS.md) — 产品版本 - [docs/PRICING.md](docs/PRICING.md) — 定价详情 - [docs/BUYER_PACKAGES.md](docs/BUYER_PACKAGES.md) — 买家套餐 - [docs/SERVICES_AND_SUPPORT.md](docs/SERVICES_AND_SUPPORT.md) — 服务与支持 - [docs/COMMUNITY_SHOWCASE.md](docs/COMMUNITY_SHOWCASE.md) — 社区展示 - [docs/RELEASE_HIGHLIGHTS.md](docs/RELEASE_HIGHLIGHTS.md) — 版本亮点 - [docs/BENCHMARK_GALLERY.md](docs/BENCHMARK_GALLERY.md) — 基准测试展示 - [docs/SPONSORING.md](docs/SPONSORING.md) — 赞助 - [docs/COMMUNITY_SUPPORT.md](docs/COMMUNITY_SUPPORT.md) — 社区与支持
### 单一二进制文件安装(实验性) AMC 现在包含一个**实验性的 Node SEA 打包路径**,用于构建主机特定的单一二进制文件: ``` npm run build npm run build:sea ``` 构建路径已接入并会生成 SEA 产物及一个清单。Runtime 验证仍处于实验阶段且对主机环境敏感。请参阅 [docs/SINGLE_BINARY.md](docs/SINGLE_BINARY.md) 了解真实的进展状态和注意事项。 ### 每晚兼容性矩阵 AMC 现在包含一个计划执行的 GitHub Actions 工作流,它会在小型的 OS/Node 矩阵中验证打包的 CLI 安装,并上传 JSON 产物以供检查: - 工作流:`.github/workflows/nightly-compatibility-matrix.yml` - 当前矩阵:`ubuntu-latest` + `macos-latest`,Node `20` + `22` - 检查项:打包安装、顶层完整评分 JSON、`doctor --json`、`lite-score --help`、`comms-check --help` ### 工作区配置文件(MVP) AMC 现在为 `.amc/amc.config.yaml` 支持轻量级的工作区配置预设: ``` amc init --profile dev amc quickstart --profile ci amc config profile prod ``` 当前 MVP 行为: - `dev` → 共享信任边界,启用代理环境变量 - `ci` → 隔离的信任边界,启用代理环境变量 - `prod` → 隔离的信任边界,禁用代理环境变量 - 当你需要时,显式指定的 `--trust-boundary` 依然会覆盖配置文件中的设置 ## 🤝 参与贡献 AMC 采用 MIT 许可证。我们欢迎各种贡献 —— 特别是新的**保障包**、**领域包**、**框架适配器**和**评分模块**。 ``` git clone https://github.com/AgentMaturity/AgentMaturityCompass.git cd AgentMaturityCompass && npm ci && npm test # 5,098 tests ``` **→ [CONTRIBUTING.md](CONTRIBUTING.md)** — 包含关于如何编写测试包、映射研究论文以及添加适配器的指南。 ### 适合新手的首次贡献 - **新的保障包** — 对新的攻击场景进行建模([指南](CONTRIBUTING.md#writing-an-assurance-pack)) - **新的领域包** — 添加行业特定的问题([指南](CONTRIBUTING.md#writing-a-domain-pack)) - **新的适配器** — 支持另一个 agent 框架([指南](CONTRIBUTING.md#writing-an-adapter)) - **研究论文 → 模块** — 将 arXiv 上的发现转化为评分逻辑([指南](CONTRIBUTING.md#mapping-a-research-paper)) ## 📄 许可证 **MIT** — 为 AI agent 时代打造的公共信任基础设施。

240 个默认诊断问题 + 20 个生命周期扩展问题 · 147 个保障包 · 40 个领域包 · 14 个适配器 · 79 个评分模块 · 5,098 个测试
停止盲目信任。开始严格验证。

标签:AI安全, Chat Copilot, LLM评估, MITM代理, Ollama, 合规测试, 暗色界面, 红队评估, 自动化攻击, 请求拦截