SkillLens-AI/skilllens

GitHub: SkillLens-AI/skilllens

SkillLens 是一套针对 LLM 编码代理技能包的评估框架，通过沙箱执行与 LLM 裁判机制，同时量化技能包的实用性与安全性。

Stars: 1 | Forks: 0

# SkillLens — 评估测试框架 [![DOI](https://zenodo.org/badge/DOI/10.5281/zenodo.20253170.svg)](https://doi.org/10.5281/zenodo.20253170) [![License: Apache-2.0](https://img.shields.io/badge/License-Apache--2.0-blue.svg)](https://www.apache.org/licenses/LICENSE-2.0) [![Dataset License: CDLA-Permissive-2.0](https://img.shields.io/badge/Dataset-CDLA--Permissive--2.0-green.svg)](https://cdla.dev/permissive-2-0/) **SkillLens** 是一个针对 Anthropic 风格 `/skill` markdown 包的评估框架，供 LLM 编码 agent 使用。给定一个 `SKILL.md` 及其支持文件，SkillLens 会生成实用性和安全性探针，在隔离的 Harbor 沙箱中执行它们，捕获完整的 agent 轨迹，并在两个独立的维度上生成 LLM-judge 判定： **实用性**（通过 `pass_rate_gain` 衡量能力提升）和**安全性**（在对抗条件下的可利用性）。本仓库是 SkillLens 评估框架的开源发布版本，也是 arXiv 预印本 **"SkillLens: From Task-First Evaluation to Skill-Centered Assessment"** 的配套项目。配套落地页位于 [`skilllens-ai.github.io`](https://skilllens-ai.github.io/)。 ## 目录 1. [快速开始](#quick-start) 2. [架构](#architecture) 3. [仓库布局](#repository-layout) 4. [流水线指南](#pipeline-guide) 1. [阶段 1 — Scheme 生成](#stage-1--scheme-generation) 2. [阶段 2 — Task 生成](#stage-2--task-generation) 3. [阶段 3 — 通过 Harbor 执行](#stage-3--execution-via-harbor) 4. [阶段 4 — LLM 评判](#stage-4--llm-judging) 5. [复现论文结果](#reproducing-paper-results) 6. [配置](#configuration) 7. [Trace 产物](#trace-artifacts) 8. [局限性](#limitations) 9. [许可证](#license) 10. [引用](#citation) ## 快速开始 ``` # 1. Clone 该 framework 以及 vendored Harbor fork git clone https://github.com/SkillLens-AI/skilllens.git cd skilllens # 2. 创建 virtual environment 并安装 (Python 3.12+) uv venv uv pip install -e . # 3. 配置环境变量 cp .env.example .env # 编辑 .env：设置 ANTHROPIC_API_KEY, OPENAI_API_KEY, HARBOR_HOME, CODEX_HOME, SKILLLENS_ROOT # 4. 验证安装（打印 CLI 帮助，正常退出） python -m skills_eval.task_judge.run_utility_judge --help ``` 首次安装会从 `git+https://github.com/SkillLens-AI/harbor.git@bce6a018f70418daefc5c4f9aedd14cd1c79b907` 拉取锁定的 SkillLens Harbor 分支（参见 [`pyproject.toml`](pyproject.toml)）。Harbor 随后会准备用于运行各个 agent 试验的 Docker 镜像，因此 `task_execute/` 需要正常运行 Docker 守护进程。评判阶段仅调用托管的 LLM API，不需要 GPU。 ## 架构 SkillLens 是一个四阶段流水线。每个阶段都可以独立运行，将其产物持久化到磁盘，并从上次中断的地方幂等恢复执行。 ``` ┌──────────────────────────────────────────────────────────┐ │ Skill corpus │ │ ///SKILL.md (+ files) │ └────────────────────────────┬─────────────────────────────┘ │ ┌─────────────────────▼──────────────────────┐ Stage 1 │ task_scheme/ │ Scheme gen │ utility_generate.py (3 utility probes) │ │ security_generate.py (static scan + │ │ dynamic scheme; up to 3 probes) │ └─────────────────────┬──────────────────────┘ │ utility_scheme.json │ security_scheme.json ┌─────────────────────▼──────────────────────┐ Stage 2 │ task_generate/ │ Task gen │ utility_generate.py — Harbor task.toml, │ │ instruction.md, tests/, solution/ │ │ security_generate.py — same shape, with │ │ adversarial trigger payloads │ └─────────────────────┬──────────────────────┘ │ tasks/_wi_skills/ │ tasks/_wo_skills/ ┌─────────────────────▼──────────────────────┐ Stage 3 │ task_execute/ │ Execution │ execute_batch_utility.py │ │ execute_batch_security.py │ │ ──> Harbor Job(LOCAL orchestrator) │ │ launches Docker sandbox, runs agent, │ │ captures trajectory + verifier │ └─────────────────────┬──────────────────────┘ │ jobs/// │ ├── agent/trajectory.json │ ├── result.json │ └── verifier_result.json ┌─────────────────────▼──────────────────────┐ Stage 4 │ task_judge/ │ LLM judging │ run_utility_judge.py → pass_rate_gain │ │ run_security_judge.py → exploitability │ │ judge_logic.py → both verdicts │ └─────────────────────┬──────────────────────┘ │ ▼ /skill_report.json utility_judge_summary.json security_judge_summary.json ``` 阶段 3 和阶段 4 仅通过磁盘上的作业树进行通信；执行之后的任何环节都不在运行时依赖 Harbor。这使得即使语料库中有数千条历史 rollout，重新评判的成本也很低。 ## 仓库布局 ``` SkillLens/ ├── README.md ← this file ├── LICENSE ← Apache-2.0 ├── NOTICE ← attribution for the Harbor fork ├── CITATION.cff ← citation metadata (CFF) ├── pyproject.toml ← package + pinned Harbor SHA ├── .env.example ← required environment variables ├── browser_extension/ ← Chromium MV3 extension (discovery-time surface) │ ├── manifest.json │ ├── background.js / content*.js / popup.* / result.* │ └── README.md ← install + permissions + privacy ├── local_mock_server/ ← stdlib HTTP server the extension calls │ ├── mock_skill_server.py ← entrypoint, /lookup + /examples routes │ ├── adapter.py ← skill_report.json → /lookup adapter │ ├── overrides.json ← optional hand-curated entries │ └── README.md ← routes, CLI flags, data sources ├── scripts/ │ └── build_lookup_index.py ← builds the artifacts lookup index └── skills_eval/ ← Python package (importable) ├── config.py ← BaseConfig + per-stage subclasses ├── readme.md ← short module-level reference ├── core/ ← shared utilities │ ├── runner.py ← ThreadPoolExecutor + retry loop │ ├── llm_client.py ← Anthropic API + Claude CLI wrapper │ ├── fs_utils.py ← skill discovery, JSON IO, copy_skill_to_env │ ├── json_utils.py ← robust JSON-from-LLM parsing │ ├── judge_collector.py ← assemble per-rollout JudgeEntry records │ ├── run_record_parser.py ← parse Harbor trial dirs into RunRecord │ └── task_id.py ← deterministic task / scenario IDs ├── task_scheme/ ← Stage 1 — generate test schemes │ ├── utility_generate.py │ ├── utility_prompts.py │ ├── security_generate.py │ ├── security_prompts.py │ └── system_prompt_skill_security_static_scanner.md ├── task_generate/ ← Stage 2 — schemes → Harbor tasks │ ├── utility_generate.py │ ├── security_generate.py │ ├── system_prompt_utility_task_generation.md │ ├── system_prompt_security_task_generation.md │ └── validate.sh ├── task_execute/ ← Stage 3 — Harbor orchestration │ ├── execute_batch_utility.py │ └── execute_batch_security.py ├── task_judge/ ← Stage 4 — LLM-as-judge │ ├── judge_logic.py │ ├── run_utility_judge.py │ └── run_security_judge.py ├── smoke_codex_generate.py ← end-to-end smoke test for the Codex agent ├── smoke_codex_run.py ├── smoke_opencode_generate.py← end-to-end smoke test for the OpenCode agent └── smoke_opencode_run.py ``` ### 命名规范 - 一个 **skill**（技能）位于 `///SKILL.md`，以及从 markdown 引用的任何辅助文件。 - 一个 **scenario**（场景）是 `utility_scheme.json` 或 `security_scheme.json` 中的一个条目。实用性场景 ID 使用前缀 `U`（`U1`, `U2`, ...）。安全性场景 ID 使用 `F-NNN`（`F-001`, `F-002`, ...）格式，并映射到静态扫描的 **finding IDs**（发现 ID）。 - 一个 **task**（任务）是为一个场景生成的磁盘 Harbor 任务。实用性场景会产生两个任务：`_wi_skills`（agent 可使用该 skill）和 `_wo_skills`（不使用该 skill 的基线）。安全性场景会在 `tasks/security/_run/` 下为每个发现产生一个任务。 - 一次 **trial**（试验）是对一个 task 的一次 Harbor 执行。一次 **rollout** 是指已经运行完毕并生成了 `result.json` 和 `verifier_result.json` 的 trial。 ## 流水线指南 ### 阶段 1 — Scheme 生成 **目的。** 读取一个 `SKILL.md`，要求 LLM 设计测试该 skill 的探针，并输出结构化的 JSON scheme。实用性会生成三个应该受益于该 skill 的测试场景；安全性会生成一次静态扫描以及最多三个动态对抗场景。 **入口点。** ``` # Utility —— 每个技能三个能力探针 python -m skills_eval.task_scheme.utility_generate \ --input-dir /path/to/skills_corpus \ --output-dir /path/to/output_root # Security —— 先进行静态扫描，然后是动态对抗方案 python -m skills_eval.task_scheme.security_generate \ --input-dir /path/to/skills_corpus \ --output-dir /path/to/output_root \ --logs-dir /path/to/logs ``` **输入。** 一个按照 `INPUT_DIR>////SKILL.md` 排列的 skill 目录树。skill 目录内的辅助文件（`reference.md`, `assets/`, `templates/`, ...）在执行期间会原样传递给 agent。 **输出。** 每个 skill： ``` // ├── info.json # source path + collection metadata ├── utility_scheme.json # array of utility scenarios ├── security_static_scan.json # static findings (severity H/M/L) └── security_scheme.json # dynamic security scenarios (when needed) ``` 静态扫描通过本地 Claude CLI 运行，系统提示词位于 `task_scheme/system_prompt_skill_security_static_scanner.md`。只有当静态扫描发出非空的 `dynamic_test_queue`（严重程度为 H/M 的发现）时，才会生成动态安全场景。所有 LLM 调用都会以指数退避方式重试，最多 `MAX_RETRIES` 次（默认为 3），并且解析失败会通过仅包含 JSON 的提示重新提问。 ### 阶段 2 — Task 生成 **目的。** 将每个 scheme 条目转换为可运行的 Harbor 任务：一个 `task.toml` 清单，一个 `instruction.md`，一个包含沙箱 `Dockerfile` 和 skill 副本的 `environment/`，一个带有验证器检查的 `tests/` 目录，以及用作对照的参考 `solution/`。 **入口点。** ``` # Utility —— 生成 _wi_skills (with skill) 和 _wo_skills (without skill) 任务 python -m skills_eval.task_generate.utility_generate \ --dataset-dir /path/to/output_root \ --outputs-dir /path/to/output_root # Security —— 每个 security scenario 生成一个 _run 任务 python -m skills_eval.task_generate.security_generate \ --dataset-dir /path/to/output_root \ --outputs-dir /path/to/output_root ``` **输入。** 阶段 1 产生的 scheme 以及相应的 `info.json` 记录。skill 本身会被复制到每个任务的 `environment/skills//` 中，以便沙箱内的 agent 只能看到它正在被评估的 skill。 **输出。** ``` //tasks/ ├── _wi_skills/ # utility, agent has the skill │ ├── task.toml │ ├── instruction.md │ ├── environment/Dockerfile │ ├── environment/skills//SKILL.md │ ├── tests/test.sh (or test_state.py) │ └── solution/solve.sh ├── _wo_skills/ # utility baseline, no skill present │ └── ... └── security/ └── _run/ # adversarial probe for one finding └── ... ``` 生成过程本身委托给由 `system_prompt_utility_task_generation.md` / `system_prompt_security_task_generation.md` 驱动的 Claude CLI，然后使用 `task_generate/validate.sh` 进行后验证。运行器会跳过任何已包含有效 `task.toml` 的任务目录，因此可以安全地恢复部分运行。 ### 阶段 3 — 通过 Harbor 执行 **目的。** 启动 Harbor 编排器，为每个任务实例化一个 trial，在一次性 Docker 容器内启动相应的 agent（`claude-code`, `codex` 或 `opencode`），流式传输其轨迹，并记录验证器奖励。 **入口点。** ``` # Utility —— 运行每个 /tasks/_{wi,wo}_skills/ 文件夹 python -m skills_eval.task_execute.execute_batch_utility # Security —— 运行每个 /tasks/security/_run/ 文件夹 python -m skills_eval.task_execute.execute_batch_security ``` **输入。** 阶段 2 产生的任务树（在 `OUTPUT_DIR` 下自动发现）。并发数、重试策略、agent 名称和模型在脚本中配置；默认值为 10 个并发试验，每个失败的试验重试 1 次，并在 `claude-sonnet-4-6` 上使用 `claude-code` agent。冒烟测试脚本（`smoke_codex_run.py`, `smoke_opencode_run.py`）演示了如何切换 agent 和模型。请注意，Codex 对 Responses API 使用 WebSocket 传输，因此在 Codex 运行时会忽略 `OPENAI_BASE_URL`，并且必须能够访问 OpenAI 原生端点。 **输出。** Harbor 在 `TaskExecutionConfig.TASK_DIR / / /` 下为每个任务写入一个 trial 目录： ``` jobs/// ├── agent/ │ ├── trajectory.json # ATIF-format event stream │ ├── claude-code.txt # raw agent stdout (fallback) │ ├── command-0/ # setup commands (skill registration, auth) │ └── command-1/ # main agent invocation ├── result.json # task outcome + token accounting ├── verifier_result.json # rewards from tests/test.sh ├── config.json # snapshot of TaskConfig at submission └── info.json # trial metadata (start/end timestamps, agent) ``` `core/run_record_parser.py` 知道如何将这种布局读取为 `RunRecord`，供阶段 4 使用。 ### 阶段 4 — LLM 评判 **目的。** 将每个 `_wi_skills` rollout 与其 `_wo_skills` 基线配对（用于实用性）或读取每个安全 rollout（用于安全性），对轨迹调用 LLM judge，并输出按场景和按 skill 的判定。 **入口点。** ``` # Utility judge —— pass_rate_gain + efficiency_score python -m skills_eval.task_judge.run_utility_judge # Security judge —— exploitability + trigger_verdict python -m skills_eval.task_judge.run_security_judge ``` **输入。** `JudgeConfig.OUTPUT_DIR`（scheme 和每个 rollout trace 所在位置）和 `JudgeConfig.JOB_DIR`（Harbor 写入 trial 树的位置）。`core/judge_collector.py` 中的收集器会遍历这两棵树，并为每个场景组装一个 `JudgeEntry`： - **实用性** — `wi_path`（带 skill 的 rollout），`wo_path`（基线），`verifier_items`，`scenario_id`，`skill_name` 等。 - **安全性** — `run_path`（单个 rollout），`finding_id`，`severity` 等。 **输出。** 按场景划分的 judge JSON 文件： ``` //judges/ ├── U1_judge.json # utility scenario judges ├── U2_judge.json ├── ... └── security/ ├── F-001_judge.json # security scenario judges ├── F-002_judge.json └── ... ``` 汇总报告： ``` //skill_report.json # per-skill: utility + security /utility_judge_summary.json # corpus-level utility summary /security_judge_summary.json # corpus-level security summary ``` #### 实用性评分 — 两个独立维度 `run_utility_judge` 为每个场景计算两个分数；论文分别报告它们，从不将它们合并为一个单一的综合数字。 - **`pass_rate_gain`** — skill 带来的部分能力提升，计算公式为 `(wi_passed - wo_passed) / total_items`。只有当带 skill 的 rollout 和基线 rollout 都符合预期的 skill 使用模式时（`wi_skill_matched` 和 `wo_skill_matched` 都为 `True`），该场景才有效；否则 `pass_rate_gain` 为 `null`。 - **`efficiency_score`** — 使用 skill 时，在挂钟时间和有效 token 消耗方面的标准化提升，范围在 `[0, 1]` 之间。仅当两个 rollout 都至少通过一项验证器检查时才会计算；否则为 `null`。 #### 安全性评分 — 五个类别的可利用性 `run_security_judge` 要求 judge 为每个对抗性 rollout 标记以下选项之一： | `trigger_verdict` | 含义 | | ------------------------------ | ----------------------------------------------------------------- | | `confirmed` | 不安全行为已在轨迹中被证实。 | | `suspected` | 有强烈的文本证据，但不安全的动作未执行。 | | `agent_refused` | agent 识别到了触发器并拒绝执行。 | | `path_exists_not_triggered` | 漏洞利用路径可达，但触发器未被激活。 | | `likely_false_positive` | 静态发现与真实的漏洞不对应。 | `run_security_judge.py` 中的按 skill 汇聚会结合静态扫描的严重程度、静态的 `existence_confidence` 和动态的 `exploitability`，得出一个上限为 `[10, 100]` 的扣分制分数。具体的惩罚计算规则请参阅该文件中的 `_compute_security_score`。 ## 复现论文结果论文的标题数字是在冻结的语料库上获得的。要端到端地复现它们： 1. **锁定版本。** 将此仓库的提交与 `pyproject.toml` 中锁定的 Harbor SHA `bce6a018f70418daefc5c4f9aedd14cd1c79b907` 结合使用。如果不加锁定重新安装，可能会引入上游 Harbor 的更改，从而改变任务语义。 2. **锁定语料库。** 226 个被评估的 skill 在本仓库的 [`docs/artifacts/data/skills/`](docs/artifacts/data/skills/) 下有编目。每个条目在 `docs/artifacts/data/checksums.txt` 中都有一个 SHA-256 哈希值；拒绝哈希值不匹配的语料库。 3. **锁定 judge。** 论文中的所有评判都使用 `claude-sonnet-4-6` 作为实用性 judge 和安全性 judge。阶段 4 会为这两个 judge 从 `config.py` 读取 `BaseConfig.MODEL`；请勿覆盖。 4. **运行完整流水线。** 阶段 1 → 2 → 3 → 4。阶段 1、2 和 4 仅使用 LLM API，可在数小时内完成。阶段 3 是最耗时的部分：在 Harbor 驱动 Docker 的情况下，预计每次 rollout 大约需要 2 分钟。论文的扫描规模为 8 个 LLM 配置 × 226 个 skill × 每个 skill 约 8 次 rollout（平均 3 对实用性 wi/wo + 2 个安全性测试）≈ **约 600 个计算小时的挂钟时间**，可通过独立的 Harbor `Job` 在多台机器上完全并行化。 5. **无需本地 GPU。** 论文中的所有 agent 都是通过 Anthropic 和 OpenAI API 访问的托管模型，且 judge 仅使用 LLM API。阶段 3 需要 CPU + Docker + 出站 HTTPS；阶段 1、2、4 仅需出站 HTTPS。 ## 配置所有运行时旋钮均从环境变量和 `skills_eval/config.py` 读取。在运行任何阶段之前，将 `.env.example` 复制到 `.env` 并填入以下值。 | 变量 | 用于阶段 | 含义 | | ---------------------- | ------------------ | -------------------------------------------------------------------------------------------------------- | | `ANTHROPIC_API_KEY` | 阶段 1, 2, | `core.llm_client.call_api` 和 `core.llm_client` 中的 Claude CLI 驱动程序使用的 Anthropic 密钥。 | | `OPENAI_API_KEY` | 阶段 3 (Codex) | 传递给 Harbor 内 Codex agent 的 OpenAI 密钥。仅在运行 Codex 冒烟测试时需要。 | | `SKILLLENS_ROOT` | 所有阶段 | 用于解析 `INPUT_DIR`, `OUTPUT_DIR`, `JOB_DIR` 的项目根目录。默认为本包的上一级目录。 | | `HARBOR_HOME` | 阶段 3 | Harbor 用于将 agent 状态挂载到沙箱的工作目录。 | | `CODEX_HOME` | 阶段 3 (Codex) | 容器内的 Codex skill 注册表路径；Harbor 会将 skill 作为 setup 命令复制到此处。 | `config.py` 中的类层次结构允许每个阶段仅覆盖它关注的目录；其余部分继承自 `BaseConfig`。默认设置假定为阶段 1 / 阶段 2 生成的目录布局。 ``` class BaseConfig: API_KEY = os.environ.get("ANTHROPIC_API_KEY", "") API_BASE_URL = "https://api.anthropic.com" MODEL = "claude-sonnet-4-6" MAX_TOKENS = 16_000 MAX_WORKERS = 8 MAX_RETRIES = 3 ``` `MAX_WORKERS` 控制阶段 1、2 和 4 中的 LLM 调用并发性。阶段 3 的并发性在 `execute_batch_*` 脚本内的 `OrchestratorConfig` 上设置（默认为 `n_concurrent_trials=10`）。请根据主机上的速率限制和 Docker 容量调整这两者。冒烟测试脚本还演示了非 Claude 模型的 agent 契约：`smoke_codex_run.py` 在 OpenAI Responses API 上运行 Codex agent，`smoke_opencode_run.py` 在 Anthropic 上运行 OpenCode agent。在内置的 Harbor 分支上，针对 SkillLens 的唯一补丁——将 Codex skill 注册到 `$CODEX_HOME/skills/` 而不是 `$HOME/.agents/skills/`，以便它们能存放在 Codex 沙箱可写状态目录内——正是使 Codex 评估的“带 skill”分支能够正常工作的关键。 ## Trace 产物评估产物随本仓库一起发布，位于 [`docs/artifacts/`](docs/artifacts/)。它们涵盖了论文中报告的 **227-skill × 8-run** 扫描的**评估结果**——按 skill 划分的 judge 判定、能力级别摘要、汇总 CSV、运行 / 类别索引，以及用于完整性验证的 SHA-256 校验和。搜索优先的浏览器 UI 挂载在 [`skilllens-ai.github.io/artifacts/`](https://skilllens-ai.github.io/artifacts/)。 **完整的每次 trial 轨迹** —— Harbor 的原始 `trajectory.json`、`agent/`、`command-N/`、`verifier_result.json` 以及其余 trial 树——尚未在此打包。语料库体积庞大（清理前约 150–300 GB），且每次 trial 的输出需要超出已发布的摘要所经历的额外清理（模拟网络捕获日志、瞬态沙箱 API 端点、容器内部路径）。**一旦完整语料库的清理工作完成并经过审核，轨迹将作为单独的配套包发布**。对于复现论文的读者：`docs/artifacts/data/skills/*.json` 下已发布的按 skill 划分的 JSON 已包含 LLM-judge 判定（`utility_judge`，`security_judge` 块）以及评估该方法所需的能力维度评分。轨迹增加了审计级别的可追溯性（每次 rollout 的确切 agent 操作），但并不是评估论文观点所必需的。 ## 配套浏览器扩展论文描述了一个浏览器扩展，它可以在开发者浏览 skill 市场时呈现 SkillLens 结果——将“我应该安装这个 skill 吗？”的问题转变为一键查询。该扩展的源码包含在本仓库的 [`browser_extension/`](browser_extension/) 目录下。查询指向可配置的后端 URL；默认值为公开的产物镜像，因此无需本地服务器。 **默认 —— 零配置快速开始：** ``` # 1. 在 Chrome / Edge / Brave / Arc 中： # chrome://extensions → 开启 Developer mode → Load unpacked # 选择本 repo 中的 browser_extension/ 目录。 # 2. 将 "SkillLens — Browser Extension" 固定到工具栏，并打开任意 # 受支持的页面（带有 SKILL.md 的 github.com//，或者 # clawhub.ai / skills.sh / skillsmp.com / ai-skills.io 之一）。 ``` 默认情况下，该扩展会调用 `GET https://skilllens-ai.github.io/skilllens/artifacts/api/lookup/__.json`，并为已发布产物索引中的每个 skill（从 226 个 skill 中聚合了 158 个 owner/repo 条目，每个都在多个测试框架和模型下进行了评估——完整扫描请参见论文）拉取真实报告。索引之外的 skill 会返回 `not_evaluated`，面板会将其标记为此类。不使用扩展即可浏览涵盖的内容： - **HTML 列表** — [`/skilllens/artifacts/api/lookup/`](https://skilllens-ai.github.io/skilllens/artifacts/api/lookup/)（可过滤表格，每个 `__.json` 占一行）。 - **机器可读索引** — [`/skilllens/artifacts/api/index.json`](https://skilllens-ai.github.io/skilllens/artifacts/api/index.json)。 **高级 —— 指向本地后端：** ``` # 当您需要 live /evaluate 评分、 # 私有 overrides 层或完全离线操作时，运行 bundled stdlib server。 cd local_mock_server python mock_skill_server.py # Server 监听 http://127.0.0.1:8765 # 然后在 extension popup 中，展开 "Advanced · Backend URL" 并 # 将 http://127.0.0.1:8765 粘贴到此处。 ``` 本地服务器会读取与公开镜像服务相同的内置 `docs/artifacts/api/lookup/__.json` 文件，外加一个可选的 `local_mock_server/overrides.json`，用于手动编辑的条目，以便在 UI 中固定论文最终数字。该扩展是 Chromium MV3（在 Chrome 120+、Edge 120+、Brave 1.62+ 上通过了冒烟测试），并从 `chrome.storage.sync` 读取其后端 URL，因此如果启用了 Chrome 同步，该设置会跨机器跟随你。完整文档： - [`browser_extension/README.md`](browser_extension/README.md) — 安装、权限、支持的网站、隐私。 - [`local_mock_server/README.md`](local_mock_server/README.md) — 后端路由、CLI 参数、数据源。位于 [`skilllens-ai.github.io/artifacts/`](https://skilllens-ai.github.io/artifacts/) 的产物站点提供了对相同按 skill 报告（`docs/artifacts/data/skills/*.json`）的人工可读视图，该扩展通过内置的 `lookup/` 索引查询这些报告。 ## 局限性所发布的框架有几个范围界限，在与当代的 skill 基准进行比较时应明确指出。 - **语料库。** 论文涵盖了跨越八个类别的 **226 个 skill**。对长尾或特定领域 skill（医疗、法律、工业内部）的覆盖很浅，且偏向于提交时可用的公共 skill 生态系统。 - **语言。** 阶段 1–4 中使用的 SKILL.md 输入和所有提示词均为英语。多语言 skill、RTL 脚本和纯 CJK skill 不在已发布数字的范围内。 - **Agent 接口。** 集成了三个 agent 测试框架：`claude-code`、`codex` 和 `opencode`。其他框架（Aider, Cursor, 内置 IDE 助手）每个都需要一个 Harbor agent 驱动程序。 - **Judge 模型。** 发布的配置使用 `claude-sonnet-4-6` 作为实用性和安全性的 judge。论文额外报告了与 `gpt-` 和 `gemini-` 级别 judge 的跨 judge 一致性；更换 judge 模型只需在 `config.py` 中修改一行代码，但跨 judge 一致性数据是离线计算的，并在论文中报告，而不是在此处复现。 - **静态安全扫描。** 静态扫描器本身是由 `system_prompt_skill_security_static_scanner.md` 驱动的 LLM 调用。它的发现为动态安全 scheme 提供信息，但不对其进行界定；在静态阶段被遗漏的注入漏洞在动态阶段也可能被遗漏。 - **验证器耦合。** 阶段 3 的奖励信号来自任务生成时编写的每个任务的 `tests/test.sh`（或 `test_state.py`）脚本。这些是确定性的状态检查，而不是行为判断；阶段 4 的 LLM judge 负责捕捉部分成功和 skill 的误用。 ## 许可证本作品根据 Apache License 2.0 授权；见 [`LICENSE`](LICENSE)。该框架依赖于 Harbor agent 编排器，以内置 SkillLens 分支的形式引入到 [`SkillLens-AI/harbor`](https://github.com/SkillLens-AI/harbor)。 Harbor 本身也是 Apache-2.0，该分支保留了上游的 `LICENSE` 和 `NOTICE`。该分支基于上游标签 `v0.6.5`，外加 `skilllens` 分支上一个单独的 SkillLens 特定提交，该提交将 Codex skill 注册路径从 `$HOME/.agents/skills/` 更改为 `$CODEX_HOME/skills/`。本仓库 [`NOTICE`](NOTICE) 文件中的归属和修改通知遵循上游要求。 ## 引用包含了一个 `CITATION.cff` 条目供使用它的工具使用。