cuttalo/depscope-hallucinations-dataset

GitHub: cuttalo/depscope-hallucinations-dataset

一个每日更新的公开数据集,专门收录来自真实 AI 编程智能体流量的、经过验证的 LLM 幻觉包名,帮助安全团队和研究者在 slopsquatting 攻击发生前识别和防范风险。

Stars: 0 | Forks: 0

# DepScope 幻觉数据集 [![License: CC-BY-NC-SA 4.0](https://img.shields.io/badge/License-CC--BY--NC--SA_4.0-lightgrey.svg)](https://creativecommons.org/licenses/by-nc-sa/4.0/) [![在线 API](https://img.shields.io/badge/Live_API-depscope.dev-blue)](https://depscope.dev/api/benchmark/hallucinations) [![每日更新](https://img.shields.io/badge/Updated-daily-green)](https://depscope.dev/benchmark) ## 这是什么 当 AI 编程智能体(Claude、GPT、Cursor、Aider、Copilot)生成代码时,它们有时会凭空捏造出不存在的包名。攻击者利用这一点,预先注册听起来合理的假名称——这是一类被称为 **slopsquatting** 的攻击。 本仓库追踪在生产环境 [DepScope](https://depscope.dev) 流量中观察到的**已验证**幻觉包名。截至 2026 年 5 月,该语料库包含跨 **18 个生态系统**的 **161 个条目**:其中 133 个来自真实的智能体流量,28 个来自研究文献,并且每天都有经过重新验证步骤后的新条目被添加。 ## 背景:规模化运行的 DepScope DepScope 是构建此数据集的基础设施层: - 跨 19 个生态系统索引了 **850 万以上个包** - 追踪了 **4.5 万以上个漏洞**(OSV 镜像,每日刷新) - **33 万以上条 EPSS 丰富的建议** - **1,587 条 KEV 条目**(CISA 积极利用列表) - 在 `mcp.depscope.dev/mcp` 上暴露了 **22 个 MCP 工具** - **免费,无需认证,无速率限制** 幻觉语料库是我们发布的多个开放数据集之一。完整的情报层位于 [depscope.dev](https://depscope.dev)。 ## 方法论——以及为什么我们的数据量没有更大 当编程智能体调用 `/api/check` 且我们返回 404 时,这是一个**候选**幻觉,而不是已确认的幻觉。我们的原始 404 数据流在 30 天内包含了 1,446 个候选对象——但**其中 97.6% 是真实的包**,由于上游注册中心的速率限制、图像 URL 抓取或缓存竞争而暂时出现 404。 我们每天运行一个重新验证器(`scripts/reverify_halluc.py`),重新检查每个被标记的条目。如果它现在能够解析,标记就会被翻转,该条目也会从该语料库中移除。**你在这里看到的是经过重新验证后存活下来的条目。** 如果你发布了一个幻觉数据集,却没有告诉读者你过滤掉了什么,那么该数据很可能 95% 都是噪音。我们对此非常明确。 ## 为什么这很重要 - **交叉验证**:许多条目由 5–7 个不同的 AI 智能体指纹独立捏造 → 对神经网络来说具有结构上的合理性 → 对攻击者来说具有可预测性 - **多生态系统**:涵盖 npm、PyPI、Cargo、Go、Maven、NuGet、RubyGems、Composer、Pub、Hex、Swift、CocoaPods、CPAN、Hackage、CRAN、Conda、Homebrew、Julia - **生产级别**:从真实的 AI 智能体流量中收集(anthropic-bot、openai-bot、amazon-bot、applebot、facebookbot、googlebot),非合成数据 - **可重现**:稳定的 JSON schema + `snapshots/` 中的每日快照 ## 快速开始 ### 在线 API ``` curl https://depscope.dev/api/benchmark/hallucinations ``` ### 每日快照 ``` git clone https://github.com/cuttalo/depscope-hallucinations-dataset.git cd depscope-hallucinations-dataset ls snapshots/ # 2026-05-05.json, 2026-05-04.json, … ``` ### Schema ``` { "ecosystem": "conda", "package_name": "torch-lightning-easy", "source": "observed", "evidence": "Seen 12 times across 7 agents — top slopsquat", "first_seen_at": "2026-04-23T14:52:11Z", "hit_count": 25, "likely_real_alternative": "pytorch-lightning" } ``` | 字段 | 含义 | |---|---| | `ecosystem` | 支持的 19 个注册中心之一 | | `package_name` | 智能体幻觉出的确切名称 | | `source` | `observed`(实时智能体流量)/ `research`(文献) | | `evidence` | 描述该条目的简短文字 | | `first_seen_at` | 首次观察到的 ISO 8601 时间戳 | | `hit_count` | 我们观察到该名称的总次数(仅在重新验证将真实 -> 假翻转之前计数) | | `likely_real_alternative` | 智能体实际意图使用的包 | ## 热门 slopsquat 模式(2026 年 5 月) | 后缀 | 示例 | |---|---| | `-easy` | `torch-lightning-easy`、`jwt-token-validator-easy` | | `-pro` | `typescript-utility-pack-pro`、`axum-middleware-pro`、`laravel/auth-pro` | | `-turbo` | `fastapi-turbo` | | `-plus` | `numpy-extensions-plus` | | `-extras` | `tokio-stream-extras`、`symfony/components-extra` | | `-essential` | `react-hooks-essential` | | typo | `reqeusts`(→ `requests`)、`lodsh`(→ `lodash`) | ## 引用 ``` @misc{depscope_hallucinations_2026, title = {DepScope Hallucinations Dataset}, author = {Rubino, Vincenzo}, year = {2026}, url = {https://depscope.dev/api/benchmark/hallucinations}, github = {https://github.com/cuttalo/depscope-hallucinations-dataset}, license = {CC-BY-NC-SA-4.0}, note = {Public corpus of verified LLM-generated package-name hallucinations from real AI coding agent traffic across 19 ecosystems. Re-verified daily. Built on DepScope: 8.5M+ packages, 250K+ vulnerabilities indexed.} } ``` ## 许可证 [知识共享署名-非商业性使用-相同方式共享 4.0 国际](https://creativecommons.org/licenses/by-nc-sa/4.0/) 你可以: - 将此数据集用于**研究、教育、安全分析** - 在相同许可协议下进行修改和再分发 - 在学术论文、博客文章、安全报告中引用 你不得: - 未经许可将其用于**商业目的**([licensing@depscope.dev](mailto:licensing@depscope.dev)) ## 构建你自己的防护 如果你编写或维护 AI 编程工具,请集成 [DepScope MCP server](https://github.com/cuttalo/depscope-mcp)——每一个被阻止的幻觉,就意味着少一台被入侵的开发者机器。 ``` { "mcpServers": { "depscope": { "url": "https://mcp.depscope.dev/mcp" } } } ``` 可用工具共 22 个:`check_package`、`package_exists`、`find_alternatives`、`check_typosquat`、`check_malicious`、`scan_project` 以及另外 16 个。 ## 相关链接 - [DepScope 主站](https://depscope.dev) — 索引了 850 万以上个包 - [LLM 幻觉基准测试(10 个 LLM × slopsquat)](https://depscope.dev/benchmark) — 测得 87% 的基准安装率 - [集成指南](https://depscope.dev/integrate) ## 贡献 这是**生产数据的只读镜像**。如需贡献: - 通过 [GitHub Issues](https://github.com/cuttalo/depscope-hallucinations-dataset/issues) 报告数据集错误——捕获到的每一个误报都会让该数据集变得更有用 - 提出研究合作建议:[research@depscope.dev](mailto:research@depscope.dev) - 在你的论文中引用我们——在 Issues 中留下链接,以便我们列出你的作品 **由 [DepScope](https://depscope.dev) 维护 · 快照每日于 05:00 UTC 更新**
标签:AI安全, AI编程助手, API, Chat Copilot, CISA, Claude, Copilot, Cursor, CVE检测, DLL 劫持, EPSS, GPT, Homebrew安装, LLM, MCP工具, OSV, Slopsquatting, Typosquatting, Unmanaged PE, Vercel, 人工智能, 代码生成, 依赖包, 依赖扫描, 包管理器, 包索引, 大语言模型, 威胁情报, 安全基线, 安全漏洞, 幻觉, 开发者安全, 开发者工具, 恶意软件, 搜索语句(dork), 教学环境, 文档安全, 模型提供商, 渗透测试工具, 漏洞管理, 漏洞跟踪, 生产环境, 用户模式Hook绕过, 结构化查询, 统一API, 自动化安全, 虚假包名, 软件供应链安全, 软件生态, 远程方法调用, 逆向工具