cw-l/email-corpus

GitHub: cw-l/email-corpus

一个经过 PII 脱敏的真实钓鱼邮件语料库，包含 STIX 2.1 威胁情报包和提取的 IoC 指标，用于钓鱼检测研究和安全网关测试。

Stars: 1 | Forks: 0

# email-corpus 一个经过整理的真实垃圾邮件和钓鱼邮件语料库，收集自一个活跃的 Gmail 垃圾邮件陷阱，已去除 PII（个人身份信息），并出于研究和威胁情报目的发布。 ## 该语料库提供的内容该语料库中的每封邮件样本都附带结构化的威胁情报 artefacts： - **经过处理的 `.eml` 文件** — 原始邮件文件，已剥离或去除受害者身份识别头。垃圾邮件发送者的基础设施头（envelope sender、SMTP 路由、DKIM 签名）被保留，因为它们构成了危害指标。 - **STIX 2.1 bundles** (`stix/.json`) — 每封邮件的威胁情报包，包含 URL indicators、sender address indicators、SMTP host indicators，以及总结身份验证结果和 DMARC 对齐分析的备注。 - **URL indicator 列表** (`indicators/urls.txt`) — 从邮件正文中提取的、已去活和规范化的钓鱼 URL，经过去重，并按提供商（例如 Google Storage, Cloudflare）进行标记。 - **SMTP host indicator 列表** (`indicators/smtp_hosts.txt`) — 从 `Received:` 头中提取的 IP 和主机名，代表受垃圾邮件发送者控制或被攻陷的发送基础设施。 ## 研究应用 ### 了解攻击者如何精心构造邮件以绕过检测该语料库记录了在野外观察到的几种逃避技术： **SPF pass / DMARC fail spoofing** — 攻击者注册一次性域名并配置有效的 SPF 记录，导致 SPF 通过。然而，`From:` 头显示的是另一个被欺骗的域名。因为 SPF alignment 要求 envelope sender 域名与 `From:` 域名匹配，所以 DMARC 失败。STIX note 字段记录了 envelope domain 和 header-from domain，以明确这种不一致。 **合法基础设施重定向滥用** — 钓鱼 URL 托管在合法平台（例如 `storage.googleapis.com`）上，以通过 URL 信誉过滤。真正的恶意目的地被编码在 URL fragment (`#...`) 中，通过 `window.location.hash` 由着陆页上的 JavaScript 读取。因此，URL fragments 被保留在 STIX patterns 中。 **Content poisoning** — 邮件包含通过收件人不可见的 HTML 元素注入的、看似合法的文本层（新闻文章、营销文案）。随机 token 网格确保没有两封邮件共享相同的内容 hash，从而击败基于签名的检测。大写字母块被注入到句子中间，以击败内容指纹识别。 **Per-recipient URL tracking** — 每封邮件包含一个唯一的 URL fragment 或 query parameter，允许攻击者跟踪每个收件人的链接点击，同时表面上使用相同的基础 URL。 **HELO spoofing** — 某些邮件在 SMTP HELO/EHLO 命令中显示合法组织的主机名。这没有经过加密身份验证，并且很容易伪造。 ### 其他用途 - 训练和评估垃圾邮件/钓鱼分类器 - 针对真实样本测试邮件安全网关规则 - 研究垃圾邮件发送者基础设施模式和 IP 集群行为 - 向托管提供商和注册商报告滥用行为 ## 语料库结构 ``` emails/ # Redacted .eml files, SHA256-named indicators/ urls.txt # Defanged phishing URLs, append-only smtp_hosts.txt # SMTP infrastructure IPs and domains, append-only stix/ .json # STIX 2.1 bundle per email sample ``` ## 当前限制 - **单一来源** — 所有样本均收集自一个 Gmail 账户。该语料库反映了该特定目标所面临的威胁态势，可能不代表针对其他人群、地区或平台的活动。 - **仅限第一跳 URL** — URL 按原样从邮件正文中提取，未跟随重定向。显示的 URL 可能是重定向主机，而不是最终的钓鱼页面。故意避免跟随重定向，以防止暴露收集器的 IP 给恶意基础设施。 - **原始头中无 DMARC verdict** — Gmail 的网页界面报告 DMARC 结果，但下载的 `.eml` 文件在 `Authentication-Results` 中省略了 `dmarc=` 字段。STIX bundles 中的 DMARC alignment 是通过编程方式从 SPF envelope domain 与 header `From:` domain 的对比中得出的，而不是来自解析的 verdict。 - **无附件分析** — 不提取或分析邮件附件。样本仅限于通过 HTML 邮件正文传递的基于 URL 的钓鱼。 - **仅限 HTML 正文解析** — URL 提取是在渲染的 HTML 文本上执行的。隐藏在 CSS `display:none` 之后或通过 JavaScript 动态加载的 URL 不会被捕获。 - **仅限英语样本** — 当前语料库仅包含英语钓鱼邮件。 - **手动收集周期** — 收集尚未自动化。样本量和时效性取决于手动运行。 ## 免责声明该语料库按“原样”提供，用于研究和教育目的。不对数据或衍生指标的完整性、准确性或适用于任何特定目的作任何保证。 - Indicators（URL, IP, 域名）是从真实钓鱼邮件中提取的，但**未经过独立验证**。如果在没有进一步验证的情况下直接用于生产检测系统，它们可能会产生误报。 - DMARC alignment verdicts 是**衍生得出的**，而非权威的。它们基于头字段比较，可能不反映接收 MTA 执行的完整 DMARC 评估。 - 邮件样本已尽最大努力去除个人身份信息。如果您发现任何残留的 PII，请开启一个 issue。 - 该语料库中的 URL 和域名指向**活跃或曾经活跃的钓鱼基础设施**。请勿直接访问。请使用 `indicators/urls.txt` 中去活后的形式进行安全处理。

标签：DMARC, DNS 反向解析, Homebrew安装, IOC, SPF, STIX, STIX 2.1, 垃圾邮件, 威胁情报, 开发者工具, 指标提取, 搜索语句（dork）, 样本库, 欺诈检测, 电子邮件, 绕过技术, 网络安全, 邮件取证, 邮件安全, 配置审计, 钓鱼邮件, 防御加固, 隐私保护