cw-l/email-corpus

GitHub: cw-l/email-corpus

一个经过 PII 脱敏的真实钓鱼邮件语料库,包含 STIX 2.1 威胁情报包和提取的 IoC 指标,用于钓鱼检测研究和安全网关测试。

Stars: 0 | Forks: 0

# email-corpus 一个经过整理的真实垃圾邮件和钓鱼邮件语料库,收集自一个活跃的 Gmail 垃圾邮件陷阱,已去除 PII(个人身份信息),并出于研究和威胁情报目的发布。 ## 该语料库提供的内容 该语料库中的每封邮件样本都附带结构化的威胁情报 artefacts: - **经过处理的 `.eml` 文件** — 原始邮件文件,已剥离或去除受害者身份识别头。垃圾邮件发送者的基础设施头(envelope sender、SMTP 路由、DKIM 签名)被保留,因为它们构成了危害指标。 - **STIX 2.1 bundles** (`stix/.json`) — 每封邮件的威胁情报包,包含 URL indicators、sender address indicators、SMTP host indicators,以及总结身份验证结果和 DMARC 对齐分析的备注。 - **URL indicator 列表** (`indicators/urls.txt`) — 从邮件正文中提取的、已去活和规范化 的钓鱼 URL,经过去重,并按提供商(例如 Google Storage, Cloudflare)进行标记。 - **SMTP host indicator 列表** (`indicators/smtp_hosts.txt`) — 从 `Received:` 头中提取的 IP 和主机名,代表受垃圾邮件发送者控制或被攻陷的发送基础设施。 ## 研究应用 ### 了解攻击者如何精心构造邮件以绕过检测 该语料库记录了在野外观察到的几种逃避技术: **SPF pass / DMARC fail spoofing** — 攻击者注册一次性域名并配置有效的 SPF 记录,导致 SPF 通过。然而,`From:` 头显示的是另一个被欺骗的域名。因为 SPF alignment 要求 envelope sender 域名与 `From:` 域名匹配,所以 DMARC 失败。STIX note 字段记录了 envelope domain 和 header-from domain,以明确这种不一致。 **合法基础设施重定向滥用** — 钓鱼 URL 托管在合法平台(例如 `storage.googleapis.com`)上,以通过 URL 信誉过滤。真正的恶意目的地被编码在 URL fragment (`#...`) 中,通过 `window.location.hash` 由着陆页上的 JavaScript 读取。因此,URL fragments 被保留在 STIX patterns 中。 **Content poisoning** — 邮件包含通过收件人不可见的 HTML 元素注入的、看似合法的文本层(新闻文章、营销文案)。随机 token 网格确保没有两封邮件共享相同的内容 hash,从而击败基于签名的检测。大写字母块被注入到句子中间,以击败内容指纹识别。 **Per-recipient URL tracking** — 每封邮件包含一个唯一的 URL fragment 或 query parameter,允许攻击者跟踪每个收件人的链接点击,同时表面上使用相同的基础 URL。 **HELO spoofing** — 某些邮件在 SMTP HELO/EHLO 命令中显示合法组织的主机名。这没有经过加密身份验证,并且很容易伪造。 ### 其他用途 - 训练和评估垃圾邮件/钓鱼分类器 - 针对真实样本测试邮件安全网关规则 - 研究垃圾邮件发送者基础设施模式和 IP 集群行为 - 向托管提供商和注册商报告滥用行为 ## 语料库结构 ``` emails/ # Redacted .eml files, SHA256-named indicators/ urls.txt # Defanged phishing URLs, append-only smtp_hosts.txt # SMTP infrastructure IPs and domains, append-only stix/ .json # STIX 2.1 bundle per email sample ``` ## 当前限制 - **单一来源** — 所有样本均收集自一个 Gmail 账户。该语料库反映了该特定目标所面临的威胁态势,可能不代表针对其他人群、地区或平台的活动。 - **仅限第一跳 URL** — URL 按原样从邮件正文中提取,未跟随重定向。显示的 URL 可能是重定向主机,而不是最终的钓鱼页面。故意避免跟随重定向,以防止暴露收集器的 IP 给恶意基础设施。 - **原始头中无 DMARC verdict** — Gmail 的网页界面报告 DMARC 结果,但下载的 `.eml` 文件在 `Authentication-Results` 中省略了 `dmarc=` 字段。STIX bundles 中的 DMARC alignment 是通过编程方式从 SPF envelope domain 与 header `From:` domain 的对比中得出的,而不是来自解析的 verdict。 - **无附件分析** — 不提取或分析邮件附件。样本仅限于通过 HTML 邮件正文传递的基于 URL 的钓鱼。 - **仅限 HTML 正文解析** — URL 提取是在渲染的 HTML 文本上执行的。隐藏在 CSS `display:none` 之后或通过 JavaScript 动态加载的 URL 不会被捕获。 - **仅限英语样本** — 当前语料库仅包含英语钓鱼邮件。 - **手动收集周期** — 收集尚未自动化。样本量和时效性取决于手动运行。 ## 免责声明 该语料库按“原样”提供,用于研究和教育目的。不对数据或衍生指标的完整性、准确性或适用于任何特定目的作任何保证。 - Indicators(URL, IP, 域名)是从真实钓鱼邮件中提取的,但**未经过独立验证**。如果在没有进一步验证的情况下直接用于生产检测系统,它们可能会产生误报。 - DMARC alignment verdicts 是**衍生得出的**,而非权威的。它们基于头字段比较,可能不反映接收 MTA 执行的完整 DMARC 评估。 - 邮件样本已尽最大努力去除个人身份信息。如果您发现任何残留的 PII,请开启一个 issue。 - 该语料库中的 URL 和域名指向**活跃或曾经活跃的钓鱼基础设施**。请勿直接访问。请使用 `indicators/urls.txt` 中去活后的形式进行安全处理。
标签:DMARC, DNS 反向解析, Homebrew安装, IOC, SPF, STIX, STIX 2.1, 垃圾邮件, 威胁情报, 开发者工具, 指标提取, 搜索语句(dork), 样本库, 欺诈检测, 电子邮件, 绕过技术, 网络安全, 邮件取证, 邮件安全, 配置审计, 钓鱼邮件, 防御加固, 隐私保护