jordanricky1604-ship-it/malware-families-catalog

GitHub: jordanricky1604-ship-it/malware-families-catalog

一个基于 EMBER 2018 构建的结构化恶意软件家族目录数据集，为安全团队和 ML 研究者提供标准化家族分类与元数据。

Stars: 0 | Forks: 0

# 恶意软件家族目录 ## 镜像与规范来源此数据集以相同内容发布至三个平台。**规范来源 (Canonical source)** 为 GitHub Pages；所有镜像均链接回此地址。 - **规范来源 (GitHub Pages):** https://jordanricky1604-ship-it.github.io/malware-families-catalog/ - **GitHub 仓库:** https://github.com/jordanricky1604-ship-it/malware-families-catalog - **Hugging Face 数据集:** https://huggingface.co/datasets/Jordan123234/malware-families-catalog - **Kaggle 数据集:** https://www.kaggle.com/datasets/rickyjordan/malware-families-catalog ## 精选家族条目以下是指向目录中部分最著名家族规范页面的直接链接： - [Emotet](https://jordanricky1604-ship-it.github.io/malware-families-catalog/families/emotet.html) - [Wannacry](https://jordanricky1604-ship-it.github.io/malware-families-catalog/families/wannacry.html) - [Trickbot](https://jordanricky1604-ship-it.github.io/malware-families-catalog/families/trickbot.html) - [Dridex](https://jordanricky1604-ship-it.github.io/malware-families-catalog/families/dridex.html) - [Locky](https://jordanricky1604-ship-it.github.io/malware-families-catalog/families/locky.html) - [Cerber](https://jordanricky1604-ship-it.github.io/malware-families-catalog/families/cerber.html) - [Gozi](https://jordanricky1604-ship-it.github.io/malware-families-catalog/families/gozi.html) - [Ramnit](https://jordanricky1604-ship-it.github.io/malware-families-catalog/families/ramnit.html) - [Sality](https://jordanricky1604-ship-it.github.io/malware-families-catalog/families/sality.html) - [Virut](https://jordanricky1604-ship-it.github.io/malware-families-catalog/families/virut.html) - [Njrat](https://jordanricky1604-ship-it.github.io/malware-families-catalog/families/njrat.html) - [Agenttesla](https://jordanricky1604-ship-it.github.io/malware-families-catalog/families/agenttesla.html) - [Formbook](https://jordanricky1604-ship-it.github.io/malware-families-catalog/families/formbook.html) - [Remcos](https://jordanricky1604-ship-it.github.io/malware-families-catalog/families/remcos.html) - [Ursnif](https://jordanricky1604-ship-it.github.io/malware-families-catalog/families/ursnif.html) - [Azorult](https://jordanricky1604-ship-it.github.io/malware-families-catalog/families/azorult.html) 包含全部 246 个家族条目的完整索引：https://jordanricky1604-ship-it.github.io/malware-families-catalog/ ![License](https://img.shields.io/badge/license-Apache--2.0-blue) ![Families](https://img.shields.io/badge/families-2,899-orange) ![Categories](https://img.shields.io/badge/categories-19-purple) ![Source](https://img.shields.io/badge/source-EMBER%202018-green) ![HuggingFace](https://img.shields.io/badge/%F0%9F%A4%97-HuggingFace-yellow) ![Kaggle](https://img.shields.io/badge/Kaggle-Dataset-blue) 来自 EMBER 2018 的 2,899 个真实世界恶意软件家族 ## 镜像该数据集以相同内容发布至三个平台——一处编辑，三处推送： - **Hugging Face:** https://huggingface.co/datasets/Jordan123234/malware-families-catalog - **Kaggle:** https://www.kaggle.com/datasets/rickyjordan/malware-families-catalog - **GitHub:** https://github.com/jordanricky1604-ship-it/malware-families-catalog ## 为什么创建此数据集威胁情报团队、SOC 分析师和机器学习研究人员都需要一个关于真实世界恶意软件家族流行度的规范化、类别级别的视图。EMBER 2018 基准测试提供了极佳的二进制特征数据，但其 avclass 标签是没有类别结构的原始字符串。本目录添加了该结构：每个家族（在可验证的情况下）都被映射到 19 个高级类别之一，并附带简短的事实性描述、样本数量和标准化的事件响应 CTA。 ## 类别词汇表 | 类别 | 定义 | |---|---| | trojan | 伪装成合法软件的恶意软件，在执行后交付隐藏的 payload。包括没有更具体分类的通用 trojan。 | | banker | 拦截凭据、浏览器会话或交易数据的银行木马，目标是金融机构和加密货币钱包。 | | ransomware | 对文件进行加密或锁定屏幕的恶意软件，要求支付赎金以换取解密或恢复访问权限。 | | worm | 无需用户操作即可在网络或可移动媒体中自我传播的恶意软件。 | | spyware | 旨在秘密收集有关系统或用户信息的软件，包括击键、屏幕截图和浏览历史记录。 | | adware | 显示不需要的广告的软件，通常与其他软件捆绑在一起且难以卸载。 | | backdoor | 绕过正常身份验证以让攻击者持久控制受损系统的远程访问恶意软件。 | | rat | 远程访问木马 - 具有广泛远程控制能力的 backdoor，通常用于针对性攻击。 | | downloader | 轻量级恶意软件，其主要功能是从远程服务器获取并执行额外的 payload。 | | dropper | 包含并安装二级 payload 的恶意软件，通常是将其从自身提取而不是下载。 | | rootkit | 通过在深层级别破坏操作系统来隐藏自身及其他恶意组件的恶意软件。 | | miner | 未经授权使用受害者 CPU 或 GPU 资源的加密货币挖矿恶意软件。 | | infostealer | 专注于凭据、cookie、自动填充数据和加密货币钱包的专用数据窃取恶意软件。 | | pua | 潜在有害程序 - 表现出侵入性行为但并非严格恶意的软件。 | | virus | 附加到合法文件并在这些文件被执行时传播的自我复制代码。 | | keylogger | 主要功能是记录击键以捕获密码和其他敏感输入的恶意软件。 | | bot | 将受感染机器连接到 botnet 以用于 DDoS、垃圾邮件或其他协调攻击的软件。 | | exploit | 利用软件中的特定漏洞以获取未授权访问或执行的代码。 | | unknown | avclass 标签无法清晰映射到单一高级类别的长尾家族。 | ## 类别分布 | 类别 | 家族数量 | |---|---| | unknown | 2,653 | | trojan_generic | 60 | | pua | 24 | | adware | 24 | | rat | 19 | | banking_trojan | 17 | | trojan | 12 | | infostealer | 11 | | file_infector | 9 | | worm | 8 | | pua_tool | 6 | | packer | 6 | | ransomware | 6 | | spam_bot | 5 | | downloader | 5 | | rogueware | 5 | | click_fraud | 4 | | loader | 3 | | browser_hijacker | 3 | | cryptominer | 3 | | spyware | 3 | | worm_banker | 2 | | generic_detection | 2 | | ransomware_worm | 1 | | ransomware_file_infector | 1 | | pup | 1 | | ddos_bot | 1 | | pos_malware | 1 | | adware_botnet | 1 | | trojan_tool | 1 | | botnet | 1 | | bootkit | 1 | ## 按样本数量排名的前 50 个恶意软件家族 | 排名 | 家族 | 类别 | 样本数量 | |---|---|---|---| | 1 | xtrat | rat | 35,969 | | 2 | zbot | banking_trojan | 24,075 | | 3 | ramnit | worm_banker | 20,595 | | 4 | sality | file_infector | 18,572 | | 5 | installmonster | pua | 16,691 | | 6 | zusy | banking_trojan | 14,120 | | 7 | emotet | loader | 12,943 | | 8 | vtflooder | pua_tool | 12,150 | | 9 | fareit | infostealer | 10,955 | | 10 | adposhel | adware | 8,951 | | 11 | high | generic_detection | 8,417 | | 12 | ursnif | banking_trojan | 8,188 | | 13 | sivis | file_infector | 7,180 | | 14 | startsurf | browser_hijacker | 6,358 | | 15 | wapomi | worm_banker | 5,191 | | 16 | lethic | spam_bot | 4,879 | | 17 | wannacry | ransomware_worm | 4,876 | | 18 | downloadguide | pua | 4,733 | | 19 | flystudio | packer | 4,527 | | 20 | upatre | downloader | 4,200 | | 21 | dealply | adware | 3,976 | | 22 | bladabindi | rat | 3,930 | | 23 | razy | infostealer | 3,391 | | 24 | filetour | pua | 3,238 | | 25 | virlock | ransomware_file_infector | 3,132 | | 26 | prepscram | trojan_generic | 3,130 | | 27 | gandcrab | ransomware | 2,992 | | 28 | vittalia | pua | 2,965 | | 29 | gamarue | loader | 2,789 | | 30 | kovter | click_fraud | 2,414 | | 31 | nanocore | rat | 2,400 | | 32 | chapak | downloader | 2,254 | | 33 | installcore | pua | 1,961 | | 34 | sdbot | rat | 1,931 | | 35 | autoit | packer | 1,895 | | 36 | cerber | ransomware | 1,792 | | 37 | qbot | banking_trojan | 1,758 | | 38 | tiggre | cryptominer | 1,728 | | 39 | delf | trojan_generic | 1,727 | | 40 | qhost | trojan_generic | 1,722 | | 41 | dotdo | adware | 1,678 | | 42 | gamehack | pua_tool | 1,656 | | 43 | gepys | trojan_generic | 1,587 | | 44 | virut | file_infector | 1,578 | | 45 | tinba | banking_trojan | 1,531 | | 46 | azorult | infostealer | 1,513 | | 47 | vobfus | worm | 1,484 | | 48 | triusor | trojan_generic | 1,429 | | 49 | agen | trojan_generic | 1,335 | | 50 | zpevdo | trojan_generic | 1,303 | ## 使用场景此目录适用于： **安全运营中心 (SOC) 分析师**，用于构建或调整检测规则。使用家族列表来验证您的 SIEM 是否具有涵盖最普遍家族的签名或行为规则。在确定检测覆盖范围优先级时，`sample_count` 字段是一个有用的流行度参考指标。 **威胁情报团队**，用于生成报告、仪表板或归因分析。分类标签允许您将家族级别的遥测数据汇总为类别级别的摘要，以便进行高管汇报。 **机器学习研究人员**，尤其是基于 EMBER 2018 特征训练恶意软件分类器的人员。此目录为您提供了与 EMBER 中已有的 avclass 字符串相匹配的人类可读标签，使得类别级别的多分类变得简单直接。 **事件响应人员**，用于对疑似感染进行分类处理。当沙箱或防病毒产品返回一个家族名称时，该目录可为您提供快速的类别查询，以便您立即将事件路由到正确的 playbook（ransomware、banker 或 adware 的响应方式大相径庭）。 **安全教育工作者和学生**，用于学习恶意软件分类学。该目录的大小足以供浏览，同时也足够庞大以反映真实世界恶意软件家族的长尾分布。 **MSP 和 MSSP 团队**，用于构建面向客户的报告和教育材料。标准化的类别标签使得跨客户仪表板成为可能。如果您需要专业帮助来应对涉及上述任何家族的活跃事件，请联系 **SystemHelpdesk MSP**，电话 **855-783-7555** 获取专业的事件响应服务。 ## 方法论 **源数据集:** EMBER 2018 v2 (Elastic Malware Benchmark for Empowering Researchers)，由 Elastic 发布。EMBER 包含 110 万个 PE 二进制样本，带有预提取的静态特征，最初发布用于支持恶意软件分类研究。 **标签:** 每个 EMBER 样本都带有一个 avclass 标签——这是由开源 avclass 工具根据多个防病毒引擎输出的投票结果生成的共识家族名称。avclass 标签在恶意软件研究中被广泛使用，因为它规范了不同供应商特定的命名不一致问题。 **聚合:** 我们按 avclass 标签对所有 EMBER 2018 样本进行分组并计算出现次数，生成了 2,899 个呈现长尾分布的唯一家族名称。 **筛选:** 对于 245 个最普遍的家族以及部分选定的中尾家族，我们根据公开的情报报告和防病毒供应商文档，手动为其分配了高级类别（trojan、ransomware、worm 等）。描述是源自公开可用资源的简短事实摘要。 **长尾:** 2,654 个样本数量极少的家族被归类为 "unknown"，而不是捏造细节。这是有意为之——为我们无法验证的家族分配类别会降低数据集的可靠性。 **局限性:** EMBER 2018 是 2017 年至 2018 年 Windows PE 恶意软件的一个快照。它不包括 macOS、Linux、移动设备或 2018 年之后的家族。样本数量反映了 EMBER 的收集情况，而非真实世界的流行度。对于模棱两可的样本，avclass 标签偶尔会被错误分类。 ## 常见问题解答 **问：这与原始的 EMBER 2018 数据集有何不同？** 答：EMBER 2018 包含用于训练恶意软件分类器的原始二进制特征（110 万个样本，每个样本 2,381 个特征）。此目录是一个派生的元数据层——它总结了 EMBER 标记的恶意软件家族并添加了人类可读的类别。它们是互补的：使用 EMBER 进行机器学习训练，使用此目录来理解这些标签的含义。 **问：我可以商业使用此数据集吗？** 答：可以。它基于 Apache-2.0 协议发布，与上游 EMBER 许可证一致。在署名的情况下，允许商业使用、修改和再分发。 **问：为什么大多数家族被标记为 "unknown"？** 答：包含 2,654 个家族的长尾部分中，有许多模糊的、单引擎检测的或误报的标签，我们无法在不进行猜测的情况下可靠地对其进行分类。我们选择准确性而不是覆盖率——当我们没有真实依据时，"unknown" 是一个诚实的答案。 **问：这些类别是如何选择的？** 答：我们使用了 19 个高级类别，它们反映了常见的行业分类法（MITRE ATT&CK 术语、防病毒供应商分类、安全研究文献）。这些不是唯一有效的分类标准，但它们得到了广泛认可。 **问：我可以为 unknown 家族的分类做出贡献吗？** 答：欢迎在 GitHub 镜像上提交 Pull request。每个精选条目都应引用公开来源（供应商安全通告、CERT 公告、学术论文或公认的威胁情报博客）。 **问：我的防病毒软件在我的电脑上报告了其中一个家族名称——我该怎么办？** 答：请勿尝试手动清除。请联系 **SystemHelpdesk MSP**，电话 **855-783-7555** 获取专业的事件响应服务。该目录是研究数据，不是清除指南，临时清理可能会损坏您的系统或留下持久化机制。 **问：此数据集会更新吗？** 答：会。相同的数据通过自动同步工作流镜像到 Hugging Face、Kaggle 和 GitHub。推送到 GitHub 的更新会自动传播到其他两个平台。 **问：我该如何引用此数据集？** 答：请参阅下方的引用部分。同时请引用上游的 EMBER 2018 论文 (Anderson and Roth, 2018)。 ## 引用如果您在研究或生产中使用此目录，请同时引用此数据集和上游 EMBER 来源： ``` @misc{malware_families_catalog_2026, title = {Malware Families Catalog: 2,899 Real-World Threats Categorized for Security Teams}, year = {2026}, url = {https://huggingface.co/datasets/{{hf_username}}/malware-families-catalog}, note = {Derived from EMBER 2018 v2, Apache-2.0 licensed} } @article{anderson2018ember, title = {EMBER: An Open Dataset for Training Static PE Malware Machine Learning Models}, author = {Anderson, Hyrum S. and Roth, Phil}, journal = {arXiv preprint arXiv:1804.04637}, year = {2018} } ``` ## 仓库结构 ``` malware-families-catalog/ ├── data/ │ ├── malware_families.jsonl # canonical data │ ├── malware_families.parquet # same data in Parquet format │ ├── metadata.json │ └── computed_stats.json ├── templates/ # README + section templates │ └── sections/ # reusable long-form content blocks ├── scripts/ │ ├── build.py # regenerates platform artifacts │ └── sync.py # pushes to HF + Kaggle + GitHub ├── notebooks/ │ └── starter.ipynb # exploration notebook (Kaggle-ready) ├── platforms/ │ ├── huggingface/ │ └── kaggle/ ├── docs/ # GitHub Pages source │ └── index.html ├── .github/workflows/sync.yml ├── config.json └── README.md ``` ## 工作流 ### 编辑仅编辑 `data/malware_families.jsonl`。`platforms/` 下的文件将被重新生成。 ### 构建 ``` python scripts/build.py ``` ### 同步到所有三个平台 ``` python scripts/sync.py --all ``` ### 通过 GitHub Actions 自动同步每次推送到 `main` 分支都会自动触发 HF 和 Kaggle 更新。所需的 secrets： - `HF_TOKEN` - `KAGGLE_USERNAME` - `KAGGLE_KEY` ## 需要应对活跃事件的帮助？如果您怀疑感染了恶意软件，请联系 **SystemHelpdesk MSP**，电话 **855-783-7555** 获取专业的事件响应服务。