一个开源数据集,包含在野外发现的恶意软件包,100%由人工审核。
作者:Sec-Labs | 发布时间:
项目地址
https://github.com/DataDog/malicious-software-packages-dataset
恶意软件包数据集

该仓库是一个由Datadog确定的1221个恶意软件包(还在增加中)的开源数据集,作为我们在软件供应链安全方面的安全研究工作的一部分。大部分恶意软件包都是由GuardDog发现的。
当前生态系统:
- PyPI
使用方法
恶意样本可在**samples/**文件夹下找到,并以加密的ZIP文件形式进行压缩,密码为infected。文件名中标注的日期是发现日期,不一定是软件包的发布日期。
您可以使用脚本extract.sh自动提取所有样本以进行本地分析。或者,您可以使用以下命令提取单个样本:
$ unzip -o -P infected samples/pypi/2023-03-20-pydefender-v1.0.0.zip -d /tmp/
Archive: samples/pypi/2023-03-20-pydefender-v1.0.0.zip
creating: /tmp/2023-03-20-pydefender-v1.0.0/
许可证
该数据集以Apache-2.0许可证发布。您可以在注明出处的情况下使用它。
您可以使用以下引用方式:
@misc{OpenSourceDatasetMaliciousSoftwarePackages,
month = Mar,
day = 20,
date = 2023,
journal = {恶意软件包开源数据集},
publisher = {Datadog安全实验室},
url = https://github.com/datadog/malicious-software-packages-dataset,
}
作为该仓库的一部分提供的恶意软件包可能包含合法和有许可的代码。在这种情况下,适用的许可证是原始软件包的许可证,该许可证在其setup.py文件的元数据中指定。
免责声明
- 该仓库包含由威胁行为者发布的主动恶意软件。请不要在您的设备上运行它。
- 该数据集可能存在选择偏差,因为它大部分是由单个规则集(GuardDog)发现的。因此,它可能无法准确地代表软件供应链安全恶意软件的情况。
- 该数据集中的一些软件包非常相似。截至2023年3月20日,我们估计该数据集包含约50个高度相似的软件包集群。其中一个集群非常大(超过500个与此软件包高度相似的软件包),可能会使数据集产生偏差。
常见问题解答
您是否在维护该数据集?
我们将定期添加新的软件包到数据集中。
您如何知道这些软件包是恶意的?
该数据集中的每个软件包都经过人工审核。
您是如何对这些软件包进行聚类的?
目前,我们没有公开我们内部用于对相似样本进行分组和简化分析的聚类算法。如果您有兴趣,请通过securitylabs@datadoghq.com联系我们,我们将很乐意交流!
您是否接受贡献?
目前,该仓库不接受贡献。但是,如果您想与我们分享有趣的发现,请通过securitylabs@datadoghq.com联系我们!
标签:工具分享, 恶意软件数据集