oudeline/chain-scraper

GitHub: oudeline/chain-scraper

一个基于R语言开发的Chainalysis博客爬虫,用于抓取Lazarus Group相关威胁情报文章并构建自动化风险评分数据集。

Stars: 0 | Forks: 0

# chain-scraper 这是我的第一个 scraper:它是动态的,并使用 R 开发。该项目的目标是:1) 能够自动化创建对抗性攻击的数据集, 2) 能够自动为攻击分配风险评分。 在这个 script 中,我专注于 Chainalysis 博客,特别是与 DPRK 有关的 Lazarus Group 的活动。我根据 tag 抓取了文章,并创建了一个包含 日期、链接、标题和摘要的表格。然后我还创建了一个抓取循环。 在数据拉取之后,我选择了特定的关键词,例如 "hack" 和 "weapons"。其想法不仅是搜索文章中的这些词,还要在之后开发一个风险评分工具。 例如,"weapons" 或 "nuclear" 将对应比 "scam" 更高的风险评分,这样每次攻击都可以在人工检查之前根据其严重程度自动分类。 由于编码不是我的专长,因此代码并不完美,而且目前的范围相当有限。我相信未来我可以扩展它,并将其定制为我的工具。
标签:APT攻击, ESC4, Lazarus组织, OSINT, R语言, 关键词检测, 区块链分析, 威胁情报, 实时处理, 开发者工具, 数据爬虫, 数据集构建, 文本挖掘, 朝鲜黑客, 网络安全, 网络调试, 自动化, 舆情监控, 隐私保护, 风险评分