its3mile/ncsc-caf-scraper

GitHub: its3mile/ncsc-caf-scraper

该项目通过抓取NCSC CAF网页并输出结构化数据,解决了CAF文档难以自动提取与复用的问题。

Stars: 0 | Forks: 0

# NCSC CAF 抓取工具 ## 简介 [国家网络安全中心(NCSC)](https://www.ncsc.gov.uk/) 开发并发布了一项名为[网络评估框架(CAF)](https://www.ncsc.gov.uk/collection/cyber-assessment-framework)的资源。 根据 NCSC CAF 网站说明:_其旨在帮助组织实现并展示在与其执行的关键重要功能相关的适当水平的网络弹性,这些功能因严重网络事件而面临中断风险。_ CAF 以 PDF 文档形式提供下载,但评估过程并不简单,通常需要组织购买额外资源来支持评估,或者自行制作评估表,且容易出错。 本项目抓取 NCSC CAF 网站,并提取相关信息,将其呈现为结构化的 JSON 文档。随后可对该 JSON 文档进行定制化处理,以所需方式渲染 CAF。 ## 使用方法 本项目同时使用 Dev 容器和 poetry 进行环境管理。仅需使用 [VS Code Dev 容器扩展](vscode:extension/ms-vscode-remote.remote-containers) 构建 Dev 容器即可开始使用。 运行 `python3 main.py` 或使用 VS Code 启动配置 `Python Debugger: ncsc-caf-scraper` 即可生成输出。生成的 output.json 文件将创建在项目根目录中。 ## 注意事项 - HTML 抓取较为脆弱,无法保证 NCSC CAF 网站的更新不会完全改变页面格式,导致本项目被废弃。 - 本项目选择抓取 HTML 而非 PDF,因为对 PDF 的审查显示其格式重复性较差,难以自动化提取数据。本项目依赖 HTML 的结构化特性,以提供更好的数据提取一致性与可靠性。
标签:Agent, CAF, Cyber Assessment Framework, Dev容器, JSON, LLM, Markdown, NCSC, PDF解析, Poetry, Python, Unmanaged PE, VS Code Dev Container, Web Scraping, 关键词优化, 命令控制, 数据提取, 数据采集, 无后门, 框架抓取, 结构化数据, 网络安全评估, 网络调试, 自动化, 逆向工具