Emjaay20/Domainguard-ai

GitHub: Emjaay20/Domainguard-ai

一个分布式AI原生威胁情报平台，通过爬虫集群和本地LLM实时分析恶意Web基础设施并自动化生成安全通报。

Stars: 1 | Forks: 0

# DomainGuard AI 🛡️ **企业 Web 情报与威胁监控 (测试即服务)** DomainGuard AI 是一个分布式、AI 原生威胁情报平台，旨在实时摄取、分析并报告恶意 Web 基础设施。它作为可扩展的测试即服务架构构建，利用分布式抓取集群、高吞吐量消息代理和多模态本地 LLM 引擎来自动化安全通报。 ## 🚀 系统架构 DomainGuard AI 采用模块化、微服务架构构建，以确保目标 URL 的高可用性和并行处理。 * **摄取引擎 (Redis + Scrapy + Playwright)：** 分布式无头 Web 集群，能够绕过 Cloudflare 403 错误并执行动态 JavaScript，以捕获可疑钓鱼网站的原始 DOM 负载。 * **路由层 (FastAPI)：** 高性能 Python API，通过 Redis 处理批量目标部署和异步任务队列。 * **智能大脑 (LangChain + Llama 3)：** 3 层语义分类系统（白名单 -> 关键字启发式 -> 本地 LLM 推理），读取原始 HTML 并输出结构化 JSON（执行摘要、威胁评分和网络节点）。 * **数据湖 (MongoDB)：** NoSQL 文档存储，处理原始 HTML 转储和丰富的 JSON 威胁情报。 * **安全控制台 (Next.js + Recharts)：** 暗黑模式、NOC 风格的 Next.js 仪表盘，具有短轮询实时批量跟踪、宏观遥测和自动化 PDF 事件报告功能。 ## ⚡ 核心功能 * **分布式批量扫描：** CISO 可以通过上传 CSV 同时针对数百个目标部署抓取集群，并实时跟踪队列状态和 AI 处理进度。 * **自动化事件报告：** 一键将原始 LLM 威胁数据转化为专业的、带品牌标识且可导出的 PDF 安全通报。 * **NOC 遥测仪表盘：** 实时数据可视化，具有威胁速度面积图和全球情绪分布，可监控攻击活动的激增。 * **智能边缘绕过：** 配置为故意接收 HTTP 403/405 错误页面和 Cloudflare 验证屏幕，将反机器人防护墙视为可操作的威胁情报。 ## 🛠️ 技术栈 **前端：** Next.js (React), TailwindCSS, Recharts, React-Hot-Toast, React-to-Print **后端 API：** FastAPI (Python), Uvicorn, Pydantic **摄取集群：** Scrapy, Playwright, Twisted **AI 富化：** 本地 Llama 3 (Ollama), LangChain, BeautifulSoup4 **基础设施：** Redis (消息代理), MongoDB (数据湖), Docker ## 🧠 3 层 AI 分诊系统为了优化计算并减少误报，富化服务将目标路由通过三个阶段： 1. **已知实体白名单：** 快速通道合法基础设施（例如，AWS, GitHub）。 2. **启发式关键字扫描：** 检测高风险字符串（"credential", "verify account"）。 3. **深度 LLM 分析：** 对于未知实体，Llama 3 执行零样本提示以语义评估 DOM，提取威胁行为者，分配 `Threat Score (0-100)`，映射关联的 `Network Nodes`，并生成面向高管的 `Executive Summary`。 ## 💻 本地开发设置请确保已安装 Docker, Node.js, Python 3.13+ 和 Ollama。 **1. 基础设施 (终端 1)** ``` # 启动 MongoDB 和 Redis 容器 docker run -d -p 27017:27017 -e MONGO_INITDB_ROOT_USERNAME=admin -e MONGO_INITDB_ROOT_PASSWORD=supersecretpassword mongo docker run -d -p 6379:6379 redis ``` **2. FastAPI 后端 (终端 2)** ``` cd search-api source venv/bin/activate pip install -r requirements.txt python main.py ``` **3. 摄取集群 (终端 3)** ``` cd ingestion-fleet source venv/bin/activate pip install -r requirements.txt scrapy crawl intel_spider ``` **4. AI 富化守护进程 (终端 4)** ``` cd ai-enrichment-service source venv/bin/activate pip install -r requirements.txt ollama run llama3 python threat_parser.py ``` **5. Next.js 安全控制台 (终端 5)** ``` cd web-dashboard npm install npm run dev ``` ## 👨‍💻 架构师 **Yusuf Abubakar Saka** 高级系统架构师 | AI 开发者体验 (DX) 工程师 *位于尼日利亚阿布贾 (EMEA/美国时区)*

标签：AI风险缓解, AV绕过, CISO工具, Cloudflare绕过, DLL 劫持, FastAPI, IOC 共享, IT运维, LangChain, Llama 3, MongoDB, NOC大屏, PDF报告生成, Playwright, Python, Recharts, Redis, Scrapy, SEO优化, Socks5代理, Web爬虫, 人工智能, 企业安全, 分布式扫描, 反检测绕过, 大语言模型, 威胁情报, 威胁评分, 安全研发, 安全运营中心, 安全防御平台, 密码管理, 开发者工具, 异步任务队列, 微服务架构, 恶意基础设施检测, 搜索引擎查询, 无后门, 无头浏览器, 测试即服务, 消息队列, 特征检测, 用户模式Hook绕过, 网络安全监控, 网络情报, 网络映射, 网络空间安全, 网络资产管理, 网络钓鱼检测, 自动化安全报告, 自动化攻击, 请求拦截, 轻量级, 逆向工具, 驱动开发