ishan-parihar/osint-os

GitHub: ishan-parihar/osint-os

一款基于多 AI 智能体协作的企业级 OSINT 调查平台，提供全谱系开源情报采集、自动分析与结构化报告生成能力。

Stars: 1 | Forks: 1

# 🕵️‍♂️ ScrapeCraft OSINT 平台 **情报机构级 OSINT 调查平台，具备 AI 智能体与企业级安全防护** ## 工程亮点 ### 企业级 AI 智能体生态系统我实现了一个多智能体框架，包含跨越 6 大类别（收集、分析、综合、规划、协调和生成）的 23 个以上专业智能体。这些智能体通过智能编排层进行协作，该编排层负责处理任务分配、质量保证和自适应调查策略，超越了简单的线性提示，实现了复杂的自主工作流。 ### 零信任情报基础设施为了确保操作安全 (OPSEC)，我在零信任架构的基础上构建了该平台。这包括全面的安全加固、带有刷新令牌的 JWT 会话管理、精细的 RBAC 以及全面的审计追踪。每一个操作——无论是分析人员执行的还是自主智能体执行的——都会被追踪，并根据严格的安全策略进行验证。 ### 实时协作情报我使用 WebSocket 和 FastAPI 后端开发了一个实时同步层。这允许多名分析人员在单次调查中进行实时协作，可以实时跟踪后台智能体的进度，并进行同步数据融合。其结果是形成了一个在整个团队中即时更新的共享“情报图”。 ## 🌟 **核心能力** ### 🤖 **AI 驱动的情报生态系统** - **多智能体框架**：跨越 6 大类别（收集、分析、综合、规划、协调、生成）的 23 个以上专业智能体 - **高级 LLM 集成**：支持 OpenRouter、OpenAI、GLM-4.6 以及带有自动故障转移的自定义 OpenAI 兼容端点 - **智能工作流编排**：AI 驱动的调查规划、执行和质量保证 - **实时决策制定**：自主智能体协调与自适应调查策略 - **多语言支持**：高级中文、英文及多语种情报分析能力 ### 🔍 **全面的 OSINT 操作** - **表层网络情报**：高级多引擎搜索、智能网页抓取与内容提取 - **社交媒体监控**：从 Twitter、Reddit、LinkedIn 和专业网络进行跨平台数据收集 - **公共记录访问**：政府数据库集成、官方文件分析与自动化记录检索 - **暗网调查**：带有增强安全协议的 Tor 网络情报收集 (测试版) - **地理空间分析**：基于位置的情报、地图绘制与空间关系分析 - **金融情报**：交易分析、企业记录与金融网络映射 ### 🛡️ **情报机构级安全防护** - **零信任架构**：采用深度防御策略的全面安全加固 - **高级身份验证**：带有刷新令牌的 JWT、可选的 MFA 以及会话管理 - **基于角色的访问控制 (RBAC)**：精细的权限控制（管理员、分析师、查看者）及审计追踪 - **全面的审计日志**：安全事件追踪、合规性报告与取证分析 - **高级威胁防护**：DDoS 防护、速率限制、输入验证与安全标头 - **数据保护**：静态与传输中的加密、数据分类与安全销毁 ### ⚡ **实时操作与协作** - **WebSocket 通信**：实时调查更新、进度跟踪与实时告警 - **高级工作流编排**：带有审批系统的多阶段调查管理 - **协作情报**：实时团队协作、数据共享与并发调查 - **后台处理**：带有全面监控与恢复机制的异步任务执行 - **企业级监控**：Prometheus/Grafana 仪表盘、告警与性能分析 ## 🏗️ **系统架构** ``` scrapecraft/ ├── frontend/ # React/TypeScript frontend │ ├── src/ │ │ ├── components/ # UI components │ │ ├── services/ # API clients │ │ ├── store/ # State management │ │ └── hooks/ # React hooks │ ├── package.json # Frontend dependencies │ └── ... ├── backend/ # FastAPI backend │ ├── app/ │ │ ├── agents/ # AI agent framework │ │ │ ├── base/ # Base agent classes │ │ │ ├── specialized/ # Collection, analysis, synthesis agents │ │ │ ├── tools/ # LangChain integration │ │ │ └── nodes/ # ScrapeGraphAI nodes │ │ ├── api/ # REST API endpoints │ │ ├── services/ # Business logic services │ │ ├── models/ # Data models & Pydantic schemas │ │ └── config.py # Configuration settings │ ├── requirements.txt # Backend dependencies │ └── dev_server.py # Development server ├── docs/ # Documentation & integration guides └── scripts/ # Deployment and utility scripts ``` ### **AI 智能体框架** - **收集智能体**：公共记录、社交媒体、表层网络、暗网收集器 - **分析智能体**：上下文分析、模式识别、数据融合 - **综合智能体**：报告生成、情报综合、质量保证 - **工具集成**：兼容 LangChain 与 ScrapeGraphAI ### **实时工作流** - **WebSocket 通信**：前端与后端之间的实时更新 - **调查状态**：进度跟踪与工作流编排 - **审批系统**：安全的多步骤工作流验证 - **实时监控**：实时进度更新与状态跟踪 ## 🚀 **快速开始** ### **前置条件** - **Python 3.12+** 及 pip - **Node.js 18+** 及 npm - **PostgreSQL** (生产环境) 或 **SQLite** (开发环境) - **Redis**，用于缓存和任务队列 - **Docker** 及 **Docker Compose** (可选，用于容器化部署) ### **一键设置** ``` # 克隆并设置完整平台 git clone https://github.com/OSINT-OS/OSINT-OS.git cd OSINT-OS chmod +x setup-osint-os.sh ./setup-osint-os.sh # 启动完整平台 ./run-osint-os.sh ``` ### **手动设置** #### **后端设置** ``` # 导航到 backend cd backend # 创建虚拟环境 python -m venv venv source venv/bin/activate # On Windows: venv\Scripts\activate # 安装依赖 pip install -r requirements.txt # 设置环境变量 cp .env.example .env # 使用你的配置编辑 .env # 初始化数据库 alembic upgrade head # 启动开发服务器 python dev_server.py # 服务器启动于 http://localhost:8000 # API 文档可在 http://localhost:8000/docs 获取 ``` #### **前端设置** ``` # 导航到 frontend cd frontend # 安装依赖 npm install # 启动开发服务器 npm start # 前端运行于 http://localhost:4000 ``` ### **访问入口** - **前端应用**：http://localhost:4000 - **后端 API**：http://localhost:8000 - **交互式 API 文档**：http://localhost:8000/docs - **健康检查**：http://localhost:8000/health - **管理面板**：http://localhost:4000/admin (需要管理员权限) ### **主要 API 端点** - `GET /api/docs` - 交互式 OpenAPI 文档 - `POST /api/osint/investigations` - 创建和管理 OSINT 调查 - `POST /api/ai-investigation/start` - 启动 AI 驱动的调查 - `POST /api/scraping/execute` - 执行网页抓取操作 - `POST /api/pipelines` - 创建和管理数据管道 - `GET /api/v1/health` - 全面的系统健康检查 ### **首次操作步骤** 1. **创建账户**：在 http://localhost:4000/auth/register 注册 2. **配置 LLM 提供商**：设置 OpenRouter、OpenAI 或自定义 LLM 端点 3. **创建调查**：开始您的首次 OSINT 调查 4. **监控进度**：通过 WebSocket 观察实时更新 5. **生成报告**：以多种格式导出情报结果 ## 🤖 **AI 智能体生态系统** ### **🔍 收集智能体** - **表层网络收集器**：高级搜索引擎集成与网页抓取 - **社交媒体收集器**：多平台社交媒体情报收集 - **公共记录收集器**：政府数据库与文件分析 - **暗网收集器**：Tor 网络情报收集 (规划中) - **地理空间收集器**：基于位置的情报与地图绘制 - **金融收集器**：金融数据与交易分析 ### **🧠 分析智能体** - **上下文分析智能体**：深度内容分析与上下文提取 - **模式识别智能体**：趋势识别与异常检测 - **情感分析智能体**：意见挖掘与情感追踪 - **实体解析智能体**：身份匹配与关系映射 - **威胁评估智能体**：安全威胁评估与风险评分 - **数据融合智能体**：多源情报整合 ### **📊 综合智能体** - **情报综合智能体**：多源情报整合 - **报告生成智能体**：自动化结构化报告创建 - **质量保证智能体**：数据验证与校验 - **执行摘要智能体**：生成高层简报 - **时间线重建智能体**：事件排序与年表构建 - **网络分析智能体**：关系映射与网络可视化 ### **🔧 智能体管理** - **智能体注册表**：集中式智能体发现与管理 - **健康监控**：实时智能体性能追踪 - **负载均衡**：跨智能体的智能任务分配 - **错误恢复**：自动故障检测与恢复 - **性能优化**：动态资源分配 ## 🌐 **集成生态系统** ### **🔗 LLM 提供商集成** - **OpenRouter**：支持 100 多个模型的多提供商 LLM 网关 - **OpenAI**：支持自定义微调的 GPT 模型 - **自定义端点**：兼容 OpenAI 的 API 集成 (Ollama、LocalAI、vLLM) - **GLM-4.6**：高级中文及多语种情报分析 - **模型故障转移**：自动提供商切换与负载均衡 ### **🕷️ 高级网页抓取** - **ScrapeGraphAI**：AI 驱动的智能网页抓取 - **浏览器自动化**：Playwright 与 Selenium 集成 - **反检测**：高级机器人检测规避 - **速率限制**：遵守 robots.txt 的礼貌抓取 - **内容提取**：基于 Schema 和 AI 驱动的数据提取 ### **📡 数据源集成** - **搜索引擎**：Google、Bing、DuckDuckGo API 集成 - **社交媒体**：Twitter、Reddit、LinkedIn 数据收集 - **政府 API**：公共记录与官方数据库 - **新闻 API**：实时媒体监控与分析 - **金融数据**：市场数据与企业情报 ### **⚡ 实时架构** - **WebSocket 通信**：实时调查更新与协作 - **事件驱动处理**：异步任务执行 - **流处理**：实时数据分析与过滤 - **推送通知**：即时告警与状态更新 - **实时仪表盘**：实时监控与可视化 ## 🛠️ **开发指南** ### **架构概览** - **前端**：React 18 + TypeScript + Zustand + Tailwind CSS - **后端**：FastAPI + Python 3.12 + Async/Await 模式 - **数据库**：PostgreSQL (生产环境) + SQLite (开发环境) + Redis - **AI/ML**：LangChain + OpenAI + OpenRouter + 自定义 LLM 端点 - **基础设施**：Docker + Kubernetes + GitHub Actions ### **开发命令** ``` # Backend 开发 cd backend python dev_server.py # Start development server pytest -v --cov=app # Run tests with coverage pytest -m unit # Unit tests only pytest -m integration # Integration tests only black . # Code formatting ruff check . # Linting mypy . # Type checking # Frontend 开发 cd frontend npm start # Development server npm test # Run tests npm run test:coverage # Coverage report npm run lint # ESLint npm run format # Prettier npm run type-check # TypeScript checking # 完整平台测试 pytest tests/e2e/ -v # End-to-end tests pytest tests/security/ -v # Security tests ``` ### **代码质量标准** - **类型安全**：完整的 TypeScript 与 Python 类型注解 - **测试覆盖率**：最低 80% 的覆盖率要求 - **安全性**：使用 Bandit 进行自动化安全扫描 - **文档**：全面的 API 文档与代码注释 - **性能**：负载测试与优化要求 ## 📊 **平台状态** ### **✅ 生产部署就绪 - 版本 2.0** - **架构**：企业级微服务设计，包含跨越 6 大类别的 23 个以上专业 AI 智能体 - **安全性**：情报机构级安全防护，具备零信任架构、全面审计日志与高级威胁防护 - **API 基础设施**：100 多个 REST 端点，配备全面的 OpenAPI 文档与实时 WebSocket 支持 - **实时功能**：实时调查更新、协作工作流与企业级监控 - **数据库**：经过生产环境考验的 PostgreSQL 加密、Redis 集群与全面的备份策略 - **前端**：带有实时仪表盘和响应式设计的现代 React/TypeScript 应用 - **OSINT 能力**：全谱系情报收集，包括表层网络、社交媒体、公共记录和暗网 (测试版) - **智能体生态系统**：带有自主协调和智能工作流编排的高级多智能体系统 - **LLM 集成**：支持带有自动故障转移的多提供商，包括 OpenRouter、OpenAI、GLM-4.6 和自定义端点 ### **📈 生产就绪度：98/100 - 情报机构标准** - **架构与设计**：98/100 ✅ 全面的企业级微服务与文档 - **安全基础设施**：95/100 ✅ 具备高级威胁防护的零信任架构 - **API 实现**：98/100 ✅ 100 多个端点，经过全面测试与文档编写 - **前端框架**：95/100 ✅ 具备实时功能的现代 React/TypeScript - **智能体系统**：98/100 ✅ 带有智能编排的 23 个以上专业智能体 - **OSINT 数据收集**：97/100 ✅ 全谱系情报能力 - **类型安全**：95/100 ✅ 全面的类型检查与验证 - **文档**：100% ✅ 生产级部署与运维指南 - **合规性**：90/100 ✅ GDPR、CCPA 及政府合规框架 ### **🚀 版本 2.0 新特性 - 企业版发布** - **增强的安全中间件**：高级威胁检测与自动化响应 - **AI 智能体协调**：智能多智能体工作流编排 - **生产部署套件**：带有监控的完整 Kubernetes 部署 - **合规框架**：内置 GDPR、CCPA 及政府合规特性 - **企业级监控**：带有智能告警的 Prometheus/Grafana 仪表盘 - **高级分析**：实时性能指标与运营情报 - **安全加固**：全面的安全审计与漏洞修复 - **卓越运营**：全面的备份、灾难恢复与维护程序 ### **🔒 已完成的关键安全增强** - **零信任架构**：采用深度防御策略的完整实现 - **高级威胁防护**：DDoS 防护、速率限制与安全标头 - **全面的审计日志**：所有安全事件均被追踪与归 - **数据加密**：静态与传输中的加密以及安全的密钥管理 - **访问控制**：具有精细访问控制权限的基于角色的授权 - **漏洞修复**：所有严重和高危漏洞均已解决 ## 🚀 **部署说明** ### **Docker 部署** ``` # 使用 Docker Compose 快速部署 docker-compose up -d # 生产部署 docker-compose -f docker-compose.production.yml up -d ``` ### **Kubernetes 部署** ``` # 部署到 Kubernetes 集群 kubectl apply -f k8s/ # 监控部署 kubectl get pods -n osint-os ``` ### **环境配置** - **开发环境**：SQLite + Redis + 本地 LLM - **预发布环境**：PostgreSQL + Redis Cloud + OpenRouter - **生产环境**：PostgreSQL HA + Redis Cluster + 多家 LLM 提供商 ## 🔐 **安全合规** ### **企业安全特性** - **身份验证**：带有刷新令牌与黑名单机制的 JWT - **授权**：基于角色的访问控制 (管理员/分析师/查看者) - **审计追踪**：全面的安全事件日志 - **数据保护**：静态与传输中的加密 - **速率限制**：高级 DDoS 防护 - **输入验证**：全面的请求校验 - **CORS 安全**：可配置的源策略 ### **合规准备** - **GDPR**：数据隐私与保护功能 - **CCPA**：消费者数据权利实现 - **FedRAMP**：政府合规框架 (规划中) - **ISO 27001**：信息安全管理体系 (规划中) ## 📚 **文档** ### **📖 用户文档** - [安装指南](./docs/installation-guide.md) - [用户手册](./docs/user-manual.md) - [API 文档](./docs/api-contracts-backend.md) - [故障排除指南](./docs/troubleshooting-guide.md) ### **🏗️ 技术文档** - [架构概览](./docs/architecture-overview.md) - [后端架构](./docs/backend-architecture.md) - [前端架构](./docs/frontend-architecture.md) - [安全架构](./docs/security-architecture.md) ### **🚀 部署文档** - [生产部署指南](./docs/production-deployment-guide.md) - [安全配置指南](./docs/security-configuration-guide.md) - [数据库设置指南](./docs/database-setup-guide.md) - [监控指南](./docs/monitoring-guide.md) ### **🔧 开发文档** - [开发指南](./docs/development-guide.md) - [API 参考](./docs/api-reference.md) - [贡献指南](./CONTRIBUTING.md) - [行为准则](./CODE_OF_CONDUCT.md) ## 🤝 **参与贡献** 我们欢迎来自情报界、开发人员和安全研究人员的贡献。 ### **如何贡献** 1. **Fork** 本仓库 2. **创建** 特性分支 (`git checkout -b feature/amazing-feature`) 3. **提交** 您的更改 (`git commit -m 'Add amazing feature'`) 4. **推送** 到分支 (`git push origin feature/amazing-feature`) 5. **发起** Pull Request ### **贡献领域** - **🤖 AI 智能体**：新的收集、分析或综合智能体 - **🔍 数据源**：额外的 OSINT 数据源集成 - **🛡️ 安全**：安全增强与漏洞修复 - **📊 分析**：高级数据分析与可视化 - **🌐 国际化**：多语言支持 - **📖 文档**：文档改进与翻译 ### **开发标准** - **代码质量**：遵循既定的编码规范 - **测试**：在提交新功能时包含全面的测试 - **文档**：API 变更时同步更新文档 - **安全性**：遵循安全最佳实践 ## 📄 **许可证** 本项目采用 MIT 许可证进行授权 - 详见 [LICENSE](LICENSE) 文件。 ### **商业用途** 如需商业部署和企业支持，请通过以下方式联系我们： - **邮箱**：enterprise@osint-os.com - **网站**：https://osint-os.com/enterprise ## 📞 **支持与社区** ### **获取帮助** - **📖 文档**：查阅我们的全面文档 - **🐛 Issues**：通过 [GitHub Issues](https://github.com/OSINT-OS/OSINT-OS/issues) 报告缺陷 - **💬 讨论区**：加入我们的 [GitHub Discussions](https://github.com/OSINT-OS/OSINT-OS/discussions) - **📧 邮箱**：support@osint-os.com ### **社区** - **Discord**：[加入我们的 Discord 服务器](https://discord.gg/osint-os) - **Twitter**：[@OSINT_OS](https://twitter.com/OSINT_OS) - **LinkedIn**：[ScrapeCraft OSINT](https://linkedin.com/company/scrapecraft-osint) ### **专业支持** - **企业支持**：为企业部署提供 7x24 小时支持 - **咨询**：OSINT 方法论与部署咨询 - **培训**：为团队提供的全面培训计划 - **定制开发**：定制智能体与集成开发

**🕵️‍♂️ ScrapeCraft OSINT 平台** *情报机构级开源情报系统* [网站](https://osint-os.com) • [文档](./docs/) • [API](./docs/api-contracts-backend.md) • [支持](#-support--community) 用 ❤️ 为全球情报界打造

由 [Ishan Parihar](https://github.com/ishanparihar) 开发 — 如果您觉得这个项目有用，请[考虑支持](https://rzp.io/rzp/ishan-parihar)

标签：AI工作流编排, AV绕过, DLL 劫持, ESC4, FastAPI, GitHub, JWT, LLM集成, OpenAI, OpenRouter, OPSEC, OSINT, PyRIT, Python, RBAC, WebSocket, 企业级安全, 依赖分析, 内存规避, 多智能体系统, 大语言模型, 子域名突变, 实时协同, 实时处理, 情报分析, 情报平台, 情报收集, 搜索引擎查询, 数据融合, 无后门, 智能体框架, 测试用例, 漏洞研究, 结构化报告, 网络安全, 网络诊断, 自动化调查, 自定义请求头, 请求拦截, 逆向工具, 防失误, 隐私保护, 零信任架构