m02bd0/Sentinel-OSINT-Pipeline

GitHub: m02bd0/Sentinel-OSINT-Pipeline

一款去中心化的 OSINT 管道，通过 TLS 指纹模拟绕过 WAF 防护自主采集威胁情报，并借助 LLM 进行语义分析与结构化报告生成。

Stars: 2 | Forks: 1

# 🛡️ Sentinel-OSINT-Pipeline ## 📖 概述本项目是一个先进的、去中心化的开源情报 (OSINT) 管道。它能自主聚合、过滤并语义分析来自高规格、受 WAF 保护的源的网络安全新闻、零日漏洞报告和操作安全指南。该系统旨在以最少的人工干预提供可操作的情报。 ## 🏗️ 架构与技术栈 - **执行引擎:** 无状态、通过 **GitHub Actions** 编排的计划操作（Cron 触发）。 - **规避与提取:** - `curl_cffi`: 实现 **动态 TLS/JA3 指纹模拟**，以绕过像 Cloudflare 和 Datadome 这样的高级 Web 应用防火墙 (WAF)。 - `trafilatura`: 用于高保真、纯文本内容提取，剥离 DOM 噪音、广告和追踪器。 - `BeautifulSoup4`: 在未启用 RSS 的平台上，使用自定义 CSS 选择器进行精准定向抓取。 - **AI/LLM 分析:** 集成 **GPT-OSS 120B**（通过 Groq API）进行语义处理、去重，并以本地化格式生成结构化技术情报报告。 - **状态持久化:** 在 `data/` 目录中进行由 Git 支持的持久状态管理，与核心逻辑隔离，以确保 100% 无服务器运行。 - **OpSec 强化:** 实现执行抖动（随机分布间隔），以混淆自动化流量模式并规避基于启发式的机器人检测。 ## 🚀 快速开始 (部署) 要部署您自己的管道实例： 1. **Fork** 本代码库（点击本页面右上角的 "Fork" 按钮将其复制到您的帐户）。 2. 您需要三个密钥才能使管道正常工作： - 从 [Groq 控制台](https://console.groq.com/keys)获取您的免费 API 密钥。 - 在 Telegram 上通过 [@BotFather](https://t.me/botfather) 创建一个新 bot 并复制生成的 token。 - 您必须向您新创建的 bot 发送一条 `/start` 消息，否则 Telegram 会阻止它向您发送报告！ - 在 Telegram 上向 [@userinfobot](https://t.me/userinfobot) 发送消息以检索您的数字 Chat ID。 3. 在您 fork 的代码库中，导航至 **Settings > Secrets and variables > Actions**。 - 点击 **"New repository secret"** 按钮，并完全按照指定的名称（全部大写）添加以下 3 个 secrets，然后点击 Add secret： - 名称: `GROQ_API_KEY` | Secret: *(在此粘贴您的 Groq API 密钥)* - 名称: `TELEGRAM_BOT_TOKEN` | Secret: *(在此粘贴您的 Bot token)* - 名称: `TELEGRAM_CHAT_ID` | Secret: *(在此粘贴您的 Chat ID)* 4. 转到您代码库中的 **Actions** 标签页： - 点击按钮以 **Enable Workflows**（GitHub 默认在 fork 的代码库中禁用它们）。 - 点击左侧菜单中的 **"OpSec Intelligence Bot"**，然后点击 **"Run workflow"** 以触发首次手动运行并测试您的设置。 ## 📂 项目结构 ``` ├── .github/workflows/ │ └── bot.yml # CI/CD orchestration & automation logic ├── data/ │ ├── sent_urls.txt # Persistent state: tracks processed intelligence │ └── keepalive.txt # System heartbeat to maintain runner activity ├── opsec_news.py # Core Python intelligence & analysis engine ├── requirements.txt # Project dependency manifest └── .gitignore # Operational security exclusions ``` ## 🔒 安全与披露说明此公开代码库提供了管道的**核心引擎和架构**。为了维护私人监控操作的完整性，特定的高价值情报源和详细的历史执行日志被维护在一个独立的私有生产环境中。这确保了在面对不断演变的反机器人对策时的长期持久性，同时与社区共享该工具的功能。 *专为专业级安全研究和自动化威胁监控而开发。*

标签：BeautifulSoup4, BeEF, Cloudflare绕过, curl_cffi, DLL 劫持, ESC4, GitHub Actions, GPT, Groq API, JA3指纹, LLM, OpSec, OSINT, Python, Rego, Sysdig, Telegram机器人, TLS指纹模拟, trafilatura, Unmanaged PE, URL抓取, WAF绕过, 去中心化, 反爬虫, 大语言模型, 安全研发, 定时任务, 实时处理, 情报自动化, 数据抓取, 数据提取, 无后门, 智能分析, 漏洞管理, 爬虫, 网络威胁情报, 网络安全研究, 网络应用防火墙, 网络情报, 自动化情报收集, 自动笔记, 行为规避, 行动安全, 逆向工具, 零日漏洞