phantomx39/Scraper

GitHub: phantomx39/Scraper

一个本地优先的开源暗网情报工具,通过深度集成 Tor 匿名网络与大语言模型,自动化地爬取、提取并分析 .onion 域名的非结构化数据,帮助安全分析师高效获取可操作的威胁情报。

Stars: 4 | Forks: 0

# Deep Web Scraper Deep Web Scraper 是一款先进的、本地优先的开源网络情报 (OSINT) 应用程序,专为访问和分析暗网数据而设计。该工具专为网络安全研究人员、威胁情报分析师和隐私倡导者打造,无缝连接了安全的 Tor 网络爬虫与前沿的大型语言模型 (LLMs)。 通过将搜索完全通过本地系统的 Tor 代理进行路由,Deep Web Scraper 保证了绝对的操作安全性,同时防止了搜索意图的泄露。它拥有一个炫酷的赛博朋克风格 React 仪表盘,用于发布可追踪的命令,并配备了一个高度安全的管理面板,用于用户和审计日志管理。 ### ✨ 主要功能 - **Tor 网络集成**:通过本地 SOCKS5 代理路由安全地爬取 `.onion` 域名。 - **LLM 驱动分析**:与 OpenAI、Anthropic、Gemini、Groq 和 Ollama 连接,自动摄取、总结并从非结构化的暗网页面中提取可操作的情报。 - **本地优先架构**:100% 的数据保留在您的本机上。没有云数据库,没有遥测,也没有第三方跟踪。 - **安全管理面板**:内置 SQLite 数据库和哈希凭证,允许管理员审计历史搜索日志和清除用户数据。 - **赛博朋克 UI/UX**:使用 React 和 Vite 构建的沉浸式、高响应性的终端美学界面。 ### 🛠️ 技术栈 * **前端**:React (v18.2.0), Vite (v5.0.0), Lucide Icons (v0.294.0) * **后端**:FastAPI (v0.136.1), Uvicorn (v0.46.0) * **AI 与逻辑**:LangChain (v1.3.2), OpenAI SDK (v2.33.0) * **爬取**:BeautifulSoup4 (v4.14.3), Requests (v2.33.1), PySocks (v1.7.1) * **数据库**:SQLite (Python 3 原生) ## 📸 应用程序截图 以下是 Scraper UI 运行时的界面一览:

Admin Panel Intelligence Dashboard

Login Gateway Settings Panel

## 🚀 快速入门指南 ### 1. 前置条件 ### 2. 环境配置 应用程序依赖 API 密钥来与您首选的 AI 模型进行通信。 ### 3. 安装说明 ### 4. 运行应用程序 或者,您可以通过终端手动运行它: ``` python -m uvicorn api:app --host 0.0.0.0 --port 8501 ``` ## 🔐 默认凭证 首次启动时,数据库 (`storage.db`) 会自动创建并带有一个默认的管理员账户。 * **管理员用户名**:`admin` * **管理员密码**:`123` ## 🛠️ 使用说明与功能 * **登录/注册**:用户可以创建基本账户以保存其搜索查询和历史记录。管理员账户可对所有实例进行监督。 * **LLM 选择**:在主仪表盘中,使用下拉菜单选择您所需的 AI 模型。只有在 `.env` 文件中配置的模型才可用。 * **暗网爬取**:输入搜索查询。应用程序将通过 Tor 路由请求,爬取暗网链接,并将数据提供给您选择的 LLM 以生成情报报告。 * **管理面板**:以 `admin` 身份登录以访问管理面板。在这里,您可以监督所有用户、查看全局搜索历史、清除数据以及查看用户反馈。 ## 📄 许可证 本项目是开源的,基于 [GNU General Public License v3.0 (GPLv3)](LICENSE) 授权。您可以自由使用、修改和分发本软件,前提是任何修改或衍生作品也必须在相同的开源 GPLv3 许可证下分发。
标签:Anthropic, AV绕过, BeautifulSoup, CIS基准, DLL 劫持, ESC4, FastAPI, Gemini, LangChain, LLM评估, LLM集成, Ollama, .onion, OpenAI, OSINT, React, SOCKS5代理, SQLite, Syscalls, Tor网络, Vite, 代码示例, 内存规避, 大语言模型, 威胁情报分析, 实时处理, 审计日志, 情报收集, 数据分析, 数据泄露, 数据隐私, 暗网抓取, 本地优先, 深度网络爬虫, 漏洞研究, 管理员面板, 网络安全, 自定义脚本, 赛博朋克UI, 轻量级, 逆向工具, 隐私保护