Garuda8887/Checker
GitHub: Garuda8887/Checker
这是一款用于 4chan 版块的快速并行化命令行工具,支持搜索、抓取及媒体下载,适用于开源情报收集与研究归档。
Stars: 7 | Forks: 0
# 4chan OSINT 爬虫与媒体下载器
一款功能强大的 CLI 工具,用于并行搜索、抓取 4chan 版块并下载媒体文件。
非常适合用于开源情报(OSINT)、研究和归档。

## 功能
- 🔍 **Regex & Keyword Search:** 使用关键词或正则表达式搜索选定的 4chan 版块中的主题和帖子。
- 🧵 **Thread & Post Scraping:** 在主题标题或帖子内容中查找匹配项。
- 🎨 **Terminal Highlighting:** 彩色关键词高亮,便于快速视觉解析。
- ⚡ **Parallel Processing:** 多线程搜索和下载,提升速度。
- 💾 **Media Archiving:** 可选择从主题或帖子中下载所有匹配的图片/webms。
- 🛡️ **SFW/NSFW Filtering:** 选择 SFW、NSFW 或自定义版块列表。
- 🐍 **Easy to Use:** 交互式 CLI(使用 `questionary` 构建)、进度条和清晰的反馈。
## 演示与使用
### 1. 启动脚本
```
python Checker.py
```
### 2. 选择版块

选择要搜索的版块:全部、SFW、NSFW 或自定义。
### 3. 设置搜索参数
- 输入您的关键词或正则表达式。
- 根据需要设置主题和 Worker 限制。

**为什么“每个版块的最大主题数”设置得这么高?**
4chan 版块可能包含大量活跃主题,且某些版块更新非常快。设置一个较高的最大值(例如 1000)可以确保您能搜索版块上的每一个活跃主题,而不会遗漏任何潜在的匹配项。这对于全面的 OSINT 任务或研究(完整性至关重要)特别有用。如果该数值设置过低,您可能会遗漏较新或不太活跃的主题。
### 4. 进度条
在并行搜索主题和下载媒体时,观察进度。

### 5. 结果示例
完成后,将显示结果和媒体位置。

## 下载媒体示例
搜索下载文件的预览:

## 安装
### 系统要求
- Python 3.8+
- [pip](https://pip.pypa.io/en/stable/installation/)
### 安装依赖
```
pip install -r requirements.txt
```
**(Requirements 文件应包含:`requests`, `tqdm`, `rich`, `questionary`)**
## 使用技巧
- 使用简单关键词(例如 `dog|cat|fox`)或高级正则表达式进行灵活搜索。
- 较大的主题/Worker 数量可以加快抓取速度,但可能会给您的网络带来压力或导致暂时被屏蔽。
- 下载的文件按版块/主题组织在 `media/` 目录中。
- 适用于 Windows、Linux、macOS。
## 许可证
MIT License
## 致谢
- 灵感来源于 OSINT 需求,使用开源 Python 库并怀着 ❤️ 构建。
- Banner 使用 ASCII 艺术工具生成。
## 免责声明
- 本工具仅供教育和研究目的使用。
- 请遵守 4chan 的 robots.txt 和合理使用政策。
- 作者不对任何滥用行为负责。
标签:4chan, CLI, ESC4, OSINT, Python, Questionary, SFW/NSFW过滤, WiFi技术, 信息搜集, 关键词检索, 内容抓取, 域名侦查, 媒体下载, 并行处理, 数据归档, 无后门, 正则搜索, 社交媒体监控, 逆向工具