N4rr34n6/MetadataHarvester
GitHub: N4rr34n6/MetadataHarvester
一款面向网络安全场景的文件元数据自动采集与提取工具,通过爬取网站文件并调用 ExifTool 将元数据结构化存储,支持 Tor 匿名访问。
Stars: 0 | Forks: 1
### README.md
# MetadataHarvester
MetadataHarvester 是一款高级文件元数据提取工具,专为网络安全专业人员、研究人员和分析师设计。该工具能够高效扫描网站以寻找可下载文件,使用 ExifTool 提取元数据,并将信息以结构化格式存储,以便进行全面分析。借助通过 Tor 网络进行深度网络搜索的能力,MetadataHarvester 为从各种文件类型中收集关键元数据提供了无与伦比的通用性。
## 主要特性
- **全面的元数据提取**:从各种文件类型中提取详细的元数据,包括 PDF、DOC、DOCX、JPG、PNG 等多种格式。
- **Tor 网络兼容性**:与 Tor 网络无缝集成,确保匿名性并能够访问 .onion 域名,从而将其范围扩展到深层网络。
- **自动数据记录**:将元数据存储在 SQLite 数据库中,便于管理和未来的分析。
- **自定义文件类型**:根据特定需求自定义文件类型搜索,或者扫描所有受支持的文件类型。
- **高效的 Web 爬取**:采用用户代理轮换和随机延迟的方式爬取网页,而不会触发安全防御机制。
- **集成 ExifTool**:利用 ExifTool 的强大功能,从受支持的文件中提供准确且详细的元数据提取。
- **简单的输出选项**:将结果保存在数据库中或作为简单的文本文件。
## 安装
在使用 MetadataHarvester 之前,请确保已安装所需的依赖项。
### 前置条件
- Python 3.6+
- 已安装并正在运行 Tor 服务
- 已安装 ExifTool(在基于 Debian 的系统上使用 `sudo apt-get install libimage-exiftool-perl`)
### 步骤
1. 克隆仓库:
git clone https://github.com/n4rr34n6/MetadataHarvester.git
cd MetadataHarvester
2. 安装依赖项:
pip3 install -r requirements.txt
3. 确保 Tor 服务已激活并正确配置:
sudo service tor start
## 使用方法
通过指定目标 URL 和输出文件来运行脚本:
```
python3 MetadataHarvester.py -u https://example.com -o output.db
```
您也可以指定要搜索的文件类型:
```
python3 MetadataHarvester.py -u https://example.com -o output.db -t pdf,docx
```
## 技术细节
- **Web 抓取**:使用 `BeautifulSoup` 进行 HTML 解析,并使用 `requests` 处理 HTTP 和 HTTPS 连接。
- **Tor 集成**:使用 SOCKS5 代理通过 Tor 网络路由流量。
- **ExifTool**:从文件中提取元数据,并将结果存储在 SQLite 数据库或文本文件中,提供灵活的输出选项。
## 道德使用与法律考量
MetadataHarvester 旨在用于合法研究、网络安全分析和文件管理。未经授权扫描或从网站提取数据可能违反服务条款和相关法律法规。开发者对任何滥用本工具的行为概不负责。
## 许可证
本项目基于 GNU Affero General Public License v3.0 提供。您可以在 [LICENSE](LICENSE) 文件中找到完整的许可证文本。
标签:DNS枚举, ESC4, ExifTool, .onion, OSINT, Python, Splunk, SQLite, Tor网络, 元数据提取, 字符串匹配, 数字取证, 数据泄露, 数据清洗, 文件分析, 无后门, 暗网爬虫, 深度网络搜索, 用户代理轮换, 网络安全工具, 自动化收集, 自动化脚本, 进程保护, 逆向工具, 黑盒测试