N4rr34n6/MetadataHarvester

GitHub: N4rr34n6/MetadataHarvester

一款面向网络安全场景的文件元数据自动采集与提取工具，通过爬取网站文件并调用 ExifTool 将元数据结构化存储，支持 Tor 匿名访问。

Stars: 0 | Forks: 1

### README.md # MetadataHarvester MetadataHarvester 是一款高级文件元数据提取工具，专为网络安全专业人员、研究人员和分析师设计。该工具能够高效扫描网站以寻找可下载文件，使用 ExifTool 提取元数据，并将信息以结构化格式存储，以便进行全面分析。借助通过 Tor 网络进行深度网络搜索的能力，MetadataHarvester 为从各种文件类型中收集关键元数据提供了无与伦比的通用性。 ## 主要特性 - **全面的元数据提取**：从各种文件类型中提取详细的元数据，包括 PDF、DOC、DOCX、JPG、PNG 等多种格式。 - **Tor 网络兼容性**：与 Tor 网络无缝集成，确保匿名性并能够访问 .onion 域名，从而将其范围扩展到深层网络。 - **自动数据记录**：将元数据存储在 SQLite 数据库中，便于管理和未来的分析。 - **自定义文件类型**：根据特定需求自定义文件类型搜索，或者扫描所有受支持的文件类型。 - **高效的 Web 爬取**：采用用户代理轮换和随机延迟的方式爬取网页，而不会触发安全防御机制。 - **集成 ExifTool**：利用 ExifTool 的强大功能，从受支持的文件中提供准确且详细的元数据提取。 - **简单的输出选项**：将结果保存在数据库中或作为简单的文本文件。 ## 安装在使用 MetadataHarvester 之前，请确保已安装所需的依赖项。 ### 前置条件 - Python 3.6+ - 已安装并正在运行 Tor 服务 - 已安装 ExifTool（在基于 Debian 的系统上使用 `sudo apt-get install libimage-exiftool-perl`） ### 步骤 1. 克隆仓库： git clone https://github.com/n4rr34n6/MetadataHarvester.git cd MetadataHarvester 2. 安装依赖项： pip3 install -r requirements.txt 3. 确保 Tor 服务已激活并正确配置： sudo service tor start ## 使用方法通过指定目标 URL 和输出文件来运行脚本： ``` python3 MetadataHarvester.py -u https://example.com -o output.db ``` 您也可以指定要搜索的文件类型： ``` python3 MetadataHarvester.py -u https://example.com -o output.db -t pdf,docx ``` ## 技术细节 - **Web 抓取**：使用 `BeautifulSoup` 进行 HTML 解析，并使用 `requests` 处理 HTTP 和 HTTPS 连接。 - **Tor 集成**：使用 SOCKS5 代理通过 Tor 网络路由流量。 - **ExifTool**：从文件中提取元数据，并将结果存储在 SQLite 数据库或文本文件中，提供灵活的输出选项。 ## 道德使用与法律考量 MetadataHarvester 旨在用于合法研究、网络安全分析和文件管理。未经授权扫描或从网站提取数据可能违反服务条款和相关法律法规。开发者对任何滥用本工具的行为概不负责。 ## 许可证本项目基于 GNU Affero General Public License v3.0 提供。您可以在 [LICENSE](LICENSE) 文件中找到完整的许可证文本。

标签：DNS枚举, ESC4, ExifTool, .onion, OSINT, Python, Splunk, SQLite, Tor网络, 元数据提取, 字符串匹配, 数字取证, 数据泄露, 数据清洗, 文件分析, 无后门, 暗网爬虫, 深度网络搜索, 用户代理轮换, 网络安全工具, 自动化收集, 自动化脚本, 进程保护, 逆向工具, 黑盒测试