dfirsec/dup_file_finder
GitHub: dfirsec/dup_file_finder
一款用于扫描指定目录并基于SHA256哈希识别特定扩展名重复文件的Python脚本。
Stars: 0 | Forks: 0
# 重复文件查找器

此脚本用于扫描目录树,并识别具有指定文件扩展名的重复文件。它使用 SHA256 哈希来比较文件,并将重复匹配项输出到 CSV 文件中。
文件签名提供者:fleep [@ua-nick](https://github.com/ua-nick/fleep-py)
## 前置条件
Python 3.8 或更高版本
## 安装说明
1. 克隆仓库:
```
git clone https://github.com/dfirsec/dup_file_finder.git
```
2. 导航到项目目录:
```
cd dup_file_finder
```
3. 使用 poetry 安装依赖:
```
poetry install
```
## 使用说明
1. 创建虚拟环境:
```
poetry shell
```
2. 使用以下命令运行:
```
python dup_file_finder.py dirpath ext
```
- `dirpath`:用于扫描重复文件的目录路径。
- `ext`:要扫描的文件扩展名。
### 示例
```
python dup_file_finder.py /path/to/directory pdf
```
这将在指定目录中扫描 PDF 文件并识别重复的匹配项。结果将保存到 results 目录下名为 duplicate_matches.csv 的 CSV 文件中。
## 贡献指南
欢迎贡献!如果您发现任何问题或有改进建议,请创建一个 Issue 或提交 Pull Request。
## 许可证
本项目基于 MIT 许可证授权。
标签:MIT许可, Poetry, Python, Python 3.8, SHA256, Ubuntu, 二进制发布, 哈希校验, 开源工具, 数字取证, 数据清洗, 文件扫描, 文件查重, 文件管理, 无后门, 自动化脚本, 逆向工具, 重复文件查找