Yakubvarsee/A-Fast-Clustering-Evidence-Extraction-System-for-Digital-Forensic.
GitHub: Yakubvarsee/A-Fast-Clustering-Evidence-Extraction-System-for-Digital-Forensic.
基于 Python 和机器学习的数字取证工具,通过聚类分析、规则匹配和敏感数据检测自动识别可疑文件并生成取证报告。
Stars: 0 | Forks: 0
# 🔍 智能数字取证分析系统
一个基于 Python 的数字取证分析系统,结合了**机器学习**、**异常检测**和**基于规则的分析**,可自动识别可疑文件,并协助调查人员进行数字取证调查。
## 📖 概述
数字取证调查通常需要分析数以千计的文件以识别潜在证据。手动分析耗时且容易出错。本项目通过提取文件元数据、应用基于机器学习的聚类分析以及使用取证规则来检测可疑文件,从而实现整个流程的自动化。
该系统帮助调查人员根据文件类型、时间戳、文件大小、关键字、敏感信息、重复文件和恶意软件指标等因素,快速识别出可能需要进一步检查的文件。
## ✨ 功能
### 📂 文件元数据提取
* 文件名
* 文件路径
* 文件大小
* 文件扩展名
* 创建时间
* 修改时间
* 访问时间
### 📅 基于时间的过滤
* 过滤特定日期范围内的文件。
* 将调查重点放在相关时间段。
### 🔎 威胁关键字检测
在文件名和内容中搜索可疑关键字,例如:
```
password
admin
login
unauthorized
malware
attack
access denied
root
confidential
```
### 🤖 基于机器学习的检测
* MiniBatch K-Means 聚类
* 异常检测
* 可疑文件识别
* 离群点分析
### ⚠️ 可疑度评分系统
文件通过以下标准进行评估:
* 可疑文件扩展名
* 近期文件活动
* 文件大小异常
* 威胁关键字
* 敏感数据指标
* 聚类异常
### 🪪 敏感数据检测
检测:
* Aadhaar 号码
* 电子邮件地址
* 信用卡模式
* 电话号码
### 📄 重复文件检测
使用文件哈希识别重复文件,减少冗余证据。
### 🦠 恶意软件指标检测
基于以下特征标记潜在恶意文件:
* 可执行扩展名
* 双重扩展名
* 可疑命名模式
* 隐藏的可执行行为
### 🖥️ 图形用户界面 (GUI)
使用 Tkinter 构建:
* 文件夹选择
* 日期过滤器
* 威胁关键字过滤器
* 运行分析
* 导出结果
### 📊 CSV 报告生成
生成包含以下内容的调查报告:
* 可疑文件列表
* 可疑度评分
* 检测原因
* 聚类结果
## 🏗️ 系统架构
```
User Input
│
▼
File Extraction Module
│
▼
Preprocessing & Feature Engineering
│
▼
Threat Keyword Filtering
│
▼
Machine Learning Clustering
│
▼
Anomaly Detection
│
▼
Suspicion Scoring Engine
│
▼
Sensitive Data Detection
│
▼
Duplicate File Detection
│
▼
Result Visualization (GUI)
│
▼
CSV Report Generation
```
## 🛠️ 使用的技术
* Python
* Pandas
* NumPy
* Scikit-Learn
* Tkinter
* MiniBatch K-Means
* Hashlib
* 正则表达式 (Regex)
## 📋 检测参数
| 参数 | 用途 |
| ------------------ | ---------------------------------- |
| 文件扩展名 | 检测高风险文件类型 |
| 文件大小 | 识别异常的文件大小 |
| 访问时间 | 检测最近访问的文件 |
| 修改时间 | 检测最近修改的文件 |
| 威胁关键字 | 搜索可疑术语 |
| 敏感数据 | 检测 Aadhaar、电子邮件、信用卡 |
| 重复文件 | 识别重复的文件 |
| 异常评分 | 检测离群行为 |
| 恶意软件指标 | 标记可疑可执行文件 |
## 🚀 如何运行
### 安装依赖项
```
pip install pandas numpy scikit-learn tk python-magic
```
### 运行应用程序
```
python forensic_gui_prototype.py
```
## 📈 项目目标
* 自动化数字取证调查。
* 减少手动证据分析的工作量。
* 使用机器学习检测可疑文件。
* 提高调查效率。
* 生成取证调查报告。
* 识别敏感信息和重复文件。
* 支持网络安全和数字取证研究。
## 🎯 应用场景
* 数字取证
* 网络犯罪调查
* 安全审计
* 事件响应
* 恶意软件调查
* 证据收集
* 学术研究
## 🔮 未来增强功能
* 基于 AI 的威胁检测
* 深度学习集成
* 实时监控
* 基于云的取证分析
* 高级恶意软件分析
* 仪表盘可视化
* 内存取证支持
* 网络取证集成
## 👨💻 作者
**Yakub Varsee**
B.Tech – 网络安全与取证工程
### 专利持有人
**使用 IoT 的网络犯罪类型检测、通信和法条识别系统**
印度专利号:**202521008511**
## 📜 许可证
本项目专为教育、研究和数字取证调查目的而开发。
标签:Apex, Python, 代码示例, 敏感数据识别, 数字取证, 数据分析, 无后门, 机器学习, 自动化脚本, 逆向工具