Yakubvarsee/A-Fast-Clustering-Evidence-Extraction-System-for-Digital-Forensic.

GitHub: Yakubvarsee/A-Fast-Clustering-Evidence-Extraction-System-for-Digital-Forensic.

基于 Python 和机器学习的数字取证工具，通过聚类分析、规则匹配和敏感数据检测自动识别可疑文件并生成取证报告。

Stars: 0 | Forks: 0

# 🔍 智能数字取证分析系统一个基于 Python 的数字取证分析系统，结合了**机器学习**、**异常检测**和**基于规则的分析**，可自动识别可疑文件，并协助调查人员进行数字取证调查。 ## 📖 概述数字取证调查通常需要分析数以千计的文件以识别潜在证据。手动分析耗时且容易出错。本项目通过提取文件元数据、应用基于机器学习的聚类分析以及使用取证规则来检测可疑文件，从而实现整个流程的自动化。该系统帮助调查人员根据文件类型、时间戳、文件大小、关键字、敏感信息、重复文件和恶意软件指标等因素，快速识别出可能需要进一步检查的文件。 ## ✨ 功能 ### 📂 文件元数据提取 * 文件名 * 文件路径 * 文件大小 * 文件扩展名 * 创建时间 * 修改时间 * 访问时间 ### 📅 基于时间的过滤 * 过滤特定日期范围内的文件。 * 将调查重点放在相关时间段。 ### 🔎 威胁关键字检测在文件名和内容中搜索可疑关键字，例如： ``` password admin login unauthorized malware attack access denied root confidential ``` ### 🤖 基于机器学习的检测 * MiniBatch K-Means 聚类 * 异常检测 * 可疑文件识别 * 离群点分析 ### ⚠️ 可疑度评分系统文件通过以下标准进行评估： * 可疑文件扩展名 * 近期文件活动 * 文件大小异常 * 威胁关键字 * 敏感数据指标 * 聚类异常 ### 🪪 敏感数据检测检测： * Aadhaar 号码 * 电子邮件地址 * 信用卡模式 * 电话号码 ### 📄 重复文件检测使用文件哈希识别重复文件，减少冗余证据。 ### 🦠 恶意软件指标检测基于以下特征标记潜在恶意文件： * 可执行扩展名 * 双重扩展名 * 可疑命名模式 * 隐藏的可执行行为 ### 🖥️ 图形用户界面 (GUI) 使用 Tkinter 构建： * 文件夹选择 * 日期过滤器 * 威胁关键字过滤器 * 运行分析 * 导出结果 ### 📊 CSV 报告生成生成包含以下内容的调查报告： * 可疑文件列表 * 可疑度评分 * 检测原因 * 聚类结果 ## 🏗️ 系统架构 ``` User Input │ ▼ File Extraction Module │ ▼ Preprocessing & Feature Engineering │ ▼ Threat Keyword Filtering │ ▼ Machine Learning Clustering │ ▼ Anomaly Detection │ ▼ Suspicion Scoring Engine │ ▼ Sensitive Data Detection │ ▼ Duplicate File Detection │ ▼ Result Visualization (GUI) │ ▼ CSV Report Generation ``` ## 🛠️ 使用的技术 * Python * Pandas * NumPy * Scikit-Learn * Tkinter * MiniBatch K-Means * Hashlib * 正则表达式 (Regex) ## 📋 检测参数 | 参数 | 用途 | | ------------------ | ---------------------------------- | | 文件扩展名 | 检测高风险文件类型 | | 文件大小 | 识别异常的文件大小 | | 访问时间 | 检测最近访问的文件 | | 修改时间 | 检测最近修改的文件 | | 威胁关键字 | 搜索可疑术语 | | 敏感数据 | 检测 Aadhaar、电子邮件、信用卡 | | 重复文件 | 识别重复的文件 | | 异常评分 | 检测离群行为 | | 恶意软件指标 | 标记可疑可执行文件 | ## 🚀 如何运行 ### 安装依赖项 ``` pip install pandas numpy scikit-learn tk python-magic ``` ### 运行应用程序 ``` python forensic_gui_prototype.py ``` ## 📈 项目目标 * 自动化数字取证调查。 * 减少手动证据分析的工作量。 * 使用机器学习检测可疑文件。 * 提高调查效率。 * 生成取证调查报告。 * 识别敏感信息和重复文件。 * 支持网络安全和数字取证研究。 ## 🎯 应用场景 * 数字取证 * 网络犯罪调查 * 安全审计 * 事件响应 * 恶意软件调查 * 证据收集 * 学术研究 ## 🔮 未来增强功能 * 基于 AI 的威胁检测 * 深度学习集成 * 实时监控 * 基于云的取证分析 * 高级恶意软件分析 * 仪表盘可视化 * 内存取证支持 * 网络取证集成 ## 👨‍💻 作者 **Yakub Varsee** B.Tech – 网络安全与取证工程 ### 专利持有人 **使用 IoT 的网络犯罪类型检测、通信和法条识别系统** 印度专利号：**202521008511** ## 📜 许可证本项目专为教育、研究和数字取证调查目的而开发。

标签：Apex, Python, 代码示例, 敏感数据识别, 数字取证, 数据分析, 无后门, 机器学习, 自动化脚本, 逆向工具