Prabesh-Proper/ThreatSage-Malware-Behavior-AI-Analyzer
GitHub: Prabesh-Proper/ThreatSage-Malware-Behavior-AI-Analyzer
基于机器学习的恶意软件行为分析工具,解析沙箱 JSON 报告并自动分类威胁类型,提供可解释的风险评分。
Stars: 2 | Forks: 0
# 🛡️ ThreatSage
### AI 驱动的恶意软件行为分析助手
ThreatSage 是一款**防御性网络安全研究工具**,用于分析沙箱生成的行为报告,并应用**机器学习**对可疑软件活动进行分类。
它提取行为指标,例如**网络连接、文件操作、注册表更改和进程行为**,然后通过**可解释的风险评分**预测潜在的恶意软件类别。
专为恶意软件行为分析领域的**网络安全学习、研究和 ML 实验**而设计。
# 🚀 核心功能
🔍 **基于行为的分析**\
解析沙箱式 JSON 报告并提取有意义的行为指标。
🤖 **机器学习分类**\
使用 Random Forest 模型将样本分类为威胁类别。
📊 **可解释的结果**\
提供风险等级、置信度分数以及预测背后的主要指标。
🧪 **合成数据集生成器**\
生成安全的合成沙箱报告,用于测试和 ML 训练。
📦 **批量数据集构建器**\
将多个 JSON 报告转换为结构化特征数据集。
💻 **命令行界面**\
完整的 CLI 工作流,用于生成数据、训练模型、评估性能和预测威胁。
🧩 **Schema 验证**\
确保训练和预测始终使用相同的特征顺序。
🧰 **自动化测试**\
包含验证完整 ML 工作流的管道测试。
# 📊 特征 Schema
ThreatSage 从沙箱报告中提取 **19 个行为特征**。
🌐 网络行为 - dns_count - http_count - tcp_connection_count - unique_ips - unique_domains
📁 文件系统活动 - file_write_count - file_delete_count - exe_drop_count - startup_folder_write - temp_write_count
🧾 注册表活动 - registry_write_count - autorun_key_modified - service_key_modified
⚙️ 进程行为 - process_spawn_count - powershell_used - cmd_used - suspicious_chain
🧠 高级指标 - persistence_detected - injection_like
# ⚙️ 安装
克隆仓库
git clone https://github.com/Prabesh-Proper/ThreatSage-Malware-Behavior-AI-Analyzer.git
cd ThreatSage
创建虚拟环境
python -m venv venv
激活环境
Windows: venv`\Scripts`{=tex}`\activate`{=tex}
Linux / macOS: source venv/bin/activate
安装依赖
pip install -r requirements.txt
# ▶️ 使用说明
生成合成沙箱报告
python src/main.py synth --output data/raw/reports/synthetic
构建数据集
python src/main.py build data/raw/reports/synthetic --output
data/processed/features.csv
训练 ML 模型
python src/main.py train data/processed/features.csv
评估模型
python src/main.py evaluate data/processed/features.csv
预测恶意软件行为
python src/main.py predict data/samples/demo_report.json
# 📈 示例输出
Prediction: trojan Confidence: 0.87 Risk Level: HIGH
Top Indicators • autorun_key_modified • powershell_used • exe_drop_count
• persistence_detected
Summary
The sample is classified as trojan with high confidence due to registry
persistence, dropped executable activity, and suspicious command
execution patterns.
# 🧪 测试
运行自动化测试
pytest tests
测试验证:
✔ 合成报告生成 ✔ 数据集构建管道 ✔ 模型训练工作流 ✔ 预测系统
# ⚖️ 道德与安全声明
ThreatSage 专为**防御性网络安全研究和教育**而设计。
❌ 它不生成恶意软件\
❌ 它不执行恶意二进制文件\
❌ 它不提供攻击能力
合成数据集安全地模拟沙箱行为以进行机器学习实验。
用户应仅分析**合法获取且安全隔离的沙箱报告**。
# 🔮 未来改进
- 真实沙箱报告数据集集成
- SHAP 可解释 AI 支持
- 用于分析的 Web 仪表板
- 特征重要性可视化
- MITRE ATT&CK 映射
- 异常检测模式
# 👨💻 作者
**Prabesh Raj Rijal**\
网络安全学生 | 道德黑客爱好者
标签:AMSI绕过, Apex, ATT&CK映射, DAST, DNS 反向解析, Homebrew安装, IP 地址批量处理, Python安全工具, TLS, 人工智能, 可解释性AI, 威胁情报, 威胁检测, 安全规则引擎, 开发者工具, 异常检测, 恶意软件分析, 数据集生成, 文档结构分析, 机器学习, 样本分析, 沙箱报告解析, 特征提取, 用户模式Hook绕过, 网络信息收集, 网络安全, 自动化分析, 跨站脚本, 逆向工具, 速率限制处理, 防御工具, 随机森林, 隐私保护