leonongoing/find-evil-agent
GitHub: leonongoing/find-evil-agent
这是一个 AI 驱动的事件响应代理,通过置信度评分解决安全取证工具中的幻觉问题,确保发现基于证据。
Stars: 0 | Forks: 0
# FinSOC Agent — 基于置信度评分的AI驱动事件响应




## 核心差异点
大多数AI取证工具存在幻觉问题:模型会自信地报告那些未得到底层工具输出支持的结果。在安全领域,这很危险。
**FinSOC Agent的置信度评分层**解决了这个问题。每项发现必须通过一个确定性评分引擎,然后才能呈现给分析师。没有评分,就没有报告。分析师始终能清楚地知道哪些工具命令产生了哪些证据。
```
Finding: DNS Tunneling Detected
Confidence: 72/100 (HIGH)
Evidence: tshark dns_extract → 15 long subdomain queries
MITRE: T1071.004
IOCs: a3f2b1c9d8e7.evil-c2.com, ...
```
## 快速开始
```
# 安装依赖项
pip install mcp anthropic
# 运行 MCP 服务器(用于 OpenClaw 集成)
python src/mcp_server.py
# 在 case 目录上运行独立分析
python src/agent.py --case samples/demo_case/ --verbose
# 运行并输出 JSON
python src/agent.py --case samples/demo_case/ --json
```
**演示(单个PCAP文件):**
```
python src/agent.py --case samples/demo_case/demo_traffic.pcap
```
## 架构
```
OpenClaw Agent Runtime
↓
FinSOC SKILL.md (natural language interface)
↓
MCP Server — src/mcp_server.py
↓
SIFT Tools: vol | tshark | fls | yara | strings | binwalk
↓
Confidence Scoring Engine — src/confidence.py
↓
Structured IR Report (findings + evidence chain)
```
## MCP 工具(共10个)
| 工具 | 类别 | 描述 |
|------|------|------|
| `memory_pslist` | 内存 | 从Windows内存转储中列出进程(Volatility3) |
| `memory_netscan` | 内存 | 从内存转储中扫描网络连接 |
| `memory_malfind` | 内存 | 检测注入代码 / 空心进程 |
| `network_dns_extract` | 网络 | 从PCAP中提取DNS查询(tshark) |
| `network_http_extract` | 网络 | 提取HTTP会话和用户代理 |
| `network_connections` | 网络 | 从PCAP构建连接图 |
| `filesystem_list` | 文件系统 | 从磁盘镜像中列出文件(Sleuthkit fls) |
| `yara_scan` | 恶意软件 | 使用YARA规则扫描工件 |
| `binary_strings` | 恶意软件 | 从可疑二进制文件中提取字符串 |
| `score_finding` | 评分 | 基于证据质量对发现进行评分 |
## 置信度评分
评分基于四个维度计算:
| 维度 | 最高分 | 计算方式 |
|------|--------|----------|
| 工具可靠性 | 60 | Volatility3=0.95, tshark=0.90, YARA=0.85, strings=0.60 |
| 佐证 | 20 | 每个独立工具+8分(上限20分) |
| IOC特异性 | 15 | MD5/SHA256=5分, URLs=3分, strings=1分 |
| MITRE映射 | 5 | 若映射到ATT&CK技术则+5分 |
**标签:**
- 90–100: 已确认
- 70–89: 高
- 50–69: 中
- 30–49: 低
- 0–29: 推测(默认不显示)
## 项目结构
```
find-evil-agent/
├── src/
│ ├── agent.py # Main IR agent — orchestrates tools + scoring
│ ├── confidence.py # Confidence Scoring Engine
│ ├── tools.py # SIFT tool wrappers (tshark, vol, fls, yara)
│ └── mcp_server.py # MCP Server — 10 tools over stdio
├── samples/
│ └── demo_case/
│ ├── demo_traffic.pcap # Sample network capture
│ ├── financial_malware.yar # YARA rules for financial malware
│ └── suspicious_script.ps1 # Sample malicious PowerShell
├── docs/
│ ├── devpost-writeup.md # Hackathon submission writeup
│ ├── demo-video-script.md # 3-minute demo video script
│ └── submission-checklist.md # Submission steps for Leon
├── skills/
│ └── SKILL.md # OpenClaw skill definition
└── tests/
└── test_confidence.py # Unit tests (6/6 passing)
```
## 演示结果
针对 `samples/demo_case/demo_traffic.pcap` 运行:
```
============================================================
INCIDENT RESPONSE FINDINGS REPORT
Generated: 2026-05-17T00:00:00Z
Total Findings: 2
============================================================
[1] HIGH — exfiltration
Description: Possible DNS tunneling: 15 long subdomain queries detected
Confidence: 72/100 (HIGH)
MITRE: T1071.004
IOCs: a3f2b1c9d8e7.evil-c2.com, ...
[2] HIGH — c2_communication
Description: Suspicious HTTP user agents detected: python-requests/2.28
Confidence: 70/100 (HIGH)
MITRE: T1071.001
IOCs: python-requests/2.28, PowerShell/5.1
```
## 要求
- Python 3.10+
- SANS SIFT工作站(或单独工具:tshark, volatility3, sleuthkit, yara, strings, binwalk)
- `pip install mcp anthropic`
## 黑客松
**比赛:** [FIND EVIL! by SANS Institute](https://findevil.devpost.com/)
**评分标准:** 自主执行质量 · 事件响应准确性 · 审计追踪质量 · 广度与深度 · 约束实施 · 易用性与文档
标签:AI幻觉解决, AI驱动, binwalk, fls, JARM, MCP协议, MITRE ATT&CK映射, OpenClaw运行时, Python编程, SANS SIFT工具, strings, tshark, Volatility3, yara, 内存分析, 取证工具链, 安全运营, 扫描框架, 数字取证, 智能响应, 系统分析, 结构化报告, 网络分析, 网络安全, 置信度引擎, 置信度评分, 自动化分析, 自动化脚本, 证据链, 跨站脚本, 逆向工具, 隐私保护