leonongoing/find-evil-agent

GitHub: leonongoing/find-evil-agent

这是一个 AI 驱动的事件响应代理，通过置信度评分解决安全取证工具中的幻觉问题，确保发现基于证据。

Stars: 0 | Forks: 0

# FinSOC Agent — 基于置信度评分的AI驱动事件响应 ![Python 3.10+](https://img.shields.io/badge/Python-3.10%2B-blue?logo=python) ![MCP](https://img.shields.io/badge/Protocol-MCP-green) ![OpenClaw](https://img.shields.io/badge/Runtime-OpenClaw-orange) ![SANS SIFT](https://img.shields.io/badge/Toolkit-SANS%20SIFT-red) ## 核心差异点大多数AI取证工具存在幻觉问题：模型会自信地报告那些未得到底层工具输出支持的结果。在安全领域，这很危险。 **FinSOC Agent的置信度评分层**解决了这个问题。每项发现必须通过一个确定性评分引擎，然后才能呈现给分析师。没有评分，就没有报告。分析师始终能清楚地知道哪些工具命令产生了哪些证据。 ``` Finding: DNS Tunneling Detected Confidence: 72/100 (HIGH) Evidence: tshark dns_extract → 15 long subdomain queries MITRE: T1071.004 IOCs: a3f2b1c9d8e7.evil-c2.com, ... ``` ## 快速开始 ``` # 安装依赖项 pip install mcp anthropic # 运行 MCP 服务器（用于 OpenClaw 集成） python src/mcp_server.py # 在 case 目录上运行独立分析 python src/agent.py --case samples/demo_case/ --verbose # 运行并输出 JSON python src/agent.py --case samples/demo_case/ --json ``` **演示（单个PCAP文件）：** ``` python src/agent.py --case samples/demo_case/demo_traffic.pcap ``` ## 架构 ``` OpenClaw Agent Runtime ↓ FinSOC SKILL.md (natural language interface) ↓ MCP Server — src/mcp_server.py ↓ SIFT Tools: vol | tshark | fls | yara | strings | binwalk ↓ Confidence Scoring Engine — src/confidence.py ↓ Structured IR Report (findings + evidence chain) ``` ## MCP 工具（共10个） | 工具 | 类别 | 描述 | |------|------|------| | `memory_pslist` | 内存 | 从Windows内存转储中列出进程（Volatility3） | | `memory_netscan` | 内存 | 从内存转储中扫描网络连接 | | `memory_malfind` | 内存 | 检测注入代码 / 空心进程 | | `network_dns_extract` | 网络 | 从PCAP中提取DNS查询（tshark） | | `network_http_extract` | 网络 | 提取HTTP会话和用户代理 | | `network_connections` | 网络 | 从PCAP构建连接图 | | `filesystem_list` | 文件系统 | 从磁盘镜像中列出文件（Sleuthkit fls） | | `yara_scan` | 恶意软件 | 使用YARA规则扫描工件 | | `binary_strings` | 恶意软件 | 从可疑二进制文件中提取字符串 | | `score_finding` | 评分 | 基于证据质量对发现进行评分 | ## 置信度评分评分基于四个维度计算： | 维度 | 最高分 | 计算方式 | |------|--------|----------| | 工具可靠性 | 60 | Volatility3=0.95, tshark=0.90, YARA=0.85, strings=0.60 | | 佐证 | 20 | 每个独立工具+8分（上限20分） | | IOC特异性 | 15 | MD5/SHA256=5分, URLs=3分, strings=1分 | | MITRE映射 | 5 | 若映射到ATT&CK技术则+5分 | **标签：** - 90–100: 已确认 - 70–89: 高 - 50–69: 中 - 30–49: 低 - 0–29: 推测（默认不显示） ## 项目结构 ``` find-evil-agent/ ├── src/ │ ├── agent.py # Main IR agent — orchestrates tools + scoring │ ├── confidence.py # Confidence Scoring Engine │ ├── tools.py # SIFT tool wrappers (tshark, vol, fls, yara) │ └── mcp_server.py # MCP Server — 10 tools over stdio ├── samples/ │ └── demo_case/ │ ├── demo_traffic.pcap # Sample network capture │ ├── financial_malware.yar # YARA rules for financial malware │ └── suspicious_script.ps1 # Sample malicious PowerShell ├── docs/ │ ├── devpost-writeup.md # Hackathon submission writeup │ ├── demo-video-script.md # 3-minute demo video script │ └── submission-checklist.md # Submission steps for Leon ├── skills/ │ └── SKILL.md # OpenClaw skill definition └── tests/ └── test_confidence.py # Unit tests (6/6 passing) ``` ## 演示结果针对 `samples/demo_case/demo_traffic.pcap` 运行： ``` ============================================================ INCIDENT RESPONSE FINDINGS REPORT Generated: 2026-05-17T00:00:00Z Total Findings: 2 ============================================================ [1] HIGH — exfiltration Description: Possible DNS tunneling: 15 long subdomain queries detected Confidence: 72/100 (HIGH) MITRE: T1071.004 IOCs: a3f2b1c9d8e7.evil-c2.com, ... [2] HIGH — c2_communication Description: Suspicious HTTP user agents detected: python-requests/2.28 Confidence: 70/100 (HIGH) MITRE: T1071.001 IOCs: python-requests/2.28, PowerShell/5.1 ``` ## 要求 - Python 3.10+ - SANS SIFT工作站（或单独工具：tshark, volatility3, sleuthkit, yara, strings, binwalk） - `pip install mcp anthropic` ## 黑客松 **比赛：** [FIND EVIL! by SANS Institute](https://findevil.devpost.com/) **评分标准：** 自主执行质量 · 事件响应准确性 · 审计追踪质量 · 广度与深度 · 约束实施 · 易用性与文档

标签：AI幻觉解决, AI驱动, binwalk, fls, JARM, MCP协议, MITRE ATT&CK映射, OpenClaw运行时, Python编程, SANS SIFT工具, strings, tshark, Volatility3, yara, 内存分析, 取证工具链, 安全运营, 扫描框架, 数字取证, 智能响应, 系统分析, 结构化报告, 网络分析, 网络安全, 置信度引擎, 置信度评分, 自动化分析, 自动化脚本, 证据链, 跨站脚本, 逆向工具, 隐私保护