laugiov/scambuster

GitHub: laugiov/scambuster

一个基于多智能体 LLM 架构的防御性威胁情报研究平台，通过自适应 AI 对话从诈骗邮件中自动提取 IOC 并关联攻击活动。

Stars: 1 | Forks: 0

# ScamBuster **防御性交互与威胁情报研究实验室（以电子邮件为核心）** ![Status](https://img.shields.io/badge/status-active-brightgreen) ![Stack](https://img.shields.io/badge/stack-PHP%208.3%20|%20Symfony%207%20|%20PostgreSQL%20|%20LLM-green) ![Tests](https://img.shields.io/badge/tests-955%20passing-brightgreen) [![License: MIT](https://img.shields.io/badge/License-MIT-blue.svg)](LICENSE) ScamBuster 通过**可控的、策略驱动的交互**，将入站诈骗邮件转化为**可操作的威胁情报**。该项目服务于防御性安全、欺诈防范和应用研究目的（非攻击性用途）。它提取 IOC，映射攻击活动，衡量交互效果，并以 STIX/MISP 格式导出情报。所有工作流均设有安全门控、成本感知，并可完全审计。这是一个学术研究项目（网络安全 E-MSc 硕士论文），探索对话式 AI、博弈论和网络威胁情报的全新交叉领域。 ## 问题：电子邮件诈骗规模巨大，且对防御者来说大多是“不可见”的电子邮件诈骗的运营规模巨大。大多数安全项目被迫采取**拦截即忘**的姿态：邮件被移除，但攻击者的基础设施、资金渠道和攻击活动信号在很大程度上仍未被察觉。行业估计和来源数据记录在[问题陈述](docs/01_problem_statement.md)中。这造成了结构性的缺口。跨邮件和攻击活动的归因寥寥无几，对不断演变的 TTP 和基础设施复用的可见性有限，对实际有效措施的反馈回路迟缓。大多数组织错失了通过与威胁行为者进行现实世界交互来生成情报的机会。 ScamBuster 通过安全、大规模地将诈骗邮件转化为可度量的威胁情报，来探索这一缺口。 ## ScamBuster：从拦截到理解 ScamBuster 是一个**研究实验室**，通过受控的 AI 交互将电子邮件诈骗转化为可操作的情报。 ### 愿景：诈骗观察站 ScamBuster 不再丢弃诈骗邮件，而是建立了一个**观察站**，用于回答关键问题： | 问题 | ScamBuster 洞察 | |----------|-------------------| | **哪些诈骗类型正在流行？** | 跨 13 个类别的实时分类 | | **哪些角色能最大化交互？** | 自适应学习识别每种诈骗类型的最佳策略 | | **诈骗者泄露了哪些 IOC？** | 自动提取 34 种指标类型 | | **攻击活动如何演变？** | 随时间进行的聚类和归因 | | **什么手段对不同诈骗者有效？** | 数据驱动的优化，而非直觉 | ### 三个研究维度 ``` +---------------------------------------------------------------------+ | SCAMBUSTER RESEARCH LABORATORY | +---------------------------------------------------------------------+ | | | +------------------+ +------------------+ +------------------+ | | | CONVERSATIONAL | | INTELLIGENCE | | ADAPTIVE | | | | LABORATORY | | EXTRACTION | | LEARNING | | | +------------------+ +------------------+ +------------------+ | | | | | | | | | | | Test which | | Analyze how & | | Automatically | | | | personas work | | when IOCs are | | optimize | | | | best for each | | revealed during | | strategies via | | | | scam type | | conversations | | reinforcement | | | | | | | | learning | | | +------------------+ +------------------+ +------------------+ | | | +---------------------------------------------------------------------+ ``` ## 试点结果（2026 年 2 月） ### 受控的实时部署（60 天） | 指标 | 数值 | 备注 | |--------|-------|-------| | **对话数** | +1K | 真实诈骗者参与 | | **提取的 IOC** | +20K | 邮箱、电话、IBAN、加密货币钱包 | | **IOC 精确度** | 审计样本 (N=107) 上 100% | 相比仅正则基线的 44% | | **系统正常运行时间** | 60 天 | 零事故，完全自动化 | | **运营成本** | EUR 5.2 | LLM API 总成本 | | **单个 IOC 成本** | EUR 0.0002 | 可忽略的运营费用 | | **最大交互时长** | 48.7 小时 | 最长的持续互动 | | **角色差异** | 最好/最差之间相差 5.5 倍 | 数据驱动的角色优化 | ### 验证摘要自适应策略选择在 2,221 个合成对话上进行了验证，结果具有统计显著性 (p < 0.001, Cohen's d = 0.37)。完整的方法论和统计细节可在[评估方法论](docs/05_evaluation_methodology.md)中找到。 ### 关键发现 **策略表现因诈骗类型而异** 自适应系统发现： - 最佳策略在不同诈骗类别间差异显著 - 人类关于“最佳”方法的直觉往往是错误的 - 数据驱动的选择优于随机分配 **攻击活动归因** 从 +1K 对话中，识别出**协同行动**： - 共享基础设施（跨对话的相同 IBAN） - 共同 TTP（消息模板、升级模式） - 地理聚类（电话号码前缀） ## 工作原理 ### 多 Agent LLM 架构（5 个 Agent）五个专门的 AI Agent 协同工作： | Agent | 角色 | 成就 | |-------|------|-------------| | **ScamClassifier** | 对入站诈骗进行分类 | 82% 自动分类，13 种类型 | | **IocExtractor** | 提取威胁指标 | 审计样本上 100% 精确度，34 种 IOC 类型 | | **Generator** | 生成上下文回复 | IBAN 检测后 IOC 增加 +35% | | **Validator** | 确保安全与质量 | 95% 批准率 (PolicyGuard + LLM) | | **Orchestrator** | 协调并优化成本 | 了解更多 • 架构 • 路线图 • FAQ

标签：ESC8, ffuf, IOC提取, LLM, OpenVAS, Petitpotam, PHP, PostgreSQL, PyRIT, STIX, Symfony, Unmanaged PE, 人工智能, 反诈骗, 多智能体系统, 威胁情报, 威胁搜寻, 学术研究, 开发者工具, 数据清洗, 欺诈检测, 用户模式Hook绕过, 社会工程学, 网络安全, 自动化响应, 请求拦截, 邮件安全, 隐私保护