rootdrifter/mirage
GitHub: rootdrifter/mirage
通过将因果图发现与结构化 LLM 询问相结合,评估大语言模型对社会工程学攻击心理机制的因果推理能力。
Stars: 0 | Forks: 0
# mirage
这是一篇达到学位论文水平的研究,旨在评估前沿的大语言模型 (LLM) 是否能够超越模式匹配,进而对驱动社会工程学成功的心理机制进行因果推理。核心问题是:一个 LLM 能否不仅标记出钓鱼信息,还能解释它*为什么*会奏效?
## 概述
社会工程学攻击 —— 钓鱼邮件、短信钓鱼、电话钓鱼 —— 之所以能够成功,是因为它们利用了认知启发法,而不是软件漏洞。现有的检测系统将电子邮件建模为无序的特征集合,标记词汇异常和黑名单匹配,同时忽略了促使收件人顺从的因果驱动因素 —— 紧迫感、权威性、信任。Verizon 的 2024 年度数据泄露调查报告 (DBIR) 发现,在 68% 的已确认数据泄露事件中都存在人为因素。这项研究融合了两种很少被结合在一起的分析传统:
1. **因果图发现** —— 使用四种算法的集成从真实的钓鱼数据中自动构建有向无环图 (DAG),并通过 DoWhy 反驳测试进行验证。
2. **结构化 LLM 询问** —— 针对这些相同的图谱,对四个前沿模型进行系统探测,以衡量它们的解释在多大程度上能复现已验证的因果结构。
这种双路径设计产生了一个具体的基准:不是评估模型能否检测钓鱼信息,而是评估它们对信息*为什么*具有说服力的推理是否与统计学推断出的真实基准相匹配。这种区别对于可审计、可解释的安全工具至关重要。
## 威胁模型与目标
**攻击者的行为:** 社会工程学活动利用心理结构 —— 紧迫感、权威性、信任 —— 来抑制深思熟虑并提高点击率。活动会轮换语义(用“最后通知”代替“紧急”),以击败静态特征权重,迫使检测器去追逐词汇标记,而不是底层的操纵机制。
**防御缺口:** 当前的 ML 过滤器过度拟合了相关性模式。一个学到“URGENT”与钓鱼相关的检测器,当攻击者改用“时间敏感”或转向语音时就会失效。因果推理 —— 识别*什么导致*了顺从,而不是什么与之同时出现 —— 能够产生经受得住对抗性改写的防御措施。
**研究目标:**
- O1:生成混合 DAG,捕捉钓鱼邮件、短信钓鱼和电话钓鱼数据集中五个行为结构之间的因果关系。
- O2:使用与五个结构对齐的 36 个结构化 prompt,针对这些 DAG 对 GPT-4、Claude 3 Sonnet、Gemini 2.5 Pro 和 DeepSeek-67B 进行基准测试。
- O3:量化模型在因果推理方面的优势、劣势和失败模式。
- O4:明确当前 LLM 适用于因果信息检测 pipeline 的场景,以及在哪些场景下仍需进行微调或使用混合 Graph-LLM 集成。
## 方法论
### 数据集
评估了三个数据集,每个数据集都映射到相同的五结构 schema,以便分数的差异反映的是推理技能而不是 schema 不匹配:
| 渠道 | 原始行数 | 清洗后行数 | 恶意比例 % | 特征 |
|-------------------|----------|--------------|-------------|----------|
| 电子邮件钓鱼 | 88,647 | 59,788 | 31.15% | 10 |
| 短信钓鱼 | 67,008 | 67,008 | 39.07% | 10 |
| 合成电话钓鱼 | 60,000 | 60,000 | 30.00% | 10 |
钓鱼邮件语料库 (Vrbančič, Fister and Podgorelec, 2020) 提供了主要的基准。
短信钓鱼数据集 (Salman, Ikram and Kaafar, 2024) 涵盖了经过规避优化的 SMS。电话钓鱼模拟是使用条件变分自编码器 (CVAE) 合成的,保留了潜在因果支架,同时去除了特定渠道的表面伪影。
所有记录均已匿名化。没有要求任何模型生成实时钓鱼内容 —— prompt 仅引用了行为结构。
### 特征到结构的映射
技术指标被转化为五个植根于社会工程学心理学的行为结构:
| 结构 | 代表性技术特征 |
|--------------|----------------------------------------------------------------|
| 混淆 | 缩短的 URL,重定向数量,解析的 IP 数量 |
| 信任 | URL 在 Google 索引中,TLS-SSL 认证,域名在 Google 索引中 |
| 权威性 | 嵌入在 URL 中的电子邮件地址 |
| 欺骗 | 域名激活时间(域名年龄) |
| 紧迫性 | 网站响应时间 |
结构分数计算为贡献特征值的归一化平均值
(`C_j = (1/|S_j|) Σ f_i m_ij`),并提供 z-score 和总和变体以供敏感性检查。
### 图 Pipeline —— 混合 DAG 构建
四种因果发现算法独立处理每个数据集:
- **GES** (贪婪等价搜索) —— 基于得分,处理高维稀疏数据
- **PC-Algorithm** (Peter–Clark) —— 基于约束,条件独立性测试 (α = 0.05)
- **Bayesian Networks** —— 概率性,在噪声条件下进行推理
- **DeepNOTEARS** —— 梯度下降结构学习,捕捉非线性关系 (L1 = 0.01)
这些图被合并为两个混合集成:**GES ∪ BN** 和 **PC ∪ DeepNOTEARS**。双向和语义上荒谬的边被修剪;在行为学上有根据的冲突边被保留。所有中间图的迭代都被存储以用于回滚和比较。
跨数据集 DAG 稳健性结果:
| 渠道 | GES-BN | PC-DNT | DoWhy 结果 | 备注 |
|---------|--------|--------|--------------|------------------------|
| 邮件 | Pass | Pass | Success | 完全一致 |
| 语音 | Pass | Pass | Success | 边分歧 |
| 短信 | Pass | Fail | Partial | NOTEARS 无环性失败 |
### DoWhy 验证
每个结构→结果的边都进入了 DoWhy 的四阶段 pipeline:陈述假设,识别估计量,使用二项式 GLM 进行估计,以及通过稳健性检查进行反驳。反驳方法包括 n = 500 次 Monte-Carlo 安慰剂置换、随机共同原因注入和 bootstrap 子集测试。安慰剂运行中的最小经验 p 值:p ≈ 0.002。
所有五个结构均通过:
| 结构 | β (对数几率) | 安慰剂 p | 随机共同原因 p | 子集 p | 结论 |
|--------------|--------------|-----------|-----------|----------|---------|
| 混淆 | 0.116 | 0.002 | 0.92 | 0.92 | Pass |
| 信任 | 0.273 | 0.002 | 0.84 | 0.92 | Pass |
| 紧迫性 | −0.067 | 0.002 | 1.00 | 0.96 | Pass |
| 欺骗 | −0.177 | 0.002 | 0.68 | 0.95 | Pass |
| 权威性 | −0.441 | 0.002 | 0.94 | 0.98 | Pass |
经过验证的混合 DAG 作为所有后续 LLM 评分的真实基准。
### 验证后的 DAG 中的显著因果链
```
Urgency → Deception → Phishing
Trust → Obfuscation → Phishing
Authority → Deception → Phishing
```
欺骗在所有发现方法中都表现为一个汇聚中介变量。混淆起到了技术放大器的作用 —— 它是操纵的推手,而不是发起者。
### LLM Pipeline —— 结构化 prompt 评估
选择了四个前沿模型,以涵盖不同的指令微调风格和参数规模:
**GPT-4**、**Claude 3 Sonnet**、**Gemini 2.5 Pro**、**DeepSeek-67B**。
模型接收了分布在五个推理类别中的 36 个结构化 JSON prompt:
| prompt 类别 | 实例数 | 比例 |
|------------------|-----------|------------|
| 概率 | 6 | 16.7% |
| 条件 | 6 | 16.7% |
| 影响排序 | 6 | 16.7% |
| 逆向推理 | 6 | 16.7% |
| 固定 prompt | 12 | 33.3% |
固定 prompt 针对直接的边识别、多步因果链推理和结构排序。逆向 prompt 测试了模型能否在结构反转或缺失的情况下进行推理 —— 这是最严苛的对抗性条件。
每个响应都在五个同等权重的维度上进行评分:
- **意识** —— 明确将结构命名为具有因果关系
- **深度** —— 解释超越相关性,深入到心理机制
- **结构** —— 因果链连贯且无环
- **方向性** —— 当 prompt 颠倒原因/结果时,箭头保持正确
- **泛化性** —— 当特征漂移或渠道改变时,推理依然成立
综合得分:`S_LLM = Σ(w_i × d_i)`,等权重 (w_i = 0.2)。
DeepSeek-67B 在两个 RunPod H100 SXM GPU pod 上进行评估(80 GB VRAM,16 vCPU,125 GB RAM),
使用固定的采样参数(temperature 0.70,top-p 0.95,max tokens 1024)。所有其他模型均通过各自的 Web 界面进行查询,并采用确定性/低温预设。
### 评分者间信度
评分信度通过双向随机组内相关系数 ICC(2,1) 评估,该系数是在两个评分波次、四名评分者和五个评分维度中计算得出的:
**ICC(2,1) = 0.98 (95% CI ≈ 0.94–0.99)** —— 被归类为“几乎完全一致” (Shrout and Fleiss, 1979)。
各维度的 ICC 值范围从 0.89(方向性)到 0.97(结构)。
## 结果与发现
### 各模型的 DAG 对齐度
| 模型 | 对齐度 (/20) | 保真度 (/60) | DAG 对齐度 % | S_LLM (/5) |
|-----------------|-----------------|----------------|-----------------|------------|
| GPT-4 | 18.5 | 58.0 | **94.2%** | **4.60** |
| Claude 3 Sonnet | 16.0 | 56.5 | **85.7%** | **4.14** |
| Gemini 2.5 Pro | 14.0 | 45.5 | 72.3% | 3.45 |
| DeepSeek-67B | 10.0 | 34.5 | 53.0% | 2.44 |
GPT-4 获得了最高的综合得分 (4.60/5),重现了 94.2% 的专家验证图的边,并在反事实 prompt 下保持连贯性。Claude 3 Sonnet 紧随其后,得分为 4.14/5。
### 维度细分 (S_LLM 组件)
| 模型 | 意识 | 深度 | 结构 | 方向性 | 泛化性 |
|-----------------|-----------|-------|-----------|----------------|-----------------|
| GPT-4 | 5.00 | 4.67 | 4.58 | 4.50 | 4.25 |
| Claude 3 Sonnet | 4.83 | 4.58 | 3.92 | 4.00 | 3.38 |
| Gemini 2.5 Pro | 4.00 | 3.58 | 3.67 | 3.50 | 2.50 |
| DeepSeek-67B | 3.08 | 2.67 | 2.33 | 2.50 | 1.62 |
### 结构层面的解释保真度
| 结构 | GPT-4 (A/D) | Claude (A/D) | Gemini (A/D) | DeepSeek (A/D) |
|--------------|-------------|--------------|--------------|----------------|
| 欺骗 | 5.0 / 5.0 | 5.0 / 5.0 | 5.0 / 4.5 | 4.0 / 3.5 |
| 紧迫性 | 5.0 / 5.0 | 5.0 / 5.0 | 4.5 / 4.0 | 3.0 / 3.0 |
| 混淆 | 5.0 / 4.5 | 5.0 / 5.0 | 3.5 / 3.5 | 3.5 / 2.5 |
| 权威性 | 5.0 / 4.5 | 5.0 / 4.5 | 3.5 / 3.5 | 2.5 / 2.5 |
| 信任 | 5.0 / 4.5 | 4.5 / 4.0 | 4.0 / 3.0 | 2.5 / 2.5 |
| 因果性 | 5.0 / 4.5 | 4.5 / 4.0 | 3.5 / 3.0 | 3.0 / 2.0 |
*A = 意识 (0–5),D = 深度 (0–5)*
### 特定模型的失败模式
**GPT-4** 产生了最稳健且内部最一致的因果结构,准确识别了中介节点,并表现出对结构相互作用的深刻理解。在链构建、排序任务和逆向推理方面表现卓越。它是唯一能够持续尝试进行真正因果解释而非相关性描述的模型。
**Claude 3 Sonnet** 在欺骗和紧迫性方面表现强劲,在多步链中取得了中等程度的成功。在比较任务中偶尔缺乏更深的抽象能力,但保持了较高的逻辑一致性。当推理需要将结构连接成更长的因果序列时,表现稍显逊色。
**Gemini 2.5 Pro** 表现出一致的结构识别能力,但解释深度有所降低。响应通常是描述性的,而不是推断性的 —— 尤其是在排序和因果解释任务中。在逆向方向和缺失结构的 prompt 中表现挣扎。
**DeepSeek-67B** 表现出基本的意识,但在推理深度方面表现不佳。对信任和紧迫性的排序错误;将信任线索视为保护性的,而不是可利用的;未能映射出关键的间接因果链。尽管其参数规模庞大,但在对抗性 prompt 转折下,响应变得不那么稳定。
### 跨数据集压力测试
核心因果边 —— 紧迫性 → 欺骗 和 信任 → 权威性 —— 在电子邮件和语音数据集中经受住了扰动,支持了 Pearl (2009) 的标准,即真正的因果关系应该在表面扰动中存活下来。
当特征漂移到合成的电话钓鱼集时,顶级模型的深度得分最多下降了 0.42 分,揭示了在现实世界跨渠道迁移中的脆弱性。错误分类集中在低深度结构(信任、混淆)上,进一步证实了因果深度和对齐存在部分关联。
### 核心发现
当前的前沿 LLM 能够检测社会工程学中的表面模式,并重现粗略的因果结构,但在多跳因果链和逆向推理方面始终表现吃力。在受控条件下,GPT-4 的因果流利度接近人类水平;基准测试中处于底部的模型则退回到基于相关性的解释,这在对抗性改写下会失效。所有模型都存在的意识得分和深度得分之间的差距表明,结构识别是可靠的因果防御的必要但不充分条件。
## 对抗性规避 —— 为什么因果检测能抵御它
这是整个项目的实际回报,表述得足够通俗易懂,适合非专业人士理解。一个**相关性**检测器 —— 本质上是每一个主流的钓鱼过滤器 —— 是从*当今*钓鱼信息的*表面*进行学习的:比如“URGENT”一词、特定的发件人格式、某种链接形状、某条主题行。它在攻击者改变这些表面特征之前一直有效,而攻击者*可以*改变它们。一个能够访问该检测器(或其副本)的对手会发送一个又一个变体,观察哪些变体的得分低于阻断阈值,并保留那些能蒙混过关的改动。这是一种廉价的爬山攻击 (hill-climbing attack)。
将“URGENT”替换为“时间敏感”,重构发件人行,重塑 URL —— 该信息在人类身上依然起作用,但过滤器不再识别它。表面恰恰是攻击者所控制的,因此依赖于表面的检测器,攻击者就可以通过调整来绕过它。
**因果**检测器的构建方式不同。它不是学习*钓鱼看起来是什么样*,而是学习*是什么导致钓鱼成功*:即使收件人顺从的底层机制 —— 紧迫感、权威性、信任、欺骗。下面这句话解释了它的稳健性:
如果攻击者为了规避因果检测器而剥离了紧迫感、权威性和欺骗,他们也就去除了驱使收件人采取行动的杠杆 —— 因此也就没有留下任何成功的钓鱼信息可供捕获了。能够击败相关性过滤器的规避手段(对表面进行改写)恰恰是因果检测器对其免疫的规避手段,因为它根本就不看表面。这就是 Pearl 标准在运营层面的体现:真正的因果关系能够在表面扰动中存活下来 —— 而在跨渠道压力测试中,核心边(紧迫性→欺骗,信任→权威性)从电子邮件一直转移到合成语音时,**确实**存活了下来。
因此,研究问题不是“因果检测是否是一个好主意”,而是“当今的 LLM 是否真的能够进行它所需的因果推理”。基准测试给出了诚实的回答:**GPT-4 重现了 94.2%** 的已验证因果结构,并在反转的 prompt 下表现出色;而最弱的模型(**DeepSeek-67B, 53.0%**)则退回到了相关性描述 —— 这意味着,如果将其部署为检测器,它将完全以上述方式被规避。因果稳健性仅与实现它的推理器一样强大,而衡量这一差距正是本研究贡献所在。
## 从研究到部署 —— SOC 实际上将如何使用它
上面关于规避抗性的论述是“为什么”。这里是“怎么做” —— 从研究 DAG 到在生产电子邮件网关上运行的富化层的路径。它被刻意设定为检测工程的工作,而不是一篇论文。
1. **在*你自己的*基准上构建因果图,而不是公开的语料库。** 这里经过验证的 DAG 是在公开的钓鱼数据上发现的;在部署中,组织应在其**自己**确认的钓鱼邮件和确认的合法邮件上重新运行发现 pipeline。这些结构(紧迫感、权威性、信任、欺骗、混淆)具有普适性;但*边强度*应根据 SOC 实际防御的流量重新进行估算,以便模型能反映出该组织真实的对手情况。
2. **在带有历史标记的邮件上训练 DoWhy 估计器。** 使用 SOC 的裁定历史(分析师处置结果、沙盒结果、用户报告)作为真实基准。DoWhy 的反驳测试(安慰剂/随机共同原因)成为一道*部署关卡*:在本地数据上未能通过反驳的边不能发布。
3. **作为富化层部署,绝不作为唯一的阻断决策。** 模型位于现有网关之后,作为一个富化阶段:每条信息都会获得一个**因果置信度得分**以及触发的具体结构(例如“高权威性 + 紧迫性,以欺骗为中介”)。它是对现有的相关性过滤器的补充,而不是替代 —— 这是纵深防御,并且它会故障开放至现有的控制机制。
4. **让告警具有解释性,而不是非黑即白。** 分析师看到的不再是“垃圾邮件:是/否”,而是信息拉动了*哪些因果杠杆*。这是分类级别的上下文:一条在持久因果结构上得分很高的信息,即使其表面看起来很新颖,也值得关注 —— 这正是相关性过滤器会漏掉的情况。可解释性还能缩短 MTTD/MTTR,并为审计轨迹提供支持。
5. **在闭环中根据分析师的反馈进行微调。** 每位分析师的处置结果都会作为标签反馈回来;定期重新估算边强度并重新运行反驳。因为该模型依赖的是因果结构而不是表面 token,所以这个循环的漂移速度远远慢于关键字/相关性模型 —— 重新训练是一种修正,而不是表面检测器所需要的那种不断的追赶。
**为什么这很难被探测。** 相关性过滤器可以通过对手发送测试变体并观察得分来反向工程(即上一节的爬山攻击)。因果富化层暴露给这种探测的信息要少得多:得分反映的是*攻击者必须保留才能使钓鱼奏效的机制*,因此那种廉价的“不断改写直到通过”的循环就不再奏效了。部署继承了研究的特性 —— 表面扰动不会改变因果得分。
**坦诚的部署警告。** 这是一个富化和优先级排序层,而不是银弹:它增加了延迟和模型依赖,步骤 1 中的本地重新发现需要足够的历史标记记录(这里再次适用 [规模论证](#dataset-scale--what-88647-records-buys)),而且推理质量受限于实现它的模型 —— 一个弱的推理器会退化到相关性行为,这正是结果中 GPT-4 对比 DeepSeek-67B 的差距所量化的内容。
**与检测实验室的联系。** 这是在 *watchtower* Wazuh SIEM 家庭实验室中实际动手应用的相同准则:思考一种技术*为什么*奏效,从而为它编写检测规则。基于表面指标(特定的字符串、hash 值、IP 地址)的相关性规则,相当于上述脆弱钓鱼过滤器的 SIEM 版本 —— 对手很容易规避。持久的检测依赖于攻击者在不放弃攻击的情况下无法移除的*机制* —— 这是实际运用中的 Pyramid of Pain。这里的因果思维和那里的检测工程是指向两个问题的同一项技能。
## 数据集规模 —— 88,647 条记录带来了什么
主要的语料库是 **88,647 封原始钓鱼电子邮件**(清洗后为 59,788 封),另外还有 67,008 条短信钓鱼记录和 60,000 条合成电话钓鱼记录。在这里,规模不是为了虚荣;它是使统计声明站得住脚的基础。
- **稳定的估计和紧凑的区间。** 每个渠道都有数以万计的记录,结构→结果的影响规模(DoWhy 表中的对数几率 β)精确到足以被信任并*经受反驳*。信度上限说明了这一点:ICC(2,1) = 0.98,95% CI ≈ 0.94–0.99 —— 只有大量且一致的样本才能产生如此窄的区间。
- **检测微弱和逆向影响的能力。** 几个结构是通过*负面*或间接的对数几率起作用的(权威性 β = −0.441,紧迫性 β = −0.067)。如此微妙的影响在几百个样本的噪声中就会消失;在这个规模下,它们足够稳定,以至于所有五个结构都在 p ≈ 0.002 的水平上通过了安慰剂测试(每个 n = 500 次 Monte-Carlo 置换)。
- **稳健的结构发现。** 因果发现算法(GES、PC、Bayesian Networks、DeepNOTEARS)非常消耗数据 —— 稀疏的数据会产生不稳定且相互矛盾的图。允许将边*合并*为经验证的混合 DAG 的跨方法共识,只能从大量且具有代表性的样本中出现。
- **有意义的保留测试集。** 规模使得合成电话钓鱼的跨渠道压力测试具有意义 —— 事实表明,因果边能够在渠道转换中存活下来,而不是一个小数据集产生的伪影。
**较小的数据集会漏掉什么。** 如果只有几百封电子邮件,该 pipeline 很可能只会浮现出一两个最明显的相关性(“URGENT” ≈ 钓鱼)然后停止 —— 这正是本项目旨在超越的那种脆弱的、基于相关性的信号。微妙的中介变量(欺骗作为汇聚中介;混淆作为技术*放大器*,而不是发起者)、负系数结构以及跨渠道的稳健性,都需要 88,647 条记录所提供的统计功效。正是规模将“一个关于钓鱼的似是而非的故事”转变成了“一个经过反驳的、可重现的因果模型”。
*(诚实声明:88,647 是原始语料库;清洗后保留了 59,788 条记录。两者同时报告,以免夸大规模声明。)*
## 局限性与未来工作
知识分子的诚实强化了结果;这些是真正的局限。
- **人工评分。** S_LLM 维度是由多名评分者根据固定的评分标准进行评估的。ICC(2,1) = 0.98 表明评分高度一致,但基于评分标准的“深度”和“泛化性”评分保留了不可简化的主观判断成分。
- **模型版本控制 / 可重复性。** 四个模型中的三个(GPT-4、Claude 3 Sonnet、Gemini 2.5 Pro)是通过它们的 Web 界面查询的,而不是固定的 API 快照;只有 DeepSeek-67B 是在受控硬件上运行的。前沿模型会在其名称之下不断更新,因此这些分数是**该代模型的快照**,而不是永久可重现的常数。
- **结构→特征的映射是一种建模选择。** 诸如 *紧迫性 ≈ 网站响应时间* 或 *欺骗 ≈ 域名年龄* 之类的代理是合理的操作化,而不是真实基准;不同的映射可能会改变边权重。
- **合成电话钓鱼。** 语音渠道是通过 CVAE 生成的,旨在保留潜在的因果支架,而无需处理真实的个人语音数据(这是一个刻意的隐私选择)。因此,它是一个关于电话钓鱼结构的模型,而不是捕获的真实世界电话钓鱼,那里的 -0.42 深度下降可能部分这一点。
- **一张较弱的图。** 短信钓鱼的 DAG 仅得到了部分验证(PC ∪ DeepNOTEARS 未能通过 NOTEARS 无环性检查),因此跨渠道的声明最坚实的依据还是电子邮件和语音图谱。
- **探测集大小。** 跨越四个模型的 36 个结构化 prompt 是一个有针对性的探测,而不是穷尽的探测;更大的 prompt 库和更多的模型会使结论更严密。
- **是可行性,而非部署。** 这项工作对 LLM 是否能够进行稳健检测器所需的因果推理进行了*基准测试*(目标 O4)。它**没有**发布实时的因果信息检测器;构建并对其进行红队测试是未来的工作。
**后续研究应该:** 通过固定的 API 快照固定模型版本;扩大 prompt 库和模型集;根据人工标记的真实基准验证结构→特征的映射;在真实(非合成)电话钓鱼上进行测试;并构建一个实际的因果信息检测器,以实证**衡量**规避抗性 —— 从而将上述论点从合理的推论转变为红队测试的结果。
## 展示的技能
| 技能领域 | 证据 |
|-----------------------------|---------------------------------------------------------------------------------|
| 因果推断 | 通过 GES、PC、Bayesian Networks、DeepNOTEARS 构建 Hybrid DAG |
| 统计验证 | DoWhy 四阶段反驳 pipeline;n=500 次 Monte-Carlo 安慰剂测试 |
| ML 安全研究 | 将因果方法应用于 88,647 条记录的真实钓鱼语料库 |
| LLM 评估 | 设计并执行了跨四个前沿模型的 36 个 prompt 结构化评估|
| 定量分析 | SLLM 综合评分,ICC 评分者间信度,重加权敏感性分析 |
| 威胁建模 | 将技术指标映射到心理操纵结构 |
| 对抗稳健性 | 阐明了为什么因果结构能够抵御击败相关性过滤器的表面改写 |
| 跨渠道泛化 | 测试了在电子邮件、短信和语音攻击面上的稳健性 |
| 实验设计 | 将图发现与 LLM 解释保真度分离开来的双路径框架 |
| 研究交流 | 学位论文级别的写作;具有明确评分维度的结构化评分标准 |
| Python / 数据工程 | YAML 驱动的模块化 pipeline;可重现的 HPC 执行;DAG 版本控制 |
*这是 [rootdrifter](https://github.com/rootdrifter) 安全作品集的一部分 —— 由拥有安全许可的候选人构建和维护。目前已持有英国签发的安全许可,而非正在等待审查:从第一天起即可部署到需要安全许可的工作中。*
标签:DLL 劫持, 人工智能, 可解释AI, 因果推断, 大语言模型, 用户模式Hook绕过, 社会工程学检测, 逆向工具, 钓鱼攻击分析