PengZhang0/reasonflow
GitHub: PengZhang0/reasonflow
ReasonFlow 是一个专注于发现加密流量分类中紧凑且稀疏的可复现原因的研究项目,探索加密流量可被分类的根本依据。
Stars: 0 | Forks: 0
# ReasonFlow
关于发现加密流量分类中紧凑且稀疏的可复现原因的研究项目。
## 研究重点
大多数加密流量分类(ETC)工作都在探讨模型是否能准确地对加密流进行分类。
本项目提出了一个更前置的问题:
**为什么加密流量从根本上是可以被分类的?**
更具体地说:
**我们能否识别出一组少量的流量片段,足以近似复现分类决策?**
ReasonFlow 将可解释性视为**原因发现**,而不仅仅是事后归因。
## 核心思想
许多现有的 ETC 解释方法突出了重要的数据包、特征或 token,但它们并没有表明被突出的证据是否真正足以进行分类。
ReasonFlow 将标准推进一步。一个有用的解释应该具备以下特性:
- 全局 `compact`(紧凑):一小组可复用的原因类型应该能够解释大量流量
- 局部 `sparse`(稀疏):每个流量应该只需要少数几个选定的片段
- `reproducible`(可复现):仅使用原因的分类器应能保留大部分原始分类信号
在这个视角下,解释不仅是可视化的,它变得可执行且可测试。
## 研究逻辑
当前的研究逻辑被有意地划分为几个阶段:
1. 一开始不提出因果主张、干预主张或跨环境泛化主张。
2. 首先确定分类器实际可以依赖哪些片段。
3. 通过能否从少部分流量证据中复现分类来验证解释的有效性。
4. 只有在确立了可复现的原因之后,才继续探讨干预、鲁棒性和可迁移性问题。
这使得第一篇论文的范围聚焦、立论坚实且具备实验可测试性。
## 方法概述
ReasonFlow 目前遵循以下 pipeline:
1. 训练一个全流分类器作为参考模型。
2. 生成候选流量片段,例如 flowlet、突发段(burst segment)、包长子序列或协议阶段窗口。
3. 学习一个稀疏原因提取器,为每个流量选择一小部分片段。
4. 在选定的片段上训练或评估仅基于原因的分类器。
5. 衡量仅基于原因的分类器在复现原始分类器或真实标签时的接近程度。
6. 将选定的片段压缩成一个紧凑的可复用原因词汇表。
## 核心评估视角
主要的评估问题不仅仅是准确率。
它在于所选出的原因是否具备以下特性:
- 足以进行预测
- 相对于完整流量而言规模很小
- 在每个样本中表现稀疏
- 在整个数据集范围内保持紧凑
- 在复现质量上接近原始模型
核心评估指标是 `reason reproduction gap`(原因复现差距):当迫使分类仅依赖于提取的原因时,会损失多少性能。
## 第一篇论文的范围
目前第一篇论文的主张被刻意限制在以下几点:
- 发现候选的分类原因
- 通过仅使用原因的复现来验证它们
- 衡量充分性、压缩率、稀疏性、紧凑性和复现差距
本项目目前**不**主张:
- 完全的因果真实性
- 干预的有效性
- 跨环境的鲁棒性
这些属于确立了可复现原因之后的后期扩展内容。
## Epiplexity 的作用
Epiplexity 并不是第一篇论文的核心主张。
它在这里的作用更狭窄且更偏向实用性:
- 根据结构可学习性对候选片段进行排序
- 有助于引导选择器倾向于选择可复用的片段
- 作为辅助先验,而非主要的理论贡献
## 仓库结构图
### 主要研究文档
- `reasonflow_paper_draft.md`:主要的 Markdown 研究草稿
- `reasonflow_idea_brief.md`:紧凑的项目框架说明
- `reasonflow_article_blueprint.md`:论文叙事与方法蓝图
- `reasonflow_sources.md`:在主题收敛期间使用的来源映射图
- `reasonflow_submission_gap_checklist.md`:审稿人风险评估追踪表
- `reasonflow_claim_evidence_tracker.md`:主张与证据映射表
### 手稿包
- `latex/`:当前的 IEEE 风格 LaTeX 手稿包
### 实验包
- `experiments/`:实验计划、数据集/基线注册表、评估清单和机器可读模板
### 实现脚手架
- `implementation/`:用于数据集导入、片段处理、规划工具和面向原因评估的早期实现脚手架
### 仅限本地数据
- `data_raw/`:原始数据集,特意排除在版本控制之外
- `data_refs/`:下载的第三方参考文献和样本轨迹,特意排除在版本控制之外
## 当前状态
- 研究框架已趋于稳定
- 论文草稿已存在 Markdown 和 LaTeX 两种格式
- 实验注册表和规划模板已就绪
- 实现脚手架已支持模板验证和基本的面向原因的工作流
- 在完整实验运行之前,数值结果仍为占位符
## 计划的下一步工作
1. 确定第一阶段的原因载体(reason carriers)。
2. 实现真实的片段提议和稀疏原因选择。
3. 添加更强的仅基于原因的复现 pipeline。
4. 在现代公共 TLS 和 QUIC 数据集上运行首次可靠的实验。
5. 仅在运行结果可复现后,将记录的结果回填至手稿中。
## 仓库状态
本仓库是一个公开的研究工作区,而非经过精心打磨的最终发布版本。
其旨在展示不断演进的研究问题、当前的方法方向、实验设计以及通往第一篇论文的实现路径。
标签:Apex, ReasonFlow, TruffleHog, XAI, 人工智能安全, 加密流量分类, 原因发现, 可复现性, 可解释性AI, 合规性, 学术论文, 机器学习, 模型解释, 流量识别, 深度学习, 特征工程, 研究项目, 稀疏特征, 网络安全, 网络流量分析, 逆向工具, 隐私保护