hirdeshkumar2407/Evaluating-Feature-Representations-and-Temporal-Stability-in-Website-Fingerprinting
GitHub: hirdeshkumar2407/Evaluating-Feature-Representations-and-Temporal-Stability-in-Website-Fingerprinting
研究网站指纹识别中特征表示与时间稳定性问题,验证结构化方法在加密流量识别上的优势。
Stars: 0 | Forks: 0
# 评估网站指纹识别中的特征表示与时间稳定性
## 概述
本项目研究**网站指纹识别(WF)**,这是一种旁路攻击方式,其中被动攻击者通过分析数据包大小和方向性等元数据来识别加密的网页活动。研究专门探讨**时间漂移**问题,即动态网站内容的更新会随时间推移降低分类模型的准确性。
## 威胁模型
该研究假设一个被动攻击者能够拦截加密的 HTTPS 元数据,以识别用户正在访问的十个主要新闻平台中的哪一个。评估重点包括:
* **特征评估**:比较全局统计指标(Biflow)与顺序结构痕迹(CUMUL)。
* **时间稳定性**:通过测试“第一天”训练的模型在“第二天”数据上的表现,衡量模型性能的衰减。
## 方法论
实验设计包含两个独立流程,使用 **$k$-最近邻($k$-NN)** 分类器:
### 1. 双流跟踪(统计方法)
* **特征向量**:一个 16 维向量,捕获**数据包长度**和**到达时间间隔(IAT)**的均值、最大值、最小值和标准差。
* **方向性**:指标分为出站(上行)和入站(下行)流量。
### 2. Panchenko CUMUL 跟踪(结构方法)
* **累积痕迹**:通过计算有符号数据包大小的运行和,关注数据流的“形状”。
* **降维**:利用**分段线性插值**(通过 SciPy)将每次捕获缩减为 20 个点的痕迹。
### 数据收集
数据集通过自动化流程生成,对 10 个目标新闻网站各访问 10 次(每天共 100 次捕获):
* **工具**:使用 `tcpdump` 抓包,`curl` 触发请求,`tshark` 提取元数据。
* **目标站点**:包括 *华盛顿邮报*、*CNBC*、*纽约邮报* 和 *ABC新闻* 等主要媒体。
## 关键结果
研究表明,结构化加载签名在鲁棒性上显著优于基于体积的指标:
| 指标 | 双流(统计) | CUMUL(结构) |
| :--- | :--- | :--- |
| **初始准确率(第一天)** | 86.7% | **93.3%** |
| **时间稳定性(第二天)** | 50.0% | **76.7%** |
## 结论
结果显示,尽管双流模型对每日内容波动较为敏感,但 **CUMUL 方法** 能保持更优的稳定性。这证实网站数据流的“骨架”——数据突发序列及其时序——是比聚合统计量更可靠的加密流量标识符。
## 环境与依赖项
* **语言**:Python 3
* **核心库**:`pandas`、`numpy`、`scipy`、`scikit-learn`
* **可视化**:`matplotlib`、`seaborn`
* **网络工具**:`tcpdump`、`tshark`、`scapy`、`pyshark`
标签:Apex, curl, HTTPS 流量, k-NN, k-近邻, SciPy, SEO 关键词, tshark, 上行下行, 侧信道攻击, 分段线性插值, 到达时间, 加密流量分析, 包大小, 双流特征, 新闻网站, 时间漂移, 时间稳定性, 机器学习, 模型退化, 流量元数据, 流量分类, 流量识别, 特征提取, 累积轨迹, 统计特征, 网站指纹, 网站指纹识别, 网络侧信道, 被动攻击, 跨日测试, 逆向工具