Sonofmecury/ethereum-fraud-detection
GitHub: Sonofmecury/ethereum-fraud-detection
该项目通过系统性消融实验,量化对比图拓扑、交易金额和时间三大特征类别对以太坊欺诈账户机器学习检测的贡献。
Stars: 0 | Forks: 0
# 以太坊欺诈检测——哪一类特征主导了检测?
[](https://doi.org/10.5281/zenodo.20703210)
**“量子时代安全系统”系列论文之二。** 一项关于特征类别的
对比研究:究竟是*图*(交易对手结构)、*交易*(金额/数量),还是
*时间*(时序)特征主导了对欺诈以太坊账户的机器学习检测?与其进行另一项“Random Forest 对比 XGBoost”的基准测试,本文
的贡献在于为**究竟什么信号真正起作用**提供了一个经过严谨测量的答案。
## 状态
- ✅ Pipeline 已完成并验证(加载器、特征类别拆分、CV、评估指标、重要性分析、图表和测试)。
- ✅ **真实数据结果已完成并扩展**(包含图特征的 9,307 个账户,17.7% 为欺诈)。论文手稿:`paper/Ethereum_Fraud_Detection_Preprint.pdf`。
- **v3 新增内容:** PageRank 研究(欺诈账户的中心性显著更高,p~1e-151;非交易量代理指标,Spearman 相关系数 0.19-0.36);消融实验表明**拓扑结构在交易特征之上提供了最大的增益**(PR-AUC +0.031);通过重复 CV 验证的显著性(15 次评估,所有 p<1e-6)。
- **核心结论:***真正的*图拓扑特征(PageRank、k-core、聚类系数,基于 242k 节点 / 165 万条边的交易图谱重构)显著优于度数特征(PR-AUC 0.84 对比 0.70;+0.072 F1,p<0.001),并且 **PageRank 是单一最重要的特征**。交易金额特征仍然是最强的单一类别(PR-AUC 0.93,重要性占比 36%);合并后的效果最佳(PR-AUC 0.979)。使用了三种模型(LogReg、RandomForest、HistGradientBoosting);进行了配对显著性检验;并使用排列重要性进行归因分析。
## 三大特征类别(映射到 Aliyev 数据集)
- **图:** 唯一的发送至/接收自地址、已创建的合约、唯一的 ERC20 交易对手以及 token 多样性。
- **交易:** 交易笔数、以太坊/ERC20 的发送-接收总计、金额的最小值/最大值/平均值。
- **时间:** 发送/接收交易之间的平均分钟数、活跃生命周期、ERC20 事件间时间。
## 方法
分层 3 折 CV;类别加权的 Logistic Regression 和 Random Forest;
针对欺诈类别使用具有类别不平衡意识的评估指标(precision、recall、F1、ROC-AUC、PR-AUC);对比各特征类别模型与合并模型;Random-Forest 的重要性按类别进行汇总。
## 运行
```
pip install -r requirements.txt
# (可选但推荐)将真实的 CSV 放在 data/transaction_dataset.csv
bash run_all.sh
pytest -q
```
输出结果:`results/feature_class_results.csv`、`results/feature_importance.csv`、
`results/run_meta.json`(记录数据来源),以及 `results/figures/`。
## License
MIT。
标签:Apex, 以太坊, 区块链, 图特征, 学术研究, 安全规则引擎, 机器学习, 欺诈检测, 逆向工具