Ese-Idjogbe/tfl-insider-threat-detection
GitHub: Ese-Idjogbe/tfl-insider-threat-detection
一个基于机器学习的内部威胁检测演示项目,模拟伦敦交通局数据泄露场景,帮助识别高风险访问行为。
Stars: 0 | Forks: 0
# TfL 内部威胁检测系统
一个利用机器学习驱动的仪表板,用于检测人力资源访问日志中的内部威胁,灵感来源于 2023 年伦敦交通局数据泄露事件,其中员工 Luciana Akanbi 非法访问了 139 个国民保险号码。
## 实时演示
**https://tfl-insider-threat-detection-ergqwvzc4wdgma7sfhjagh.streamlit.app**
## 影响声明
## 检测内容
| 威胁模式 | 检测方法 | 伦敦交通局相关性 |
|---|---|---|
| 批量访问国民保险号码(≥30 条记录) | 规则 + 机器学习 | Akanbi 访问了 139 个国民保险号码 |
| 下班后数据外泄 | 统计 + 机器学习 | 欺诈发生在非工作时间 |
| 权限提升 | 规则 | 访问超出角色权限的数据 |
| 未知位置访问 | 统计 | 远程/VPN 外泄模式 |
| 数量异常 | 孤立森林 | 会话中传输的 MB 异常 |
## 技术架构
```
├── data_generator.py # Synthetic TfL dataset (40 employees × 6 months)
├── detector.py # Isolation Forest ML + rule-based scoring engine
├── app.py # Streamlit dashboard
└── requirements.txt
```
### 机器学习管道
1. **特征工程** — 每个员工 19 个行为特征(访问频率、时间模式、位置、数量、敏感度)
2. **孤立森林** — 无监督异常检测(`contamination=0.05`,`n_estimators=300`)
3. **规则增强器** — 叠加在 ML 分数上的业务逻辑(批量 NI 访问、权限提升、下班后)
4. **风险评分** — 0–100 标准化分数,分级分类(低 / 中 / 高 / 严重)
### 数据集
- 40 个模拟的伦敦交通局员工,涵盖人力资源、薪酬、招聘、IT 管理员、财务
- 约 15,000 条访问日志,覆盖 6 个月
- 为 Luciana Akanbi 注入 3 阶段欺诈模式(侦察 → 批量外泄 → 退款欺诈)
## 快速开始
```
# 克隆
git clone https://github.com/ese/tfl-insider-threat-detection
cd tfl-insider-threat-detection
# 安装
pip install -r requirements.txt
# 运行
streamlit run app.py
```
## 部署到 Streamlit 云
1. 推送到 GitHub
2. 访问 [share.streamlit.io](https://share.streamlit.io)
3. 连接仓库 → 选择 `app.py`
4. 部署 — 自动生成实时链接
## 仪表板功能
- **实时风险热力图** — 按严重/高/中/低着色
- **国民保险访问时间线** — 欺诈员工与平均员工的对比
- **异常散点图** — 国民保险访问次数与下班后活动的对比
- **自动告警** — “检测到欺诈模式 — 立即调查”
- **案例研究面板** — 真实伦敦交通局事件与模拟检测结果的对比
- **可筛选的风险登记册** — 按级别、部门、风险分数筛选
## 展示技能
- **机器学习** — 孤立森林无监督异常检测
- **数据工程** — 合成数据集生成、特征工程
- **安全知识** — 内部威胁模式、治理风险与合规、权限提升
- **Python** — Pandas、NumPy、Scikit-learn、Matplotlib
- **部署** — Streamlit、GitHub
## 背景
本项目作为网络安全作品集的一部分而构建,专注于英国相关的安全挑战。2023 年 TfL 人力资源泄露事件表明,在处理敏感员工数据的大型组织中,主动检测内部威胁的现实需求。
*本项目中的所有数据均为模拟数据。未使用任何真实的伦敦交通局员工数据。*
*由 Ese Rose 构建 — [领英](https://linkedin.com/in/ese-rose)*
标签:Apex, DNS解析, HR安全, Kubernetes, Python, SOAR, Streamlit, TfL, VPN/远程访问, 云计算, 交通局, 内部威胁检测, 匿名化, 合规, 员工监控, 开源项目, 异常检测, 批量数据访问, 数据合成, 数据泄露防护, 数据隐私, 无后门, 机器学习, 权限管理, 模型越狱, 治理, 流式仪表盘, 特权提升, 统计异常, 网络探测, 自动化部署, 规则引擎, 访问控制, 访问日志分析, 运输安全, 逆向工具, 隔离森林, 非工作时间访问, 项目实战