Ese-Idjogbe/tfl-insider-threat-detection

GitHub: Ese-Idjogbe/tfl-insider-threat-detection

一个基于机器学习的内部威胁检测演示项目，模拟伦敦交通局数据泄露场景，帮助识别高风险访问行为。

Stars: 0 | Forks: 0

# TfL 内部威胁检测系统一个利用机器学习驱动的仪表板，用于检测人力资源访问日志中的内部威胁，灵感来源于 2023 年伦敦交通局数据泄露事件，其中员工 Luciana Akanbi 非法访问了 139 个国民保险号码。 ## 实时演示 **https://tfl-insider-threat-detection-ergqwvzc4wdgma7sfhjagh.streamlit.app** ## 影响声明 ## 检测内容 | 威胁模式 | 检测方法 | 伦敦交通局相关性 | |---|---|---| | 批量访问国民保险号码（≥30 条记录） | 规则 + 机器学习 | Akanbi 访问了 139 个国民保险号码 | | 下班后数据外泄 | 统计 + 机器学习 | 欺诈发生在非工作时间 | | 权限提升 | 规则 | 访问超出角色权限的数据 | | 未知位置访问 | 统计 | 远程/VPN 外泄模式 | | 数量异常 | 孤立森林 | 会话中传输的 MB 异常 | ## 技术架构 ``` ├── data_generator.py # Synthetic TfL dataset (40 employees × 6 months) ├── detector.py # Isolation Forest ML + rule-based scoring engine ├── app.py # Streamlit dashboard └── requirements.txt ``` ### 机器学习管道 1. **特征工程** — 每个员工 19 个行为特征（访问频率、时间模式、位置、数量、敏感度） 2. **孤立森林** — 无监督异常检测（`contamination=0.05`，`n_estimators=300`） 3. **规则增强器** — 叠加在 ML 分数上的业务逻辑（批量 NI 访问、权限提升、下班后） 4. **风险评分** — 0–100 标准化分数，分级分类（低 / 中 / 高 / 严重） ### 数据集 - 40 个模拟的伦敦交通局员工，涵盖人力资源、薪酬、招聘、IT 管理员、财务 - 约 15,000 条访问日志，覆盖 6 个月 - 为 Luciana Akanbi 注入 3 阶段欺诈模式（侦察 → 批量外泄 → 退款欺诈） ## 快速开始 ``` # 克隆 git clone https://github.com/ese/tfl-insider-threat-detection cd tfl-insider-threat-detection # 安装 pip install -r requirements.txt # 运行 streamlit run app.py ``` ## 部署到 Streamlit 云 1. 推送到 GitHub 2. 访问 [share.streamlit.io](https://share.streamlit.io) 3. 连接仓库 → 选择 `app.py` 4. 部署 — 自动生成实时链接 ## 仪表板功能 - **实时风险热力图** — 按严重/高/中/低着色 - **国民保险访问时间线** — 欺诈员工与平均员工的对比 - **异常散点图** — 国民保险访问次数与下班后活动的对比 - **自动告警** — “检测到欺诈模式 — 立即调查” - **案例研究面板** — 真实伦敦交通局事件与模拟检测结果的对比 - **可筛选的风险登记册** — 按级别、部门、风险分数筛选 ## 展示技能 - **机器学习** — 孤立森林无监督异常检测 - **数据工程** — 合成数据集生成、特征工程 - **安全知识** — 内部威胁模式、治理风险与合规、权限提升 - **Python** — Pandas、NumPy、Scikit-learn、Matplotlib - **部署** — Streamlit、GitHub ## 背景本项目作为网络安全作品集的一部分而构建，专注于英国相关的安全挑战。2023 年 TfL 人力资源泄露事件表明，在处理敏感员工数据的大型组织中，主动检测内部威胁的现实需求。 *本项目中的所有数据均为模拟数据。未使用任何真实的伦敦交通局员工数据。* *由 Ese Rose 构建 — [领英](https://linkedin.com/in/ese-rose)*

标签：Apex, DNS解析, HR安全, Kubernetes, Python, SOAR, Streamlit, TfL, VPN/远程访问, 云计算, 交通局, 内部威胁检测, 匿名化, 合规, 员工监控, 开源项目, 异常检测, 批量数据访问, 数据合成, 数据泄露防护, 数据隐私, 无后门, 机器学习, 权限管理, 模型越狱, 治理, 流式仪表盘, 特权提升, 统计异常, 网络探测, 自动化部署, 规则引擎, 访问控制, 访问日志分析, 运输安全, 逆向工具, 隔离森林, 非工作时间访问, 项目实战