quantumlyquinny/SentinelFlow-AWS-Threat-Intelligence
GitHub: quantumlyquinny/SentinelFlow-AWS-Threat-Intelligence
一个基于AWS无服务器架构的自动化威胁情报ETL流水线,解决安全数据碎片化与可视化滞后问题。
Stars: 0 | Forks: 0
# SENTINEL FLOW:企业级无服务器威胁情报
“在 AWS 上构建的自动化流水线,通过将原始安全遥测数据转化为可操作的风险取证,解决‘数据孤岛’挑战。”
## 1. 我们解决的问题:数据碎片化
来自 API 的原始威胁情报通常被“锁定”在复杂的嵌套 JSON 数组中,标准 BI 工具无法原生解析。
手动瓶颈:安全团队往往依赖静态黑名单;本项目自动化了威胁的整个生命周期,从 API 摄取到实时的“风险地图”。
## 2. 技术栈
| 层级 | 使用的服务 | 实现细节 |
| :--- | :--- | :--- |
| **摄取** | Python(Requests/Boto3)& AWS Lambda | 从 AbuseIPDB API 自动提取 |
| **编排** | Amazon EventBridge | 按小时调度微批处理 |
| **存储** | Amazon S3 | 多层存储(原始青铜层与分析银层) |
| **处理** | Amazon Athena | 无服务器 SQL 逻辑与分层 JSON 展开 |
| **编目** | AWS Glue 数据目录 | 自动元数据管理与模式强制 |
| **可视化** | Power BI | 实时安全遥测仪表板 |
## 3. 数据工程与“脏数据”解决
为模拟真实企业数据挑战,本流水线解决以下工程化异常:
* 嵌套 JSON 数组:使用 SQL 的 CROSS JOIN UNNEST 将攻击类别列表解析为独立记录。
* 缺失值(插补):在 Athena 中实现 COALESCE 逻辑,处理缺少地理元数据的记录。
* 模式漂移:手动优化 AWS Glue 数据目录,以处理自动爬虫遗漏的嵌套整数数组。
* 类型不匹配:将原始置信度分数强制转换为整数,以实现数学风险平均。
## 4. 分析结果 100% 自动化:
* 从 API 调用到仪表板刷新,全程无需人工干预。
* 单一事实来源:从 JSON Web 日志聚合生成至一个优化的 Athena 视图。
* 成本优化:无服务器架构确保“按查询付费”模式,消除空闲服务器成本
标签:Athena, AWS, Boto3, C语言, DPI, ETL, EventBridge, Glue数据目录, Gradle集成, JavaCC, JSON解析, Lambda, Power BI, Requests, S3, Schema管理, SEO: AWS安全ETL, SEO: 企业级安全管道, SEO: 自动化威胁分析, Serverless, Web API, 企业安全, 地理分析, 威胁情报, 安全仪表盘, 安全运营, 开发者工具, 扫描框架, 数据治理, 数据清洗, 数据湖, 数据碎片化, 网络资产管理, 自动化管道, 逆向工具, 风险地图