quantumlyquinny/SentinelFlow-AWS-Threat-Intelligence

GitHub: quantumlyquinny/SentinelFlow-AWS-Threat-Intelligence

一个基于AWS无服务器架构的自动化威胁情报ETL流水线,解决安全数据碎片化与可视化滞后问题。

Stars: 0 | Forks: 0

# SENTINEL FLOW:企业级无服务器威胁情报 “在 AWS 上构建的自动化流水线,通过将原始安全遥测数据转化为可操作的风险取证,解决‘数据孤岛’挑战。” ## 1. 我们解决的问题:数据碎片化 来自 API 的原始威胁情报通常被“锁定”在复杂的嵌套 JSON 数组中,标准 BI 工具无法原生解析。 手动瓶颈:安全团队往往依赖静态黑名单;本项目自动化了威胁的整个生命周期,从 API 摄取到实时的“风险地图”。 ## 2. 技术栈 | 层级 | 使用的服务 | 实现细节 | | :--- | :--- | :--- | | **摄取** | Python(Requests/Boto3)& AWS Lambda | 从 AbuseIPDB API 自动提取 | | **编排** | Amazon EventBridge | 按小时调度微批处理 | | **存储** | Amazon S3 | 多层存储(原始青铜层与分析银层) | | **处理** | Amazon Athena | 无服务器 SQL 逻辑与分层 JSON 展开 | | **编目** | AWS Glue 数据目录 | 自动元数据管理与模式强制 | | **可视化** | Power BI | 实时安全遥测仪表板 | ## 3. 数据工程与“脏数据”解决 为模拟真实企业数据挑战,本流水线解决以下工程化异常: * 嵌套 JSON 数组:使用 SQL 的 CROSS JOIN UNNEST 将攻击类别列表解析为独立记录。 * 缺失值(插补):在 Athena 中实现 COALESCE 逻辑,处理缺少地理元数据的记录。 * 模式漂移:手动优化 AWS Glue 数据目录,以处理自动爬虫遗漏的嵌套整数数组。 * 类型不匹配:将原始置信度分数强制转换为整数,以实现数学风险平均。 ## 4. 分析结果 100% 自动化: * 从 API 调用到仪表板刷新,全程无需人工干预。 * 单一事实来源:从 JSON Web 日志聚合生成至一个优化的 Athena 视图。 * 成本优化:无服务器架构确保“按查询付费”模式,消除空闲服务器成本
标签:Athena, AWS, Boto3, C语言, DPI, ETL, EventBridge, Glue数据目录, Gradle集成, JavaCC, JSON解析, Lambda, Power BI, Requests, S3, Schema管理, SEO: AWS安全ETL, SEO: 企业级安全管道, SEO: 自动化威胁分析, Serverless, Web API, 企业安全, 地理分析, 威胁情报, 安全仪表盘, 安全运营, 开发者工具, 扫描框架, 数据治理, 数据清洗, 数据湖, 数据碎片化, 网络资产管理, 自动化管道, 逆向工具, 风险地图