us3r/databricks-threathunt

GitHub: us3r/databricks-threathunt

一款基于 Databricks 的原生威胁狩猎应用,通过 LLM 驱动的自然语言查询生成、实体时间线聚合和 Delta Lake 狩猎追踪,简化假设驱动的安全调查流程。

Stars: 0 | Forks: 0

# ThreatHunt — Databricks Apps 基于 Databricks Apps 原生构建的威胁狩猎 PoC。由 Foundation Models 驱动的假设性调查,通过 Delta Lake 提供完整的事件时间线和狩猎追踪。 ![Hunt Workspace](https://raw.githubusercontent.com/us3r/databricks-threathunt/main/docs/workspace.png) ## 功能介绍 - **Hunt Workspace** — 用通俗的语言描述您要寻找的内容,该应用程序会通过 `DESCRIBE TABLE` 获取您的实际表结构,利用 Foundation Model 生成 SQL,供您审查和运行 - **Entity Timeline** — 点击任意实体(主机、用户、IP)即可在一个视图中查看其在所有安全源中的完整事件历史,按天分组,并可按源类型筛选 - **Hunt Board** — 看板式追踪(假设 → 进行中 → 已确认 → 已驳回),通过 `MERGE INTO` 持久化到 Delta,并具有完整的时间旅行审计历史 ## 架构 ``` Analyst → Streamlit UI → Foundation Model (hypothesis → SQL) → Serverless SQL Warehouse → Delta Tables (security telemetry) → Delta Table (hunt board state) ``` - **Auth**: `Config()` — 代码中零凭证,Databricks Apps OAuth 处理一切 - **Compute**: Serverless SQL Warehouse — 可缩容至零,无需集群管理 - **AI**: Foundation Model endpoint (`databricks-meta-llama-3-3-70b-instruct`) — 按付费,无需部署 - **Governance**: Unity Catalog 行/列过滤器 — 应用程序不管理权限,由 Delta 处理 ## 部署 1. 将 `app.py`, `app.yaml`, `requirements.txt` 上传到您的 Databricks workspace 2. 创建一个指向该文件夹的 Databricks App 3. 在 `app.yaml` 中将 `WAREHOUSE_ID` 设置为您的 SQL Warehouse ID 4. 将 `EVENTS_TABLE` 设置为您的安全遥测表 5. 启动应用程序 当未设置 `WAREHOUSE_ID` 时,应用程序以 **demo mode**(演示模式)运行并使用合成数据 —— 适用于在没有实时环境的情况下展示概念。 ## 配置 | 变量 | 描述 | 默认值 | |----------|-------------|---------| | `WAREHOUSE_ID` | SQL Warehouse ID | `""` (demo mode) | | `LLM_ENDPOINT` | Foundation Model endpoint | `databricks-meta-llama-3-3-70b-instruct` | | `EVENTS_TABLE` | 安全事件表 | `security.events.network_connections` | | `HUNTS_TABLE` | Hunt board Delta 表 | `security.hunts.board` | ## 环境要求 - 启用 Unity Catalog 的 Databricks workspace - Serverless SQL Warehouse - Foundation Model endpoint 访问权限 - 对 hunts 表拥有 `MODIFY` + `SELECT` 权限 ## 博客文章 完整的架构解析和代码说明:[SIEM is legacy — building a threat hunting app on a Security Data Lake](https://dere.la/posts/siem-legacy-threathunt/) ## 许可证 Apache 2.0
标签:AI 安全, Databricks Apps, Delta Lake, DLL 劫持, HTTP/HTTPS抓包, Kubernetes, LLM, Python, SecOps, Serverless SQL Warehouse, Streamlit, Text-to-SQL, Threat Hunting, Unity Catalog, Unmanaged PE, 云安全架构, 假设驱动调查, 多线程, 大语言模型, 安全智能, 安全运营, 实体时间线, 态势感知, 扫描框架, 无后门, 看板管理, 结构化查询, 自动化安全, 访问控制, 逆向工具