us3r/databricks-threathunt
GitHub: us3r/databricks-threathunt
一款基于 Databricks 的原生威胁狩猎应用,通过 LLM 驱动的自然语言查询生成、实体时间线聚合和 Delta Lake 狩猎追踪,简化假设驱动的安全调查流程。
Stars: 0 | Forks: 0
# ThreatHunt — Databricks Apps
基于 Databricks Apps 原生构建的威胁狩猎 PoC。由 Foundation Models 驱动的假设性调查,通过 Delta Lake 提供完整的事件时间线和狩猎追踪。

## 功能介绍
- **Hunt Workspace** — 用通俗的语言描述您要寻找的内容,该应用程序会通过 `DESCRIBE TABLE` 获取您的实际表结构,利用 Foundation Model 生成 SQL,供您审查和运行
- **Entity Timeline** — 点击任意实体(主机、用户、IP)即可在一个视图中查看其在所有安全源中的完整事件历史,按天分组,并可按源类型筛选
- **Hunt Board** — 看板式追踪(假设 → 进行中 → 已确认 → 已驳回),通过 `MERGE INTO` 持久化到 Delta,并具有完整的时间旅行审计历史
## 架构
```
Analyst → Streamlit UI → Foundation Model (hypothesis → SQL)
→ Serverless SQL Warehouse → Delta Tables (security telemetry)
→ Delta Table (hunt board state)
```
- **Auth**: `Config()` — 代码中零凭证,Databricks Apps OAuth 处理一切
- **Compute**: Serverless SQL Warehouse — 可缩容至零,无需集群管理
- **AI**: Foundation Model endpoint (`databricks-meta-llama-3-3-70b-instruct`) — 按付费,无需部署
- **Governance**: Unity Catalog 行/列过滤器 — 应用程序不管理权限,由 Delta 处理
## 部署
1. 将 `app.py`, `app.yaml`, `requirements.txt` 上传到您的 Databricks workspace
2. 创建一个指向该文件夹的 Databricks App
3. 在 `app.yaml` 中将 `WAREHOUSE_ID` 设置为您的 SQL Warehouse ID
4. 将 `EVENTS_TABLE` 设置为您的安全遥测表
5. 启动应用程序
当未设置 `WAREHOUSE_ID` 时,应用程序以 **demo mode**(演示模式)运行并使用合成数据 —— 适用于在没有实时环境的情况下展示概念。
## 配置
| 变量 | 描述 | 默认值 |
|----------|-------------|---------|
| `WAREHOUSE_ID` | SQL Warehouse ID | `""` (demo mode) |
| `LLM_ENDPOINT` | Foundation Model endpoint | `databricks-meta-llama-3-3-70b-instruct` |
| `EVENTS_TABLE` | 安全事件表 | `security.events.network_connections` |
| `HUNTS_TABLE` | Hunt board Delta 表 | `security.hunts.board` |
## 环境要求
- 启用 Unity Catalog 的 Databricks workspace
- Serverless SQL Warehouse
- Foundation Model endpoint 访问权限
- 对 hunts 表拥有 `MODIFY` + `SELECT` 权限
## 博客文章
完整的架构解析和代码说明:[SIEM is legacy — building a threat hunting app on a Security Data Lake](https://dere.la/posts/siem-legacy-threathunt/)
## 许可证
Apache 2.0
标签:AI 安全, Databricks Apps, Delta Lake, DLL 劫持, HTTP/HTTPS抓包, Kubernetes, LLM, Python, SecOps, Serverless SQL Warehouse, Streamlit, Text-to-SQL, Threat Hunting, Unity Catalog, Unmanaged PE, 云安全架构, 假设驱动调查, 多线程, 大语言模型, 安全智能, 安全运营, 实体时间线, 态势感知, 扫描框架, 无后门, 看板管理, 结构化查询, 自动化安全, 访问控制, 逆向工具