Estwarden/dataset
GitHub: Estwarden/dataset
一个专注于波罗的海安全的开源情报数据集,整合27K多源信号用于威胁监测、虚假信息分析和军事态势感知。
Stars: 0 | Forks: 0
# EstWarden 波罗的海安全数据集
来自 [EstWarden](https://estwarden.eu) 的开放 OSINT 数据集 —— 这是一个波罗的海安全监控器,用于追踪该地区的军事态势、虚假信息、影响力行动和经济指标。
数据采集于 2026 年 1 月至 3 月,包含来自 21 种源类型的 **27,487 条信号**。
**最新动态**:卫星图像数据集 —— 针对包含光谱指数的 35 个军事站点进行的 55 次 Sentinel-2 分析。
## 下载
| 文件 | 信号数 | 大小 | 描述 |
|------|---------|------|-------------|
| `media_signals.jsonl` | 17,358 | 27MB | RSS 文章、Telegram、YouTube、GDELT 军事新闻、milwatch |
| `economic_signals.jsonl` | 6,561 | 5MB | 能源价格、制裁实体、商业登记、使馆建议 |
| `military_signals.jsonl` | 2,748 | 2MB | ADS-B 航班、FIRMS 热成像、GPS 干扰、卫星分析、OSINT |
| `environmental_signals.jsonl` | 765 | 429KB | 气象气球、空间天气、互联网中断、NOTAMs |
| `satellite_signals.jsonl` | 55 | 48KB | Earth Engine 卫星图像分析及光谱指数 |
| `ais_signals.jsonl.gz` | 301,855 | 11MB | 波罗的海船舶位置(已压缩,单独存放) |
| `narrative_tags.jsonl` | 1,109 | 142KB | LLM 叙事分类(N1–N5) |
| `daily_reports.jsonl` | 41 | 6KB | 每日威胁评估及 CTI 评分 |
| `campaigns.jsonl` | 31 | 16KB | 检测到的影响力行动 |
| `indicators.jsonl` | 497 | 81KB | 每份报告的威胁指标 |
## 信号 Schema
```
{
"source_type": "rss",
"source_id": "propastop:a1b2c3d4e5f6",
"title": "Article title",
"content": "Article text (truncated to 3000 chars)...",
"url": "https://source-url.com/article",
"published_at": "2026-03-15T08:30:00+00:00",
"severity": "HIGH",
"latitude": 59.43,
"longitude": 24.75,
"source_category": "counter_disinfo",
"metadata": {
"feed_handle": "propastop",
"category": "counter_disinfo",
"tier": "T1"
}
}
```
## 源类型
### 媒体 (17,358 条信号)
| 来源 | 数量 | 内容 |
|--------|-------|------|
| `rss` | 14K+ | 54 个 RSS 源 —— 波罗的海媒体、俄罗斯官方、独立媒体、防务智库 |
| `rss_security` | 1K+ | 安全类源(CEPA, ICDS, War on the Rocks, FPRI) |
| `telegram` | 1K+ | 公开 Telegram 频道消息 |
| `milwatch` | 956 | 军事观察 RSS 源(25 个防务新闻来源) |
| `gdelt` | 1K+ | GDELT Global Knowledge Graph —— 监控站点附近的军事新闻 |
| `youtube` | 122 | 追踪频道的 YouTube 视频元数据 |
| `deepstate` | 65 | 乌克兰前线数据 |
### 军事 (2,748 条信号)
| 来源 | 数量 | 内容 |
|--------|-------|------|
| `firms` | 887 | 军事基地的 NASA VIIRS 热异常 |
| `satellite_analysis` | 405 | Gemini 分析的 Sentinel-2 图像 + 光谱指数 |
| `adsb` | 316 | 军用飞机位置(波罗的海空域) |
| `gpsjam` | 133 | GPS 干扰区(H3 六边形聚合) |
| `osint_perplexity` | 123 | AI 驱动的 OSINT 研究查询 |
| `osint_milbase` | 28 | 军事基地深度研究 |
### 经济 (6,561 条信号)
| 来源 | 数量 | 内容 |
|--------|-------|------|
| `sanctions` | 5,890 | OpenSanctions 实体数据库(与 RU/BY 相关) |
| `energy` | 43 | 爱沙尼亚电价 |
| `business` | 73 | 爱沙尼亚商业登记清算 |
| `ru_legislation` | 15 | 俄罗斯立法变更 |
| `embassy` | 11 | 旅行建议(US, UK, DE, FI, SE) |
### 环境 (765 条信号)
| 来源 | 数量 | 内容 |
|--------|-------|------|
| `balloon` | 643 | 气象探空仪位置(SondeHub,波罗的海地区) |
| `space_weather` | 60+ | NOAA Kp 地磁指数 |
### 海事 (301,855 条信号 —— 单独文件)
| 来源 | 数量 | 内容 |
|--------|-------|------|
| `ais` | 301K+ | 波罗的海船舶位置,包括影子舰队检测 |
## 叙事分类法
信号被归类为五种针对波罗的海的虚假信息类别:
| 代码 | 叙事 | 描述 |
|------|-----------|-------------|
| N1 | 恐俄症 / 迫害 | “爱沙尼亚迫害俄语使用者” |
| N2 | 战争升级恐慌 | “波罗的海政客将平民拖入战争” |
| N3 | 援助 = 盗窃 | “支持乌克兰浪费了纳税人的钱” |
| N4 | 非法化 | “欧盟/爱沙尼亚领导人腐败” |
| N5 | 孤立 / 受害者心态 | “没人听取俄罗斯社区的声音” |
## 综合威胁指数
每日报告包含一个 CTI 评分(0–100):
| 级别 | 分数 | 含义 |
|-------|-------|---------|
| 🟢 GREEN | 0–24 | 正常基线 |
| 🟡 YELLOW | 25–49 | 活动增加 |
| 🟠 ORANGE | 50–74 | 显著关注 |
| 🔴 RED | 75–100 | 严重威胁 |
## 卫星图像数据集(最新)
`satellite_signals.jsonl` 包含针对波罗的海国家附近的 **35 个俄罗斯和白俄罗斯军事设施** 进行的 55 次 Sentinel-2 分析,包括:
- **LLM 图像分析**(Gemini 2.0 Flash) —— 活动水平、车辆集中度、飞机数量、跑道状态
- **光谱指数**(在 Google Earth Engine 中服务端计算):
- NDVI, NDBI, BSI(裸土指数)
- 燃料特征 %,金属反射率 %,活跃基础设施 %
- 同比增量(去年同期同月基线)
- **SAR 变化检测** —— Sentinel-1 VV 后向散射变化 vs 30 天基线
- **缩略图 URL** —— 2048px Sentinel-2 RGB,位于 `storage.googleapis.com/estwarden-satellite/`
### 卫星信号 Schema
```
{
"source_type": "satellite_analysis",
"source_id": "ee:pskov-76th-vdv:2026-03-15",
"title": "EE: Pskov-76th-VDV — MODERATE",
"latitude": 57.78,
"longitude": 28.39,
"metadata": {
"site": "Pskov-76th-VDV",
"country": "RU",
"site_type": "airborne",
"scene_date": "2026-03-15",
"gcs_url": "gs://estwarden-satellite/thumbnails/Pskov-76th-VDV/2026-03-15.jpg",
"analysis": {
"activity_level": "MODERATE",
"vehicles": "LOW",
"aircraft_count": 0,
"runway": "CLEAR",
"summary": "...",
"confidence": "MEDIUM"
},
"spectral_indices": {
"ndvi": 0.4249,
"ndbi": 0.0514,
"bsi": 0.1035,
"fuel_pct": 3.28,
"metal_pct": 0.12,
"active_pct": 72.98,
"yoy_ndvi": 0.0228,
"yoy_ndbi": -0.028,
"yoy_bsi": -0.008
},
"sar_change": {
"mean_change_db": 1.62,
"std_change_db": 2.07
}
}
}
```
### 监控站点(35 个含图像站点)
| 区域 | 站点 | 示例 |
|--------|------:|---------|
| 加里宁格勒 | 5 | 契卡洛夫斯克(空军基地)、波罗的斯克(海军)、顿斯科耶(导弹) |
| 普斯科夫/诺夫哥罗德 | 4 | 第 76 空降师、奥斯特罗夫(空军基地)、Strugi-Krasnye |
| 圣彼得堡 | 3 | 喀琅施塔得(海军)、列瓦绍沃(空军基地)、卡缅卡(旅) |
| 白俄罗斯 | 5 | 马丘利希(空军基地)、巴拉诺维奇、格罗德诺、布列斯特、奥西波维奇 |
| 俄罗斯中部 | 8 | 阿拉比诺、特维尔-米加洛沃、沙伊科夫卡、叶利尼亚、斯摩棱斯克 |
| 俄罗斯南部 | 5 | 米勒罗沃、莫罗佐夫斯克、库尔斯克-哈里诺、沃罗涅日、波戈诺沃 |
| 北极/北方 | 3 | 北莫尔斯克、奥列尼亚、下塔吉尔 |
| 其他 | 2 | 塞瓦斯托波尔、萨基-诺沃费奥多罗夫卡 |
### 缩略图访问
所有缩略图均可公开访问。示例:
```
https://storage.googleapis.com/estwarden-satellite/thumbnails/Pskov-76th-VDV/2026-03-15.jpg
```
列出所有可用的缩略图:
```
https://storage.googleapis.com/storage/v1/b/estwarden-satellite/o?prefix=thumbnails/
```
### 卫星研究用例
- **变化检测模型训练** —— 包含光谱指数的双时相 Sentinel-2 图像对
- **活动分类** —— 将光谱指数与 LLM 活动标签相关联
- **异常检测** —— 对 6 波段多光谱数据进行 Isolation Forest 分析
- **季节性基线构建** —— 同比同月比较
- **多传感器融合** —— 结合 FIRMS 热成像 + SAR + 光学数据进行基地监控
- **超分辨率基准测试** —— 10m Sentinel-2 vs 0.3m ESRI 参考
请参阅 [Estwarden/research](https://github.com/Estwarden/research) 中的实验 08–15 以获取经过验证的技术。
## 使用案例
- **叙事检测模型训练** —— 17K 标注媒体信号 + 1.1K 叙事标签
- **威胁指数校准** —— 41 天的 CTI 评分及其组成部分细分
- **军事活动分析** —— ADS-B、FIRMS、GPS 干扰、卫星数据
- **卫星图像分析** —— 光谱指数、变化检测、异常检测
- **海事 OSINT** —— 300K+ 船舶位置,用于影子舰队研究
- **影响力行动检测** —— 媒体来源的时间模式
- **多源融合研究** —— 如何结合 21 个异构来源
## 来源
所有数据均从 **公共 API 和开源** 收集:
- RSS 源(直接 XML)、Wayback Machine 档案
- NASA FIRMS、NOAA SWPC、EASA CZIB
- OpenSky/adsb.lol、Digitraffic.fi(芬兰海事)
- GDELT、ACLED、OpenSanctions
- SondeHub、GPSJam.org
无私有数据,无抓取的个人内容,无涉密信息。
## 引用
```
@dataset{estwarden2026,
title={EstWarden Baltic Security Dataset},
author={EstWarden},
year={2026},
url={https://github.com/Estwarden/dataset},
note={27K+ OSINT signals from 20 sources, Jan-Mar 2026}
}
```
## 许可证
[Open Data Commons Attribution License (ODC-By)](https://opendatacommons.org/licenses/by/1-0/)
您可以自由分享和改编本数据集。请注明 EstWarden。
## 相关链接
- [estwarden.eu](https://estwarden.eu) —— 实时仪表盘
- [Estwarden/collectors](https://github.com/Estwarden/collectors) —— 数据收集管道
- [Estwarden/research](https://github.com/Estwarden/research) —— CTI 方法论 + 自动研究
- [Estwarden/integrations](https://github.com/Estwarden/integrations) —— MCP 服务器、Home Assistant、CLI
## 区域标签
生产环境中的信号标记有地理区域:
`estonia`、`latvia`、`lithuania`、`finland`、`poland`、`baltic`(综合),
以及对手区域:`kaliningrad`、`pskov`、`stpetersburg`、`belarus_north`、`murmansk`。
本数据集是在区域标签功能部署 **之前** 导出的,因此信号
不包含 `region` 字段。未来的版本将包含带有区域标签的数据
以便进行分国别分析。
CTI 分别针对三个区域进行计算:
- **波罗的海**(estwarden, latwarden, litwarden, balticwarden)
- **芬兰**(finwarden)
- **波兰**(polwarden)
标签:2026, ADS-B, AIS, ESC4, GDELT, HTTP/HTTPS抓包, LSTM, OSINT, 信号情报, 军事监控, 卫星图像, 叙事分析, 地缘政治, 多源情报, 威胁情报, 威胁报告, 实时处理, 密码管理, 开发者工具, 影响力作战, 态势感知, 态势数据, 情报收集, 时序数据库, 波罗的海安全, 混合战争, 漏洞研究, 经济指标, 虚假信息, 认知战, 遥感数据