Estwarden/dataset

GitHub: Estwarden/dataset

一个专注于波罗的海安全的开源情报数据集,整合27K多源信号用于威胁监测、虚假信息分析和军事态势感知。

Stars: 0 | Forks: 0

# EstWarden 波罗的海安全数据集 来自 [EstWarden](https://estwarden.eu) 的开放 OSINT 数据集 —— 这是一个波罗的海安全监控器,用于追踪该地区的军事态势、虚假信息、影响力行动和经济指标。 数据采集于 2026 年 1 月至 3 月,包含来自 21 种源类型的 **27,487 条信号**。 **最新动态**:卫星图像数据集 —— 针对包含光谱指数的 35 个军事站点进行的 55 次 Sentinel-2 分析。 ## 下载 | 文件 | 信号数 | 大小 | 描述 | |------|---------|------|-------------| | `media_signals.jsonl` | 17,358 | 27MB | RSS 文章、Telegram、YouTube、GDELT 军事新闻、milwatch | | `economic_signals.jsonl` | 6,561 | 5MB | 能源价格、制裁实体、商业登记、使馆建议 | | `military_signals.jsonl` | 2,748 | 2MB | ADS-B 航班、FIRMS 热成像、GPS 干扰、卫星分析、OSINT | | `environmental_signals.jsonl` | 765 | 429KB | 气象气球、空间天气、互联网中断、NOTAMs | | `satellite_signals.jsonl` | 55 | 48KB | Earth Engine 卫星图像分析及光谱指数 | | `ais_signals.jsonl.gz` | 301,855 | 11MB | 波罗的海船舶位置(已压缩,单独存放) | | `narrative_tags.jsonl` | 1,109 | 142KB | LLM 叙事分类(N1–N5) | | `daily_reports.jsonl` | 41 | 6KB | 每日威胁评估及 CTI 评分 | | `campaigns.jsonl` | 31 | 16KB | 检测到的影响力行动 | | `indicators.jsonl` | 497 | 81KB | 每份报告的威胁指标 | ## 信号 Schema ``` { "source_type": "rss", "source_id": "propastop:a1b2c3d4e5f6", "title": "Article title", "content": "Article text (truncated to 3000 chars)...", "url": "https://source-url.com/article", "published_at": "2026-03-15T08:30:00+00:00", "severity": "HIGH", "latitude": 59.43, "longitude": 24.75, "source_category": "counter_disinfo", "metadata": { "feed_handle": "propastop", "category": "counter_disinfo", "tier": "T1" } } ``` ## 源类型 ### 媒体 (17,358 条信号) | 来源 | 数量 | 内容 | |--------|-------|------| | `rss` | 14K+ | 54 个 RSS 源 —— 波罗的海媒体、俄罗斯官方、独立媒体、防务智库 | | `rss_security` | 1K+ | 安全类源(CEPA, ICDS, War on the Rocks, FPRI) | | `telegram` | 1K+ | 公开 Telegram 频道消息 | | `milwatch` | 956 | 军事观察 RSS 源(25 个防务新闻来源) | | `gdelt` | 1K+ | GDELT Global Knowledge Graph —— 监控站点附近的军事新闻 | | `youtube` | 122 | 追踪频道的 YouTube 视频元数据 | | `deepstate` | 65 | 乌克兰前线数据 | ### 军事 (2,748 条信号) | 来源 | 数量 | 内容 | |--------|-------|------| | `firms` | 887 | 军事基地的 NASA VIIRS 热异常 | | `satellite_analysis` | 405 | Gemini 分析的 Sentinel-2 图像 + 光谱指数 | | `adsb` | 316 | 军用飞机位置(波罗的海空域) | | `gpsjam` | 133 | GPS 干扰区(H3 六边形聚合) | | `osint_perplexity` | 123 | AI 驱动的 OSINT 研究查询 | | `osint_milbase` | 28 | 军事基地深度研究 | ### 经济 (6,561 条信号) | 来源 | 数量 | 内容 | |--------|-------|------| | `sanctions` | 5,890 | OpenSanctions 实体数据库(与 RU/BY 相关) | | `energy` | 43 | 爱沙尼亚电价 | | `business` | 73 | 爱沙尼亚商业登记清算 | | `ru_legislation` | 15 | 俄罗斯立法变更 | | `embassy` | 11 | 旅行建议(US, UK, DE, FI, SE) | ### 环境 (765 条信号) | 来源 | 数量 | 内容 | |--------|-------|------| | `balloon` | 643 | 气象探空仪位置(SondeHub,波罗的海地区) | | `space_weather` | 60+ | NOAA Kp 地磁指数 | ### 海事 (301,855 条信号 —— 单独文件) | 来源 | 数量 | 内容 | |--------|-------|------| | `ais` | 301K+ | 波罗的海船舶位置,包括影子舰队检测 | ## 叙事分类法 信号被归类为五种针对波罗的海的虚假信息类别: | 代码 | 叙事 | 描述 | |------|-----------|-------------| | N1 | 恐俄症 / 迫害 | “爱沙尼亚迫害俄语使用者” | | N2 | 战争升级恐慌 | “波罗的海政客将平民拖入战争” | | N3 | 援助 = 盗窃 | “支持乌克兰浪费了纳税人的钱” | | N4 | 非法化 | “欧盟/爱沙尼亚领导人腐败” | | N5 | 孤立 / 受害者心态 | “没人听取俄罗斯社区的声音” | ## 综合威胁指数 每日报告包含一个 CTI 评分(0–100): | 级别 | 分数 | 含义 | |-------|-------|---------| | 🟢 GREEN | 0–24 | 正常基线 | | 🟡 YELLOW | 25–49 | 活动增加 | | 🟠 ORANGE | 50–74 | 显著关注 | | 🔴 RED | 75–100 | 严重威胁 | ## 卫星图像数据集(最新) `satellite_signals.jsonl` 包含针对波罗的海国家附近的 **35 个俄罗斯和白俄罗斯军事设施** 进行的 55 次 Sentinel-2 分析,包括: - **LLM 图像分析**(Gemini 2.0 Flash) —— 活动水平、车辆集中度、飞机数量、跑道状态 - **光谱指数**(在 Google Earth Engine 中服务端计算): - NDVI, NDBI, BSI(裸土指数) - 燃料特征 %,金属反射率 %,活跃基础设施 % - 同比增量(去年同期同月基线) - **SAR 变化检测** —— Sentinel-1 VV 后向散射变化 vs 30 天基线 - **缩略图 URL** —— 2048px Sentinel-2 RGB,位于 `storage.googleapis.com/estwarden-satellite/` ### 卫星信号 Schema ``` { "source_type": "satellite_analysis", "source_id": "ee:pskov-76th-vdv:2026-03-15", "title": "EE: Pskov-76th-VDV — MODERATE", "latitude": 57.78, "longitude": 28.39, "metadata": { "site": "Pskov-76th-VDV", "country": "RU", "site_type": "airborne", "scene_date": "2026-03-15", "gcs_url": "gs://estwarden-satellite/thumbnails/Pskov-76th-VDV/2026-03-15.jpg", "analysis": { "activity_level": "MODERATE", "vehicles": "LOW", "aircraft_count": 0, "runway": "CLEAR", "summary": "...", "confidence": "MEDIUM" }, "spectral_indices": { "ndvi": 0.4249, "ndbi": 0.0514, "bsi": 0.1035, "fuel_pct": 3.28, "metal_pct": 0.12, "active_pct": 72.98, "yoy_ndvi": 0.0228, "yoy_ndbi": -0.028, "yoy_bsi": -0.008 }, "sar_change": { "mean_change_db": 1.62, "std_change_db": 2.07 } } } ``` ### 监控站点(35 个含图像站点) | 区域 | 站点 | 示例 | |--------|------:|---------| | 加里宁格勒 | 5 | 契卡洛夫斯克(空军基地)、波罗的斯克(海军)、顿斯科耶(导弹) | | 普斯科夫/诺夫哥罗德 | 4 | 第 76 空降师、奥斯特罗夫(空军基地)、Strugi-Krasnye | | 圣彼得堡 | 3 | 喀琅施塔得(海军)、列瓦绍沃(空军基地)、卡缅卡(旅) | | 白俄罗斯 | 5 | 马丘利希(空军基地)、巴拉诺维奇、格罗德诺、布列斯特、奥西波维奇 | | 俄罗斯中部 | 8 | 阿拉比诺、特维尔-米加洛沃、沙伊科夫卡、叶利尼亚、斯摩棱斯克 | | 俄罗斯南部 | 5 | 米勒罗沃、莫罗佐夫斯克、库尔斯克-哈里诺、沃罗涅日、波戈诺沃 | | 北极/北方 | 3 | 北莫尔斯克、奥列尼亚、下塔吉尔 | | 其他 | 2 | 塞瓦斯托波尔、萨基-诺沃费奥多罗夫卡 | ### 缩略图访问 所有缩略图均可公开访问。示例: ``` https://storage.googleapis.com/estwarden-satellite/thumbnails/Pskov-76th-VDV/2026-03-15.jpg ``` 列出所有可用的缩略图: ``` https://storage.googleapis.com/storage/v1/b/estwarden-satellite/o?prefix=thumbnails/ ``` ### 卫星研究用例 - **变化检测模型训练** —— 包含光谱指数的双时相 Sentinel-2 图像对 - **活动分类** —— 将光谱指数与 LLM 活动标签相关联 - **异常检测** —— 对 6 波段多光谱数据进行 Isolation Forest 分析 - **季节性基线构建** —— 同比同月比较 - **多传感器融合** —— 结合 FIRMS 热成像 + SAR + 光学数据进行基地监控 - **超分辨率基准测试** —— 10m Sentinel-2 vs 0.3m ESRI 参考 请参阅 [Estwarden/research](https://github.com/Estwarden/research) 中的实验 08–15 以获取经过验证的技术。 ## 使用案例 - **叙事检测模型训练** —— 17K 标注媒体信号 + 1.1K 叙事标签 - **威胁指数校准** —— 41 天的 CTI 评分及其组成部分细分 - **军事活动分析** —— ADS-B、FIRMS、GPS 干扰、卫星数据 - **卫星图像分析** —— 光谱指数、变化检测、异常检测 - **海事 OSINT** —— 300K+ 船舶位置,用于影子舰队研究 - **影响力行动检测** —— 媒体来源的时间模式 - **多源融合研究** —— 如何结合 21 个异构来源 ## 来源 所有数据均从 **公共 API 和开源** 收集: - RSS 源(直接 XML)、Wayback Machine 档案 - NASA FIRMS、NOAA SWPC、EASA CZIB - OpenSky/adsb.lol、Digitraffic.fi(芬兰海事) - GDELT、ACLED、OpenSanctions - SondeHub、GPSJam.org 无私有数据,无抓取的个人内容,无涉密信息。 ## 引用 ``` @dataset{estwarden2026, title={EstWarden Baltic Security Dataset}, author={EstWarden}, year={2026}, url={https://github.com/Estwarden/dataset}, note={27K+ OSINT signals from 20 sources, Jan-Mar 2026} } ``` ## 许可证 [Open Data Commons Attribution License (ODC-By)](https://opendatacommons.org/licenses/by/1-0/) 您可以自由分享和改编本数据集。请注明 EstWarden。 ## 相关链接 - [estwarden.eu](https://estwarden.eu) —— 实时仪表盘 - [Estwarden/collectors](https://github.com/Estwarden/collectors) —— 数据收集管道 - [Estwarden/research](https://github.com/Estwarden/research) —— CTI 方法论 + 自动研究 - [Estwarden/integrations](https://github.com/Estwarden/integrations) —— MCP 服务器、Home Assistant、CLI ## 区域标签 生产环境中的信号标记有地理区域: `estonia`、`latvia`、`lithuania`、`finland`、`poland`、`baltic`(综合), 以及对手区域:`kaliningrad`、`pskov`、`stpetersburg`、`belarus_north`、`murmansk`。 本数据集是在区域标签功能部署 **之前** 导出的,因此信号 不包含 `region` 字段。未来的版本将包含带有区域标签的数据 以便进行分国别分析。 CTI 分别针对三个区域进行计算: - **波罗的海**(estwarden, latwarden, litwarden, balticwarden) - **芬兰**(finwarden) - **波兰**(polwarden)
标签:2026, ADS-B, AIS, ESC4, GDELT, HTTP/HTTPS抓包, LSTM, OSINT, 信号情报, 军事监控, 卫星图像, 叙事分析, 地缘政治, 多源情报, 威胁情报, 威胁报告, 实时处理, 密码管理, 开发者工具, 影响力作战, 态势感知, 态势数据, 情报收集, 时序数据库, 波罗的海安全, 混合战争, 漏洞研究, 经济指标, 虚假信息, 认知战, 遥感数据