alejandrozarco/gaia-dr3-substellar-novelty-search
GitHub: alejandrozarco/gaia-dr3-substellar-novelty-search
这是一个基于盖亚DR3数据自动化筛选亚恒星伴星候选体的天文学研究管线。
Stars: 0 | Forks: 0
# 基于 Gaia DR3 NSS 数据筛选亚恒星三级候选体的过滤级联管线
## 管线概述
本软件管线在公开的 Gaia DR3 非单星(NSS)数据中搜索具有天体测量摆动特征的恒星,这些特征与褐矮星质量伴星(约13至80倍木星质量)相一致。随后,它会应用一长串过滤规则,以排除那些可能是恒星双星系统、已被发表或受其他系统性误差影响的源。
## 褐矮星简述
褐矮星是质量介于约13至80倍木星质量之间的天体。它们通过气体云塌缩形成,类似于恒星,但从未达到氢聚变所需的质量阈值。在质量等级上,它们介于行星和恒星之间。
发现围绕邻近恒星运行的褐矮星非常困难,原因如下:
- 它们比其所环绕的恒星暗弱得多(在可见光波段相差10⁴至10⁶倍)。
- 它们的存在主要通过其引力牵引来显现,这会导致宿主恒星产生微小的摆动。
- 摆动幅度很小——在天空中通常只有几毫角秒,或者在视线速度上每秒几百米。
## 管线运作方式
欧洲空间局的盖亚卫星在2014年至2017年间测量了超过十亿颗恒星的精确位置。当一颗恒星拥有褐矮星伴星时,两者都会围绕一个共同的质心运行,宿主恒星会在天空中描绘出一个小椭圆。盖亚的第三批数据发布(DR3,2022年发布)识别出大约44万颗显示出此类摆动的恒星,分布在两个互补的表格中:
- **NSS轨道表**:在3年观测窗口中检测到完整轨道周期的恒星,已测量周期、偏心率和轨道几何参数。
- **NSS加速度表**:仅检测到摆动曲率(因为轨道周期长于3年)的恒星,已测量加速度分量但未获得完整轨道。
本管线从这些盖亚探测结果出发,应用以下流程:
### 阶段1 — 候选体筛选
应用宽泛的亚恒星质量切割(面朝观测方向最小质量低于200木星质量),并对视差、天体测量残差和探测显著性进行质量筛选。此阶段产生约26,000个候选源。
### 阶段2 — 倾斜角边缘化质量估计
对于NSS轨道源,从已发布的轨道几何参数加上假定的宿主质量推导质量后验分布。对于NSS加速度源,对各向同性倾斜角先验和对数均匀周期先验进行边缘化。这些后验分布是管线衍生的排序信号,依赖于先验假设,而非直接的质量测量。
### 阶段3 — 过滤级联
与30多个公开目录和巡天数据进行交叉比对,以过滤掉:
- **已发表的伴星**(NASA系外行星档案、exoplanet.eu、SIMBAD,加上专门的褐矮星文献:Sahlmann 2011, Barbato 2023, Unger 2023, Mills 2018, Feng 2022)
- **已知恒星双星**(通过Brandt 2024和Kervella 2022的Hipparcos-Gaia长基线自行异常,华盛顿双星目录,SB9光谱双星,Tokovinin多星目录,GALAH SB2互相关标志,Trifonov 2025 HIRES径向速度变源标志)
- **活动性驱动的伪信号**(TESS自转周期与NSS周期匹配,盖亚变源分类器,盖亚自转致宽)
- **管线在早期深入审查中已识别为冒牌货的特定候选体**
### 阶段4 — 多档案径向速度联合贝叶斯分析
对于在多个档案(HARPS、HIRES、APOGEE、GALAH、NASA系外行星档案、CARMENES)中具有稀疏径向速度测量的候选体,将数据合并进行联合开普勒拟合,并包含每个仪器的零点偏移和仪器抖动。这有时可以揭示任何单个巡天都无法看到的信号。拟合使用`dynesty`嵌套采样器运行。
## 结果
完整的过滤级联将约26,000个初始候选体减少到**11个暂定亚恒星候选体**,记录在`novelty_candidates.csv`中,外加**3个级联副产品**,记录在`cascade_byproducts.csv`中(最新发布版本v1.15.0,2026-05-17)。另提供一份单独的**前沿补充列表,包含62个无HIP交叉匹配候选体**,位于`data/supplementary/no_hip_frontier_clean.csv` — 这些源没有Hipparcos交叉匹配(因此无法获得HGCA和Kervella的佐证),但它们通过了具有亚恒星质量+紧2σ后验+高NSS探测显著性的级联,并且不在任何外部已发表目录中。该前沿列表是未来Gaia DR4后续观测的目标目录,而非发现声明。详见BENCHMARK.md。
### 候选体表格 — 11个亚恒星候选体
10个亚恒星幸存者的管线衍生参数。M₂是倾斜角边缘化后的后验中位数(下一列为1σ范围)。HGCA χ²来自Brandt 2024;数值在5-30范围内是独立佐证了25年天体测量基线上存在真实伴星。对于没有HGCA条目的情况(主要是暗弱M矮星),则引用了最强的独立天体测量证据。
| 名称 | HIP | V | 光谱型 | 距离 (pc) | NSS解 | P (天) | e | M₂ 中位数 (M_J) | M₂ 1σ (M_J) | 独立证据 | 类别 |
|---|---|---|---|---|---|---|---|---|---|---|---|
| HD 101767 | 57135 | 8.88 | F8 | 82 | 轨道 | 486 | 0.45 | 62 | 55–68 | HGCA χ² = 14.2 | 亚恒星 |
| HD 104828 | 58863 | 9.86 | K0 | 33 | 加速度 | ~3600 | — | 41 | 30–55 | HGCA χ² = 23.6 | 亚恒星 |
| HD 140895 | 77262 | 9.39 | — | — | 轨道 (内层) | 1460 | — | 113 | — | Kervella 17.6σ 超出 | 多体 (外层) |
| HD 140940 | 77357 | 8.72 | — | — | 轨道 (内层) | 924 | — | 183 | — | Kervella 18.4σ 超出 | 多体 (外层) |
| BD+46 2473 | 90060 | 8.97 | F5 | 286 | 轨道 (内层) | 496 | 0.33 | 74 | — | HGCA χ² = 17.8 | 多体 (外层) |
| BD+35 228 | 5787 | 9.08 | G0 | 134 | 轨道 (内层) | 560 | 0.40 | 53 | — | HGCA χ² = 18.9 | 多体 (外层) |
| HIP 60865 | 60865 | 12.09 | M 矮星 | 41 | 轨道 | 501 | 0.25 | 49 | 40–65 | HGCA χ² = 10.5 † | 亚恒星 |
| HIP 20122 | 20122 | 13.49 | M2.0Ve | 41 | 轨道 | 255 | 0.17 | 64 | 50–85 | HGCA χ² = 5.1 † | 亚恒星 |
| HD 76078 ‡ | 43870 | 8.72 | G5 | 136 | 轨道 | 275 | 0.29 | 78 | 67–95 | HGCA χ² = 9.4 | 亚恒星 (边缘) |
| BD+56 1762 ‡§ | 72389 | 10.03 | G5/G7 | 98 | 轨道 | 197 | 0.42 | 69 | 60–95 | HGCA χ² = 10.3 | 亚恒星 (Em*活动性警告) |
| HD 134574 ¶ | 74357 | 7.01 | G8III | 116 | 加速度9 | — | — | 29 | 25–35 (边缘)/最高140 (2σ) | HGCA χ² = 17.9 | 亚恒星 (加速度;2σ时质量模糊) |
† **HIP 60865 和 HIP 20122** 的HGCA χ²值(10.5和5.1)处于“已证实”层级(≥5)的下限边缘。它们是否被归类为已证实取决于阈值;将阈值提高到χ² ≥ 8将排除HIP 20122并使HIP 60865处于边缘状态。这两个是来自v1.7.0的8个HGCA证实候选体中最弱的。联合的orvara HGCA + Thiele-Innes后验(而非此处使用的边缘化倾斜角先验)可以收紧判定 — 正在`scripts/orvara_runs/`中处理。
‡ **HD 76078 和 BD+56 1762** 是v1.8.0新增的,由一次内部“猎寻”运行暴露,该运行将所有v7判定重新输入修正后的过滤器 #28(见`BENCHMARK.md`中的v8级联审计)。两者都通过HGCA证实(χ² ∈ 5–30),在10″自行修正半径内不在exoplanet.eu和NASA系外行星档案中,并且不在Sahlmann 2025 G-ASOI列表中。HD 76078的M₂后验中位数(78 M_J)略低于传统的80 M_J褐矮星/恒星边界 — 1σ上限延伸至95 M_J,因此这是一个边缘亚恒星候选体;2σ上限(121 M_J)轻松进入恒星范围,因此仅基于边缘质量的判定对倾斜角先验敏感。
§ **BD+56 1762** 的SIMBAD对象类型为**Em\***(发射线星),这引发了色球活动性冒牌货风险。盖亚DR3质量标志未显示典型的活动性冒牌货特征(`ipd_frac_multi_peak=1`, `non_single_star=1` 仅轨道,无`duplicated_source`标志),因此我们将其保留在候选列表中,并附有明确警告。建议在任何确认观测之前进行有针对性的Hα + Ca II H&K活动性幅度检查。
¶ **HD 134574** 是v1.15.0新增的,通过将条件RUWE规则(v1.9.0 修正C)从仅限轨道类型扩展到也包括加速度解类型(修正E)而暴露。加速度源与轨道源具有相同的物理轨道反射起因导致的高RUWE,但v9级联仅将宽松切割应用于轨道类型。G8III宿主(M_star ≈ 2.24 M_☉)意味着级联衍生的M_2对假定宿主质量比上面的主序候选体更敏感。HGCA χ²=17.9独立证实了真实的25年自行异常。2σ_hi=140 M_J的质量模糊尾部延伸至恒星范围 — 这是一个暂定的亚恒星候选体,需要Gaia DR4(将发布V=7.0的逐次过境径向速度,σ_K ~ 10 m/s)或长基线地基径向速度监测(加速度解P > 3年,因此需要多年观测)来约束周期并精化质量。赤纬=-33.6° → 南半球(ESO/La Silla可达:HARPS、FEROS、CORALIE)。加速度类候选体;由于周期未约束,其质量解释比上面的轨道类候选体更不确定。
### 级联副产品(单独文件:`cascade_byproducts.csv`)
两个通过级联暴露但**不属于亚恒星候选体列表**的源:
| 名称 | HIP | V | 光谱型 | NSS解 | M₂ 中位数 (M_J) | M₂ 1σ (M_J) | 移至副产品的原因 |
|---|---|---|---|---|---|---|---|
| HD 75426 | 43197 | 6.72 | F5IV/V | 加速度7 | 282 | 100–1343 | 1σ范围宽于褐矮星/恒星边界;中位数落在早期M矮星范围。质量模糊,非亚恒星。 |
| HD 120954 | 67777 | 8.76 | G1V | 加速度 | 1637 | 1018–3621 | 管线本身将其归类为恒星(约1.56 M_⊙)。作为方法论副产品(5个独立证据指向约70年恒星伴星)确实有趣,但不是亚恒星候选体。 |
亚恒星表格中的4个BD+ / HD多体行具有从NSS表征的内轨道,但外伴星质量是根据Kervella自行异常推断的,而非直接观测。
### 候选体是如何确定的
在v1中大约有12个源接受了单独的深入调查:
- 7个源最终被证明是椭圆或中等倾角轨道中的恒星M矮星伴星。
- 2个源最终被证明是先前已发表的行星/褐矮星候选体,初始目录交叉匹配因命名或目录策略差距而遗漏。这些案例帮助识别了哪些目录需要更深入的交叉匹配。
- 1个源最终被证明是已知的层级三星系统,已在Tokovinin多星目录和华盛顿双星目录(后者自1876年起)中编目。
- 1个源呈现出明显的恒星伴星发现(上表中的HD 120954),具有多个趋同的天体测量和径向速度信号。这也是暂定的,取决于联合拟合。
- 少数源具有天体测量证据和部分档案径向速度统计数据,与褐矮星质量伴星一致,但缺乏足够的观测数据进行独立验证。
v2管线(过滤器 #27-30:已记录假阳性、exoplanet.eu坐标、HGCA χ²层级、条件RUWE)应用于全部9,498个源的池中,暴露了22个HGCA证实的候选体 + 15个质量模糊的标记候选体。从这37个中,2个真正新颖的具有HIP交叉匹配的亚恒星候选体被提升(HIP 60865 和 HIP 20122)— 两者最初在v1中被过滤掉,因为统一的RUWE < 2切割不适用于信号为轨道反射的解类型。
v8管线(2026-05-17发布)修复了过滤器 #28(exoplanet.eu坐标交叉匹配)中的静默失败:v2-v7的生产池从未传播来自Gaia DR3的`ra`/`dec`,因此坐标匹配对每个源都是无操作。v8修复自动获取每个源的Gaia DR3 `ra`, `dec`, `pmra`, `pmdec`,将坐标从J2016.0历元投影回J2000.0,并在10″半径内进行匹配。这新拒绝了33个曾作为已发表于exoplanet.eu的源静默幸存的源,包括先前处于“已证实”或“标记”层级中的6个:HD 33636 (HIP 24205), HD 68638 (HIP 40497), BD+05 5218 (HIP 117179), HD 30246 (HIP 22203), L 194-115 (HIP 60321), G 239-52 (HIP 75202)。另有两个新颖的候选体从由此产生的v8“已证实”池中提升:HD 76078 (HIP 43870) 和 BD+56 1762 (HIP 72389)。
v9管线(本版本,2026-05-17)增加了四个通过Sahlmann分歧审计确定的级联回忆改进:
1. **修正 A** — Sahlmann CONFIRMED_BINARY_FP 过滤器拒绝 HD 185501(级联假阳性已纠正)。
2. **修正 B** — SIMBAD object_type=`**` 过滤器降级 HD 222805(已分辨的视觉层级双星)。
3. **修正 C** — RUWE 判定逻辑重新同步(过滤器标签与v2后引入的条件RUWE规则发生漂移)。
4. **修正 D** — 对于短周期轨道,用 Kervella 替代 HGCA 进行提升(HGCA 的25年弧平均掉了 P < 4年的轨道;Kervella 的10年弧保留了它们)。
净效果:我们池中 Sahlmann 2025 确认的12颗褐矮星的级联回忆从 8/12 (67%) 提高到 11/12 (92%)。亚恒星候选体列表仍为10个 — 所有四个来自v9的新“已证实”源均已由 Sahlmann 2025 发表(HD 5433, HD 89707, HD 92320)或位于 Sahlmann 的候选体层级(BD+32 92)。因此,v9是一个方法论/回忆卫生版本,而非候选体列表变更。
与10个最近发表的目录(Gaia DPAC 1843 BD, Halbwachs 2023 binary_masses, Marcussen+Albrecht 2023, Stevenson 2023 BD-desert, Brandt+Sosa 2025, Kiefer 2025, Wallace 2026, Stefansson 2025 G-ASOI, Halbwachs+Holl 2024 ML, Cooper 2024 UCD Companion)进行交叉核对:**我们的10个亚恒星候选体中,没有任何一个作为已发表轨道伴星存在于这些目录中**。它们都没有已发表的轨道表征。(HD 76078有29个1850-2026年的ADS文献编号,BD+56 1762有24个,但没有任何一个声称有亚恒星伴星质量;宿主恒星在SIMBAD中被列为双星,但没有已发表的质量分解。)
详见 `REPORT.md` 获取详细方法论,`novelty_candidates.csv` 获取完整列集(包括每个候选体的贝叶斯后验分数和过滤级联跟踪)。候选体表格中的许多参数是管线估计(例如,倾斜角边缘化质量后验),而非直接测量。
### 方法论验证
该级联已根据从Sahlmann 2025判定和Gaia DR3记录假阳性列表中汇编的71项真值集进行了基准测试。关键数据如下:
| 指标 | v2 (已发布) | v3 (提议的决胜规则) |
|---|---|---|
| 池内新颖性召回率 | 58.8% | 85.3% |
| 端到端特异性 | 72.7% | 72.7% |
| 已记录假阳性捕获率 (过滤器 #27) | 100% | 100% |
| 周期恢复 (中位数 \|ΔP/P\|) | 0.005% | 不变 |
| 质量恢复 (中位数 \|ΔM/M\|) | 6.5% | 不变 |
详见 `BENCHMARK.md` 获取完整报告(混淆矩阵、逐过滤器销毁分析、假阳性逃逸、参数恢复表)。配置`config.yaml`后,可通过此仓库运行 `make benchmark` 复现基准 — 快速入门见 `REPRODUCIBILITY.md`。
## 检测 vs. 解读 vs. 策展 — 新颖之处与非新颖之处
审阅者和用户有时会问:考虑到Gaia DR3已经为我们查看的每个源发布了轨道拟合,本仓库的新颖性究竟在哪里?答案需要仔细区分三个层次。
### Gaia DR3 已发布的内容(对我们而言并非新颖)
对于我们候选体列表中的每个源,Gaia DR3(2022年6月)已在 `nss_two_body_orbit` 或 `nss_acceleration_astrometry` 表中发布了:
- 探测本身(即,“该源对单星天体测量模型的残差在统计上显著”)
- 轨道周期、偏心率、近心点时刻以及 Thiele-Innes 几何常数(当轨道解适用时)
- 光心半长轴 (`a_phot`) 及其不确定性
- 加速度向量及其不确定性(当加速度解适用时)
- 内部质量和显著性度量
对于HIP命名的源,**Brandt 2021/2024 (HGCA)** 独立发表了基于Hipparcos目录(历元1991)和Gaia DR3(历元2016)之间25年弧长的 Hipparcos-to-Gaia 自行异常χ²统计量。对于其中的一个子集,**Kervella+2022 (H2G2)** 发表了单独的 Tycho-Hipparcos-to-Gaia 10年弧自行异常信噪比。两者都是独立的摆动探测,未使用盖亚的内部NSS管线计算。
对于5,099个NSS源,盖亚DPAC团队还在 **`gaiadr3.binary_masses`**(Halbwachs+ 2023)中发表了联合的光度+天体测量+光谱分解,给出了直接的M_2测量值(当几何可解时)。该表是Gaia DR3中与已发表质量最接近的版本。
### 我们的管线推导的内容(对盖亚输出的标准计算)
给定已发布的 `a_phot`、周期、偏心率和假定的宿主质量M_1(通常来自盖亚BP-RP颜色和等时线),我们计算:
- `M_2_face_on`:伴星质量的下限,假设倾斜角 i = 90°(侧向),通过应用于 `a_phot` 的 Pourbaix 质量函数得出。
- `M_2_marginalized`:最可能的伴星质量,对各向同性倾斜角先验进行边缘化。
这些是标准推导,任何拥有盖亚NSS目录和一份 Pourbaix 质量函数公式的人都可以重现。
### 我们的管线实际贡献的内容(新颖层)
新颖之处在于**交叉引用和策展层**:
1. **质量解读为亚恒星。** 对于每个盖亚NSS解,推导的M_2都会与亚恒星阈值(约80 M_J)进行核对。解释性声明是“这个NSS轨道解对应于一个褐矮星质量伴星”。在`novelty_candidates.csv`中的候选体,已发表文献中没有人提出过这一声明。
2. **与30多个已发表目录的交叉匹配。** 我们测试每个候选体是否已在exoplanet.eu、NASA系外行星档案、Sahlmann 2025、Halbwachs/Gaia DR3 `binary_masses`、Marcussen+Albrecht 2023、Stefánsson 2025、Trifonov 2025 HIRES等中。我们的10个主要候选体作为亚恒星伴星均不在其中。
3. **多证据佐证。** 对于HIP命名的候选体,我们将盖亚NSS探测与Brandt 2024 HGCA χ²(25年弧)和Kervella 2022 H2G2信噪比(10年弧)叠加。三重佐证的候选体被盖亚、HGCA和Kervella三个独立的团队检测到——来自三个不同基线的三重巧合。正是这种三重一致性使它们比仅基于NSS的候选体更稳健。
3b. **独立摆动再探测(v1.11.0)。** 从v1.11.0起,级联包括第四个独立通道:对于每个主要候选体,我们直接从原始目录位置(Hipparcos van Leeuwen 2007 + Gaia DR3)计算25年Hipparcos-to-Gaia自行异常,不使用Brandt 2024的中间HGCA处理。见`scripts/independent_pma_verification_2026_05_17.py`和`data/intermediate/independent_pma_verification.csv`。所有10个主要候选体在此独立计算中都显示出在>2σ水平的真实Δμ > 0,与Brandt发表的χ²中位一致性为1.4倍。对于缺乏任何径向速度时间序列的HD 76078和BD+56 1762,这种独立自行异常是验证轨道特征不是盖亚NSS管线伪影的主要证据。
4. **方法论卫生。** 在级联开发过程中,我们在已发表系统的审查流程中识别并修复了几个非平凡的错误:自v1.0.0以来过滤器 #28的静默失败(ra/dec从未传播),Sahlmann CONFIRMED_BINARY_FP过滤器缺失,RUWE判定逻辑漂移,SIMBAD `**` 视觉双星过滤器缺失,白矮星宿主M_1默认假设(仍待处理)。即使没有任何单个候选体最终被确认,这些也是有用的方法论贡献。
5. **对28个零SIMBAD文献编号的源的暂定声明。** 在63个无HIP前沿补充候选体中,有28个完全没有SIMBAD文献编号。对于这些源,除了盖亚DR3目录条目本身外,没有已发表的文献存在。如果我们发表它们的级联衍生参数,那就是对这些天体的首次表征。这是仓库接近真正首次发现声明的东西——但即便如此,探测本身是盖亚做的;我们是第一个对其进行*表征*的。
### 本管线仍未完成的工作
- 我们未重新拟合盖亚的历元级天体测量数据。盖亚DR3未发布逐次过境数据;该数据将于2026年12月随DR4发布。我们的管线操作的是已发布的NSS目录输出。
- 我们未执行结合盖亚天体测量与档案径向速度时间序列的联合轨道拟合。`scripts/orvara_runs/`中存在一些针对单个候选体(HIP 20122, HIP 60865, HIP 91479)的运行,但尚未对所有10个进行端到端处理。联合径向速度+天体测量拟合将提供直接的M_2测量,无需倾斜角先验假设。
- 我们未提议或执行新的望远镜观测。
- 我们不做出发现声明。任何候选体的确认要么需要盖亚DR4(免费,2026年12月),要么需要有针对性的地基径向速度观测(付费,依赖望远镜分配)。
- 未经同行评审。
### 读者应如何看待这10个候选体
诚实的表述是:“盖亚DR3将这10颗恒星检测为天体测量双星,其轨道周期与中等倾角下的亚恒星质量一致。Brandt 2024和Kervella 2022在不同基线上独立看到了摆动。没有已发表的伴星目录将它们中的任何一个解读为褐矮星。确认观测是区分子亚恒星与中等倾角恒星解释所必需的。”这是最强有力的可辩护陈述。
## 本管线不做的事
- 不提议或执行新的观测。所有数据来自公开档案。
- 不做出发现声明。幸存的候选体可能在中等倾角下是恒星,可能受当前过滤器未捕获的系统误差影响,或可能已在未在交叉匹配中的来源中预先发表。
- 不提供确定的质量测量。报告的质量是管线从天体测量几何加上对倾斜角和周期的先验假设推导的。
- 未经同行评审。
## 暂定候选体的后续路径
确认`novelty_candidates.csv`中列出的暂定候选体需要:
1. **盖亚DR4**(目前计划于2026年12月发布,预计2027年初公开发布)。DR4将发布所有源的逐次径向速度和中间天体测量数据,可以通过联合历元级推断解决倾斜角-质量简并。这不需要任何成本,也不需要新的望远镜时间。例如,对于HD 101767,产生汇总`rv_amplitude_robust = 3.0 km/s`的21个单独径向速度历元将变为公开。
2. **有针对性的径向速度观测**,使用北方小口径光谱仪(Whipple的TRES、Nordic Optical Telescope的FIES、Observatoire de Haute-Provence的SOPHIE、Telescopio Nazionale Galileo的HARPS-N)或南方等效仪器(SMARTS的CHIRON、MPG 2.2m的FEROS)。通常每个目标2-6个历元,在轨道四分点间隔进行。这需要望远镜分配提案,本纯档案管线不解决此问题。
## 仓库内容
- `README.md` — 本文件(非技术性介绍)
- `REPORT.md` — 更详细的技术方法论和结果
- `novelty_candidates.csv` — 暂定候选体列表及管线衍生参数
- `scripts/` — 管线源代码(Python;使用 `polars`、`numpy`、`astropy`、`dynesty`、`orvara`)
- `CATALOG_DEPENDENCIES.md` — 脚本假定本地缓存的外部目录列表,附下载URL
- `CANDIDATE_FP_AUDIT.md` — 针对盖亚DR3记录的假阳性源(cosmos.esa.int/web/gaia/dr3-known-issues)和独立审查目录(Sahlmann 2025, Stefansson 2025, Tokovinin MSC)的逐候选体审计。在 `novelty_candidates.csv` 中添加了 `fp_risk_tier` 列。
- `candidate_bayesian_scores.csv` — 汇总所有诊断的逐候选体贝叶斯置信分数。列包括 `P_real_companion`、`P_substellar_given_real`、`P_real_substellar`,以及来自每个证据因子(显著性、解类型、基线、径向速度、RUWE等)的对数几率贡献。相同的概率已镜像到 `novelty_candidates.csv`。
- `docs/dev_notes/EXPANSION_AUDIT.md` — 对额外档案方向的探索:AstroSpectroSB1深入研究(37个具有联合天体+光谱轨道探测的褐矮星候选体)、CPM宽伴星检查(我们的8个为0污染)、星团成员交叉匹配(Hunt+Reffert 2023中无匹配)、针对HD 101767 / HD 104828的TESS长周期凌星搜索(无凌星信号)、SB1+Kervella自行异常层级三星扩展(61个候选体)。
- `data/supplementary/astrospectrosb1_candidates_supplementary.csv` — 由扩展审计暴露的37个AstroSpectroSB1候选体。未提升至 `novelty_candidates.csv`,因为它们需要进一步的逐候选体审查;记录为单独的补充池。
- `data/supplementary/sb1_kervella_hierarchical_triple_candidates_supplementary.csv` — 61个具有亚恒星K1和Kervella自行异常交叉匹配的NSS SB1源(潜在的层级三星)。未提升至 `novelty_candidates.csv`;记录为多体候选体类别的补充扩展。
- `cascade_byproducts.csv` — 级联暴露的**不属于亚恒星候选体列表**的2个源:HD 75426(质量模糊,后验跨越褐矮星/恒星边界)和HD 120954(明显的恒星质量伴星,方法论副产品)。
- `docs/dev_notes/` — 作为审计线索保留的迭代开发笔记:V2_SCAN_REPORT, POOL_VETTING_REPORT, TASKS_A_F_REPORT, DECENT_CANDIDATES_CHECK, SUPP_AND_CATALOG_EXPANSION。对主要结果无影响;保留以重现迭代历史。
- `data/intermediate/` — 中间扫描产品(v2_scan_corroborated_22, v2_scan_flag_mass_ambiguous_15, v2_scan_published_systems_caught_via_exoeu_coord, multibody_v2_hgca_tier, decent_candidates_check, supplementary_pool_27_tiered)。由级联运行使用;非主要输出。
## 设置说明
管线脚本期望目录文件存在于通过 `GAIA_NOVELTY_DATA_ROOT` 环境变量设置的位置。所需目录列在 `CATALOG_DEPENDENCIES.md` 中,并附有其公开访问URL。目录本身未在此仓库中重新分发。
Python包依赖项列在 `requirements.txt` 中。使用 `pip install -r requirements.txt` 安装。
## 可复现性状态
本仓库**不是一个开箱即用的复现包**。包含了管线源代码,但输入数据(Gaia DR3 NSS表、HGCA、Kervella、Penoyre、Tokovinin MSC、NASA系外行星档案、WDS、HARPS RVBank、HIRES、APOGEE、GALAH、LAMOST等)总计约100-200 GB的公开目录下载,未在此捆绑。每个目录在 `CATALOG_DEPENDENCIES.md` 中列出,并附有公开下载URL。
最终候选体输出(`novelty_candidates.csv`)是多次迭代传递、手动深入验证和方法论改进的结果,而不是单次自动化管线运行。在新鲜的目录缓存上盲目运行脚本可能会产生与此CSV不同的候选体列表。完整范围声明、脚本顺序说明和已知的可复现性注意事项见 `REPRODUCIBILITY.md`。
## 关于语气
本仓库中的方法论教训和过滤规则是通过对单个源的迭代深入分析积累起来的,其中许多源最终被证明是恒星。这些教训本身是启发性的,并未经过独立验证。该管线旨在作为系统检查Gaia DR3 NSS数据的工具,而非已确认的发现系统。
## 联系方式
有关特定候选体、过滤级联、v2扫描方法论或本仓库中任何其他内容的问题:
- **GitHub Issues** — [提出议题](https://github.com/alejandrozarco/gaia-dr3-substellar-novelty-search/issues),用于技术错误、候选体参数澄清或特定交叉引用请求。
- **GitHub Discussions** — [发起讨论](https://github.com/alejandrozarco/gaia-dr3-substellar-novelty-search/discussions),用于开放式线程:“有人计划对候选体X进行径向速度后续观测吗?”、方法论问题线程等。
- **电子邮件** — `alejandro.zarcos@gmail.com`,用于不适合公开线程的事情(例如,与候选体重叠的准备中的论文、私人Gaia DPAC后续状态、协调提交)。
如果您对`novelty_candidates.csv`中的任何候选体进行了确认、证伪或独立重新分析,请引用本仓库的Zenodo DOI(概念DOI和特定版本DOI见 `CITATION.cff`)。
标签:Gaia卫星数据, 代码示例, 候选识别, 光学天文, 加速度表, 天体物理学, 天文学, 天文观测, 数据分析, 空间观测, 系外行星, 系外行星搜索, 系统效应去除, 统计过滤, 褐矮星, 质量估计, 轨道动力学, 软件管道, 过滤器级联, 逆向工具, 非单星分析