Jasonleonardvolk/sigma

GitHub: Jasonleonardvolk/sigma

SIGMA 通过细胞层上同调实现知识图谱的结构矛盾检测，提供常数成本的生成后验证。

Stars: 1 | Forks: 0

# SIGMA **我们已包含 O(n^3)。通过细胞层上同调进行结构验证。** 检测任何局部调整都无法解决的矛盾。数学证明。不是 AI 猜测。线性成本。无 GPU。 ## 问题 AI 系统会产生在局部看起来一致但全局上不可能的输出。每对相邻断言都通过检查，但整体链条是矛盾的。现有验证方法无法在大规模场景下可靠地捕捉此类问题。 SIGMA 是一个生成后验证层。它接收结构化知识（实体与关系构成的图），在其上构造一个细胞层，并使用第一层层上同调（H^1）来检测不可调和的矛盾。该检测是代数的，而非启发式的。如果 SIGMA 判定其矛盾，则确实矛盾。 ## 关键结果：Enron 邮件网络 | | | |---|---| | **数据集** | Stanford SNAP Enron（36,692 个账户，183,831 条边） | | **拓扑结构** | 幂律（度变异系数 = 2.609，最大度 1,141） | | **流水线耗时** | 21 秒（热缓存，4 种子验证通过） | | **每个顶点成本** | 0.37 毫秒 | | **验证单元** | 3,760（所有种子均相同） | | **神经最大维度** | 2 | | **峰值内存** | 641 MB | | **硬件** | 单台笔记本电脑（i9-13900H，64GB RAM，无 GPU） | 该层拉普拉斯矩阵为 170,472 × 170,472。密集特征值求解约需 14 小时。SIGMA 将图分解，使得任何特征值求解所见的顶点数不超过 500。O(n^3) 并不会消失，它被封装进一个常数中： ``` O(n^3) -> O(n/v_max) * O(v_max^3) = O(n) * constant ``` 立方体被禁锢在常数之中。 ## 演示：SIGMA 所看到的 **输入：** 来自 LLM 推理链的 6 个断言。每对相邻断言均一致。 ``` 1. The contract requires delivery by March 15 2. Force majeure extends all deadlines by 90 days 3. The penalty clause activates on the original deadline 4. Insurance covers penalties only during extensions 5. The vendor confirmed compliance with all terms 6. No penalties have been assessed or waived ``` **SIGMA 输出：** ``` Contradictions detected: 3 Claim 2 <-> Claim 3: irreconcilable (H^1 obstruction) extension vs original deadline activation Claim 3 <-> Claim 6: irreconcilable (H^1 obstruction) penalty triggers but none assessed Claim 4 <-> Claim 6: irreconcilable (H^1 obstruction) coverage scope vs no action taken False positives: 0 Detection time: 47 ms Obstruction dim: H^1 = 3 ``` ## 规模已在几何（合成）与幂律（真实世界）拓扑结构上完成验证。 ``` Vertices Topology Cells Cost/Entity Peak RAM Crashes ------------------------------------------------------------------------ 21,309 Power-law (Enron) 3,760 0.37 ms 641 MB 0 50,000 Geometric 1,180 0.52 ms 1.7 GB 0 100,000 Power-law (BA) 7,028 0.60 ms 1.3 GB 0 100,000 Geometric 2,552 0.51 ms 3.2 GB 0 250,000 Geometric 5,987 0.94 ms 7.5 GB 0 1,000,000 Geometric 23,123 0.85 ms 28.3 GB 0 ``` 顶点数增长 47 倍。每个实体成本：**持平**。各规模下零崩溃。 ## 分解流水线 SIGMA 将图分解为有界单元，使得任何 eigensolve 都不会超过固定的顶点上限。全局上同调通过神经复形上的 Cech 层谱序列恢复。 - 分解成本：O(V+E) - 每个单元 eigensolve：O(常数) - 总成本：O(n) - 神经最大维度：2 - 分区确定性：仅依赖于拓扑结构 O(n^3) 的 eigensolve 被分解为有界子问题。立方体被禁锢在常数之中。该流水线可处理幂律图、几何图以及混合拓扑结构。已在 V=21K 到 V=1M 范围内验证，每个顶点成本保持恒定。专利待批。流水线细节为专有信息。 ## 架构 ``` Knowledge Graph | v Sheaf Construction (restriction maps, contractivity enforced) | v Multi-stage Decomposition Pipeline (O(V+E)) | v Per-Cell Eigensolves (bounded, independent) | v Nerve Assembly (Cech spectral sequence) | v Contradiction Report (locations, severity, algebraic proof) ``` ## 多种子可重复性 ``` Seed Time ms/vertex Cells Nerve Edges Max Dim --------------------------------------------------------------- 42 34.0s 0.433 3,760 254 2 137 25.8s 0.451 3,760 254 2 2718 21.1s 0.374 3,760 254 2 31415 21.1s 0.370 3,760 254 2 ``` 3,760 个单元、254 条神经边、最大维度 2：**在所有种子下均相同。** 分区结构仅依赖于图拓扑，而非层数据。确定性。可重复性。始终如一。 ## 这不是什么 - **不是 LLM。** SIGMA 不生成文本，仅验证结构一致性。 - **不是约束求解器。** SAT/SMT 用于检查逻辑可满足性。SIGMA 检测拓扑障碍。 - **不是 GPU 产品。** 该架构使 GPU 在此类问题中变得无关。 ## 状态 - 临时专利已提交（美国申请号 64/023,418，2026 年 3 月） - ICML 2026 AI4Math Workshop 投稿进行中（截止日期 5 月 25 日） - 预印本：[Zenodo DOI 10.5281/zenodo.19598076](https://zenodo.org/records/19598076) - HuggingFace 演示：[jasonlvolk/sigma-enron-demo](https://huggingface.co/spaces/jasonlvolk/sigma-enron-demo) ## 应用 - **法律：** 电路分裂检测、合同矛盾验证、电子取证 - **金融：** 监管文件一致性、AML/KYC 交易图验证 - **合规：** 跨司法管辖区监管冲突检测 - **AI 安全：** LLM 输出的生成后验证、代理信念一致性 ## 联系方式 Jason Volk [jason@invariant.pro](mailto:jason@invariant.pro) [invariant.pro](https://invariant.pro) ## 许可保留所有权利。联系获取许可咨询。

标签：CPU计算, eigensolve, Enron邮件网络, SIGMA, 不可化解矛盾, 代数拓扑, 全局一致性, 内存优化, 单机处理, 后生成验证, 图神经网络, 图计算, 大规模图, 局部一致性, 层上同调, 常数成本, 幂律分布, 拉普拉斯矩阵, 数学证明, 斯坦福SNAP, 无GPU, 枢纽节点, 特征值求解, 矛盾检测, 管道处理, 线性复杂度, 结构验证, 谱分解, 逆向工具, 配置错误检测, 零崩溃, 验证层, 验证方法