Giuseppe552/trace

GitHub: Giuseppe552/trace

基于信息熵与证据融合理论的归属调查工具，从多源公开数据量化目标匿名性并生成带法律引用的取证报告。

Stars: 0 | Forks: 0

# 追踪归属调查工具。给定目标域名、电子邮件或一组评论，从公共数据源收集信号，并量化目标保留了多少匿名性。数学方法源自已发表的论文。每个可靠性参数都注明了其来源的研究。每份取证报告都引用了其适用的法律。该工具不会做出无法用数据支持的主张。 421 项测试。核心部分零运行时依赖。 ## 它的功能从 8 个以上的来源收集公开数据，将信号输入数学归属引擎，并生成带有证据链的取证报告。报告包括：以比特为单位的匿名性减少（Shannon 熵）、带有冲突检测的证据融合、跨平台身份关联（Fellegi-Sunter）、协同时间分析（KS 检验）、作者身份比对（风格计量特征）以及用于证据完整性的 SHA-256 哈希链。每份报告都引用了适用的英国法律，并说明了每个模块的错误率。 ## 架构 ``` packages/ core/ zero dependencies, 260 tests entropy/ Shannon entropy, anonymity set quantification fusion/ Dempster-Shafer evidence combination linkage/ Fellegi-Sunter record linkage, Jaro-Winkler graph/ spectral clustering, Fiedler vector, DOT export timing/ Kolmogorov-Smirnov test, coordination detection stylometry/ Writeprints features, AI text detection evidence/ SHA-256 chain, dual-source verification, RFC 3161 legal/ UK legal framework (12 statutes cited) benchmark/ error rate measurement, KS power tables collectors/ data source integrations, 151 tests ct/ crt.sh — 14B+ certificates dns/ all record types, domain age estimation whois/ RDAP (RFC 9082), raw WHOIS fallback, reverse, history email/ RFC 5322 header forensics headers/ platform fingerprinting, tracking ID extraction ip/ geolocation, ASN, VPN detection reviews/ suspicion heuristics, profile OSINT, behavioral comparison social/ username enumeration across 14 platforms brand/ typosquat detection, backlink toxicity correlation/ cross-domain analysis, frequency-weighted monitor/ continuous DNS/CT change detection archive/ Wayback Machine evidence preservation evidence/ page capture with SHA-256 apps/ cli/ command-line interface ``` ## 用法 ``` # 调查域名 npx tsx apps/cli/src/main.ts domain example.com # deep mode — 链接 reverse WHOIS、IP geo、cross-domain correlation npx tsx apps/cli/src/main.ts domain example.com --deep # 比较写作风格 npx tsx apps/cli/src/main.ts compare sample-a.txt sample-b.txt # 检测协同评论时间 npx tsx apps/cli/src/main.ts timing timestamps.json # 检查文本是否由 AI 生成 npx tsx apps/cli/src/main.ts ai review.txt # 分析评论中的可疑模式 npx tsx apps/cli/src/main.ts reviews reviews.json # 完整评论攻击调查 npx tsx apps/cli/src/main.ts investigate-reviews attack-input.json # cross-domain correlation npx tsx apps/cli/src/main.ts correlate domain1.com domain2.com # IP geolocation + ASN npx tsx apps/cli/src/main.ts ip 1.2.3.4 # 监控域名的变化 npx tsx apps/cli/src/main.ts monitor example.com ``` ## 输出示例来自针对 `example.com` 的真实调查： ``` Starting population: 67.0M (26.0 bits). Evidence reduced anonymity by 16.6 bits to 9.4 bits (effective set: 698). Dempster-Shafer evidence fusion across 8 signals: Belief: 0.339. Plausibility: 0.339. Conflict: 0.980. Evidence chain: 4 entries, integrity verified (SHA-256). ``` 该工具每次调查生成三个文件： - `trace-evidence-*.json` — 机器可读的证据链 - `trace-report-*.md` — 带有法律引用的取证叙述 - `trace-graph-*.dot` — 归属图（使用 Graphviz 渲染） ## 数学方法每种方法都引用了原始论文。 | 方法 | 应用 | 参考 | |--------|------------|-----------| | Shannon 熵 | 以比特为单位的匿名性量化 | Shannon (1948) | | Dempster-Shafer 理论 | 带有冲突检测的证据融合 | Dempster (1967), Shafer (1976) | | Fellegi-Sunter 模型 | 跨平台身份关联 | Fellegi & Sunter (1969) | | Jaro-Winkler 相似度 | 近似字符串匹配 | Jaro (1989) | | Kolmogorov-Smirnov 检验 | 协同时间检测 | Kolmogorov (1933) | | Writeprints 特征 | 作者归属 | Abbasi & Chen (2008) | | Yule's K | 词汇多样性测量 | Yule (1944) | | Jensen-Shannon 散度 | 字符二元组比对 | Lin (1991) | | 谱聚类 | 网络社区发现 | Fiedler (1973) | | 归一化拉普拉斯 | 图划分 | Meiklejohn et al. (2013) | ## 校准可靠性参数源自已发表的准确性研究，而非估算值。 | 来源 | 可靠性 | 引用 | |--------|------------|----------| | WHOIS（可见注册人） | 0.92 | ICANN ARS Phase 2 Cycle 6 (2018) | | WHOIS（GDPR 编辑） | 0.10 | GDPR 实施后 73% 的 gTLD 域名被编辑 | | 证书透明度 | 0.87 | Li et al. CCS 2019: ~93% 监控完整性 | | 风格计量（200 字以上） | 0.75 | Abbasi & Chen 2008; arXiv 2507.00838 | | 风格计量（<50 字） | 0.15 | 文献共识：不可靠 | | IP 地理定位（国家） | 0.95 | MaxMind: 99.8% 国家准确性 | | IP 地理定位（城市，美国/欧盟） | 0.60 | MaxMind: ~66% 在 50km 范围内 | | 追踪 ID (GA/GTM) | 0.98 | 媒体资源 ID 每个账户唯一 | | 共享 CDN 名称服务器 | 0.05 | 数百万个域名共享这些服务器 | 信息增益值是根据总体基础比率（3.785 亿个总域名，DNIB Q3 2025）计算的，而非硬编码。 ## 法律框架每份取证报告都引用了适用的法律。该工具在被动 OSINT 边界内运行。 **证据可采性：** Civil Evidence Act 1995, BS 10008:2020, Criminal Practice Direction 19A (2014)。 **调查合法性：** Computer Misuse Act 1990, Data Protection Act 2018, Berkeley Protocol (OHCHR, 2020)。 **针对虚假评论攻击的补救措施：** DMCC Act 2024 Schedule 20（禁止虚假评论，CMA 罚款高达全球营业额的 10%），Defamation Act 2013 s.5（用于身份披露的 Norwich Pharmacal 令），Protection from Harassment Act 1997。 ## 它不做什么 - 风格计量模块尚未针对标记数据集进行基准测试。短文本的置信区间会变宽。低于 50 字时，结果不可靠。 - AI 文本检测器仅基于统计学（无神经模型）。GPTZero 等行业工具的准确率为 88-92%。该检测器的预期得分较低。它标记的是需要进一步调查的指标，而非定性结论。 - 评论怀疑启发式方法基于关键词，很容易被有能力的攻击者规避。它们能捕捉非复杂的攻击。 - 证据链证明完整性（数据在捕获后未被更改），但证明真实性（数据在捕获时是真实的）需要独立验证（双源 DNS，RFC 3161 时间戳）。 - IP 地理定位准确性因地区而异。城市级别在美国/欧盟的准确性约为 66%，在其他地方更低。VPN/代理检测的假阴性率未知。 - 证书透明度数据来自单一监控器。Li et al. 发现个别监控器缺失约 6.7% 的证书。 - ACPO 一致性检查仅为技术先决条件，而非完全合规性评估。 ## 测试 ``` cd packages/core && npx vitest run # 260 tests cd packages/collectors && npx vitest run # 161 tests (151 unit + 10 integration) ``` ## 许可证 MIT

标签：Dempster-Shafer, DNS分析, ESC4, Fellegi-Sunter, GitHub开源, MITM代理, OSINT, SSL证书, Whois查询, 作者归属, 匿名性分析, 合规调查, 图谱聚类, 威胁情报, 开发者工具, 归因调查, 数字取证, 数学建模, 数据融合, 文体计量学, 网络调查, 背景调查, 自动化攻击, 自动化脚本, 记录链接, 证据链, 足迹分析, 身份关联, 身份识别, 零依赖, 香农熵