yaojingang/geo-citation-lab
GitHub: yaojingang/geo-citation-lab
面向生成式搜索引擎优化的实验数据与论文合集仓库,提供 AI 搜索引用机制的测量框架和可复查数据。
Stars: 309 | Forks: 52
# GEO Citation Lab
GEO Citation Lab 是一个面向 GEO 研究的公开资料仓库,后续定位为:
- `GEO 实验数据报告`:基于 ChatGPT、Google AI Overview / Gemini、Perplexity 的搜索触发、引用来源与页面吸收研究。
- `GEO / AEO / AI Search 论文合集`:持续收纳生成式搜索、AEO、GEO、AI 搜索引用机制与操纵风险相关论文。
仓库不只保存观点文章,而是把可复查的数据、脚本、报告和论文资料放在同一个入口下,方便做二次分析、引用和后续扩展。
本仓库实验数据、特征抽取与分析管线对应 arXiv 论文:[From Citation Selection to Citation Absorption: A Measurement Framework for Generative Engine Optimization Across AI Search Platforms](https://arxiv.org/abs/2604.25707),PDF 版见 [arXiv PDF](https://arxiv.org/pdf/2604.25707)。
## Start Here
| 入口 | 路径 | 适合谁 |
| --- | --- | --- |
| 对应 arXiv 论文 | [From Citation Selection to Citation Absorption: A Measurement Framework for Generative Engine Optimization Across AI Search Platforms](https://arxiv.org/abs/2604.25707) / [PDF](https://arxiv.org/pdf/2604.25707) | 想引用或阅读本实验对应的正式论文 |
| GEO 实验数据报告 | [`01-geo-experiment-data-report/`](./01-geo-experiment-data-report/) | 想看 AI 搜索平台如何触发搜索、选择信源、吸收引用内容 |
| 论文合集 | [`02-geo-aeo-ai-search-papers/`](./02-geo-aeo-ai-search-papers/) | 想按主题查找 GEO / AEO / AI Search 论文 PDF 与清单 |
| 长版 HTML 报告 | [`01-geo-experiment-data-report/04-repet/final_report.html`](./01-geo-experiment-data-report/04-repet/final_report.html) | 想快速浏览完整实验报告 |
| 长版 Markdown 报告 | [`01-geo-experiment-data-report/04-repet/final_report.md`](./01-geo-experiment-data-report/04-repet/final_report.md) | 想在 GitHub 里直接按章节阅读正文 |
| PDF 版实验报告 | [`01-geo-experiment-data-report/04-repet/final_report.pdf`](./01-geo-experiment-data-report/04-repet/final_report.pdf) | 想下载、分享或打印实验报告 |
| 3 分钟摘要 | [`01-geo-experiment-data-report/QUICK_REPORT.md`](./01-geo-experiment-data-report/QUICK_REPORT.md) | 想先快速判断这份实验研究讲了什么 |
Live Site: [https://yaojingang.github.io/geo-citation-lab/](https://yaojingang.github.io/geo-citation-lab/)
## 仓库结构
| 路径 | 作用 |
| --- | --- |
| [`01-geo-experiment-data-report/`](./01-geo-experiment-data-report/) | 原有 GEO 引用实验资产,已统一归类到一个大目录下 |
| [`01-geo-experiment-data-report/01-prompt/`](./01-geo-experiment-data-report/01-prompt/) | 602 条实验 Prompt |
| [`01-geo-experiment-data-report/02-data/`](./01-geo-experiment-data-report/02-data/) | 搜索层 CSV 与 72 维 citation-level 特征 CSV |
| [`01-geo-experiment-data-report/03-pipeline/`](./01-geo-experiment-data-report/03-pipeline/) | 解析、抓取、特征提取、统计分析脚本 |
| [`01-geo-experiment-data-report/04-repet/`](./01-geo-experiment-data-report/04-repet/) | 完整研究报告、HTML/PDF 导出与图表 |
| [`01-geo-experiment-data-report/05-kami-report/`](./01-geo-experiment-data-report/05-kami-report/) | 更适合展示/分享的摘要报告 |
| [`02-geo-aeo-ai-search-papers/`](./02-geo-aeo-ai-search-papers/) | 新增论文合集,按 7 个主题目录合并原始批次文件 |
## 实验数据报告 Snapshot
| 项目 | 数字 |
| --- | ---: |
| 设计 Prompt 总数 | 602 |
| A/B/C/D 四层实验 | 432 / 60 / 60 / 50 |
| 平台数量 | 3 |
| 搜索层有效引用行数 | 21,143 |
| 引用影响力特征行数 | 23,745 |
| 特征维度 | 72 |
| 成功抓取的引用页面 | 18,151 |
| 抓取成功率 | 76.44% |
实验部分主要回答三个问题:
- 什么样的问题最容易触发 AI 去联网搜索?
- AI 搜索最爱选择什么样的来源网站?
- 什么样的页面会被 AI 深度吸收,而不只是“挂名引用”?
普通用户可以先看 [`QUICK_REPORT.md`](./01-geo-experiment-data-report/QUICK_REPORT.md),想看完整论证再读 [`final_report.md`](./01-geo-experiment-data-report/04-repet/final_report.md) 或 [`final_report.pdf`](./01-geo-experiment-data-report/04-repet/final_report.pdf)。
## 论文合集 Snapshot
新增论文合集来自 `GEO_AI搜索_AEO_论文合集`,原始批次目录已按分类合并为 7 个主题目录,共 `41` 篇 PDF:
| 分类 | 主题 | PDF 数量 |
| --- | --- | ---: |
| [`01_GEO基础框架`](./02-geo-aeo-ai-search-papers/01_GEO基础框架/) | GEO 基础框架 | 4 |
| [`02_GEO方法优化`](./02-geo-aeo-ai-search-papers/02_GEO方法优化/) | GEO 方法优化 | 7 |
| [`03_GEO测量评估`](./02-geo-aeo-ai-search-papers/03_GEO测量评估/) | GEO 测量评估 | 6 |
| [`04_AI搜索实证`](./02-geo-aeo-ai-search-papers/04_AI搜索实证/) | AI 搜索实证 | 4 |
| [`05_AEO理论整合`](./02-geo-aeo-ai-search-papers/05_AEO理论整合/) | AEO 理论整合 | 5 |
| [`06_风险操纵`](./02-geo-aeo-ai-search-papers/06_风险操纵/) | 风险、操纵与对抗 | 10 |
| [`07_垂直多模态`](./02-geo-aeo-ai-search-papers/07_垂直多模态/) | 垂直场景与多模态 | 5 |
论文合集的完整清单见 [`02-geo-aeo-ai-search-papers/README.md`](./02-geo-aeo-ai-search-papers/README.md)。源目录中两份 `GEO_AI搜索_AEO_论文整理说明.docx` 内容相同,本仓库按 SHA-256 去重保留一份,并保留原始 [`论文清单.csv`](./02-geo-aeo-ai-search-papers/00_资料说明/论文清单.csv)。
## 如何阅读
1. 先读 [`01-geo-experiment-data-report/QUICK_REPORT.md`](./01-geo-experiment-data-report/QUICK_REPORT.md),快速理解实验结论。
2. 再读 [`01-geo-experiment-data-report/04-repet/final_report.md`](./01-geo-experiment-data-report/04-repet/final_report.md),查看完整方法、图表和章节论证。
3. 打开 [`01-geo-experiment-data-report/02-data/features_all_platforms_72.csv`](./01-geo-experiment-data-report/02-data/features_all_platforms_72.csv),筛选你关心的字段。
4. 阅读 [`02-geo-aeo-ai-search-papers/README.md`](./02-geo-aeo-ai-search-papers/README.md),按主题进入论文 PDF。
## 公开仓库运行方式
本仓库已将脚本改为从环境变量读取密钥,避免把私钥直接放进 GitHub。
cd 01-geo-experiment-data-report
cp .env.example .env
常见重跑方式:
cd 01-geo-experiment-data-report/03-pipeline
python3 analyze_influence.py \
--input ../02-data/features_all_platforms_72.csv \
--output ../04-repet/citation_influence_report.md
cd 01-geo-experiment-data-report/04-repet
python3 build_self_contained_html.py
标签:AEO, AI搜索引擎, GEO, SEO, 代码示例, 多模态安全, 数据分析, 论文合集, 逆向工具, 防御加固