参考文献

GEO 核心论文、对抗性攻击研究、引用忠实性审计、RAG 基底工作与课程内部译本

核心论文：GEO 的四条研究主线

GEO 自 2024 年以来沿四条主线快速展开：(1) 内容优化框架、(2) 对抗性攻击、(3) 引用忠实性评估、(4) 生产系统审计。本节按主线整理核心文献。

一、内容优化框架（必读）

GEO 奠基论文

Aggarwal et al. (2024) — GEO: Generative Engine Optimization

KDD 2024 首次学术化定义 GEO，提出 GEO-bench 测试集（10K 查询）与 9 种优化策略，核心结论：Cite+Quote+Stats 组合可使位置加权词数指标提升最多 40%。

Yu et al. (2026) — GEO-SFE

第一个系统刻画 GEO 结构特征的框架，三层模型（宏观/中观/微观）+ 面向架构的引擎分类，在 200 篇 × 377 query × 6 平台评估中提升引用率 45% → 52.8%。

Bagga et al. (2025) — E-GEO

首个电商 GEO 基准；15 个人工启发式中 10 个无效，但自动优化收敛到稳定策略：排名 / 意图 / 竞争优势 / 评论 / 独特卖点 / 事实准确性。

Chen et al. (2025) — 赢得媒体不对称性

多语言多垂直实证：AI 搜索对"赢得媒体"的引用比例可达 81.9%—92.1%，远高于 Google；Claude 跨语言一致性最高，ChatGPT 查询语言切换后完全切换引用生态。

"Beyond SEO" Transformer (2025)

基于 Transformer 的意图感知改写方法，提出 G-Eval 2.0 评估协议，显式加入意图条件维度。

Role-Augmented Intent-Driven G-SEO (2025)

联合建模用户意图与内容交际角色的 GSEO 改写器。

二、对抗性攻击研究

论文	年份 / 会议	核心贡献
Kumar & Lakkaraju. Manipulating LLMs to increase product visibility	arXiv 2024 / 2404.07981	策略性文本序列（STS）；GCG 风格对抗后缀可操控 LLM 商品排序
Pfrommer et al. Ranking manipulation for conversational search engines	EMNLP 2024 / 10.18653/v1/2024.emnlp-main.534	RAGDOLL 数据集 + 攻击树剪枝生成器；上下文后位商品反而更易被提升
Nestaas et al. Adversarial search engine optimization for LLMs	arXiv 2024 / 2406.18382	偏好操控攻击；Bing Chat 和 Perplexity 上推荐率 × 2.5，GPT-4 插件选择率 × 2—8
Tang et al. StealthRank	arXiv 2025 / 2504.05804	基于能量函数和 Langevin 动力学的隐蔽对抗后缀，攻击与流畅性同时优化
Zhong et al. Poisoning retrieval corpora	EMNLP 2023 / 2310.19156	HotFlip 风格稠密检索器投毒，500 条对抗段落可攻破整个检索器
Zou et al. PoisonedRAG	USENIX Security 2025 / 2402.07867	每 query 仅 5 条投毒文本即可达 90%+ 攻击成功率，跨多种检索器与生成器
Hu. Dynamics of adversarial attacks	arXiv 2025 / 2501.00745	将 LLM 搜索操控形式化为无限重复囚徒困境；反直觉结论：降低攻击成功率反而激励攻击
Wen et al. Position paper on GEO risks	TechRxiv 2025 / 10.36227/techrxiv.176620816.64043115/v1	立场论文统一广告与对抗式 ML 视角；检索增强器 + 排序迁移器框架
Bardas et al. Automatic document editing for improved ranking	SIGIR 2025 / 10.1145/3726302.3730168	白帽 GEO 与对抗排序操控在方法层面已抹平

关键负面结果

Puerto et al. (2025) — C-SEO Bench arXiv:2506.11097：在严格评估条件下，大多数专门 C-SEO 方法并不稳定提升引用排名，部分反而降低可见性；经典 SEO 内容质量基线在多数领域优于 C-SEO。这一负面发现直接挑战 Aggarwal 原始结论的普适性，提醒读者：报告 GEO 收益时必须严格控制基线。

三、引用忠实性与评估方法

论文	核心发现
Liu, Zhang & Liang (2023) — Evaluating verifiability	Bing / NeevaAI / Perplexity / YouChat 审计：仅 51.5% 句子被引用完全支持；仅 74.5% 引用支持其陈述
Wu et al. (2025) — SourceCheckup Nat. Commun.	医学问答 7 模型 × 800 问题审计：50%—90% 回答未被引用完全支持
Wallat et al. (2025) — Correctness vs. faithfulness SIGIR ICTIR 2025	约 57% 的 RAG 引用属于事后合理化；修改源内容对答案几乎无影响
Choi et al. (2026) — CiteGuard ACL 2026	引用归属对齐；GPT-4o 少样本召回率仅 16%—38%，检索增强代理提升至 65%—68%
Venkit et al. (2025) — AEE / FAccT	答案引擎评估基准；幻觉 / 引用准确性 / 置信度校准 / 多样性
Venkit et al. (2025) — DeepTRACE	深度研究型代理系统的可靠性审计
Li & Sinnamon (2024) — Arbiters of public knowledge	48 个公共利益问题审计：ChatGPT / Bing / Perplexity 的来源商业与地域偏见
Zhang et al. (2025) — Source coverage bias	55,936 查询 × 6 LLM × 2 传统搜索引擎：LLM 搜索域名多样性 +37% 但可信度无优势

评估基础设施

Liu et al. (2023) — G-Eval

EMNLP 2023；LLM-as-Judge 方法确立，结合链式思维与结构化表单填写；与人工判断 Spearman 相关系数 0.514；同时指出自偏好问题。

Ji et al. (2023) — Hallucination Survey

ACM Computing Surveys；内在/外在幻觉分类法。内在幻觉 ↔ 引用精确率失败；外在幻觉 ↔ 引用召回率失败。

四、RAG 与经典 IR 基底

RAG 基础

论文	年份	意义
Gao et al. — RAG Survey	2023	朴素 / 高级 / 模块化 RAG 分类法
Guu et al. — REALM	ICML 2020	检索作为潜变量反向传播；现代可见性的基本单位是嵌入对齐
Izacard et al. — Atlas	JMLR 2023	110 亿参数 + 精心检索增强 ≈ 5400 亿 PaLM；检索语料内容可替代模型规模
Nakano et al. — WebGPT	2021	浏览 + 引文生成；奖励模型偏好引用密度
Asai et al. — Self-RAG	ICLR 2024 Oral	反思标记 `[IsSup]`；可自足验证的陈述更易被引用

经典 IR / SEO

Brin & Page (1998). The anatomy of a large-scale hypertextual Web search engine. Computer Networks, 30(1-7), 107-117.
Salton & Buckley (1988). Term-weighting approaches in automatic text retrieval. Information Processing & Management, 24(5), 513-523.
Robertson & Zaragoza (2009). The probabilistic relevance framework: BM25 and beyond. Foundations and Trends in IR, 3(4), 333-389.
Liu, T.-Y. (2009). Learning to rank for information retrieval. Foundations and Trends in IR, 3(3), 225-331.
Raifer et al. (SIGIR 2017). Information retrieval meets game theory: The ranking competition.
Goren et al. (SIGIR 2020). Ranking-incentivized quality preserving content modification.
Voorhees & Harman (2005). TREC: Experiment and evaluation in information retrieval. MIT Press.

五、行业实证与审计研究

来源	关键发现
Semrush (Harsel, Drozdov, Skopec 2025)	230K 提示 × 13 周审计；Reddit / LinkedIn 位列 Top-5 引用域名；Perplexity 与 Google Top-10 域名重合率 91%
Ahrefs (2025)	1700 万引用分析；AI 引用内容比 SERP 新 25.7%；近期更新内容偏好 +13.1%
Kevin Indig Growth Memo (2026)	1.2M ChatGPT 回答 × 18K 引用；"滑雪坡"分布：44.2% 引用来自页面前 30%；"is defined as"类语言提升 1.8×
Pew Research Center (Sidoti 2025a, 2025b)	AI 摘要时 CTR 从 15% 降至 8%；34% 美国成年人已用 ChatGPT
Bain & Company (2025a, b, c)	80% 消费者 ≥ 40% 搜索依赖 AI；60% 搜索零点击；ChatGPT 购物查询占比从 7.8% 升至 9.8%
Adobe Analytics (2025)	美国零售生成式 AI 引流 +1,200%（2024.7 → 2025.2）；假日季 +693%；AI 引流转化率比非 AI 高 31%

六、课程内部材料

source-materials/GEO_文献综述_中文译文_含References.md — 本讲的核心译本综述，涵盖上述所有主线；截至 2026 年 4 月。
第 4 讲 — RAG 原理与实践（GEO 的底层机制 = RAG；建议先修）
第 8 讲 — LLM as Judge（GEO 评估的 G-Eval 使用）

七、推荐阅读路径

入门（1 周）

读本讲全部 MDX 内容
读 Aggarwal 等人（2024）GEO 原始论文前 5 节
读课程内部译本综述 Section 1—3

进阶（2 周）

读 GEO-SFE (Yu 2026) 和 E-GEO (Bagga 2025) 方法细节
读 Liu et al. (2023) 引用忠实性审计
读 C-SEO Bench (Puerto 2025) 的负面发现

研究（4 周以上）

读 PoisonedRAG (Zou 2025) 与 Nestaas (2024) 对抗攻击
读 Wallat (2025) 事后合理化 + Choi (2026) CiteGuard
读 Atlas (Izacard 2023) + Self-RAG (Asai 2024) 理解 RAG 底层机制
设计自己的中文 GEO 基准测试集（课程大纲开放问题：中文 / 低资源 GEO）

八、开放问题

综述提出 6 个值得研究生深入研究的方向：

多语种 / 跨语言 GEO

现有 GEO-bench 以英语为主；构建中文 / 藏语 / 蒙古语 / 维吾尔语的跨语言版本是紧迫方向

结构化写作 × GEO

GEO-SFE 宏观 + 中观贡献 85% 引用率提升；与 DITA 的 concept/task/reference 分解天然契合

代理型 GEO

面向 deep-research 代理的优化；Schema.org 重新成为一等 GEO 杠杆

防御与鲁棒性

语料投毒检测、事后合理化检测、多主体博弈防御、可验证归因架构

监管披露与公平

GEO-as-a-service 广告披露制度；系统性来源偏差的认识公平性

测量标准化

建立类似 TREC 的标准评估协议，统一词数 / 引用 / 忠实性 / 归属对齐指标

九、引用格式（供你在作业报告中使用）

@inproceedings{aggarwal2024geo,
  title={{GEO}: Generative Engine Optimization},
  author={Aggarwal, Pranjal and Murahari, Vishvak and Rajpurohit, Tanmay and
          Kalyan, Ashwin and Narasimhan, Karthik and Deshpande, Ameet},
  booktitle={Proceedings of the 30th ACM SIGKDD Conference on
             Knowledge Discovery and Data Mining (KDD '24)},
  year={2024},
  doi={10.1145/3637528.3671900},
  url={https://arxiv.org/abs/2311.09735}
}

@article{yu2026geosfe,
  title={Structural Feature Engineering for Generative Engine Optimization:
         How Content Structure Shapes Citation Behavior},
  author={Yu, Jiahao and MuFeng, Yueqi and Ding, Yu and Sato, Hiroki},
  journal={arXiv preprint arXiv:2603.29979},
  year={2026}
}

@inproceedings{puerto2025cseo,
  title={{C-SEO Bench}: Does Conversational SEO Work?},
  author={Puerto, Haritz and Gubri, Martin and Green, Tom and
          Oh, Sung Ju and Yun, Sangdoo},
  booktitle={NeurIPS 2025 Datasets and Benchmarks},
  year={2025},
  url={https://arxiv.org/abs/2506.11097}
}

@inproceedings{liu2023verifiability,
  title={Evaluating Verifiability in Generative Search Engines},
  author={Liu, Nelson F. and Zhang, Tianyi and Liang, Percy},
  booktitle={Findings of EMNLP 2023},
  pages={7001--7025},
  year={2023},
  doi={10.18653/v1/2023.findings-emnlp.467}
}