参考文献
GEO 核心论文、对抗性攻击研究、引用忠实性审计、RAG 基底工作与课程内部译本
核心论文:GEO 的四条研究主线
GEO 自 2024 年以来沿四条主线快速展开:(1) 内容优化框架、(2) 对抗性攻击、(3) 引用忠实性评估、(4) 生产系统审计。本节按主线整理核心文献。
一、内容优化框架(必读)
GEO 奠基论文
Aggarwal et al. (2024) — GEO: Generative Engine Optimization
KDD 2024 首次学术化定义 GEO,提出 GEO-bench 测试集(10K 查询)与 9 种优化策略,核心结论:Cite+Quote+Stats 组合可使位置加权词数指标提升最多 40%。
Yu et al. (2026) — GEO-SFE
第一个系统刻画 GEO 结构特征的框架,三层模型(宏观/中观/微观)+ 面向架构的引擎分类,在 200 篇 × 377 query × 6 平台评估中提升引用率 45% → 52.8%。
Bagga et al. (2025) — E-GEO
首个电商 GEO 基准;15 个人工启发式中 10 个无效,但自动优化收敛到稳定策略:排名 / 意图 / 竞争优势 / 评论 / 独特卖点 / 事实准确性。
Chen et al. (2025) — 赢得媒体不对称性
多语言多垂直实证:AI 搜索对"赢得媒体"的引用比例可达 81.9%—92.1%,远高于 Google;Claude 跨语言一致性最高,ChatGPT 查询语言切换后完全切换引用生态。
"Beyond SEO" Transformer (2025)
基于 Transformer 的意图感知改写方法,提出 G-Eval 2.0 评估协议,显式加入意图条件维度。
Role-Augmented Intent-Driven G-SEO (2025)
联合建模用户意图与内容交际角色的 GSEO 改写器。
二、对抗性攻击研究
| 论文 | 年份 / 会议 | 核心贡献 |
|---|---|---|
| Kumar & Lakkaraju. Manipulating LLMs to increase product visibility | arXiv 2024 / 2404.07981 | 策略性文本序列(STS);GCG 风格对抗后缀可操控 LLM 商品排序 |
| Pfrommer et al. Ranking manipulation for conversational search engines | EMNLP 2024 / 10.18653/v1/2024.emnlp-main.534 | RAGDOLL 数据集 + 攻击树剪枝生成器;上下文后位商品反而更易被提升 |
| Nestaas et al. Adversarial search engine optimization for LLMs | arXiv 2024 / 2406.18382 | 偏好操控攻击;Bing Chat 和 Perplexity 上推荐率 × 2.5,GPT-4 插件选择率 × 2—8 |
| Tang et al. StealthRank | arXiv 2025 / 2504.05804 | 基于能量函数和 Langevin 动力学的隐蔽对抗后缀,攻击与流畅性同时优化 |
| Zhong et al. Poisoning retrieval corpora | EMNLP 2023 / 2310.19156 | HotFlip 风格稠密检索器投毒,500 条对抗段落可攻破整个检索器 |
| Zou et al. PoisonedRAG | USENIX Security 2025 / 2402.07867 | 每 query 仅 5 条投毒文本即可达 90%+ 攻击成功率,跨多种检索器与生成器 |
| Hu. Dynamics of adversarial attacks | arXiv 2025 / 2501.00745 | 将 LLM 搜索操控形式化为无限重复囚徒困境;反直觉结论:降低攻击成功率反而激励攻击 |
| Wen et al. Position paper on GEO risks | TechRxiv 2025 / 10.36227/techrxiv.176620816.64043115/v1 | 立场论文统一广告与对抗式 ML 视角;检索增强器 + 排序迁移器框架 |
| Bardas et al. Automatic document editing for improved ranking | SIGIR 2025 / 10.1145/3726302.3730168 | 白帽 GEO 与对抗排序操控在方法层面已抹平 |
关键负面结果
Puerto et al. (2025) — C-SEO Bench arXiv:2506.11097:在严格评估条件下,大多数专门 C-SEO 方法并不稳定提升引用排名,部分反而降低可见性;经典 SEO 内容质量基线在多数领域优于 C-SEO。这一负面发现直接挑战 Aggarwal 原始结论的普适性,提醒读者:报告 GEO 收益时必须严格控制基线。
三、引用忠实性与评估方法
| 论文 | 核心发现 |
|---|---|
| Liu, Zhang & Liang (2023) — Evaluating verifiability | Bing / NeevaAI / Perplexity / YouChat 审计:仅 51.5% 句子被引用完全支持;仅 74.5% 引用支持其陈述 |
| Wu et al. (2025) — SourceCheckup Nat. Commun. | 医学问答 7 模型 × 800 问题审计:50%—90% 回答未被引用完全支持 |
| Wallat et al. (2025) — Correctness vs. faithfulness SIGIR ICTIR 2025 | 约 57% 的 RAG 引用属于事后合理化;修改源内容对答案几乎无影响 |
| Choi et al. (2026) — CiteGuard ACL 2026 | 引用归属对齐;GPT-4o 少样本召回率仅 16%—38%,检索增强代理提升至 65%—68% |
| Venkit et al. (2025) — AEE / FAccT | 答案引擎评估基准;幻觉 / 引用准确性 / 置信度校准 / 多样性 |
| Venkit et al. (2025) — DeepTRACE | 深度研究型代理系统的可靠性审计 |
| Li & Sinnamon (2024) — Arbiters of public knowledge | 48 个公共利益问题审计:ChatGPT / Bing / Perplexity 的来源商业与地域偏见 |
| Zhang et al. (2025) — Source coverage bias | 55,936 查询 × 6 LLM × 2 传统搜索引擎:LLM 搜索域名多样性 +37% 但可信度无优势 |
评估基础设施
Liu et al. (2023) — G-Eval
EMNLP 2023;LLM-as-Judge 方法确立,结合链式思维与结构化表单填写;与人工判断 Spearman 相关系数 0.514;同时指出自偏好问题。
Ji et al. (2023) — Hallucination Survey
ACM Computing Surveys;内在/外在幻觉分类法。内在幻觉 ↔ 引用精确率失败;外在幻觉 ↔ 引用召回率失败。
四、RAG 与经典 IR 基底
RAG 基础
| 论文 | 年份 | 意义 |
|---|---|---|
| Gao et al. — RAG Survey | 2023 | 朴素 / 高级 / 模块化 RAG 分类法 |
| Guu et al. — REALM | ICML 2020 | 检索作为潜变量反向传播;现代可见性的基本单位是嵌入对齐 |
| Izacard et al. — Atlas | JMLR 2023 | 110 亿参数 + 精心检索增强 ≈ 5400 亿 PaLM;检索语料内容可替代模型规模 |
| Nakano et al. — WebGPT | 2021 | 浏览 + 引文生成;奖励模型偏好引用密度 |
| Asai et al. — Self-RAG | ICLR 2024 Oral | 反思标记 [IsSup];可自足验证的陈述更易被引用 |
经典 IR / SEO
- Brin & Page (1998). The anatomy of a large-scale hypertextual Web search engine. Computer Networks, 30(1-7), 107-117.
- Salton & Buckley (1988). Term-weighting approaches in automatic text retrieval. Information Processing & Management, 24(5), 513-523.
- Robertson & Zaragoza (2009). The probabilistic relevance framework: BM25 and beyond. Foundations and Trends in IR, 3(4), 333-389.
- Liu, T.-Y. (2009). Learning to rank for information retrieval. Foundations and Trends in IR, 3(3), 225-331.
- Raifer et al. (SIGIR 2017). Information retrieval meets game theory: The ranking competition.
- Goren et al. (SIGIR 2020). Ranking-incentivized quality preserving content modification.
- Voorhees & Harman (2005). TREC: Experiment and evaluation in information retrieval. MIT Press.
五、行业实证与审计研究
| 来源 | 关键发现 |
|---|---|
| Semrush (Harsel, Drozdov, Skopec 2025) | 230K 提示 × 13 周审计;Reddit / LinkedIn 位列 Top-5 引用域名;Perplexity 与 Google Top-10 域名重合率 91% |
| Ahrefs (2025) | 1700 万引用分析;AI 引用内容比 SERP 新 25.7%;近期更新内容偏好 +13.1% |
| Kevin Indig Growth Memo (2026) | 1.2M ChatGPT 回答 × 18K 引用;"滑雪坡"分布:44.2% 引用来自页面前 30%;"is defined as"类语言提升 1.8× |
| Pew Research Center (Sidoti 2025a, 2025b) | AI 摘要时 CTR 从 15% 降至 8%;34% 美国成年人已用 ChatGPT |
| Bain & Company (2025a, b, c) | 80% 消费者 ≥ 40% 搜索依赖 AI;60% 搜索零点击;ChatGPT 购物查询占比从 7.8% 升至 9.8% |
| Adobe Analytics (2025) | 美国零售生成式 AI 引流 +1,200%(2024.7 → 2025.2);假日季 +693%;AI 引流转化率比非 AI 高 31% |
六、课程内部材料
source-materials/GEO_文献综述_中文译文_含References.md— 本讲的核心译本综述,涵盖上述所有主线;截至 2026 年 4 月。- 第 4 讲 — RAG 原理与实践(GEO 的底层机制 = RAG;建议先修)
- 第 8 讲 — LLM as Judge(GEO 评估的 G-Eval 使用)
七、推荐阅读路径
入门(1 周)
- 读本讲全部 MDX 内容
- 读 Aggarwal 等人(2024)GEO 原始论文前 5 节
- 读课程内部译本综述 Section 1—3
进阶(2 周)
- 读 GEO-SFE (Yu 2026) 和 E-GEO (Bagga 2025) 方法细节
- 读 Liu et al. (2023) 引用忠实性审计
- 读 C-SEO Bench (Puerto 2025) 的负面发现
研究(4 周以上)
- 读 PoisonedRAG (Zou 2025) 与 Nestaas (2024) 对抗攻击
- 读 Wallat (2025) 事后合理化 + Choi (2026) CiteGuard
- 读 Atlas (Izacard 2023) + Self-RAG (Asai 2024) 理解 RAG 底层机制
- 设计自己的中文 GEO 基准测试集(课程大纲开放问题:中文 / 低资源 GEO)
八、开放问题
综述提出 6 个值得研究生深入研究的方向:
多语种 / 跨语言 GEO
现有 GEO-bench 以英语为主;构建中文 / 藏语 / 蒙古语 / 维吾尔语的跨语言版本是紧迫方向
结构化写作 × GEO
GEO-SFE 宏观 + 中观贡献 85% 引用率提升;与 DITA 的 concept/task/reference 分解天然契合
代理型 GEO
面向 deep-research 代理的优化;Schema.org 重新成为一等 GEO 杠杆
防御与鲁棒性
语料投毒检测、事后合理化检测、多主体博弈防御、可验证归因架构
监管披露与公平
GEO-as-a-service 广告披露制度;系统性来源偏差的认识公平性
测量标准化
建立类似 TREC 的标准评估协议,统一词数 / 引用 / 忠实性 / 归属对齐指标
九、引用格式(供你在作业报告中使用)
@inproceedings{aggarwal2024geo,
title={{GEO}: Generative Engine Optimization},
author={Aggarwal, Pranjal and Murahari, Vishvak and Rajpurohit, Tanmay and
Kalyan, Ashwin and Narasimhan, Karthik and Deshpande, Ameet},
booktitle={Proceedings of the 30th ACM SIGKDD Conference on
Knowledge Discovery and Data Mining (KDD '24)},
year={2024},
doi={10.1145/3637528.3671900},
url={https://arxiv.org/abs/2311.09735}
}
@article{yu2026geosfe,
title={Structural Feature Engineering for Generative Engine Optimization:
How Content Structure Shapes Citation Behavior},
author={Yu, Jiahao and MuFeng, Yueqi and Ding, Yu and Sato, Hiroki},
journal={arXiv preprint arXiv:2603.29979},
year={2026}
}
@inproceedings{puerto2025cseo,
title={{C-SEO Bench}: Does Conversational SEO Work?},
author={Puerto, Haritz and Gubri, Martin and Green, Tom and
Oh, Sung Ju and Yun, Sangdoo},
booktitle={NeurIPS 2025 Datasets and Benchmarks},
year={2025},
url={https://arxiv.org/abs/2506.11097}
}
@inproceedings{liu2023verifiability,
title={Evaluating Verifiability in Generative Search Engines},
author={Liu, Nelson F. and Zhang, Tianyi and Liang, Percy},
booktitle={Findings of EMNLP 2023},
pages={7001--7025},
year={2023},
doi={10.18653/v1/2023.findings-emnlp.467}
}