9.1 GEO 基础:定义、与 SEO 的异同、生态现状
掌握 GEO 的学术定义、与 SEO 的三层差异、生成式引擎的架构分类,以及主流入口与用户行为变化
GEO 的学术定义
GEO(Generative Engine Optimization,生成引擎优化) 由 Aggarwal 等人在 KDD 2024 上首次学术化定义(arXiv:2311.09735),其原始表述是:
GEO 是一种灵活的黑箱优化框架,用于提升内容在生成式引擎(Generative Engine)回答中的可见性(visibility)。
这里有几个关键限定词需要拆开:
| 术语 | 含义 |
|---|---|
| Generative Engine | 一类能够检索多源 + 合成自然语言答案 + 可选内联引用的系统,如 Perplexity、ChatGPT Search、Google AI Overview、Bing Copilot、秘塔、Claude、Gemini |
| 黑箱(black-box) | 优化者无法访问模型权重,也无法直接调整检索器;只能通过改写被检索的源内容 (Si) 来影响输出 |
| 可见性(visibility) | 不是"是否被索引",而是在答案 y 中是否被作为证据、是否被引用、出现的位置多靠前 |
形式化地,给定用户查询 ,系统返回答案 和引用来源 ,GEO 的目标就是对某个 做改写 ,使可见性指标 最大化——其中 是改写后系统生成的新答案。
GEO、AEO、LLMO、AIO、C-SEO 这些术语在 2024—2026 年曾交替使用,业界差异很大。本讲采用 Aggarwal 的 GEO 作为上位概念;把 Puerto 等人(NeurIPS 2025)的 C-SEO(Conversational SEO) 视为其中更狭义的多主体对话场景;其余术语大体被 GEO 吸纳。
SEO 与 GEO:三层差异
从 SEO 到 GEO,变化不止是"界面不同"——它在三个层面上是根本不同的优化问题。
差异 1:优化目标
| 维度 | SEO | GEO |
|---|---|---|
| 直接目标 | 进入 SERP Top 10 | 被答案直接引用 |
| 间接目标 | 最大化点击率(CTR) | 最大化答案中词元曝光与引用位次 |
| "成功"的信号 | 排名上升、点击、转化 | 被 cite、被 quote、位置靠前、语义被采纳 |
| 失败模式 | 被踢出首页 | 即使被检索也不被引用(Wallat 等人发现 57% 引用是事后合理化) |
差异 2:机制与杠杆
SEO 的杠杆是结构化信号(外链图谱、TF-IDF、BM25、PageRank),其数学基础可追溯至 Salton & Buckley (1988)、Brin & Page (1998)。GEO 的杠杆则是语义与叙述结构——因为现代生成式引擎建立在 RAG(Retrieval-Augmented Generation) 管线上,而 RAG 的第一步是稠密检索器(如 BGE-M3、Contriever)计算嵌入向量的余弦相似度,第二步是 LLM 基于上下文生成并"选择引用哪一条"。
GEO 能操控的杠杆因此必须落在嵌入空间对齐(语义、命题表达)和上下文可抽取性(清晰的陈述、可直接引用的句子)上,而不是经典 SEO 的反向链接或 H1 优化。
差异 3:博弈结构
SEO 是单一目标 + 稳定规则的优化问题:Google 排名算法虽然也会更新,但核心原则二十年稳定。GEO 则面对多个生成式引擎 + 不同架构 + 不同偏好的碎片化生态——Chen 等人(2025)发现不同引擎的引用来源偏好差异极大,Claude 跨语言一致性最高,而 ChatGPT 一旦切换查询语言就会完全改变引用生态。
生成式引擎的三类架构
GEO-SFE(Yu et al., 2026)提出了一个面向架构的分类法,这一分类对理解 GEO 策略为何"因引擎而异"非常关键。
Search-then-Synthesize(先搜索后合成)
代表:Google SGE、Bing Chat。先完成检索,再由 LLM 一次性合成答案。偏好较深标题层级(dh ≈ 4.5)与前置信息密度。
Iterative Refinement(迭代式精炼)
代表:Perplexity、Phind。多轮"检索—思考—补检索"循环,答案由多步 refinement 构成,引用链更长。
Integrated Search-Generation(搜索生成一体化)
代表:ChatGPT Search、Claude、Gemini。检索与生成高度耦合,模型参数记忆对答案的贡献更大,偏好浅标题(dh ≈ 3.5)与更积极段落切分。
实践启示:同一篇博文在 Perplexity 上可能被反复引用(迭代架构喜欢多源佐证),但在 ChatGPT Search 上可能被参数记忆"吸收"却不 cite——这不是写作质量问题,而是架构偏好的问题。GEO 实验必须声明在哪个引擎上做。
主流生成式搜索生态(2026 年快照)
| 入口 | 所属阵营 | 架构倾向 | 引用行为特点 |
|---|---|---|---|
| Perplexity | 独立 | Iterative Refinement | 明显 cite,通常 5—10 条内联引用,Top-10 来源重合率 82% vs. Google |
| ChatGPT Search | OpenAI | Integrated | cite 较少,偏好赢得媒体(earned media),Reddit 引用一度占 60% |
| Google AI Overviews | Search-then-Synthesize | 与 Google Top-10 重合率从 76% 降至 38%(一年内) | |
| Bing Copilot | Microsoft | Search-then-Synthesize | 商业查询偏好明显,引用公司官网比例高 |
| Claude(带 web 搜索) | Anthropic | Integrated | 跨语言一致性最高,来源稳定 |
| Gemini | Integrated | 与 Google 生态深度耦合,偏好权威来源 | |
| 秘塔搜索 | 中文 | Iterative Refinement | 清晰 cite 编号,适合中文 GEO 观测 |
| 文心一言 / DeepSeek | 中文 | Integrated | 中文语料为主,新闻与百科占比高 |
用户行为层面的变化
GEO 的经济合理性来自真实可测量的用户行为变迁:
AI 摘要挤出蓝链点击
Pew Research Center(Sidoti, 2025):Google 结果页出现 AI 摘要时,传统链接点击率为 8%;没有 AI 摘要时为 15%。点击率几乎腰斩。
零点击搜索成为主流
Bain & Company(2025):约 80% 消费者在 ≥ 40% 的搜索中依赖 AI 摘要;约 60% 的搜索完全不产生任何点击。
生成式 AI 成为新的流量入口
Adobe Analytics(2025):美国零售网站来自生成式 AI 的引流流量 7 个月内增长 12 倍;2025 假日季同比 +693%;且 AI 引流转化率比非 AI 来源高 31%。
搜索入口碎片化
Pew 同时发现,34% 美国成年人已用过 ChatGPT(较 2023 年翻倍);用户不再只用一个 Google。
本节小结
| 概念 | 要点 |
|---|---|
| GEO 定义 | 黑箱式改写源内容 Si,最大化其在生成答案 y 中的可见性 |
| SEO vs GEO | 目标(链接 → 引用)、机制(链接图 → 嵌入对齐)、博弈(单一规则 → 多引擎碎片化) |
| 三类架构 | Search-then-Synthesize / Iterative Refinement / Integrated——最优结构特征不同 |
| 生态现状 | 英文以 Perplexity、ChatGPT、Google AI 为主;中文以秘塔、文心、DeepSeek 为主 |
| 用户变化 | AI 摘要使点击率从 15% 降到 8%;60% 搜索零点击;生成式 AI 流量增长 12 倍 |
下一节:我们将进入 GEO 的核心优化策略,从 Aggarwal 的 9 种方法到 GEO-SFE 的结构特征工程。