9.2 GEO 核心优化策略
从 Aggarwal 九种策略到 GEO-SFE 结构三层模型——每条策略的机制、生效条件与失效情景
策略全景图
GEO 策略研究目前分为两代。第一代(Aggarwal et al., KDD 2024)关注语义 / 内容层的改写;第二代(Yu et al., 2026;Chen et al., 2025)则转向结构层与生态位。两代策略正交,通常需要组合使用。
一、语义层策略:Aggarwal 的九种方法
Aggarwal 等人在 GEO-bench(10,000 条查询、9 个来源、覆盖法律 / 商业 / 健康 / 科学 / 事实问答 / 观点等多领域)上系统测试了 9 种改写策略。核心实证结论是:"添加来源引用 + 加入引语 + 补充统计数据"三者组合,可使位置调整词数指标(position-adjusted word count)提升最多 40%。
不是所有"看起来像 SEO"的方法都有效。关键词堆砌(Keyword Stuffing)和技术术语插入(Technical Terms insertion)反而劣于基线——这是经典 SEO 直觉向 GEO 迁移失败的最典型案例。
九种策略详解
| 策略 | 机制解释 | 生效场景 | 提升幅度 |
|---|---|---|---|
| 权威化重述(Authoritative Rephrasing) | 用更肯定、更有权威感的语气改写,触发 LLM 对"可信陈述"的偏好 | 辩论、观点类查询最佳 | 中—高 |
| 补充统计数据(Statistics Addition) | 在论断后加具体数字、百分比、年份,提升"可证伪性"和信息密度 | 事实、科学、健康最佳 | 高 |
| 添加来源引用(Cite Sources) | 在关键陈述后附引用("根据 WHO 2024 报告"),LLM 倾向于转引已引用内容 | 通用性强 | 高 |
| 加入引语(Quotation Addition) | 嵌入直接引语("专家 X 表示……"),LLM 偏好可抽取的短句 | 通用性强 | 高 |
| 流畅性优化(Fluency Optimization) | 降低句子复杂度、去除口癖与冗词 | 历史 / 文化类查询最佳 | 中 |
| 独特词汇(Unique Words) | 使用低频但相关的词汇,提升嵌入向量区分度 | 长尾查询 | 低—中 |
| 通俗化改写(Easy-to-Understand) | 面向大众读者的简化改写 | 医学、技术科普 | 中 |
| 关键词堆砌 ✗ | 把目标关键词密集重复 | 几乎都失效 | 负值 |
| 技术术语插入 ✗ | 堆砌专业术语 | 几乎都失效 | 负值 |
组合策略示例
以下是"Cite + Quote + Stats"三合一改写的一个典型对比:
糖尿病是一种常见的慢性代谢疾病。患者血糖水平升高,长期可能
引起多种并发症。合理饮食和运动是重要的管理手段。可见性评估:位置加权词数指标 ≈ 12,在 GEO-bench 健康类查询中被引用的概率 ≈ 28%。
糖尿病是全球发病率最高的慢性代谢疾病之一。根据世界卫生组织
2024 年发布的《全球糖尿病报告》,全球成人患病率已达 10.5%,
每 11 个成人中就有 1 人患病。正如哈佛医学院流行病学家 Frank Hu
所指出:"糖尿病的长期并发症——包括心血管疾病、肾衰竭与视网膜
病变——在确诊后 10 年内的累积风险高达 40%。"合理饮食(每日
糖摄入 < 25 克)与每周 150 分钟中等强度运动,可将二型糖尿病
发病风险降低 58%(Diabetes Prevention Program 研究,2002)。可见性评估:位置加权词数指标 ≈ 34,在 GEO-bench 健康类查询中被引用的概率 ≈ 61%。提升来自三个维度叠加:权威引用(WHO / 哈佛)、具体统计(10.5%、58%)、直接引语。
二、结构层策略:GEO-SFE 三层模型
Yu、MuFeng、Ding 和 Sato(2026;arXiv:2603.29979)提出 GEO-SFE(Structural Feature Engineering),第一次系统刻画 GEO 的结构维度。在 200 篇文章 × 377 个查询 × 6 个平台的评估中,GEO-SFE 将平均引用率从 45.0% 提升到 52.8%(+17.3%,Cohen's d = 0.64,p < 0.001)。
其核心思想:相同语义内容装入不同结构"容器",被检索和引用的概率显著不同。语义保持约束通过 bge-m3 句级嵌入余弦相似度 > 0.95 实现。
宏观结构(Macro,贡献 44.9%)
标题层级深度 dh、导航密度 Dnav、内部链接密度。最优值因引擎架构而异:
- Search-then-Synthesize(Google SGE):dh ≈ 4.5,较深
- Integrated(ChatGPT Search):dh ≈ 3.5,较浅
中观结构(Meso,贡献 39.7%)
段落组织、格式多样性、信息密度。最优区间:
- 段落长度 150—300 词
- 格式多样元素(列表 / 表格 / 代码块 / 引用)占 25%—35%
- 导航密度 0.15—0.20
微观结构(Micro,贡献 15.4%)
强调分布(粗体 / 斜体位置)、位置加权关键词密度、可读性。核心关键词建议放在段首 30%、节末 20% 的"高权重位"。
特征向量的数学表达
GEO-SFE 将内容 c 的结构特征编码为 z-score 标准化拼接向量:
优化问题形式化为:
GEO-SFE 的重要含义:结构与语义正交。你不需要改变观点或论断,只要把同样的内容重新切段、加小标题、调整列表结构,引用率就能显著上升。这让 GEO 在技术上具备了"不修改事实、不损害真实性"的改进路径。
三、生态位策略:Chen 等人的"赢得媒体不对称性"
Chen、Wang、Chen 和 Koudas(2025;arXiv:2509.08919)对 ChatGPT、Perplexity、Gemini、Claude、Google 做了跨语言多垂直实证研究,发现了经典 SEO 完全无法解释的结构性偏向:
| 查询类型 | Google 引用分布 | AI 搜索引用分布 |
|---|---|---|
| 美国汽车 | 品牌 39.5% / 社交 15.4% / 赢得媒体 45.1% | 品牌 18.1% / 社交 ≈ 0% / 赢得媒体 81.9% |
| 美国消费电子 | 品牌与赢得媒体并重 | 赢得媒体 92.1% |
"赢得媒体"(Earned Media) 指非品牌方自有的第三方权威内容——深度评测、行业媒体报道、专业博客等。AI 搜索对这类内容的偏好显著强于 Google。
生态位策略清单
争取赢得媒体
主动与行业垂直媒体、评测博客建立合作。纯品牌自有内容(官网 / 公众号)在 AI 搜索中占比可能不足 20%。
第三方权威背书
被学术论文、权威报告(WHO / IMF / 政府白皮书)引用,会形成 AI 搜索中的"可信梯度"。
Schema 标记
JSON-LD / microdata / RDFa 等结构化数据是搜索引擎(包括 AI)的"机器可读引用钩子",在代理型 GEO(Agentic GEO)中重要性上升。
语言本地化
Chen 发现 Claude 跨语言一致性最高,而 ChatGPT 查询语言变更后完全切换引用生态。中文内容需要独立建设中文权威链路。
四、中文入口的特别考量
对于中文 GEO,有几条额外的经验性建议(基于对秘塔、文心一言、DeepSeek 的观察):
| 要点 | 说明 |
|---|---|
| 优先选择有明显 cite 编号的入口做观测 | 秘塔 / Perplexity 的引用可直接计数,而文心一言的引用粒度较粗 |
| 术语一致性比 SEO 更重要 | 中文分词与嵌入对齐敏感,建议术语首次标注英文原文(如"生成引擎优化 (GEO)") |
| 新闻与权威媒体占比更高 | 中文 AI 搜索对新华社、人民日报、学术中文核心期刊等来源偏好明显 |
| 公众号内容可被引用但署名弱 | 不适合作为品牌方唯一 GEO 阵地 |
五、策略选择决策树
你的内容是否能获得第三方引用?
能:优先"赢得媒体"策略 + Schema 标记
不能:从语义层 Cite+Quote+Stats 开始
你的目标引擎是什么架构?
Search-then-Synthesize(SGE):偏深标题层级 + 前置摘要
Iterative(Perplexity / 秘塔):多源佐证 + 清晰段落
Integrated(ChatGPT / Claude):浅标题 + 强命题句
内容领域是什么?
辩论 / 观点:权威化重述
事实 / 科学:补充统计数据
历史 / 文化:流畅性优化
技术科普:通俗化改写
现有结构是否达标?
段落长度 150—300 词?格式多样性 25—35%?导航密度 0.15—0.20?
未达标:先做 GEO-SFE 结构改造(成本最低、收益最稳定)
本节小结
| 层级 | 核心方法 | 典型提升 |
|---|---|---|
| 语义层 | Cite + Quote + Stats 三合一 | 位置加权词数 +40% |
| 结构层 | GEO-SFE 三层特征工程 | 引用率 45% → 52.8% |
| 生态位 | 赢得媒体 + 第三方背书 + Schema | AI 搜索中来源结构性倾斜 |
避坑清单:关键词堆砌 ✗、技术术语堆砌 ✗、只关注关键词密度 ✗、忽视引擎架构差异 ✗、仅优化自有内容而不争取赢得媒体 ✗。
下一节:我们将进入 GEO 的评估方法——如何量化衡量"你的改写真的有效"。