EGA-V2: 端到端生成式工业广告框架

论文标题: EGA-V2: An End-to-end Generative Framework for Industrial Advertising

作者: Zuowu Zheng, Ze Wang, Fan Yang†, Jiangke Fan, Teng Zhang, Yongkang Wang, Xingxing Wang

arXiv ID: 2505.17549

一、研究动机

核心问题

传统在线广告系统存在以下根本性缺陷:

多级级联架构的局限性
- 早期阶段过早地过滤掉高潜力候选广告
- 决策逻辑分散在多个不连贯的模块中（召回、粗排、精排、重排等）
- 各阶段优化目标不一致,导致全局次优解
现有生成式推荐方法的不足
- 虽然生成式方法提供了端到端解决方案
- 但未能解决广告特有的关键需求:
  - 竞价机制(bidding)
  - 创意素材选择
  - 广告位分配
  - 支付计算
  - 激励相容性(Incentive Compatibility)约束
理论与实践的鸿沟
- 生成式建模能力与工业广告实际需求之间存在显著差距
- 需要同时满足用户兴趣建模和商业约束(收益、广告主目标)

二、方法概述

EGA-V2 提出了首个统一的生成式广告框架,在单一生成模型中整体建模用户兴趣、POI和创意生成、广告分配以及支付优化。

核心设计思想

采用两阶段训练范式:

基于兴趣的预训练 (Interest-based Pre-training)
- 学习用户偏好和行为模式
- 使用完整的用户交互序列(包括广告和有机内容)
基于拍卖的后训练 (Auction-based Post-training)
- 引入广告特定的商业约束
- 整合竞价机制、分配策略和支付计算

三、技术方法

3.1 向量Token化 (RQ-VAE)

使用残差量化变分自编码器 (Residual Quantized Variational AutoEncoder) 将稠密特征编码为离散语义token:

层次化编码结构: 每个item表示为 POI-创意 token对
多层codebook: token表示为 $a_i = (a_i^1, a_i^2, …, a_i^C)$,跨越C个codebook层
语义压缩: 将高维特征空间映射到离散token空间,便于生成建模

3.2 编码器-解码器架构

编码器 (Encoder):

处理用户历史行为序列 $S^u$,生成潜在表示 $S^e$

POI解码器 (POI Decoder):

基于历史生成下一个POI token
条件概率: $P(a_t^{poi} S^e, a_{<t})$

创意解码器 (Creative Decoder):

基于POI和历史生成创意token
条件概率: $P(a_t^{img} a_t^{poi}, S^e, a_{<t})$

联合概率分解: $P(Y|S^u) = \prod_t P(a_t^{poi}|...) \cdot P(a_t^{img}|a_t^{poi}, ...)$

这种概率分解允许模型先决定推荐哪个POI(地点),再选择合适的创意素材。

3.3 排列感知奖励模型 (Permutation-aware Reward Model)

设计目的:

传统生成模型仅基于token概率,无法捕捉用户真实反馈
需要将生成序列与实际用户行为(点击、转化)对齐

技术方案:

使用原始item embedding丰富token表示
提供列表级(listwise)评分,而非单个item评分
在真实用户交互信号上训练
为策略梯度优化提供可微分的奖励信号

3.4 拍卖机制设计

Token级竞价

将广告主出价聚合到token级别:

\[w(a_i^j) = [b(a_i^j)]^\alpha + \beta\]

其中:

$b(a_i^j)$: 广告主对token的出价
$\alpha, \beta$: 可学习的超参数,控制出价影响力

生成式分配

使用bid-weighted softmax进行分配:

\[P_{alloc}(a_t|...) = \frac{\exp(logit(a_t) + \log w(a_t))}{\sum_{a'} \exp(logit(a') + \log w(a'))}\]

将出价信息直接注入生成概率
使用beam search生成多个候选序列
平衡用户兴趣与广告主出价

支付网络

关键挑战: 维持激励相容性(IC) - 广告主诚实出价是最优策略

解决方案:

分配与支付解耦设计
独立的POI级支付网络
使用sigmoid激活确保个体理性(IR)约束: $p \leq b$

\[p = \sigma(MLP(...)) \odot b\]

通过事后遗憾最小化(ex-post regret minimization)近似IC约束

3.5 训练策略

预训练损失: $L_{pre-train} = L_{NTP} + L_{MTP}$

$L_{NTP}$: 下一个POI token预测损失
$L_{MTP}$: 下一个创意token预测损失

后训练损失: $L_{post-train} = L_{RM} + L_{PG} + L_{Pay}$

$L_{RM}$: 奖励模型损失(基于真实用户反馈)
$L_{PG}$: 策略梯度损失(最大化期望收益)
$L_{Pay}$: 支付网络损失(带IC约束的拉格朗日对偶)

优化方法:

策略梯度用于分配训练
拉格朗日对偶公式处理IC约束
分阶段训练避免不同目标冲突

四、核心贡献

4.1 首个端到端生成式广告框架

突破传统多级级联架构限制
在单一生成模型中统一建模所有广告决策
实现真正的全局优化

4.2 新颖的两阶段训练策略

兴趣预训练: 学习用户偏好,不受商业约束影响
拍卖后训练: 引入广告特定目标
有效平衡用户体验与商业目标

4.3 Token级竞价与生成式分配机制

排列感知奖励建模增强生成质量
分配与支付解耦设计
维持近似激励相容性
可微分支付网络便于端到端训练

4.4 理论与实践的桥梁

将生成式建模、拍卖理论和广告分配统一在单一框架
提供工业级可部署的解决方案
兼顾理论保证(IC约束)与实践效果

五、方法论创新点

5.1 概率分解策略

通过 POI → 创意的两步生成:

符合广告业务逻辑(先选地点,再选素材)
降低生成空间复杂度
提高可解释性

5.2 分配与支付解耦

传统拍卖机制中分配和支付紧密耦合,但在生成式框架中:

分配: 通过生成模型的softmax实现,融合用户兴趣和出价
支付: 独立网络计算,确保激励相容性
解耦设计允许两者独立优化,同时满足各自约束

5.3 多目标优化平衡

框架需要同时优化:

用户体验(点击率、转化率)
平台收益(RPM)
广告主满意度(ROI)
机制设计约束(IC, IR)

通过两阶段训练和多任务损失函数实现这些目标的有效平衡。

六、架构总结

EGA-V2 代表了广告系统的重大进步,通过将生成式建模与实用的拍卖机制和商业约束整合在可微分的端到端架构中,为工业广告系统提供了新的范式。该框架不仅在理论上创新,更重要的是提供了可落地的工业解决方案,弥合了学术研究与工业应用之间的鸿沟。

Chen Shangyu

EGA-V2: 端到端生成式工业广告框架

EGA-V2: 端到端生成式工业广告框架

一、研究动机

核心问题

二、方法概述

核心设计思想

三、技术方法

3.1 向量Token化 (RQ-VAE)

3.2 编码器-解码器架构

3.3 排列感知奖励模型 (Permutation-aware Reward Model)

3.4 拍卖机制设计

Token级竞价

生成式分配

支付网络

3.5 训练策略

四、核心贡献

4.1 首个端到端生成式广告框架

4.2 新颖的两阶段训练策略

4.3 Token级竞价与生成式分配机制

4.4 理论与实践的桥梁

五、方法论创新点

5.1 概率分解策略

5.2 分配与支付解耦

5.3 多目标优化平衡

六、架构总结