论文来源: arXiv 2511.20235 作者: Liren Yu, Wenming Zhang, Silu Zhou, Tao Zhang, Zhixuan Zhang, Dan Ou (阿里巴巴淘宝与天猫集团) 发表时间: 2024年12月
在电商推荐系统中,点击率(CTR)预测是核心任务。尽管深度神经网络(DNN)已成为CTR预测的事实标准,但仍存在显著缺陷:
Transformer架构通过自注意力机制动态捕捉输入元素间的成对依赖关系,为特征交互学习提供了新范式。然而,现有将Transformer应用于推荐系统的工作存在以下问题:
HHFT (Hierarchical Heterogeneous Feature Transformer) 通过五个关键阶段处理输入特征:
将输入特征按语义类别划分为K个互斥的特征块:
\[\mathcal{B} = \{ \mathbf{U}_{\text{用户特征}}, \mathbf{I}_{\text{商品特征}}, \mathbf{Q}_{\text{查询特征}}, \mathbf{S}_{\text{行为序列}}, \ldots \}\]设计动机: 避免将异构特征直接拼接导致的语义混淆,保留领域特定信息。
每个特征块通过以下步骤转换为统一维度的token:
特征嵌入: \(\mathbf{E}_k = \text{Embed}_k(\mathbf{B}_k) \in \mathbb{R}^{e_k}\)
维度对齐投影: 使用块特定的线性层将嵌入投影到统一维度d: \(\mathbf{H}_k^{(0)} = \mathbf{W}_k^{\text{proj}} \mathbf{E}_k + \mathbf{b}_k^{\text{proj}}\)
最终得到对齐的token矩阵: $\mathbf{H}^{(0)} \in \mathbb{R}^{K \times d}$
核心创新: 为每个特征块维护独立的参数集,而非共享参数。
对于第k个特征块,在第l层编码器中:
\[Q_k = W_{Q,k} \cdot H_k^{(l)}, \quad K_k = W_{K,k} \cdot H_k^{(l)}, \quad V_k = W_{V,k} \cdot H_k^{(l)}\]其中 $W_{Q,k}, W_{K,k}, W_{V,k} \in \mathbb{R}^{d \times d}$ 是块特定的权重矩阵。
设计动机: 确保注意力权重计算能够适应每个特征域的语义特性。
对每个块的Q、K、V向量执行标准的多头自注意力计算,捕捉高阶特征交互。
每个块的token表示输入到块特定的前馈网络:
\[\text{FFN}_k(x) = \text{ReLU}(x \cdot W_{1,k} + b_{1,k}) \cdot W_{2,k} + b_{2,k}\]其中 $W_{1,k} \in \mathbb{R}^{d \times 4d}$, $W_{2,k} \in \mathbb{R}^{4d \times d}$ 是块特定参数。
设计动机: 增强非线性特征转换能力,同时保持特征域的独特性。
在异构Transformer编码器之上,Hiformer层通过复合投影建模超越成对依赖的高阶交互:
\[[\hat{K}^h_1, \ldots, \hat{K}^h_k] = \text{concat}([H^h_1, \ldots, H^h_k]) \hat{W}^h\]其中 $\hat{W}^h \in \mathbb{R}^{kd \times kd_h}$ 是全局复合投影矩阵。
设计动机: 通过全局复合投影学习更全面的层次化特征交互,捕捉跨特征域的复杂依赖关系。
经过 $n_1$ 个Transformer层和 $n_2$ 个Hiformer层后,拼接所有token并通过MLP生成最终的CTR/CVR预测。
传统Transformer对所有输入token使用共享参数,这在推荐场景中存在问题:
HHFT的解决方案: 为每个特征块维护独立的QKV投影和FFN,在保持计算效率的同时保留特征特异性。
HHFT验证了两个关键的扩展规律:
实践意义: 为工业级模型扩展提供了资源高效的指导原则。
| 组件 | AUC增益(相对MLP) |
|---|---|
| MLP → Transformer | +0.0035 |
| 异构参数化 | +0.0018 |
| Hiformer层 | +0.0011 |
| 权重初始化优化 | +0.0040 |
| 模型扩展 | +0.0034 |
| 总计 | +0.0117 |
关键发现:
| 模型 | AUC增益 | 参数量(M) | TFLOPs |
|---|---|---|---|
| DLRM-MLP (基线) | - | 15 | 0.42 |
| DCNv2 | +0.001 | 24 | 0.65 |
| AutoInt | +0.005 | 150 | 1.19 |
| HiFormer | +0.005 | 170 | 1.98 |
| Wukong | +0.002 | 32 | 0.94 |
| RankMixer | +0.003 | 140 | 1.93 |
| HHFT | +0.008 | 300 | 1.22 |
关键发现:
在淘宝搜索平台进行为期30天的A/B测试(1%流量):
对于淘宝的庞大用户基数和交易量,这些增益转化为可观的增量收入,充分验证了模型的实际应用价值。
架构创新: 提出层次化异构特征处理框架,通过语义分区和领域特定参数保留异构特征的独特性,同时实现跨域交互
扩展规律验证: 建立并验证了模型规模与CTR预测性能之间的可预测扩展关系,为工业环境下的模型扩展提供定量指导
工业部署与业务影响: 成功部署在淘宝生产平台,在模型性能(AUC)和业务指标(GMV、CTR)上均取得显著提升
论文指出,未来工作将聚焦于将HHFT扩展到搜索、推荐和广告的联合排序,通过共享跨域特征进一步提升业务价值。