HHFT: Hierarchical Heterogeneous Feature Transformer for Recommendation Systems

HHFT: Hierarchical Heterogeneous Feature Transformer for Recommendation Systems

论文来源: arXiv 2511.20235 作者: Liren Yu, Wenming Zhang, Silu Zhou, Tao Zhang, Zhixuan Zhang, Dan Ou (阿里巴巴淘宝与天猫集团) 发表时间: 2024年12月


一、研究动机

1.1 现有DNN方法的局限性

在电商推荐系统中,点击率(CTR)预测是核心任务。尽管深度神经网络(DNN)已成为CTR预测的事实标准,但仍存在显著缺陷:

  • 隐式特征交互: DNN通过前馈架构进行特征融合,使用求和操作和非线性激活函数压缩交互信号,难以显式捕捉高阶特征交互
  • 语义信息丢失: 在电商场景中,特征高度异构(用户ID、商品类别、价格、行为序列等),直接拼接会导致不同语义域的信息混淆
  • 可扩展性不明确: 传统DNN模型缺乏可预测的扩展规律(scaling laws),难以通过增加模型容量获得稳定的性能提升

1.2 Transformer的潜力与现有工作的不足

Transformer架构通过自注意力机制动态捕捉输入元素间的成对依赖关系,为特征交互学习提供了新范式。然而,现有将Transformer应用于推荐系统的工作存在以下问题:

  • SASRec/LONGER: 主要关注用户行为序列建模,忽略了更广泛的异构特征交互
  • Hiformer: 虽然建模异构特征交互,但缺乏对扩展规律的严格实证分析
  • Wukong/RankMixer: 探索了扩展规律,但依赖非Transformer组件(如FM模块或MLP-mixer),未能充分利用Transformer的语义感知能力

二、核心方法

2.1 整体架构

HHFT (Hierarchical Heterogeneous Feature Transformer) 通过五个关键阶段处理输入特征:

  1. 语义特征分区 (Semantic Feature Partitioning)
  2. 异构特征Token化 (Heterogeneous Feature Tokenization)
  3. 异构Transformer编码器 (Heterogeneous Transformer Encoder)
  4. Hiformer层 (高阶交互层)
  5. 预测头 (Prediction Head)

2.2 语义特征分区

将输入特征按语义类别划分为K个互斥的特征块:

\[\mathcal{B} = \{ \mathbf{U}_{\text{用户特征}}, \mathbf{I}_{\text{商品特征}}, \mathbf{Q}_{\text{查询特征}}, \mathbf{S}_{\text{行为序列}}, \ldots \}\]

设计动机: 避免将异构特征直接拼接导致的语义混淆,保留领域特定信息。

2.3 异构特征Token化

每个特征块通过以下步骤转换为统一维度的token:

  1. 特征嵌入: \(\mathbf{E}_k = \text{Embed}_k(\mathbf{B}_k) \in \mathbb{R}^{e_k}\)

  2. 维度对齐投影: 使用块特定的线性层将嵌入投影到统一维度d: \(\mathbf{H}_k^{(0)} = \mathbf{W}_k^{\text{proj}} \mathbf{E}_k + \mathbf{b}_k^{\text{proj}}\)

最终得到对齐的token矩阵: $\mathbf{H}^{(0)} \in \mathbb{R}^{K \times d}$

2.4 异构Transformer编码器

核心创新: 为每个特征块维护独立的参数集,而非共享参数。

(1) 块特定的QKV投影

对于第k个特征块,在第l层编码器中:

\[Q_k = W_{Q,k} \cdot H_k^{(l)}, \quad K_k = W_{K,k} \cdot H_k^{(l)}, \quad V_k = W_{V,k} \cdot H_k^{(l)}\]

其中 $W_{Q,k}, W_{K,k}, W_{V,k} \in \mathbb{R}^{d \times d}$ 是块特定的权重矩阵。

设计动机: 确保注意力权重计算能够适应每个特征域的语义特性。

(2) 多头自注意力

对每个块的Q、K、V向量执行标准的多头自注意力计算,捕捉高阶特征交互。

(3) 块特定的FFN

每个块的token表示输入到块特定的前馈网络:

\[\text{FFN}_k(x) = \text{ReLU}(x \cdot W_{1,k} + b_{1,k}) \cdot W_{2,k} + b_{2,k}\]

其中 $W_{1,k} \in \mathbb{R}^{d \times 4d}$, $W_{2,k} \in \mathbb{R}^{4d \times d}$ 是块特定参数。

设计动机: 增强非线性特征转换能力,同时保持特征域的独特性。

2.5 Hiformer层

在异构Transformer编码器之上,Hiformer层通过复合投影建模超越成对依赖的高阶交互:

\[[\hat{K}^h_1, \ldots, \hat{K}^h_k] = \text{concat}([H^h_1, \ldots, H^h_k]) \hat{W}^h\]

其中 $\hat{W}^h \in \mathbb{R}^{kd \times kd_h}$ 是全局复合投影矩阵。

设计动机: 通过全局复合投影学习更全面的层次化特征交互,捕捉跨特征域的复杂依赖关系。

2.6 预测头

经过 $n_1$ 个Transformer层和 $n_2$ 个Hiformer层后,拼接所有token并通过MLP生成最终的CTR/CVR预测。


三、关键技术洞察

3.1 为什么Transformer优于DNN?

  1. 显式高阶交互建模: Transformer通过可学习的亲和矩阵直接学习高阶交互,而DNN通过隐式压缩的特征融合
  2. 语义感知能力: 自注意力机制能够动态捕捉特征间的语义依赖关系
  3. 可解释性: 注意力权重提供了特征交互的可解释性

3.2 异构参数化的必要性

传统Transformer对所有输入token使用共享参数,这在推荐场景中存在问题:

  • 分类特征(如用户ID)、连续特征(如价格)、序列特征(如行为历史)具有完全不同的语义
  • 共享参数会导致语义混淆,降低交互建模质量

HHFT的解决方案: 为每个特征块维护独立的QKV投影和FFN,在保持计算效率的同时保留特征特异性。

3.3 扩展规律的验证

HHFT验证了两个关键的扩展规律:

  1. 宽度 > 深度: 扩展模型宽度(token维度)比增加深度(层数)带来更高的AUC增益
  2. 高阶 > 低阶: 扩展与高阶交互相关的参数(Hiformer的token数量和维度)比扩展低阶组件(Transformer层)更有效

实践意义: 为工业级模型扩展提供了资源高效的指导原则。


四、实验结果

4.1 消融实验(冷启动训练场景)

组件 AUC增益(相对MLP)
MLP → Transformer +0.0035
异构参数化 +0.0018
Hiformer层 +0.0011
权重初始化优化 +0.0040
模型扩展 +0.0034
总计 +0.0117

关键发现:

  • 每个组件都有显著贡献
  • 权重初始化优化和模型扩展带来最大增益
  • 异构参数化对避免语义混淆至关重要

4.2 与SOTA方法的比较

模型 AUC增益 参数量(M) TFLOPs
DLRM-MLP (基线) - 15 0.42
DCNv2 +0.001 24 0.65
AutoInt +0.005 150 1.19
HiFormer +0.005 170 1.98
Wukong +0.002 32 0.94
RankMixer +0.003 140 1.93
HHFT +0.008 300 1.22

关键发现:

  • HHFT在所有基线中表现最佳
  • Transformer类模型(AutoInt, HiFormer, HHFT)显著优于DNN/FM类模型
  • HHFT在参数效率和计算效率间取得良好平衡

4.3 在线A/B测试结果

在淘宝搜索平台进行为期30天的A/B测试(1%流量):

  • CTR AUC: +0.4% (相对DNN基线)
  • GMV: +0.6% 增长

对于淘宝的庞大用户基数和交易量,这些增益转化为可观的增量收入,充分验证了模型的实际应用价值。


五、方法论总结

核心贡献

  1. 架构创新: 提出层次化异构特征处理框架,通过语义分区和领域特定参数保留异构特征的独特性,同时实现跨域交互

  2. 扩展规律验证: 建立并验证了模型规模与CTR预测性能之间的可预测扩展关系,为工业环境下的模型扩展提供定量指导

  3. 工业部署与业务影响: 成功部署在淘宝生产平台,在模型性能(AUC)和业务指标(GMV、CTR)上均取得显著提升

技术要点

  • 语义分区: 避免异构特征直接拼接导致的信息丢失
  • 异构参数化: 为不同特征域维护独立参数,防止语义混淆
  • 层次化交互: 通过Transformer+Hiformer的两级结构捕捉从成对到高阶的完整特征交互谱系
  • 扩展规律: 宽度优于深度,高阶优于低阶

适用场景

  • 电商搜索/推荐系统的CTR/CVR预测
  • 需要处理高度异构特征的排序任务
  • 对模型可扩展性有明确需求的工业场景

六、未来工作方向

论文指出,未来工作将聚焦于将HHFT扩展到搜索、推荐和广告的联合排序,通过共享跨域特征进一步提升业务价值。