HHFT: Hierarchical Heterogeneous Feature Transformer for Recommendation Systems

论文来源: arXiv 2511.20235 作者: Liren Yu, Wenming Zhang, Silu Zhou, Tao Zhang, Zhixuan Zhang, Dan Ou (阿里巴巴淘宝与天猫集团) 发表时间: 2024年12月

一、研究动机

1.1 现有DNN方法的局限性

在电商推荐系统中,点击率(CTR)预测是核心任务。尽管深度神经网络(DNN)已成为CTR预测的事实标准,但仍存在显著缺陷:

隐式特征交互: DNN通过前馈架构进行特征融合,使用求和操作和非线性激活函数压缩交互信号,难以显式捕捉高阶特征交互
语义信息丢失: 在电商场景中,特征高度异构(用户ID、商品类别、价格、行为序列等),直接拼接会导致不同语义域的信息混淆
可扩展性不明确: 传统DNN模型缺乏可预测的扩展规律(scaling laws),难以通过增加模型容量获得稳定的性能提升

1.2 Transformer的潜力与现有工作的不足

Transformer架构通过自注意力机制动态捕捉输入元素间的成对依赖关系,为特征交互学习提供了新范式。然而,现有将Transformer应用于推荐系统的工作存在以下问题:

SASRec/LONGER: 主要关注用户行为序列建模,忽略了更广泛的异构特征交互
Hiformer: 虽然建模异构特征交互,但缺乏对扩展规律的严格实证分析
Wukong/RankMixer: 探索了扩展规律,但依赖非Transformer组件(如FM模块或MLP-mixer),未能充分利用Transformer的语义感知能力

二、核心方法

2.1 整体架构

HHFT (Hierarchical Heterogeneous Feature Transformer) 通过五个关键阶段处理输入特征:

语义特征分区 (Semantic Feature Partitioning)
异构特征Token化 (Heterogeneous Feature Tokenization)
异构Transformer编码器 (Heterogeneous Transformer Encoder)
Hiformer层 (高阶交互层)
预测头 (Prediction Head)

2.2 语义特征分区

将输入特征按语义类别划分为K个互斥的特征块:

\[\mathcal{B} = \{ \mathbf{U}_{\text{用户特征}}, \mathbf{I}_{\text{商品特征}}, \mathbf{Q}_{\text{查询特征}}, \mathbf{S}_{\text{行为序列}}, \ldots \}\]

设计动机: 避免将异构特征直接拼接导致的语义混淆,保留领域特定信息。

2.3 异构特征Token化

每个特征块通过以下步骤转换为统一维度的token:

特征嵌入: $\mathbf{E}_k = \text{Embed}_k(\mathbf{B}_k) \in \mathbb{R}^{e_k}$
维度对齐投影: 使用块特定的线性层将嵌入投影到统一维度d: $\mathbf{H}_k^{(0)} = \mathbf{W}_k^{\text{proj}} \mathbf{E}_k + \mathbf{b}_k^{\text{proj}}$

最终得到对齐的token矩阵: $\mathbf{H}^{(0)} \in \mathbb{R}^{K \times d}$

2.4 异构Transformer编码器

核心创新: 为每个特征块维护独立的参数集,而非共享参数。

(1) 块特定的QKV投影

对于第k个特征块,在第l层编码器中:

\[Q_k = W_{Q,k} \cdot H_k^{(l)}, \quad K_k = W_{K,k} \cdot H_k^{(l)}, \quad V_k = W_{V,k} \cdot H_k^{(l)}\]

其中 $W_{Q,k}, W_{K,k}, W_{V,k} \in \mathbb{R}^{d \times d}$ 是块特定的权重矩阵。

设计动机: 确保注意力权重计算能够适应每个特征域的语义特性。

(2) 多头自注意力

对每个块的Q、K、V向量执行标准的多头自注意力计算,捕捉高阶特征交互。

(3) 块特定的FFN

每个块的token表示输入到块特定的前馈网络:

\[\text{FFN}_k(x) = \text{ReLU}(x \cdot W_{1,k} + b_{1,k}) \cdot W_{2,k} + b_{2,k}\]

其中 $W_{1,k} \in \mathbb{R}^{d \times 4d}$, $W_{2,k} \in \mathbb{R}^{4d \times d}$ 是块特定参数。

设计动机: 增强非线性特征转换能力,同时保持特征域的独特性。

2.5 Hiformer层

在异构Transformer编码器之上,Hiformer层通过复合投影建模超越成对依赖的高阶交互:

\[[\hat{K}^h_1, \ldots, \hat{K}^h_k] = \text{concat}([H^h_1, \ldots, H^h_k]) \hat{W}^h\]

其中 $\hat{W}^h \in \mathbb{R}^{kd \times kd_h}$ 是全局复合投影矩阵。

设计动机: 通过全局复合投影学习更全面的层次化特征交互,捕捉跨特征域的复杂依赖关系。

2.6 预测头

经过 $n_1$ 个Transformer层和 $n_2$ 个Hiformer层后,拼接所有token并通过MLP生成最终的CTR/CVR预测。

三、关键技术洞察

3.1 为什么Transformer优于DNN?

显式高阶交互建模: Transformer通过可学习的亲和矩阵直接学习高阶交互,而DNN通过隐式压缩的特征融合
语义感知能力: 自注意力机制能够动态捕捉特征间的语义依赖关系
可解释性: 注意力权重提供了特征交互的可解释性

3.2 异构参数化的必要性

传统Transformer对所有输入token使用共享参数,这在推荐场景中存在问题:

分类特征(如用户ID)、连续特征(如价格)、序列特征(如行为历史)具有完全不同的语义
共享参数会导致语义混淆,降低交互建模质量

HHFT的解决方案: 为每个特征块维护独立的QKV投影和FFN,在保持计算效率的同时保留特征特异性。

3.3 扩展规律的验证

HHFT验证了两个关键的扩展规律:

宽度 > 深度: 扩展模型宽度(token维度)比增加深度(层数)带来更高的AUC增益
高阶 > 低阶: 扩展与高阶交互相关的参数(Hiformer的token数量和维度)比扩展低阶组件(Transformer层)更有效

实践意义: 为工业级模型扩展提供了资源高效的指导原则。

四、实验结果

4.1 消融实验(冷启动训练场景)

组件	AUC增益(相对MLP)
MLP → Transformer	+0.0035
异构参数化	+0.0018
Hiformer层	+0.0011
权重初始化优化	+0.0040
模型扩展	+0.0034
总计	+0.0117

关键发现:

每个组件都有显著贡献
权重初始化优化和模型扩展带来最大增益
异构参数化对避免语义混淆至关重要

4.2 与SOTA方法的比较

模型	AUC增益	参数量(M)	TFLOPs
DLRM-MLP (基线)	-	15	0.42
DCNv2	+0.001	24	0.65
AutoInt	+0.005	150	1.19
HiFormer	+0.005	170	1.98
Wukong	+0.002	32	0.94
RankMixer	+0.003	140	1.93
HHFT	+0.008	300	1.22

关键发现:

HHFT在所有基线中表现最佳
Transformer类模型(AutoInt, HiFormer, HHFT)显著优于DNN/FM类模型
HHFT在参数效率和计算效率间取得良好平衡

4.3 在线A/B测试结果

在淘宝搜索平台进行为期30天的A/B测试(1%流量):

CTR AUC: +0.4% (相对DNN基线)
GMV: +0.6% 增长

对于淘宝的庞大用户基数和交易量,这些增益转化为可观的增量收入,充分验证了模型的实际应用价值。

五、方法论总结

核心贡献

架构创新: 提出层次化异构特征处理框架,通过语义分区和领域特定参数保留异构特征的独特性,同时实现跨域交互
扩展规律验证: 建立并验证了模型规模与CTR预测性能之间的可预测扩展关系,为工业环境下的模型扩展提供定量指导
工业部署与业务影响: 成功部署在淘宝生产平台,在模型性能(AUC)和业务指标(GMV、CTR)上均取得显著提升

技术要点

语义分区: 避免异构特征直接拼接导致的信息丢失
异构参数化: 为不同特征域维护独立参数,防止语义混淆
层次化交互: 通过Transformer+Hiformer的两级结构捕捉从成对到高阶的完整特征交互谱系
扩展规律: 宽度优于深度,高阶优于低阶

适用场景

电商搜索/推荐系统的CTR/CVR预测
需要处理高度异构特征的排序任务
对模型可扩展性有明确需求的工业场景

六、未来工作方向

论文指出,未来工作将聚焦于将HHFT扩展到搜索、推荐和广告的联合排序,通过共享跨域特征进一步提升业务价值。

Chen Shangyu

HHFT: Hierarchical Heterogeneous Feature Transformer for Recommendation Systems

HHFT: Hierarchical Heterogeneous Feature Transformer for Recommendation Systems

一、研究动机

1.1 现有DNN方法的局限性

1.2 Transformer的潜力与现有工作的不足

二、核心方法

2.1 整体架构

2.2 语义特征分区

2.3 异构特征Token化

2.4 异构Transformer编码器

(1) 块特定的QKV投影

(2) 多头自注意力

(3) 块特定的FFN

2.5 Hiformer层

2.6 预测头

三、关键技术洞察

3.1 为什么Transformer优于DNN?

3.2 异构参数化的必要性

3.3 扩展规律的验证

四、实验结果

4.1 消融实验(冷启动训练场景)

4.2 与SOTA方法的比较

4.3 在线A/B测试结果

五、方法论总结

核心贡献

技术要点

适用场景

六、未来工作方向