OneRec-Think: In-Text Reasoning for Generative Recommendation
OneRec-Think: In-Text Reasoning for Generative Recommendation
动机
现有的生成式推荐模型(如OneRec)虽然利用了大语言模型的生成能力,但它们本质上是隐式预测器,缺乏LLM所具有的显式和可控的推理能力。这种推理能力的缺失限制了模型的可解释性和与用户的交互能力。为了解决这个问题,作者提出了OneRec-Think框架,将对话、推理和个性化推荐无缝集成在统一的模型中。
方法
1. Itemic Alignment(项目对齐)
通过多任务预训练策略,将推荐项目的语义映射到LLM的文本嵌入空间中:
- 交错用户画像基础:将项目token和文本token交错排列,包含静态属性、搜索行为、交互序列和用户兴趣总结
- 序列偏好建模:核心推荐任务,从用户历史行为序列预测后续交互
- 项目密集描述:从项目token生成详细的文本描述,建立语义理解
- 通用语言建模:在通用文本语料库上继续预训练,保持基础语言能力
训练分为两个子阶段:
- Token预热阶段:仅训练项目token嵌入
- 多任务集成阶段:联合优化所有参数
2. Reasoning Activation(推理激活)
针对真实用户行为序列的噪声和冗长问题,提出监督微调框架:
- 基于修剪上下文的引导:从修剪后的用户上下文中提取连贯的推理轨迹
- 使用相似度函数检索最相关的历史项目
- 查询预对齐模型生成解释目标交互的推理
- 从噪声序列学习推理:使用提取的推理轨迹作为监督信号
- 优化目标:生成推理和目标项目的负对数似然
- 使模型学会从噪声序列中蒸馏相关上下文
3. Reasoning Enhancement(推理增强)
通过强化学习确保持续高质量的推理:
- 候选束搜索奖励最大化:解决标准可验证通过奖励在推荐场景中的稀疏性问题
- Rollout-Beam奖励:通过约束束内模型的最佳性能来评估推理能力
- 使用GRPO算法优化,利用用户偏好的多有效性特性
4. “Think-Ahead”推理架构
为了满足工业部署的实时性要求:
- 第一阶段(离线):完整模型生成计算密集的推理路径和初始项目token
- 第二阶段(在线):实时更新的OneRec模型使用预生成的token作为约束前缀,快速生成最终项目
实验结果
- 在公开数据集(Amazon Beauty、Toys、Sports)上取得SOTA性能
- 消融实验证明每个组件的不可或缺性
- 在快手平台的在线A/B测试中,APP停留时间提升0.159%,观看时间提升0.169%
意义
OneRec-Think将推荐系统从纯粹的项目预测器转变为具有推理意识的模型,能够生成可解释的推理路径和高质量的推荐。这种显式推理能力不仅提高了推荐准确性,还增强了用户信任度和交互体验。