OneRec-Think: In-Text Reasoning for Generative Recommendation

动机

现有的生成式推荐模型（如OneRec）虽然利用了大语言模型的生成能力，但它们本质上是隐式预测器，缺乏LLM所具有的显式和可控的推理能力。这种推理能力的缺失限制了模型的可解释性和与用户的交互能力。为了解决这个问题，作者提出了OneRec-Think框架，将对话、推理和个性化推荐无缝集成在统一的模型中。

方法

1. Itemic Alignment（项目对齐）

通过多任务预训练策略，将推荐项目的语义映射到LLM的文本嵌入空间中：

交错用户画像基础：将项目token和文本token交错排列，包含静态属性、搜索行为、交互序列和用户兴趣总结
序列偏好建模：核心推荐任务，从用户历史行为序列预测后续交互
项目密集描述：从项目token生成详细的文本描述，建立语义理解
通用语言建模：在通用文本语料库上继续预训练，保持基础语言能力

训练分为两个子阶段：

Token预热阶段：仅训练项目token嵌入
多任务集成阶段：联合优化所有参数

2. Reasoning Activation（推理激活）

针对真实用户行为序列的噪声和冗长问题，提出监督微调框架：

基于修剪上下文的引导：从修剪后的用户上下文中提取连贯的推理轨迹
- 使用相似度函数检索最相关的历史项目
- 查询预对齐模型生成解释目标交互的推理
从噪声序列学习推理：使用提取的推理轨迹作为监督信号
- 优化目标：生成推理和目标项目的负对数似然
- 使模型学会从噪声序列中蒸馏相关上下文

3. Reasoning Enhancement（推理增强）

通过强化学习确保持续高质量的推理：

候选束搜索奖励最大化：解决标准可验证通过奖励在推荐场景中的稀疏性问题
- Rollout-Beam奖励：通过约束束内模型的最佳性能来评估推理能力
- 使用GRPO算法优化，利用用户偏好的多有效性特性

4. “Think-Ahead”推理架构

为了满足工业部署的实时性要求：

第一阶段（离线）：完整模型生成计算密集的推理路径和初始项目token
第二阶段（在线）：实时更新的OneRec模型使用预生成的token作为约束前缀，快速生成最终项目

实验结果

在公开数据集（Amazon Beauty、Toys、Sports）上取得SOTA性能
消融实验证明每个组件的不可或缺性
在快手平台的在线A/B测试中，APP停留时间提升0.159%，观看时间提升0.169%

意义

OneRec-Think将推荐系统从纯粹的项目预测器转变为具有推理意识的模型，能够生成可解释的推理路径和高质量的推荐。这种显式推理能力不仅提高了推荐准确性，还增强了用户信任度和交互体验。

Chen Shangyu

OneRec-Think: In-Text Reasoning for Generative Recommendation

OneRec-Think: In-Text Reasoning for Generative Recommendation

动机

方法

1. Itemic Alignment（项目对齐）

2. Reasoning Activation（推理激活）

3. Reasoning Enhancement（推理增强）

4. “Think-Ahead”推理架构

实验结果

意义