纯语义索引用于基于LLM的生成式推荐与检索

纯语义索引用于基于LLM的生成式推荐与检索

动机与背景

语义标识符(Semantic IDs)在将大语言模型适应于生成式推荐和检索任务中已被证明是有效的。然而,现有方法存在语义ID冲突的问题——多个语义相似的文档(或物品)被分配了相同的ID。为了避免冲突,常见的策略是在ID后附加一个非语义的令牌(冲突索引),但这会引入随机性并扩大搜索空间,从而损害性能。

核心思想

本文提出纯语义索引(Purely Semantic Indexing),通过放宽严格的最近质心选择策略,生成唯一的、保持语义的ID,无需附加非语义令牌。关键洞察是:确保ID的唯一性比保持语义ID与原始语义特征之间的精确对应关系更重要。

方法

1. 穷举候选匹配(Exhaustive Candidate Matching, ECM)

  • 核心思想:全局优化ID分配过程,考虑每层的多个候选质心
  • 工作方式
    • 为每个嵌入获取所有层级的候选质心和残差
    • 枚举所有可能的候选ID组合
    • 使用残差范数的负和作为评分函数对所有候选进行排序
    • 选择第一个无冲突的最高分候选ID
  • 优点:通过全局评分保证最优性
  • 缺点:复杂度随量化层级和候选数量呈指数增长

2. 递归残差搜索(Recursive Residual Searching, RRS)

  • 核心思想:递归地逐层构建语义ID,基于局部残差选择质心候选
  • 工作方式
    • 递归搜索,逐层构建ID
    • 在每层获取k个最近质心候选及其残差
    • 动态更新基于当前选定质心的残差向量
    • 遇到冲突时回溯并尝试其他候选
  • 优点:显著减少搜索空间和运行时间,高效
  • 缺点:贪心选择,不保证全局最优

实验结果

在三个下游任务上进行了广泛实验:

1. 顺序推荐(Sequential Recommendation)

  • 数据集:Amazon-Beauty、Amazon-Sports、Amazon-Toys
  • 结果:ECM和RRS在所有领域都一致性地提升了基础方法的性能
  • 指标:Recall@5和NDCG@5均有显著改善
  • 数据集:Amazon产品搜索数据集(相同三个领域)
  • 结果:两种方法都提升了生成式检索性能,Sports领域改进最大(可能因为物品语义内容密度更高)

3. 文档检索(Document Retrieval)

  • 数据集:Natural Questions (NQ320k) 和 MS MARCO-1M
  • 结果:在大规模生成式检索中展示了有效性,NQ上的改进大于MS MARCO(可能因为后者文档池更大、检索难度更高)

关键发现

  1. 冷启动性能提升:纯语义ID显著改善了冷启动物品的推荐性能,特别是从未在训练中出现的物品。这是因为避免了不可预测的非语义令牌。

  2. ID层级影响:三层纯语义ID的性能优于”两层+冲突索引”的方案,证明了在所有ID令牌中保持语义结构的好处。

  3. ECM vs RRS行为差异
    • RRS在质心重叠高、冲突多样性有限的数据集上表现更好
    • ECM在需要探索多样化候选的更模糊或多样化的数据集上表现更好
    • 两种方法具有互补性
  4. 运行时分析:虽然ID生成时间略有增加,但在离线索引管道中仍然实用,且ID生成通常不频繁。

局限性

  • 当语义ID冲突比例过高时,改进效果会下降
  • ECM的复杂度可能成为瓶颈
  • 需要在基础码本中保持良好的语义结构

总结

纯语义索引通过确保ID唯一性而非精确的语义特征重构,成功避免了使用非语义令牌解决冲突的问题。ECM和RRS两种算法为不同的应用场景提供了灵活的选择,实验证明了其在多个任务上的有效性和在冷启动场景中的优势。