纯语义索引用于基于LLM的生成式推荐与检索
纯语义索引用于基于LLM的生成式推荐与检索
动机与背景
语义标识符(Semantic IDs)在将大语言模型适应于生成式推荐和检索任务中已被证明是有效的。然而,现有方法存在语义ID冲突的问题——多个语义相似的文档(或物品)被分配了相同的ID。为了避免冲突,常见的策略是在ID后附加一个非语义的令牌(冲突索引),但这会引入随机性并扩大搜索空间,从而损害性能。
核心思想
本文提出纯语义索引(Purely Semantic Indexing),通过放宽严格的最近质心选择策略,生成唯一的、保持语义的ID,无需附加非语义令牌。关键洞察是:确保ID的唯一性比保持语义ID与原始语义特征之间的精确对应关系更重要。
方法
1. 穷举候选匹配(Exhaustive Candidate Matching, ECM)
- 核心思想:全局优化ID分配过程,考虑每层的多个候选质心
- 工作方式:
- 为每个嵌入获取所有层级的候选质心和残差
- 枚举所有可能的候选ID组合
- 使用残差范数的负和作为评分函数对所有候选进行排序
- 选择第一个无冲突的最高分候选ID
- 优点:通过全局评分保证最优性
- 缺点:复杂度随量化层级和候选数量呈指数增长
2. 递归残差搜索(Recursive Residual Searching, RRS)
- 核心思想:递归地逐层构建语义ID,基于局部残差选择质心候选
- 工作方式:
- 递归搜索,逐层构建ID
- 在每层获取k个最近质心候选及其残差
- 动态更新基于当前选定质心的残差向量
- 遇到冲突时回溯并尝试其他候选
- 优点:显著减少搜索空间和运行时间,高效
- 缺点:贪心选择,不保证全局最优
实验结果
在三个下游任务上进行了广泛实验:
1. 顺序推荐(Sequential Recommendation)
- 数据集:Amazon-Beauty、Amazon-Sports、Amazon-Toys
- 结果:ECM和RRS在所有领域都一致性地提升了基础方法的性能
- 指标:Recall@5和NDCG@5均有显著改善
2. 产品搜索(Product Search)
- 数据集:Amazon产品搜索数据集(相同三个领域)
- 结果:两种方法都提升了生成式检索性能,Sports领域改进最大(可能因为物品语义内容密度更高)
3. 文档检索(Document Retrieval)
- 数据集:Natural Questions (NQ320k) 和 MS MARCO-1M
- 结果:在大规模生成式检索中展示了有效性,NQ上的改进大于MS MARCO(可能因为后者文档池更大、检索难度更高)
关键发现
-
冷启动性能提升:纯语义ID显著改善了冷启动物品的推荐性能,特别是从未在训练中出现的物品。这是因为避免了不可预测的非语义令牌。
-
ID层级影响:三层纯语义ID的性能优于”两层+冲突索引”的方案,证明了在所有ID令牌中保持语义结构的好处。
- ECM vs RRS行为差异:
- RRS在质心重叠高、冲突多样性有限的数据集上表现更好
- ECM在需要探索多样化候选的更模糊或多样化的数据集上表现更好
- 两种方法具有互补性
- 运行时分析:虽然ID生成时间略有增加,但在离线索引管道中仍然实用,且ID生成通常不频繁。
局限性
- 当语义ID冲突比例过高时,改进效果会下降
- ECM的复杂度可能成为瓶颈
- 需要在基础码本中保持良好的语义结构
总结
纯语义索引通过确保ID唯一性而非精确的语义特征重构,成功避免了使用非语义令牌解决冲突的问题。ECM和RRS两种算法为不同的应用场景提供了灵活的选择,实验证明了其在多个任务上的有效性和在冷启动场景中的优势。