纯语义索引用于基于LLM的生成式推荐与检索

动机与背景

语义标识符（Semantic IDs）在将大语言模型适应于生成式推荐和检索任务中已被证明是有效的。然而，现有方法存在语义ID冲突的问题——多个语义相似的文档（或物品）被分配了相同的ID。为了避免冲突，常见的策略是在ID后附加一个非语义的令牌（冲突索引），但这会引入随机性并扩大搜索空间，从而损害性能。

核心思想

本文提出纯语义索引（Purely Semantic Indexing），通过放宽严格的最近质心选择策略，生成唯一的、保持语义的ID，无需附加非语义令牌。关键洞察是：确保ID的唯一性比保持语义ID与原始语义特征之间的精确对应关系更重要。

方法

1. 穷举候选匹配（Exhaustive Candidate Matching, ECM）

核心思想：全局优化ID分配过程，考虑每层的多个候选质心
工作方式：
- 为每个嵌入获取所有层级的候选质心和残差
- 枚举所有可能的候选ID组合
- 使用残差范数的负和作为评分函数对所有候选进行排序
- 选择第一个无冲突的最高分候选ID
优点：通过全局评分保证最优性
缺点：复杂度随量化层级和候选数量呈指数增长

2. 递归残差搜索（Recursive Residual Searching, RRS）

核心思想：递归地逐层构建语义ID，基于局部残差选择质心候选
工作方式：
- 递归搜索，逐层构建ID
- 在每层获取k个最近质心候选及其残差
- 动态更新基于当前选定质心的残差向量
- 遇到冲突时回溯并尝试其他候选
优点：显著减少搜索空间和运行时间，高效
缺点：贪心选择，不保证全局最优

实验结果

在三个下游任务上进行了广泛实验：

1. 顺序推荐（Sequential Recommendation）

数据集：Amazon-Beauty、Amazon-Sports、Amazon-Toys
结果：ECM和RRS在所有领域都一致性地提升了基础方法的性能
指标：Recall@5和NDCG@5均有显著改善

2. 产品搜索（Product Search）

数据集：Amazon产品搜索数据集（相同三个领域）
结果：两种方法都提升了生成式检索性能，Sports领域改进最大（可能因为物品语义内容密度更高）

3. 文档检索（Document Retrieval）

数据集：Natural Questions (NQ320k) 和 MS MARCO-1M
结果：在大规模生成式检索中展示了有效性，NQ上的改进大于MS MARCO（可能因为后者文档池更大、检索难度更高）

关键发现

冷启动性能提升：纯语义ID显著改善了冷启动物品的推荐性能，特别是从未在训练中出现的物品。这是因为避免了不可预测的非语义令牌。
ID层级影响：三层纯语义ID的性能优于”两层+冲突索引”的方案，证明了在所有ID令牌中保持语义结构的好处。
ECM vs RRS行为差异：
- RRS在质心重叠高、冲突多样性有限的数据集上表现更好
- ECM在需要探索多样化候选的更模糊或多样化的数据集上表现更好
- 两种方法具有互补性
运行时分析：虽然ID生成时间略有增加，但在离线索引管道中仍然实用，且ID生成通常不频繁。

局限性

当语义ID冲突比例过高时，改进效果会下降
ECM的复杂度可能成为瓶颈
需要在基础码本中保持良好的语义结构

总结

纯语义索引通过确保ID唯一性而非精确的语义特征重构，成功避免了使用非语义令牌解决冲突的问题。ECM和RRS两种算法为不同的应用场景提供了灵活的选择，实验证明了其在多个任务上的有效性和在冷启动场景中的优势。

Chen Shangyu

纯语义索引用于基于LLM的生成式推荐与检索

纯语义索引用于基于LLM的生成式推荐与检索

动机与背景

核心思想

方法

1. 穷举候选匹配（Exhaustive Candidate Matching, ECM）

2. 递归残差搜索（Recursive Residual Searching, RRS）

实验结果

1. 顺序推荐（Sequential Recommendation）

2. 产品搜索（Product Search）

3. 文档检索（Document Retrieval）

关键发现

局限性

总结