Skip to main content
RAG prepare

检索算法

检索,retrieval,是 RAG 中最重要的第一步。完整的检索流程包含两个阶段:表征(将文本转化为数学表示) 与 匹配(在数据库中寻找最相似的结果)。

稀疏检索(Sparse Retrieval)

稀疏检索主要基于关键词匹配。它非常擅长处理精确匹配(如人名、产品型号、特定术语),但难以理解同义词。

传统稀疏检索

  • TF-IDF: 经典的加权方法,根据词频(TF)和逆文档频率(IDF)计算权重。
  • BM25(Best Matching 25)

神经稀疏检索


MarshioAbout 3 minllmvlm