sjorz LV
发表于 2025-4-9 20:24:53
原文链接
FIT-RAG: Black-Box RAG with Factual Information and Token ReductionFIT-RAG: Black-Box RAG with Factual Information and Token Reduction
原文汉化摘要
由于大型语言模型(LLMs)参数数量异常庞大,在许多应用中,微调LLMs以更新长尾或过时的知识是不切实际的。为了避免微调,我们可以将LLM视为黑箱(即冻结LLM的参数),并通过添加检索增强生成(RAG)系统来增强它,这被称为黑箱RAG。最近,黑箱RAG在知识密集型任务中取得了成功,并获得了广泛关注。现有的黑箱RAG方法通常会微调检索器以适应LLMs的偏好,并将所有检索到的文档连接起来作为输入,但这带来了两个问题:(1) 忽视事实信息。LLM偏好的文档可能不包含给定问题的事实信息,这可能会误导检索器,损害黑箱RAG的有效性;(2) 浪费标记。简单地连接所有检索到的文档为LLMs带来了大量的不必要的标记,降低了黑箱RAG的效率。
为了解决这些问题,本文提出了一种新的黑箱RAG框架,该框架利用检索中的事实信息并减少用于增强的标记数量,称为FIT-RAG。FIT-RAG通过构建一个双标签文档评分器来利用事实信息,该评分器分别以事实信息和LLMs的偏好作为标签。此外,它通过引入自知识识别器和子文档级别的标记减少器来减少标记,使FIT-RAG能够避免不必要的增强,并尽可能多地减少增强标记。FIT-RAG实现了优越的效果和效率,这一点通过跨三个开放域问答数据集(TriviaQA、NQ和PopQA)的广泛实验得到了验证。FIT-RAG可以分别将Llama2-13B-Chat在TriviaQA上的回答准确性提高14.3%,在NQ上提高19.9%,在PopQA上提高27.5%。此外,它可以在三个数据集上平均节省大约一半的标记。
存在的问题
现有的RAG存在的问题:
FIT-RAG的5个组件
- a similarity-based retriever基于相似性的检索器
- a bi-label document scorer双标签文档评分器(含事实信息与否、大模型偏好)
- a bi-faceted self-knowledge recognizer双面自知识识别器(过时知识和长尾知识)
- a sub-document-level token reducer子文档级别标记减少器
- a prompt construction module提示构建模块
主原理图
判定大模型是否需要外部增强的方法
- 问题是否与长尾或过时的知识相关
- 问题的最近邻是否有自我知识
一些概念
- 稀疏检索,通俗地说就是根据关键词匹配进行检索
- 稠密检索,通俗地说就是根据Embedding向量相似度进行检索
- 消融研究(Ablation Study)在深度学习中是一种研究方法,用于分析模型性能中的各个组件或特征的重要性。"消融"这个词来源于医学领域,意指移除某个部分以观察其对整体功能的影响。
RAG的定义
检索增强生成(RAG)。给定一个自然语言问题 qq,一个外部知识语料库 WW 和一个生成式语言模型 MM,一个RAG系统旨在使用检索模型 RR 有效地从 WW 中检索相关文档 D=(d1,d2,d3,...)D=(d1,d2,d3,...),以帮助 MM 为问题 qq 生成更准确和信息丰富的回答。
重要信息
- 我们发现不同的提示显著影响了LLMs利用外部信息的能力,并影响生成输出的性能。
- 相关数据集
- TriviaQA 擅长阅读理解的数据集
- Natural Questions 擅长开放域的问答的数据集
- PopQA 开放领域的问题回答数据集,旨在评估大型语言模型对事实知识的记忆能力。擅长评估语言模型在长尾知识上的表现。
未来的研究方向
输出型RAG(Retrieval-Augmented Generation)
跳过的篇幅
|
|