基于强化学习实现检索增强型大语言模型的自主查询优化

赵伊萱; 汪彧; 王少华; 李静远; 张琨

doi:10.13232/j.cnki.jnju.2025.06.002

南京大学学报（自然科学） ›› 2025, Vol. 61 ›› Issue (06) : 908 -916. DOI: 10.13232/j.cnki.jnju.2025.06.002

基于强化学习实现检索增强型大语言模型的自主查询优化

赵伊萱 ¹ ,
汪彧 ² ,
王少华 ¹ ,
李静远 ² ,
张琨 ³

作者信息 +

RewriteGen: Autonomous query optimization for retrieval⁃augmented large language models via reinforcement learning

Author information +

文章历史 +

PDF (1052K)

摘要

检索增强生成（Retrieval⁃Augmented Generation，RAG）中的查询改写技术在提升知识密集型任务性能方面已取得显著进展，然而，现有方法通常依赖“原始查询→查询改写→检索→答案生成”这一多模块串行流程，各模块独立运行，推理效率有限且缺乏全局优化能力.提出一种强化学习驱动的一体化查询改写框架，将查询改写、检索决策与答案生成统一集成到单一大语言模型中.模型首先生成改写后的查询并触发检索，将检索结果直接融入上下文，然后在同一模型内完成推理与答案生成.这种一体化设计消除了对独立查询改写模块与答案生成模块的依赖，显著提升了推理效率与模型灵活性.为了实现端到端优化，采用强化学习策略，使模型能够在查询改写与推理生成之间建立直接的性能反馈关联，以自主学习最优的检索与生成策略.在开放域问答任务的实验中，在HotpotQA，MuSiQue和2Wiki数据集上，和当前最优基线相比，该框架的精确匹配和大语言模型评测指标分别提升了4.82%和5.00%，11.50%和6.98%以及15.29%和18.44%，验证了该方法在多领域、多任务场景下的有效性与通用性.

Abstract

Query rewriting has emerged as an essential technique in the Retrieval⁃Augmented Generation (RAG) paradigm，achieving remarkable success in enhancing the performance of knowledge⁃intensive tasks such as open⁃domain question answering (ODQA)，fact verification，and multi⁃hop reasoning. Traditional RAG pipelines typically follow a multi⁃stage workflow consisting of original query → rewritten query → retrieval → answer generation. In this conventional design，query rewriting，retrieval，and answer generation are handled by separate modules，such as a dedicated query rewriter and a downstream answer generation model. While this modular structure offers flexibility，it also leads to inefficiencies in inference，difficulty in joint optimization，and potential error propagation across stages.In this paper，we propose a novel unified query rewriting framework driven by reinforcement learning (RL) that integrates query rewriting，retrieval decision⁃making，and answer generation into a single large language model (LLM). Our approach eliminates the need for independent query rewriting and answer generation modules by enabling the LLM to directly perform end⁃to⁃end reasoning and generation within one inference process. Specifically，the model first produces a rewritten query that aims to maximize downstream task performance，triggers document retrieval，and incorporates the retrieved evidence into its working context. The same LLM then conducts reasoning over the combined query⁃evidence context and generates the final answer. By coupling all components into a single agent⁃like system，our method enhances reasoning efficiency，improves adaptability across tasks，and allows retrieval and generation strategies to be jointly optimized under a unified objective.To optimize this unified framework，we employ reinforcement learning with task⁃specific rewards that connect the quality of the rewritten query directly to the quality of the final answer. This feedback loop enables the LLM to autonomously learn optimal trade⁃offs between query reformulation，retrieval precision，and reasoning accuracy. Unlike supervised fine⁃tuning，our RL⁃based optimization allows the model to explore diverse rewriting strategies that may not appear in human⁃annotated training data but yield improved downstream performance. The experimental results show that，compared with the current strongest baseline，the tests using the EM standard and the LLM standard have improved by 4.82% and 5.00% respectively on the HotpotQA dataset，and by 11.50% and 6.98% respectively on the MuSiQue dataset. It has increased by 15.29% and 18.44% on the 2Wiki dataset.

Graphical abstract

关键词

查询改写 / 检索增强生成 / 强化学习 / 大语言模型 / 自然语言处理

Key words

query rewriting / retrieval⁃augmented generation / reinforcement learning / large language models / natural language processing

引用本文

引用格式 ▾

赵伊萱,汪彧,王少华,李静远,张琨. 基于强化学习实现检索增强型大语言模型的自主查询优化[J]. 南京大学学报（自然科学）, 2025, 61(06): 908-916 DOI:10.13232/j.cnki.jnju.2025.06.002

登录浏览全文

4963

注册一个新账户忘记密码

检索增强生成（Retrieval⁃Augmented Generation，RAG）近年来已成为大语言模型（Large Language Model，LLM）在开放域问答、知识密集型推理等任务中的核心范式.RAG通过外部检索模块补充上下文信息，缓解了LLM在长尾知识与事实性准确性方面的不足.然而，传统RAG框架通常将查询改写（Query Rewriting）、文档检索（Retrieval）与答案生成（Answer Generation）解耦建模，这种设计容易造成信息损失与错误累积，在多跳推理（Multi⁃Hop Reasoning，多步逻辑链）和多轮检索（Multi⁃Turn Retrieval，多轮信息获取）场景下表现尤为明显.

为了提升检索效果与生成质量，已有研究探索了不同模态和任务下的检索增强方法.例如，Tree⁃of⁃Reasoning^［1］通过对复杂问题进行树状分解与重组来引导多轮检索；RefSGL^［2］在表格问答中引入检索增强的语义关系建模，提升了查询与表格内容的匹配能力.这些方法验证了检索增强策略的有效性，但仍依赖额外模块或特定场景设计，缺乏在统一框架下实现端到端优化的能力.

强化学习（Reinforcement Learning， RL）为RAG的端到端优化提供了新的可能.和监督学习相比，RL能利用任务反馈（如答案准确率、格式合规性）直接优化模型策略，然而将RL应用于RAG仍面临两大挑战：一是设计既能约束生成格式又能提升检索质量的奖励函数；二是在端到端训练中保持模型生成能力与检索性能的稳定平衡.

针对这些问题，本文提出RewriteGen框架，将查询改写、检索触发与答案生成统一于单一LLM，并通过群体相对策略优化（Grouped Relative Policy Optimization，GRPO）^［3］实现端到端强化学习训练.不同于传统依赖独立改写器或复杂提示工程的方法，RewriteGen在生成过程中自主学习查询重构，有效地提升了检索与生成的协同性能.

在包括开放域问答在内的下游任务上评估了RewriteGen，展示了其相较于传统RAG基线和未使用RL优化的LLM的持续性能改进.

本文的主要贡献如下.

（1）提出RewriteGen框架，强调推理与改写之间的交互，通过强化学习从头训练LLM，无需监督推理数据、模型蒸馏或冷启动策略.

（2）设计RewriteGen的单一阶段强化学习机制，采用GRPO实现推理过程中的自主查询重构.

（3）在不同规模的模型上进行全面实验，针对多跳问答任务展示其效率和广泛适用性.实验结果表明，训练的模型在多种任务中表现出优异的泛化能力，具备复杂现实应用的潜力.

1 相关工作

1.1　检索增强生成

RAG框架通过整合外部知识增强语言模型，解决问答和对话系统等知识密集型任务中的事实不准确问题.早期的检索方法采用基于词语的技术，如BM25^［4］，通过词频和逆文档频率对文档进行排名.BM25的简单性使其在训练数据有限的场景中表现出鲁棒性^［5］，但其依赖精确词语匹配限制了其捕获复杂查询语义的能力.

为了克服这些不足，基于神经网络的检索方法逐渐受到关注.密集段落检索（DPR）双编码器^［6］利用BERT将查询和文档映射到语义向量空间，实现高效相似性搜索，在开放域问答任务中超越了BM25.进一步，如ANCE^［7］，通过对比学习提升了检索精度，特别是在数据丰富的环境中.为了提升检索增强问答（ReQA）任务的性能，研究者探索了无缝整合检索和生成组件的创新方法.例如，RAG⁃end2end^［8］通过共享损失函数同时训练检索器（如DPR）和生成器（如Colbertv2^［9］）促进了两者之间的协作.另一种方法是在答案生成过程中动态精炼检索结果，例如Fusion⁃in⁃Decoder^［10］和REALM^［11］，通过多次调用检索器识别最相关的文档片段，生成多个响应并综合为最终答案.这些策略通过确保检索和生成过程的紧密整合和持续改进，显著提升了ReQA系统的准确性和鲁棒性.

1.2　大语言模型的查询优化

LLM在知识密集型任务中表现出色，但其大规模或专有性质限制了直接微调，需采用替代优化策略用于检索增强框架.提示工程成为无需修改模型参数即可利用LLM的关键方法.例如，HyDE^［12］从原始查询生成假设性文档，关注答案而非查询的嵌入相似性，从而提升检索相关性.类似地，ReAct^［13］和Self⁃Ask^［14］结合链式思维提示^［15-16］与外部API交互，使LLM将复杂查询分解为更简单的子问题或交互任务.这些方法常采用从少到多的提示策略，系统性地分解问题以提高推理准确性.

高级提示技术进一步挖掘了LLM的推理能力.少样本提示^［17］通过示例引导查询生成，而零样本提示策略^［18］，如直接指令，使用GPT⁃3等模型生成高质量合成查询.UDAPDR^［19］结合提示与重排器蒸馏实现无监督域适应，展示了提示驱动查询优化的多功能性.此外，Take⁃a⁃step⁃back^［20］鼓励LLM在处理具体查询前推理高级概念，从而提升复杂推理任务的性能.GENREAD^［21］采用生成后阅读方法，通过基于聚类的提示生成上下文文档，扩展了检索增强任务的知识覆盖.

查询改写作为补充策略，通过重构查询以适应检索和生成目标.Rewrite⁃Retrieve⁃Read^［22］框架采用近端策略优化（PPO）^［23］训练基于T5的改写器，优化冻结检索器和LLM生成器的查询，在问答任务中实现了显著改进.相比之下，上下文适应聚焦于精炼检索文档.PRCA^［24］是一种奖励驱动的上下文适配器，通过强化学习在检索器和生成器之间精炼文档表示以提升相关性.

尽管取得了这些进展，大多数查询优化方法依赖模块化流程，将查询改写、检索和生成分开.这种碎片化可能导致效率低下，特别是在需要无缝整合的任务中.与先前方法不同，本文方法在检索前加入改写操作以提升检索效率，将查询改写、检索触发和答案生成整合到一个通过GRPO端到端优化的单一大型模型中，无需监督数据，能实现自主查询重构，显著降低数据依赖性，实验结果优于非强化学习方法.

2 方法

为了增强LLM进行有效查询改写并将外部搜索工具整合到推理过程中的能力，本文提出一种通过RL训练LLM进行查询改写的框架，强调检索增强生成的查询优化，使模型能够自主改写查询以提高搜索相关性，同时逐步推理.该框架基于Qwen2.5⁃3B模型从头训练RewriteGen，使用GRPO，无需监督推理或查询改写数据.图1的右侧展示了提出的方法的完整工作流程，详细说明了查询改写、检索和推理组件的整合.

2.1　框架描述

RewriteGen将查询改写（Query Rewriting）、检索触发（Retrieval Triggering）与答案生成（Answer Generation）统一到单一LLM中，并通过强化学习端到端优化.与将改写器/检索器/生成器解耦的传统流水线不同，RewriteGen在一次前向推理中交替执行.

在一次前向推理中，RewriteGen依次生成反思与推理内容

封装 在 r e f l e c t 标签 中

、改写后的查询

r e w r i t e 标签

，并在改写阶段触发检索模块，将检索到的外部证据注入

r e t r i e v e_r e s u l t

标签内，最后生成包含最终答案的

a n s w e r

段落.

2.2　任务定义

将查询改写与检索增强的生成过程建模为马尔可夫决策过程（Markov Decision Process，MDP）.给定一个输入问题x，模型从初始状态s₀开始，该状态包含原始输入以及空的生预测成上下文.在时间步t，状态s_t 由输入问题和当前已生成的标记序列组成，这些标记中可能包含控制标签

如 r e w r i t e r e t r i e v e_r e s u l t

以及外部检索的证据内容.动作a_t 定义为生成下一个标记，该标记既可以是普通文本，也可以是用于触发特定操作的控制标签.

当模型生成到

/ r e w r i t e

标签时，会提取最近一次

r e w r i t e

与

/ r e w r i t e

之间的文本作为改写后的查询，并调用检索环境；检索到的文档片段被插入

r e t r i e v e_r e s u l t … / r e t r i e v e_r e s u l t

区域，作为后续生成的参考信息.生成过程在模型输出

a n s w e r … / a n s w e r

标签时终止.每个回合的奖励由格式奖励和答案奖励两部分组成（详见2.5）.为便于推导，记在旧策略

π θ o l d

下采样得到的一组rollouts为：

G τ = y i i = 1 G ~ π θ o l d ⋅ x

(1)

2.3　GRPO优化目标

为了优化策略

π θ

，采用GRPO，在每个输入的rollouts组内计算标准化优势，降低方差并提升稳定性.其优化目标定义为：

J θ = 1 G ∑ i = 1 G m i n π θ y i x π θ o l d y i x A i, c l i p π θ y i x π θ o l d y i x, 1 - ϵ, 1 + ϵ A i - β D K L π θ π θ r e f

（2）

其中，

A i = r i - m e a n r j j = 1 G s t d r j j = 1 G

（3）

是当前组中第i个rollout的标准化优势.

A i

通过对组内奖励值进行均值归一化处理获得，

r i

为当前rollout的奖励值，

ϵ

是裁剪比率，β是KL散度损失系数.KL散度惩罚防止策略偏离初始模型.

训练过程中调用外部检索模块获取

r e t r i e v e_r e s u l t

段落的文档内容，以辅助生成后续回答.然而，在策略梯度更新时（式（2）中的似然比与KL散度计算），对检索文本进行了屏蔽处理，即不将

r e t r i e v e_r e s u l t

中的外部检索token纳入损失计算，只统计模型自主生成的

r e f l e c t

r e w r i t e 与 a n s w e r

三类段落.这一设计使梯度更新仅来源于模型可控的生成部分，避免外部检索结果引入的噪声和偏置，从而在保留检索辅助能力的同时，提升了训练的稳定性与泛化能力.

2.4　含查询改写的rollout与检索

在一次rollout中，生成过程按照“推理⁃改写⁃检索⁃继续推理”的循环进行，直到输出

a n s w e r

为止.具体地，模型首先生成

r e f l e c t

段落进行局部推理，然后在

r e w r i t e

标签中产生改写后的查询；当遇到

/ r e w r i t e

时，系统调用检索模块，返回前k条相关内容注入至

r e t r i e v e_r e s u l t

区域；模型将这些检索结果与已有上下文拼接，继续下一轮生成，直至最终输出

a n s w e r

标签.

为了避免模型在学习中将外部检索文本当作自身生成内容，在策略梯度更新时屏蔽

r e t r i e v e_r e s u l t

内的令牌，只对

r e f l e c t r e w r i t e

和

a n s w e r

等模型自主生成的内容计算损失.

2.5　奖励建模

2.5.1　格式奖励

此组件确保响应包含所有必需标签

r e f l e c t / r e f l e c t r e w r i t e

/ r e w r i t e

r e t r i e v e_r e s u l t / r e t r i e v e_r e s u l t a n s w e r

/ a n s w e r

，采用二元奖励：

R f o r m a t = 0.1, i f a l l t a g s p a i r e d 0, o t h e r w i s e

(4)

2.5.2　答案奖励

此组件使用F1、精确匹配（Exact Mach，EM）和命中（Hit）分数评估答案正确性和查询有效性：

R a n s w e r = λ F 1 F 1 a p r e d, a g t + λ E M E M a p r e d, a g t + λ H i t H i t

(5)

其中，

a p r e d

是预测答案，

a g t

是真实答案.F1衡量语义相似性，EM确保严格准确性，Hit评估检索.

H i t = 1, a g t i n d o c 0, e l s e

(6)

权重分别为

λ F 1 = 1.0, λ E M = 0.5, λ H i t = 0.5,

优先考虑开放域问答的语义正确性.F1的高权重强调语义相似性，因为开放域问答的答案措辞可能不同.EM和Hit权重较低，以平衡精度和查询有效性，不掩盖语义正确性.Hit分数为包含真实答案的文档分配正奖励，激励有效查询改写，以鼓励早期训练中的探索，适应强化学习的稳定性.

2.5.3　最终奖励

最终奖励结合格式奖励和答案奖励，评估整体性能.总奖励为：

R = R f o r m a t + R a n s w e r

(7)

2.6　训练流程

一次完整的策略更新流程包括以下阶段.首先，从训练集采样一批输入问题

x

，并使用旧策略

π θ o l d

为每个样本生成G个rollouts（式（1））.在生成过程中，当模型输出

r e t r i e v e_r e s u l t

时触发检索，获取前k条相关文档，并插入

r e t r i e v e_r e s u l t

和

/ r e t r i e v e_r e s u l t

区域.随后，根据生成结果计算格式奖励和答案奖励，两者相加得到总奖励

r i .

对每个rollouts组内的奖励进行标准化，得到优势函数A_i （式（3））.最后，将这些优势值代入GRPO目标（式（2））进行策略更新，并通过KL约束防止策略漂移.更新完成后，将当前策略

π θ

同步为旧策略

π θ o l d

，进入下一轮迭代.

2.7　提示模板设计

为了引导Qwen2.5⁃3B模型生成包含查询改写的结构化rollout，设计了一个简洁的提示模板，确保模型遵循所需格式，包括推理、查询改写和最终答案呈现.提示格式如图2所示.

3 实验

本节介绍用于评估所提查询改写框架RewriteGen的实验设置与结果，该框架通过强化学习来提升大型语言模型的检索增强生成能力.RewriteGen以Qwen2.5⁃3B^［25］作为初始模型，仅使用HotpotQA^［26］训练集进行训练.该数据集涵盖多种类型的多跳推理问题，并通过精细化质量控制构建而成，适合评估多步推理与多轮信息检索能力.

3.1　数据集

在三个数据集上评估该框架：HotpotQA，MuSiQue^［27］和2Wiki^［28］.HotpotQA包含7.4k测试样本，需要两跳推理；MuSiQue包含2.4k测试样本，涉及两到四跳问题；2Wiki包含2k测试样本.

3.2　基线

为了评估查询改写方法的有效性，将其与几种成熟方法进行比较，重点关注检索增强框架和查询优化技术.基线如下.

朴素RAG：LLM不使用检索直接生成答案.

标准RAG：将检索文档与输入问题拼接.

Rewrite⁃Retrieve⁃Read：使用冻结LLM在检索前增加一个可训练的改写器.

Iter⁃RetGen^［29］：迭代协同检索和生成.

IRCoT^［30］：将检索与链式思维推理交织.

3.3　评估指标

采用EM作为主要指标来评估答案正确性.EM衡量预测答案是否与真实答案完全匹配，适合严格评估，但对于开放式回答可能过于严格.LLM作为评判者的提示设计，确保了稳健的判断.为了确保评估准确性，选择使用GPT⁃4进行评估，而非传统指标如F1和BLEU，因为这些指标常无法准确判断语义相似的句子.大型语言模型倾向于生成冗长的文本解释，即简洁回答即可，限制答案长度的尝试没有取得满意结果.因此，通过手动评估和GPT⁃4评估预测答案，与真实答案进行比较.表1是一个用GPT⁃4评估答案的模版.

3.4　实现细节

RewriteGen以Qwen2.5⁃3B作为初始模型，强化学习框架基于verl构建，这是一个支持高效策略优化的多功能库.训练使用HotpotQA数据集训练，该数据集涵盖多种类型的多跳推理问题，并通过精细化质量控制构建而成，适合评估多步推理与多轮信息检索能力.一共进行两个epoch.检索环境基于FlashRAG，一个RAG研究的标准工具包.检索器为E5⁃base⁃v2，知识库为2018年12月的维基百科数据.所有语料索引和嵌入由FlashRAG预处理，训练和评估期间检索每个查询的前五个结果.基线方法使用FlashRAG实现.训练在八张NVIDIA A100 40 G GPU上进行，采用全参数优化和梯度检查点.

3.5　主要结果

评估了RewriteGen与基线模型在三个数据集上的性能，结果使用EM指标和LLM（大语言模型评分），如表2所示，表中黑体字表示性能最优，下画线表示次优.由表可见，查询改写在增强大型语言模型处理复杂查询理解和检索任务的有效性中起关键作用.具体地，改写步骤使LLM能够更好地消除查询歧义和语境化，从而提高意图清晰度和检索信息的相关性.

与之前的改写模型相比，RewriteGen无需微调或冷启动程序即可实现显著性能提升，凸显了其效率和鲁棒性.RewriteGen在多跳改写推理中展现了学习能力，有效捕获连续查询重构的依赖性.这种能力具有高度泛化性，使RewriteGen能够适应多样化的查询模式和领域，无需特定任务的重新训练.这些结果确立了RewriteGen作为查询改写的先进解决方案，提供了实用效能和LLM驱动查询优化的理论洞察.

训练的奖励和验证奖励曲线在MuSiQue的部分数据集上进行了验证，随机抽取100个样本.

（1）训练与验证奖励：图3和图4展示了RewriteGen在强化学习训练过程中的训练奖励与验证奖励的平均值.由图可见，在训练的前50步，奖励值迅速上升，说明模型在初始阶段快速学习并取得了显著进步.

（2）改写标签数量：图5展示了模型训练过程中改写标签的平均数量.由图可见，在训练初期，模型已具备一定的按要求输出标签的能力，但随着训练的推进，改写操作的数量持续增加.这一趋势表明，对于复杂的多跳问题，模型逐渐学会通过多次迭代改写来优化输出，以更好地解决问题.

（3）模型回答长度：定义模型的回答长度为模型输出的令牌数量（不包含检索结果），这可以视为推理的测试时间成本.如图6所示，在训练的前25步中，回答长度迅速下降，后续趋于稳定.

与基线方法Rewrite⁃Retrieve⁃Read相比，RewriteGen的模型结构、训练策略以及效率表现都有显著不同.RewriteGen采用端到端生成架构，将改写与回答整合在一个策略模型中，生成过程直接受强化学习优化目标驱动，从而在生成过程中能够同时权衡改写的检索友好性与最终回答的准确性.基线方法是三阶段流水线（改写→检索→阅读），各模块独立优化，目标函数割裂，改写阶段无法直接感知最终回答效果，可能出现“改写看似合理但检索后回答质量下降”的目标错位现象.

在训练策略上，RewriteGen使用策略梯度对

r e f l e c t r e w r i t e a n s w e r

段落进行更新，并屏蔽

r e t r i e v e_r e s u l t

外部检索文本的梯度传播，保证奖励信号仅来源于模型自身生成的内容，从而减少外部噪声干扰，使改写策略直接受益于最终回答质量的优化.而Rewrite⁃Retrieve⁃Read的改写模块通常通过有监督学习（SFT）单独训练，缺乏端到端的奖励信号传递，导致改写与最终回答之间的优化链条较长、噪声更大.

4 结论

本文的实验表明，RewriteGen通过强化学习显著增强了大型语言模型的查询改写能力，在HotpotQA，MuSiQue和2Wiki数据集上的表现优于现有基线.该框架能自主精炼查询并整合检索知识，提高了响应准确性和推理效率.案例研究凸显了模型在结构化推理和迭代查询重构方面的能力，这些结果验证了提出的方法在推进复杂知识密集型任务的检索增强生成中的有效性.

参考文献

原文顺序 | 出版日期 | 本文引用

[1]	Zhang K， Zeng J L， Meng F D，et al. Tree⁃of⁃reasoning question decomposition for complex question answering with large language models. Proceedings of the AAAI Conference on Artificial Intelligence，2024，38(17)：19560-19568.

[2]	Zhang K， Lin X X， Wang Y Z，et al. Refsql：A retrieval⁃augmentation framework for text⁃to⁃SQL generation∥Findings of the Association for Computa⁃tional Linguistics：EMNLP 2023.Singapore：Association for Computational Linguistics，2023：664-673.

[3]	Jaech A， Kalai A， Lerer A，et al. Openai o1 system card. https://arxiv.org/abs/2412.16720，2024-12-21.

[4]	Robertson S， Zaragoza H. The probabilistic relevance framework：BM25 and beyond. Foundations and Trends in Information Retrieval，2009，3(4)：333-389.

[5]	Thakur N， Reimers N， Rücklé A，et al. Beir：A heterogenous benchmark for zero⁃shot evaluation of information retrieval models. https://arxiv.org/abs/2104.08663,2021-10-21.

[6]	Karpukhin V， Oguz B， Min S，et al. Dense passage retrieval for open⁃domain question answering∥Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing. Online：Association for Computational Linguistics，2020：6769-6781.

[7]	Xiong L， Xiong C Y， Li Y，et al. Approximate nearest neighbor negative contrastive learning for dense text retrieval. https://arxiv.org/abs/2007.00808,2020-10-20.

[8]	Choi Y， Na C， Kim H，et al. READSUM：Retrieval⁃augmented adaptive transformer for source code summarization. IEEE Access，2023，11：51155-51165.

[9]	Santhanam K， Khattab O， Saad⁃Falcon J，et al. Colbertv2：Effective and efficient retrieval via light⁃weight late interaction. https://arxiv.org/abs/2112.01488，2022-07-10.

[10]	Lewis P， Perez E， Piktus A，et al. Retrieval⁃augmented generation for knowledge⁃intensive nlp tasks. Advances in Neural Information Processing Systems，2020，33：9459-9474.

[11]	He Z Y， Zhong Z X， Cai T L，et al. Rest：Retrieval⁃based speculative decoding. https://arxiv.org/abs/2311.08252,2024-04-04.

[12]	Gao L Y， Ma X G， Lin J，et al. Precise zero⁃shot dense retrieval without relevance labels∥Proceedings of the 61^st Annual Meeting of the Association for Computational Linguistics. Volume 1：Long Papers. Toronto,Canada：Association for Computational Linguistics，2023：1762-1777.

[13]	Yao S Y， Zhao J， Yu D，et al. React：Synergizing reasoning and acting in language models∥The 11th International Conference on Learning Represen⁃tations. Kigali,Rwanda：ICLR，2023.

[14]	Press O， Zhang M R， Min S，et al. Measuring and narrowing the compositionality gap in language models. https://arxiv.org/abs/2210.03350,2023-10-17.

[15]	Wei J， Tay Y， Bommasani R，et al. Emergent abilities of large language models. https://arxiv.org/abs/2206.07682，2022-10-26.

[16]	Wei J， Wang X Z， Schuurmans D，et al. Chain⁃of⁃thought prompting elicits reasoning in large language models. Advances in Neural Information Processing Systems，2022，35：24824-24837.

[17]	Brown T M， Mann B， Ryder N，et al. Language models are few⁃shot learners. https://arxiv.org/abs/2005.14165,2020-07-22.

[18]	Asai A， Schick T， Lewis P，et al. Task⁃aware retrieval with instructions. https://arxiv.org/abs/2211.09260,2022-12-19.

[19]	Saad⁃Falcon J， Khattab O， Santhanam K，et al. UDAPDR：Unsupervised domain adaptation via LLM prompting and distillation of rerankers. https://arxiv.org/abs/2303.00807,2023-10-13.

[20]	Zheng H S， Mishra S， Chen X，et al. Take a step back：evoking reasoning via abstraction in large language models. https://arxiv.org/abs/2310. 06117，2024-03-12.

[21]	Yu W H， Iter D， Wang S H，et al. Generate rather than retrieve：Large language models are strong context generators. https://arxiv.org/abs/2209.10063，2023-01-25.

[22]	Ma X B， Gong Y Y， He P C，et al. Query rewriting in retrieval⁃augmented large language models∥Proceedings of the 2023 Conference on Empirical Methods in Natural Language Processing. Singapore：Association for Computational Linguistics，2023：5303-5315.

[23]	Schulman J， Wolski F， Dhariwal P，et al. Proximal policy optimization algorithms. https://arxiv.org/abs/1707.06347，2017-08-28.

[24]	Yang H Y， Li Z T， Zhang Y，et al. PRCA：Fitting black⁃box large language models for retrieval question answering via pluggable reward⁃driven contextual adapter. https://arxiv.org/abs/2310. 18347,2023-10-23.

[25]	Hui B Y， Yang J， Cui Z Y，et al. Qwen2.5⁃coder technical report. https://arxiv.org/abs/2409.12186,2024-11-12.

[26]	Yang Z L， Qi P， Zhang S Z，et al. HotpotQA：A dataset for diverse，explainable multi⁃hop question answering. https://arxiv.org/abs/1809.09600，2018-09-25.

[27]	Trivedi H， Balasubramanian N， Khot T，et al. MuSiQue：Multihop questions via single⁃hop question composition. Transactions of the Association for Computational Linguistics，2022，10：539-554.

[28]	Ho X， Nguyen A K D， Sugawara S，et al. Constructing a multi⁃hop QA dataset for comprehensive evaluation of reasoning steps. https://arxiv.org/abs/2011.01060，2020-11-12.

[29]	Shao Z H， Gong Y Y， Shen Y L，et al. Enhancing retrieval⁃augmented large language models with iterative retrieval⁃generation synergy. https://arxiv.org/abs/2305.15294，2023-10-23.

[30]	Trivedi H， Balasubramanian N， Khot T，et al. Interleaving retrieval with chain⁃of⁃thought reasoning for knowledge⁃intensive multi⁃step questions. https://arxiv.org/abs/2212.10509，2023-06-23.

基金资助

河南省重点研发专项(241111211900)

AI Summary AI Mindmap

PDF (1028KB)

访问

被引

详细

导航

Received	Accepted	Published
2025-09-09
Issue Date
2026-02-09

摘要

Abstract

Graphical abstract

关键词

Key words

引用本文

1 相关工作

1.1 检索增强生成

1.2 大语言模型的查询优化

2 方法

2.1 框架描述

2.2 任务定义

2.3 GRPO优化目标

2.4 含查询改写的rollout与检索

2.5 奖励建模

2.5.1 格式奖励

2.5.2 答案奖励

2.5.3 最终奖励

2.6 训练流程

2.7 提示模板设计