基于适配器技术的开放域问答及应用

宋才华 ,  布力 ,  关兆雄 ,  林钰杰

华中师范大学学报(自然科学版) ›› 2026, Vol. 60 ›› Issue (01) : 10 -17.

PDF (1245KB)
华中师范大学学报(自然科学版) ›› 2026, Vol. 60 ›› Issue (01) : 10 -17. DOI: 10.19603/j.cnki.1000-1190.2026.01.002
交叉学科研究

基于适配器技术的开放域问答及应用

作者信息 +

Open-domain question answering and its application based on adapter technology

Author information +
文章历史 +
PDF (1274K)

摘要

开放域问答技术是自然语言处理领域的重要研究课题,通常采用编码器来学习自然语言问句和段落的密集表示,以进行语义匹配.现有的工作主要通过硬负例挖掘、知识蒸馏或预训练的方式来提高开放域问答系统的性能,但面临参数过多难以进行参数高效学习以适应下游推理任务的需求.为了解决此问题,本文提出了一种基于适配器技术的参数高效学习的开放域问答算法(EPLA).首先,通过基于路由的令牌分配策略减少了编码候选片段的计算成本.其次,通过引入基于混合专家的适配器架构,在训练过程中冻结预训练模型的参数,只更新适配器、令牌分配器以及层归一化的参数.最后,通过强化学习的方式构建动态适配器模块,以获得最优的网络架构.实验结果表明,EPLA在保持检索性能的同时,能够较大地提升开放域问答算法的效率.

Abstract

Open-domain question-answering technology is a significant research topic in the field of natural language processing. It typically employs encoders to learn dense representations of natural language questions and passages for semantic matching. Existing work primarily improves the performance of open-domain question-answering systems through hard negative mining, knowledge distillation, or pre-training. However, due to excessive parameters, it is difficult to achieve parameter-efficient learning to meet the demands of downstream reasoning tasks. To address the above issues, this paper proposes an open domain question answering algorithm with efficient parameter learning based on adapter technology, EPLA. First, a routing-based token allocation strategy is employed to reduce the computational cost of encoding candidate passages. Second, by introducing an adapter architecture based on a mixture of experts, the parameters of the pre-trained model are frozen during training, with only the adapters, token allocator, and layer normalization parameters being updated. Finally, a dynamic adapter module is constructed through reinforcement learning to obtain the optimal network architecture. Experimental results demonstrate that EPLA markedly enhances the efficiency of open domain question answering algorithm while maintaining retrieval performance.

Graphical abstract

关键词

开放域问答 / 参数微调 / 预训练模型 / 自然语言处理

Key words

open-domain question answering / parameter-efficient fine-tuning / pre-trained language model / natural language processing

引用本文

引用格式 ▾
宋才华,布力,关兆雄,林钰杰. 基于适配器技术的开放域问答及应用[J]. 华中师范大学学报(自然科学版), 2026, 60(01): 10-17 DOI:10.19603/j.cnki.1000-1190.2026.01.002

登录浏览全文

4963

注册一个新账户 忘记密码

开放域问答1-4是自然语言处理领域中的一项重要任务,其目的是从大规模语料库中检索出可能含有答案的候选片段,然后利用信息抽取和推理技术定位答案的具体位置并给出明确的答案.近年来,开放域问答得到了广泛的研究,主流的算法架构通过“检索器-阅读器(reader-writer)”5两个阶段来完成问答过程,其中,检索器负责从大规模语料库中检索出与给定问题相关的候选文本片段,阅读器旨在对检索到的候选文本片段进行推理,从而得到最终的答案.如何平衡检索器的准确性和效率性是当前研究的重点和难点.本文主要聚焦在保证问答结果准确性的前提下,如何设计高效的算法,以提升检索的效率,从而促进开放域问答在实际中的应用.
传统的稀疏检索器通常基于关键词或短语来计算问题与语料库中片段的相似度,例如,TF-IDF( term frequency-inverse document frequency)6、BM25(best matching 25)7.然而在实际应用中,由于词汇鸿沟(即问题的词汇与语料库中片段的表达方式不一样)极大地限制了检索器的性能,研究人员开发了各种使用密集表示的检索方法28-11.密集检索方法是将问题和候选片段编码到连续向量空间中,然后进行语义相似度计算.例如,DPR(dense passage retrieval)2通过采用双编码器结构来学习问题和段落的密集表示以进行语义匹配,实验结果表明DPR的性能远远超越BM25.RocketQA12通过引入跨批次负样本、去噪负样本和数据增强三种策略,进一步改进了密集候选片段检索的性能.这些研究主要聚焦在如何提升检索器的检索性能上,但是性能更强大的检索器在取得更高准确性的同时也会带来更多的内存消耗和推理延迟.一方面,大规模语料库通常包含数百万篇长篇文章,需要对这些文章进行编码和索引以进行候选片段的检索,这些索引占据了大量内存成本13.另一方面,主流的检索器往往都使用预训练语言模型(pre-trained language model, PLM),这些模型通常包含数百万级的参数.总的来说,候选片段的检索和读取非常耗费内存资源,也带来了推理延迟.这使得开放域问答在实际应用中面临巨大的挑战.因此,如何平衡检索器的检索性能和效率是非常值得研究的方向之一.
为此,本文提出了一种基于适配器引导的高效开放域问答算法(efficient parameter learning based on adapter technology, EPLA).该算法主要包含三个模块:1) 基于路由的令牌分配模块;2) 基于混合专家的增强适配器模块;3) 基于强化学习的最优架构选择模块.首先,通过基于路由的令牌分配方法,在不牺牲性能的情况下丢弃部分冗余的令牌,有效地减少了编码候选片段的计算成本.具体来说,每个Transformer层都有一个令牌分配模块,动态地确定一个令牌是否被激活.只有激活的令牌遍历整个Transformer层和一个额外的轻量级适配器模块,而其余的令牌仅由适配器处理.其次,基于混合专家的增强适配器模块负责处理所有的令牌,通过增加专家的数量来捕获文本的语义信息,该模块可以通过忽略不计的额外计算进一步增强令牌处理.最后,基于强化学习的最优架构选择模块通过观察适配器的冗余程度,决定跳过哪些适配器获得最佳的网络架构,从而提高推理的效率.在两个开放域问答公开数据集上的实验结果表明,本文提出的EPLA在保证检索性能的同时,可以有效提升算法的推理效率.

1 研究基础

1.1 密集检索算法

近年来,开放域问答经历了从传统的基于BM25的倒排索引检索到基于深度学习的密集检索的范式转变1-2.基于BM25的检索虽然高效且可解释,但不能有效地捕获深层语义信息,其表示能力有限.为缓解这一问题,Wang等14使用大语言模型生成的伪文档扩展查询.基于深度学习的集检索算法首先将问题和候选片段映射到低维向量空间,然后进行语义匹配.主流的密集检索算法大致可以分为自监督预训练检索模型以及利用标记数据对预训练语言模型两类.

自监督预训练检索模型方面的研究:Borisov等15和Dehghani等16分别在网络搜索中,对点击日志和BM25诱导信号进行预训练排名模型.Lee等1提出了逆完形任务(inverse cloze task,ICT)来预训练密集检索模型,该模型随机选择句子作为伪查询,并将其与对应的候选段落进行匹配.Guu等8提出了掩盖显著跨度预训练任务,通过对语言模型目标的远程监督来优化检索模型.随后,Sachan等17将ICT与掩盖显著跨度任务相结合,进一步提高了预训练语言模型的有效性.此外,Chang等18提出了维基链接预测和首选主体选择任务的预训练任务.类似地,Zhou等19基于超链接的网络文档内部拓扑结构所诱导的文本相关性来预训练密集检索器,弥补了上游信号与下游问题-段落相关性之间的差距.Wang等20将段落信息压缩为密集向量进行预训练学习,提高了样本效率并减少了预训练和微调之间输入分布的不匹配.

微调预训练语言模型方面的研究:Karpukhin等2使用问题和对应的候选片段来训练一个强壮的密集检索器,其核心贡献是考虑如何生成可靠的负样本进行模型训练.与此同时,Xiong等9提出了近似最近邻负样本对比学习算法,使用异步更新的索引从整个语料库中全局选择硬负样本训练密集检索器.然而,微调预训练语言模型仍然受到假阴性问题的困扰.Qu等12训练了昂贵的交叉编码器,从检索器检索到的排名靠前的负样本中去除假阴性.Wu等21认为双编码器使用问题和段落进行建模的粒度不当,它们基于更小粒度的上下文句子训练密集检索器.

以上的工作主要集中在研究如何提高密集检索器的检索性能,而模型的检索性能往往与其参数的规模呈现正相关性,即模型的性能越好,其参数的规模也往往较大.目前,很少有研究试图从参数高效学习的角度去解决问答算法的效率问题.

1.2 高效的开放域问答模型

随着预训练语言模型的快速发展,开放域问答领域在取得重大进展的同时,面临的原始语料库内存成本、索引内存成本和模型内存成本的问题也愈发严重.通常来说,降低索引内存成本和模型内存成本是实现高效问答的两种主要策略.在减少索引内存成本的研究方面,Yanada等22通过学习哈希技术成功减小了索引大小.它将连续段落向量散列成紧凑的二进制代码,这与利用语料库段落密集连续嵌入的DPR方法不同.Lewis等23受boosting启发,在训练过程中逐步压缩表征的维度,获得了比BPR22更小的索引大小,即小于1 GB,同时也达到了更高的精度.在减少模型内存成本的研究方面,Lee等24将检索器、重排序器和生成式模型集成到一个基于T5-large的Transformer管道中,实现了小于165M参数量的模型大小.Cheng等25在单个编码器中交织共享和专门化Transformer块实现参数共享,减少了双编码器模型一半的参数量.然而,值得注意的是,减小语料大小往往会带来一定程度的知识来源损失,可能导致性能明显下降26.

本文的工作致力于减少模型的参数量和提高推理效率,实现参数的高效学习.尽管已经有工作试图设计需要获得更少参数量的模型,但现有的工作仍然难以平衡开放域问答的性能和推理效率.

2 EPLA方法概述

本节首先给出问题的定义,然后详细描述提出的EPLA方法.如图1所示,提出的方法主要包括三个部分:1) 基于路由的令牌分配策略;2) 增强的并行适配器架构;3) 基于强化学习的最优网络架构选择.

2.1 问题描述

开放域问答任务具体指的是根据非特定域的自然语言问题,从大量的非结构化文档中寻找答案.具体来说,该任务给定一个被用作检索答案的大型语料库𝒞,然后根据问题从语料库𝒞中检索包含答案的文档𝒟,接下来通过阅读器来阅读检索到的文档𝒟,并识别其中的答案跨度.假设存在Ν个实例,其中每个实例包含一个问题q和对应的段落p,此外还存在一个包含适配器结构的双编码器模型,该模型使用预训练语言模型fθ(.)进行初始化.本研究的主要目标是在保证模型检索性能的同时,最大程度的降低计算以及存储成本.

2.2 令牌分配策略

Lei等27研究表明令牌输入存在冗余问题,即一些令牌在不牺牲性能的情况下可以被丢弃.考虑到在开放域问答中,计算的负担主要存在于Transformer层部分,本文提出了基于路由的令牌分配策略,它既能在调优过程中保持参数效率,又能减少推理过程中的冗余计算.其核心思想在于动态地选择令牌,使用一小部分输入令牌对预训练模型进行查询来计算输出.

本文采用一种简单而有效的路由机制,所有的令牌都由适配器处理,而只有动态选择的令牌由Transformer处理.总的来说,路由器根据输入是问题还是段落来确定处理的方式.令牌分配的主要目的是用来学习选择一个令牌子集,通过多层感知机和前馈神经网络传递获得良好的模型性能.一个直接的方法是使用随机概率选择令牌,并调整模型使用这些选择的令牌执行下游任务.然而,这种简单的策略可能会在保留不太重要的令牌的同时丢弃信息丰富的令牌,从而潜在地影响模型的性能.为了解决这一个问题,本文提出了一种令牌分配策略.

具体来说,给定输入令牌表示Xn×d,令牌分配器首先对X进行归一化并计算点积分数:

s=WXT,

其中,Wd是与该层令牌分配器相关的参数向量.然后将点积分数s进行归一化:

λ=Sigmoids,

其中,归一化函数Sigmoid( )必须对输入s保持可微,这样才能在训练期间更新令牌分配器的参数W.然而,Sigmoid( )并不能明确地建模从n个可用令牌中选择k个令牌的约束.为了解决这个问题,本文将Gumbel Noise28纳入到Sigmoid( )中,以在微调期间取代原始的归一化Sigmoid( )函数,计算方式如下:

λ¯=Sigmoids+G1-G2τ,

其中,G1G2 ~ Gumbel(0,1) τ为温度系数,默认值为5.0.并进行裁剪得到分配分数mn

P=Topλ¯,k,
m=λ¯P,

其中, Topλ¯,k{0, 1}n是一个指示函数,它返回一个λ¯中前k个值的二进制掩码.P{0, 1}n是由k个表示令牌分配的独热向量组成的矩阵,当且仅当第i个选择的令牌是X˜的第j个输入令牌时,P[i,j]=0.m[0, 1]n为权重掩码,m[j]为第j个输入令牌的选择权值.如果令牌没有被选择的话,m[j]=0.

在完成令牌分配后,可以使用矩阵乘法收集所选令牌的输入表示:

Xtp=PX,

然后将选择的令牌输入到Transformer中,通过多头注意力、前馈神经网络和层归一化获得令牌的Transformer表示:

Xattn=FattnXtp
        Xffn=Fffn(σ(Xattn+Xtp)) ,

其中,FattnFffn分别表示多头注意力网络和前馈神经网络.σ( )表示激活函数.XattnXffn被组合并投射回原始输入的形状.最后,经多头注意力和前馈神经网络处理的令牌表示Xmf

Xcom=PΤXattn+Xffn,
Xmf=mXcom

其中,是基于元素的乘法,本文使用权重mXcom的行进行缩放.这个操作可以看作是一个门控操作,其中,第i个令牌的隐藏状态Xcom[i]由令牌分配器分配的令牌选择分数m[i]加权.这样可以实现从m到令牌分配器参数的梯度传播,从而可以在训练过程中与其他模型组件共同优化令牌选择.

2.3 增强的并行适配器架构

微调预训练语言模型的所有参数是效率极其低下的,并且可能导致次优解决方案.作为对模型所有参数进行微调的替代方法,Houlsby等29在预训练模型的层内顺序插入称为适配器层的小模块,在训练过程中只更新适配器和预训练模型的层归一化参数,适配器不会改变原有模型的结构或参数.基于此,本文在每一个Transformer层中都添加了一个适配器模块.由于本文旨在获得参数高效微调和具有推理效率的开放域问答模型,所以采用了并行的适配器架构,模型图如图1所示.本文在微调阶段冻结了预训练语言模型的参数,只更新适配器和令牌分配器的参数.适配器被指派处理所有的令牌,这使得它必须具备足够的能力,尤其是需要捕获文本的关键语义信息.为了解决这个问题,本文提出了一个混合专家的增强适配器模块,它有效地提升了适配器的性能,并且计算成本可以忽略不计.

具体来说,一个增强适配器由一个路由层WrC×NN个适配器专家组成,每一个适配器专家的降维矩阵为Wdownd×m,升维矩阵为Wupm×d.对于输入令牌表示Xn×d来说,首先使用平均池化降低输入的维度,然后将生成的特征Xpoolm×C作为路由层的输入生成适配器专家的权重φ.其计算公式如下:

Xpool=AveragePX
φ1,φ2,,φN=XpoolWr,

其中,φi为第i个适配器专家的权重.然后,每个专家利用路由层生成的权重独立处理令牌X,令牌的适配器输出表示由所有专家处理的令牌表示的元素和组成.具体而言,本文首先使用降维矩阵将令牌信息压缩到一个更小的矩阵中,然后利用广播机制扩展路由层生成的权重来捕获不同特征空间的语义信息,从而增强模型的理解能力,即

Xdown=φXWdown.

再采用相同的方式将令牌信息恢复到原始的高维空间中,适配器的输出Xadapter由所有专家令牌表示的元素和获得,即

Xadapter=σXWdownallWupall

其中,Wdownall表示融合所有上述每个适配器专家的降维矩阵的整体权重矩阵,类似地,Wupall表示融合所有上述每个适配器专家的升维矩阵的整体权重矩阵.该设计赋予适配器与N个独立适配器相同的容量,同时保持计算效率与单个适配器相当.最后,每一Transformer层的输出可以表示为:

Xout=Xmf+Xadapter.

2.4 基于强化学习的最优网络架构选择

Houlsby等29发现不同的适配器在模型中发挥的效果不同.受Wu等30的启发,EPLA基于强化学习技术观察适配器的冗余程度,然后自适应选择适当的适配器模块以组建最优的网络结构(图1).具体过程如下.

首先定义每个适配器的冗余度为rn,其中,n表示Transformer模块的个数,初始化ri=0.在每个训练步骤,从基于r的均匀分布中随机抽取一个概率作为相应适配器的分数Si,并根据分数Si采样子网.当Si<SmSm是所选分数中第m大的值)时,将当前的Transformer模块与适配器模型一起作为网络架构的一部分;当SiSm时,抛弃当前的适配器模块,只取Transformer模块来构建网络架构.然后,EPLA基于r的均匀分布,利用验证集计算采样子网的交叉熵损失值,并对该损失值进行幂函数计算其奖励值.基于采样子网的奖励值υh,将第l步的第i个适配器的冗余度ril动态更新为:

ril=ril-1+υh-1nj=1φυj 

其中, n为采样子网的数量.当其验证损失大于平均值时,表明跳过的适配器模块更冗余.最后,根据更新的r自适应选择适当的适配器组建最优的网络架构.

3 实验结果与分析

3.1 数据集

本文在两个公开的开放域问答数据集Natural Questions (NQ)31和TriviaQA32上进行实验,验证本文方法的有效性.NQ数据集是从谷歌搜索中爬取的,并由人工标注了相应的答案.TriviaQA数据集是从各种trivia网站上爬取的,涵盖了包括常识性、事实性和专门性的问题等.详细的数据统计如表1所示.

3.2 对比模型及评测指标

为了验证EPLA的有效性,本文选取了7个参数量不同的具有代表性的模型作为基线算法,分别是DPR2、ANCE9、DCSR33、RocketQA12、SPAR34、FiD-KD35、GAR36. DPR模型利用BERT预训练和双编码器结构,从少量数据中学习密集表示,并通过最大化内积优化嵌入.ANCE模型通过异步更新近似最近邻索引,在全局范围内从整个语料库挑选硬负例,以训练密集检索器.DCSR模型通过训练更细粒度的上下文句子,实现密集嵌入的学习.RocketQA模型利用高成本交叉编码器筛选检索结果,并通过跨批次负例在多GPU上优化双编码器.SPAR模型结合稀疏词汇匹配与密集检索器,用于高效检索段落.FiD-KD模型利用知识蒸馏,能够在无需对查询和文档进行额外注释的情况下,学习适用于下游任务的检索器模型.GAR模型通过启发式方法识别相关上下文,进而提升文本生成以增强查询效果.这些模型各自采用了不同的技术路线和创新要素,并在实际应用场景中展现了显著的实用效能.通过与这些模型进行对比分析,可以全面揭示本文所提出方法的优势与潜在局限性,从而为开放域问答领域的技术进步提供深刻的见解.

遵照上述代表性的方法,本文使用排名前k个段落的召回率(top k)来评估检索器的性能.它被定义为检索器检索到的前k个段落中包含答案的百分比.本文设置k=20k=100.

3.3 实验设置

本文所有的实验采用Pytorch平台和Python编程语言实现.使用Adam优化器进行优化,检索器采用BERT作为编码器,其中,检索器模型的学习率设置为2e-5,批量大小为64,线性调度的预热比例为0.1.在实验中,问题、标题和段落的最大长度分别设置为32、32和256.在令牌分配模块中,将令牌容量设置为64,并且在训练过程中保持不变;在混合专家适配器模块中,将适配器隐藏状态的宽度设置为96;在基于强化学习的最优架构选择模块中,将跳过适配器的数量设置为6.

3.4 实验的主要结果

表2展示了提出的EPLA和其他基线模型在NQ和TriviaQA测试集上的整体性能.

根据表中数据,得到以下结论:EPLA有效地减少了检索器模型的参数量.具体来说,EPLA只需要大约10M个参数,比完全微调的参数量少了22到60倍.考虑模型的精度、内存消耗和推理效率之间的平衡,在最优选择模块中设置跳过6个适配器模块,其中问题和段落编码器分别跳过3个.尽管参数量大幅减少,但EPLA在这两个数据集上的性能仍然与完全微调相当,在top100指标上分别达到最好的性能(89.6,88.2).EPLA模型在不同数据集上的稳定表现表明了其良好的泛化能力,这对于开放域问答系统来说至关重要,因为它们需要应对各种不同类型和难度的问题.同时,表2的数据还揭示了EPLA模型在处理长文本和复杂查询时的稳健性,这对于提升问答系统的整体性能至关重要.上述实验结果表明本文的方法在大幅度降低模型参数的同时,可以取得与现有方法相当甚至更优的性能.

3.5 适配器的自适应选择分析

由于最优网络架构选择模块是一种基于强化学习的搜索方法,为了验证自适应选择适配器的数量对检索结果的影响,本文在NQ数据集上将其与随机选择的方法进行对比,如图2所示.其中,EPLA代表本文提出的方法,而Random则代表执行随机跳过的基准方法.实验评价指标为模型召回率,实验数据集为NQ,k= 100.可以观察到,在跳过有限数量的增强适配器模块时,不管选择多少适配器,EPLA的性能始终优于随机选择,证明了EPLA以强化学习的方式有效地捕捉了适配器模块的冗余性.特别是在层数增加时,随机选择的性能偏差变得更加明显.相比之下,EPLA仍然比随机解决方案更稳定和优越,这也凸显了准确估计冗余性的重要性.上述实验结果进一步证实了本文所提出的EPLA的有效性和可靠性.

4 总结

开放域问答目前主要通过硬负例挖掘、知识蒸馏或者预训练的方式来提高系统的性能,面临参数过多难以进行参数高效微调来适应下游推理任务需求的问题.针对此问题,本文提出了一种基于适配器技术的参数高效微调的开放域问答技术.首先,提出了基于路由的令牌分配策略,在不牺牲性能的情况下丢弃部分冗余的令牌,有效地减少了编码候选片段的计算成本;其次,利用基于混合专家的增强适配器模块,冻结了原有模型的参数,并捕获了文本的关键语义信息;最后,基于强化学习的方式删除冗余的增强适配器,获得了最佳的网络架构.为证明本文方法的有效性,在NQ和TriviaQA两个公开数据集上进行了验证,实验结果表明本文提出的EPLA在保证检索性能的同时,可以有效提升算法的推理效率.

参考文献

[1]

LEE KCHANG M WTOUTANNOVA K. Latent retrieval for weakly supervised open domain question answering[C]//ACL. Proceedings of the 57th Annual Meeting of the Association for Computational Linguistics. Florence: Association for Computational Linguistics, 2019.

[2]

KARPUKHIN VOGUZ BMIN Set al. Dense passage retrieval for open-domain question answering[C/OL]// EMNLP. Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing, Association for Computational Linguistics, 2020.

[3]

赵芸, 刘德喜, 万常选, . 检索式自动问答研究综述[J].计算机学报202144(6): 1214-1232.

[4]

ZHAO YLIU D XWANG C Xet al. Retrieval-based automatic question answer: a literature survey[J]. Chinese Journal of Computers202144(6): 1214-1232. (Ch).

[5]

杜家驹, 叶德铭, 孙茂松. 中文开放域问答系统数据增广研究[J].中文信息学报202236(11): 121-130.

[6]

DU J JYE D MSUN M S. Data augmentation in Chinese open-domain question answering[J]. Journal of Chinese Information Processing202236(11): 121-130. (Ch).

[7]

CHEN DFISCH AWESTON Jet al. Reading wikipedia to answer open-domain questions[C]//ACL. Proceedings of the 55th Annual Meeting of the Association for Computational Linguistics. Vancouve: Association for Computational Linguistics, 2017.

[8]

MARTINEAU JFININ T. Delta TFIDF:an improved feature space for sentiment analysis[C]//AAAI. Proceedings of the International AAAI Conference on Web and Social Media. California: Association for the Advancement of Artificial Intelligence, 2009.

[9]

YNAG PFANG HLIN J. Anserini: enabling the use of lucene for information retrieval research[C]//ACM. Proceedings of the 40th International ACM SIGIR Conference on Research and Development in Information Retrieval. Tokyo: Association for Computing Machinery, 2017.

[10]

GUU K, LEE KTUNG Zet al. Retrieval augmented language model pre-training[C/OL]// ICML. International Conference on Machine Learning, ICML, 2020.

[11]

XIONG LXIONG CLI Yet al. Approximate nearest neighbor negative contrastive learning for dense text retrieval[C]//ICLR. International Conference on Learning Representations. Vienna: ICLR, 2021.

[12]

IZACARD GGRAVE É. Leveraging passage retrieval with generative models for open domain question answering[C/OL]//ACL. Proceedings of the 16th Conference of the European Chapter of the Association for Computational Linguistics, Association for Computational Linguistics, 2021.

[13]

LI FXIE ZZHOU G. Theme-enhanced hard negative sample mining for open-domain question answering[C]//IEEE. Proceedings of the 2024 IEEE International Conference on Acoustics, Speech and Signal Processing. Seoul: Institute of Electrical and Electronics Engineers, 2024.

[14]

QU YDING YLIU Jet al. RocketQA: an optimized training approach to dense passage retrieval for open-domain question answering[C/OL]//ACL. Proceedings of the 2021 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, Association for Computational Linguistics, 2021.

[15]

ZHANG QCHEN SXU Det al. A survey for efficient open domain question answering[C]//ACL. Proceedings of the 61st Annual Meeting of the Association for Computational Linguistics. Toronto: Association for Computational Linguistics, 2023.

[16]

WANG LYANG NWEI F. Query2doc: query expansion with large language models[C]//ACL. Proceedings of the 2023 Conference on Empirical Methods in Natural Language Processing. Singapore: Association for Computational Linguistics, 2023.

[17]

BORISOV AMARKOV IDERIJKE Met al. A neural click model for web search[C]//WWW. Proceedings of the 25th International Conference on World Wide Web. Montreal: International World Wide Web Conferences Steering Committee, 2016.

[18]

DEHGHANI MZAMANI HSEVERYN Aet al. Neural ranking models with weak supervision[C]//ACM. Proceedings of the 40th International ACM SIGIR Conference on Research and Development in Information Retrieval. Tokyo: Association for Computing Machinery, 2017.

[19]

SACHAN DPATWARY MSHOEYBI Met al. End-to-end training of neural retrievers for open-domain question answering[C/OL]//ACL. Proceedings of the 59th Annual Meeting of the Association for Computational Linguistics and the 11th International Joint Conference on Natural Language Processing, Association for Computational Linguistics, 2021.

[20]

CHANG W CFELIX X YCHANG Y Wet al. Pre-training tasks for embedding-based large-scale retrieval[C]//ICLR. International Conference on Learning Representations. Louisiana: ICLR, 2019.

[21]

ZHOU JLI XSHANG Let al. Hyperlink-induced pre-training for passage retrieval in open-domain question answering[C]//ACL. Proceedings of the 60th Annual Meeting of the Association for Computational Linguistics. Dublin: Association for Computational Linguistics, 2022.

[22]

WANG LYANG NHUANG Xet al. SimLM: pre-training with representation bottleneck for dense passage retrieval[C]//ACL. Proceedings of the 61st Annual Meeting of the Association for Computational Linguistics. Toronto: Association for Computational Linguistics, 2023.

[23]

WU BZHANG ZWANG Jet al. Sentence-aware contrastive learning for open-domain passage retrieval[C]//ACL. Proceedings of the 60th Annual Meeting of the Association for Computational Linguistics. Dublin: Association for Computational Linguistics, 2022.

[24]

YANADA IASAI AHAJISHIRZI H. Efficient passage retrieval with hashing for open-domain question answering[C/OL]//ACL. Proceedings of the 59th Annual Meeting of the Association for Computational Linguistics and the 11th International Joint Conference on Natural Language Processing, Association for Computational Linguistics, 2021.

[25]

LEWIS POGUZ BXIONG Wet al. Boosted dense retriever[C]//ACL. Proceedings of the 2022 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies. Seattle: Association for Computational Linguistics, 2022.

[26]

LEE HKEDIA ALEE Jet al. You only need one model for open-domain question answering[C]//EMNLP. Proceedings of the 2022 Conference on Empirical Methods in Natural Language Processing. Abu Dhabi: Association for Computational Linguistics, 2022.

[27]

CHENG HFANG HLIU Xet al. Task-aware specialization for efficient and robust dense retrieval for open-domain question answering[C]//ACL. Proceedings of the 61st Annual Meeting of the Association for Computational Linguistics. Toronto: Association for Computational Linguistics, 2023.

[28]

YANG SSEO M. Designing a minimal retrieve-and-read system for open-domain question answering[C/OL]//ACL. Proceedings of the 2021 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, Association for Computational Linguistics, 2021.

[29]

LEI TBAI JBRAHMA Set al. Conditional adapters: parameter-efficient transfer learning with fast inference[J]. Advances in Neural Information Processing Systems202336: 8152-8172.

[30]

JANG EGU SPOOLE B. Categorical reparametrization with gumble-softmax[C]//ICLR. International Conference on Learning Representations. Vancouver: ICLR, 2017.

[31]

HOULSBY NGIURGIU AJASTRZEBSKI Set al. Parameter-efficient transfer learning for NLP[C]//ICML. International Conference on Machine Learning. California: ICML, 2019.

[32]

WU QYU WZHOU Yet al. Parameter and computation efficient transfer learning for vision-language pre-trained models[J]. Advances in Neural Information Processing Systems202436:12310-12320.

[33]

KWIATKOWSKI TPALOMAKI JREDFIELD Oet al. Natural questions: a benchmark for question answering research[J]. Transactions of the Association for Computational Linguistics20197: 453-466.

[34]

JOSHI MCHOI EWELD D Set al. TriviaQA: a large scale distantly supervised challenge dataset for reading comprehension[C]//ACL. Proceedings of the 55th Annual Meeting of the Association for Computational Linguistics. Vancouver: Association for Computational Linguistics, 2017.

[35]

WU BZHANG ZWANG Jet al. Sentence-aware contrastive learning for open-domain passage retrieval[C]//ACL. Proceedings of the 60th Annual Meeting of the Association for Computational Linguistics. Dublin: Association for Computational Linguistics, 2022.

[36]

CHEN XLAKHOTIA KOGUZ Bet al. Salient phrase aware dense retrieval: can a dense retriever imitate a sparse one?[C]//EMNLP. Findings of the Association for Computational Linguistics: EMNLP 2022. Abu Dhabi: Association for Computational Linguistics, 2022.

[37]

IZACARD GGRAVE E. Distilling knowledge from reader to retriever for question answering[C]//ICLR. International Conference on Learning Representations. Vienna: ICLR, 2021.

[38]

MAO YHE PLIU Xet al. Generation-augmented retrieval for open-domain question answering[C/OL]//ACL. Proceedings of the 59th Annual Meeting of the Association for Computational Linguistics and the 11th International Joint Conference on Natural Language Processing,Association for Computational Linguistics, 2021.

基金资助

南方电网公司科技项目(GDKJXM20230899)

AI Summary AI Mindmap
PDF (1245KB)

185

访问

0

被引

详细

导航
相关文章

AI思维导图

/