一种基于领域知识的检索增强生成方法

张高飞, 李欢, 池云仙, 赵巧红, 勾智楠, 高凯

河北工业科技 ›› 2025, Vol. 42 ›› Issue (02) : 103 -110+196.

PDF
河北工业科技 ›› 2025, Vol. 42 ›› Issue (02) : 103 -110+196.

一种基于领域知识的检索增强生成方法

    张高飞, 李欢, 池云仙, 赵巧红, 勾智楠, 高凯
作者信息 +

Author information +
文章历史 +
PDF

摘要

为了提高当前大语言模型(large language model, LLM)在利用检索文档生成答案时的准确性,提出一种基于领域知识的检索增强生成(retrieval-augmented generation, RAG)方法。首先,在检索过程中通过问题和领域知识进行第1层的稀疏检索,为后续的稠密检索提供领域数据集;其次,在生成过程中采用零样本学习的方法,将领域知识拼接在问题之前或之后,并与检索文档结合,输入到大语言模型中;最后,在医疗领域和法律领域数据集上使用大语言模型ChatGLM2-6B、Baichuan2-7B-chat进行多次实验,并进行性能评估。结果表明:基于领域知识的检索增强生成方法能够有效提高大语言模型生成答案的领域相关度,并且零样本学习方法相较于微调方法表现出更好的效果;采用零样本学习方法时,融入领域知识的稀疏检索和领域知识前置方法在ChatGLM2-6B上取得了最佳提升效果,与基线方法相比,ROUGE-1、ROUGE-2和ROUGE-L评分分别提高了3.82、1.68、4.32个百分点。所提方法能够提升大语言模型生成答案的准确性,为开放域问答的研究和应用提供重要参考。

关键词

自然语言处理 / 开放域问答 / 检索增强生成 / 大语言模型 / 零样本学习 / 领域知识

Key words

引用本文

引用格式 ▾
一种基于领域知识的检索增强生成方法[J]. 河北工业科技, 2025, 42(02): 103-110+196 DOI:

登录浏览全文

4963

注册一个新账户 忘记密码

参考文献

AI Summary AI Mindmap
PDF

25

访问

0

被引

详细

导航
相关文章

AI思维导图

/