面向多能源发电领域的微调大语言模型EcoPowerGPT

覃文军; 郭彦良; 曲睿婷; 宋青

doi:10.12068/j.issn.1005-3026.2025.20240187

东北大学学报(自然科学版) ›› 2025, Vol. 46 ›› Issue (11) : 37 -47. DOI: 10.12068/j.issn.1005-3026.2025.20240187

信息与控制

面向多能源发电领域的微调大语言模型EcoPowerGPT

覃文军 ¹ ,
郭彦良 ¹^,² ,
曲睿婷 ³ ,
宋青 ³

作者信息 +

Fine-Tuned Large Language Model EcoPowerGPT for Multi-energy Power Generation Field

Author information +

文章历史 +

PDF (1097K)

摘要

针对多能源发电领域因缺乏高质量数据集导致问答(question ansuering,QA)效果欠佳的问题，以及中文回答泛化能力不足的现状，提出了一种基于Llama架构、面向多能源发电领域的微调大语言模型EcoPowerGPT.通过整理多能源发电领域的文献与报告，采用分类过滤和多维度评分方法进行数据处理，进而构建多能源发电微调数据集，并基于该数据集对大语言模型进行指令微调.将EcoPowerGPT在多能源发电QA测试集及单选题测试集上与其他6个对话模型进行对比实验.结果表明，EcoPowerGPT在回答的准确性与全面性上均优于现有对话模型.

Abstract

To address the issues of poor question answering （QA） performance due to the lack of high-quality datasets in the multi-energy power generation field， as well as the current limitations in the generalization capability of Chinese responses， a fine-tuned large language model called EcoPowerGPT based on the Llama architecture was proposed for the multi-energy power generation field. By organizing literature and reports in the multi-energy power generation field， the model employed classification filtering and multi-dimensional scoring methods for data processing， thereby constructing a fine-tuned dataset for multi-energy power generation. This dataset was then used to fine-tune the large language model. Comparative experiments were conducted between EcoPowerGPT and six other dialogue models on multi-energy power generation QA test sets and test sets of multiple-choice questions with a single correct answer. The results demonstrate that EcoPowerGPT outperforms existing dialogue models in terms of both the accuracy and comprehensiveness of its responses.

Graphical abstract

关键词

生成式大语言模型 / 问答 / 自然语言处理 / 多能源发电 / 指令微调

Key words

generative large language model / question answering / natural language processing / multi-energy-power generation / instruction fine-tuning

引用本文

引用格式 ▾

覃文军,郭彦良,曲睿婷,宋青. 面向多能源发电领域的微调大语言模型EcoPowerGPT[J]. 东北大学学报(自然科学版), 2025, 46(11): 37-47 DOI:10.12068/j.issn.1005-3026.2025.20240187

登录浏览全文

4963

注册一个新账户忘记密码

在全球能源需求快速增长和实现可持续发展目标的背景下，多能源发电已经成为能源领域的重要发展方向.多能源发电技术涵盖火力发电、水力发电、风力发电、核能发电和光伏发电等多种能源形式，通过多种能源的互补与协同，构成了现代电力系统的核心.随着全球对环境保护和碳排放减少的需求不断加强，多能源发电不仅能够提升供电系统的稳定性与灵活性，还可以有效减少对单一能源的依赖，降低碳排放强度.特别是清洁能源的引入，通过与传统能源的优化组合，能够进一步推动全球向低碳经济转型，实现更为清洁、绿色的可持续发展.因此，如何提高多能源系统的协同效率、降低整体碳排放，已成为推动未来能源变革的关键.

随着人工智能技术的迅猛发展，自然语言处理（natural language processing， NLP）领域正在经历一场前所未有的变革，而大语言模型的崛起正是这场变革的核心驱动力^［1］.从早期的GPT系列模型到如今的各种大语言模型，这些参数规模庞大的语言模型凭借深度学习技术和对海量文本数据的精细训练，具备了令人惊叹的文本生成和理解能力^［2］.与传统的语言模型相比，大语言模型不仅能够生成连贯且逻辑严谨的文本，还能在各种复杂的任务中展现出超越以往的智能表现^［3］.无论是专业领域的问答、创意写作，还是复杂的语言推理，这些模型都展现出了接近人类甚至超越人类的能力.这些技术的进步彻底改变了我们对机器语言理解能力的传统认知.随着大语言模型的不断优化，它们在多个行业的应用也变得更加广泛，如智能文档处理^［4］、情感分析^［5］、医疗诊断支持等.这不仅提升了工作效率，还推动了企业和社会在数字化转型中的加速发展^［6］.

尽管近年来开源的大语言模型和通用模型在自然语言处理方面取得了显著进展，但其在高度专业化领域的表现仍存在较大差距^［7］.相较于英语语料库的丰富性和可访问性，中文语料库常常因为数据封闭、质量不均和缺乏公开评审而受限.这种现象使构建高质量的中文预训练模型变得更加困难，同时也限制了中文大语言模型在实际应用中的广泛性和精度.尤其是在一些特定领域，例如多能源发电领域，通用模型由于缺乏领域相关的高质量数据，无法提供准确的技术分析或深入的决策支持.

在多能源发电这类复杂且专业性强的领域，即便是ChatGPT这样的先进模型也常面临挑战.该领域技术体系与术语相对复杂，模型需具备精准背景知识，但现有模型往往因领域数据不足难以输出高水平回答.高质量中文数据的稀缺使其在处理相关问题时泛化能力不足，对特定术语的理解及上下文逻辑处理能力欠缺.这些问题制约了大语言模型在多能源发电领域的实际应用，无法满足行业专业需求.

在多能源发电这一复杂专业领域，现有模型如ChatGPT面临领域数据不足、高质量中文数据稀缺等问题，导致回答水平有限、泛化能力弱，难以满足专业需求.本文提出 EcoPowerGPT，通过系统化数据处理获取高质量数据集，结合低秩适应（low-rank adaptation，LoRA）参数高效微调技术进行模型构建.实验表明，EcoPowerGPT在多能源领域问答效果优于ChatGPT-3.5等模型.

为解决多能源发电领域缺乏专用问答数据与适配大模型的问题，本文开展如下研究工作：

1）构建领域QA数据集.为后续模型训练提供优质数据支撑，本文系统收集多能源发电领域论文、指南、报告等资料，通过“能源相关性判别+子领域多分类”的两阶段层次化分类法，结合“领域专业性、问答准确性、可解释性”的多维度评分标准处理数据，构建适配该领域的中文QA数据集.

2）开发领域专用大语言模型.为让模型充分适配多能源发电领域的知识与问答逻辑，以Llama 3.1-8B为基座模型，采用LoRA微调技术，开发针对该领域的专用大语言模型EcoPowerGPT.

3）开展模型性能分析.为验证所开发模型的领域适配效果，计划在多能源发电QA数据集（采用BLEU-4，ROUGE等指标）与单选题数据集（采用Accuracy指标）中，将其与基线模型进行对比分析，以明确其在领域问答任务中的表现.

1 多能源发电大语言模型构建

本文通过整理多能源发电领域的文献与报告，提出系统化的数据处理方法，从大规模多源数据中筛选高质量的能源碳排放相关问答对，并结合参数高效微调技术实现大语言模型在多能源发电领域的高性能表现.多能源发电大语言模型的整体构建思路如图1所示.

首先，进行多源数据采集与初步处理，广泛收集多能源发电领域的文献、报告等数据，通过正则匹配、立场识别及数据标准化等操作完成初步处理，随后借助ChatGPT-3.5生成领域问答对，为后续流程提供基础数据支撑.

其次，采用两阶段层次化领域分类过滤：第1阶段进行能源相关性判别，筛选出与能源领域强相关的问答对；第2阶段开展子领域多分类，进一步将问答对细分至具体能源子领域，确保数据的领域聚焦性与专业性.经过层次化过滤后，保留符合要求的问答对进入下一环节.

然后，实施多维度评分筛选，基于领域专业性、问答准确性、可解释性3个核心维度构建奖励模型，对过滤后的问答对进行量化评分，最终精选出15 000条高质量问答对.该过程通过严格的多维评估，保障数据在内容深度与逻辑严谨性上满足模型训练需求.

最后，进入模型微调阶段，以Llama 3.1-8B为基座模型，利用筛选出的高质量问答对进行参数高效微调，使模型充分学习能源领域知识与问答逻辑，最终构建出多能源发电大模型，该方法通过多层次数据采集、系统化过滤机制及精准微调策略，有效提升数据质量与模型性能，确保模型在多能源发电领域实际应用中实现高效、准确的问答交互，为专业场景提供坚实的技术支撑.

1.1 多能源发电领域数据获取与处理

本文对多能源发电数据进行收集与整理，主要包括风能、太阳能、核能等不同发电技术的研究文献和行业报告.这些文献来源于最新的报告、学术论文及政策文件，提供了丰富的领域知识基础，涵盖了设备规格、技术应用、环境影响等方面.对获取到的数据首先通过正则表达式匹配与数据标准化统一单位进行初步处理，并基于大模型构建问答对数据.

由于多能源发电领域涉及风能、光伏、水力、核能及火力等多种子领域，文本数据来源广泛且噪声较大.如何在微调大语言模型时有效过滤与评估数据质量，是提升模型专业性和鲁棒性的关键.本文围绕“领域分类过滤-多维度评分”构建数据处理流程，提出一套适配该领域的具体数据处理方法，为该领域大语言模型微调提供技术参考.

通过数据处理，本文形成了1个包含15 000条高质量问答对的多能源发电中文QA数据集.

1.1.1 两阶段层次化领域分类

在多能源发电领域，大语言模型的数据处理需兼顾数据质量与领域专业性.本方法通过两阶段层次化分类为大语言模型提供高质量、细粒度的预处理数据，使其在微调后能更好地理解能源领域语义与子领域特征.

第一阶段进行能源相关性判别.由于BERT模型在自然语言处理任务中表现出强大的语义表征能力，能够有效捕捉文本的深层语义信息^［8］，本文采用开源bert-base-uncased编码器，对经清洗与WordPiece分词^［9］后的文本x输出［CLS］向量，如下式（1）所示：

h C L S = B E R T C L S, x, S E P ∈ R d .

(1)

式中： h_CLS是BERT模型处理输入序列后，输出的［CLS］标记对应的向量；BERT(·)是BERT模型的编码函数；［CLS］是BERT模型中的特殊起始标记；［SEP］是BERT模型中的特殊结束标记;d为BERT模型输出的［CLS］向量维度.

这一向量富含句子级别的语义信息，适合下游判别任务.由于预训练的BERT模型是基于通用语料库进行训练的，虽然具备强大的语义理解能力，但对于能源领域这种专业性较强的领域，其输出的特征可能无法完全适配该领域的特定需求.因此，需要结合后续的分类任务对BERT进行微调，使其能够更好地捕捉能源领域文本的特征.

第二阶段进行相关性判断，相关性判别公式如式（2）所示：

p r e l x = σ w r e l T h C L S + b r e l .

(2)

式中：σ为Sigmoid函数，它能够将输入映射到（0，1）区间，输出一个概率值，便于判断文本与能源领域相关的可能性；在大语言模型数据处理中，剔除数据中混入的、不属于能源领域的文本内容可避免模型学习到无效信息，提升后续微调效率与效果.

w r e l ∈ R d

，

b r e l ∈ R

为可学习参数，通过训练可以优化这些参数，使模型更准确地判断相关性.

本文设置

τ r e l = 0.5

作为默认判定阈值.该值来源于二分类模型常用的“概率中点”策略，能在多数场景下平衡精度与召回率.若

p r e l (x) < τ r e l

，则将x视为与能源主题无关的样本并直接丢弃；这样可以有效剔除噪声数据，减少无效数据对后续子领域分类的干扰.否则进入子领域多分类环节，确保进入下一阶段的文本都与能源领域相关，从而提高子领域分类的针对性.

在子领域多分类中，本文定义5个子领域标签集｛C₁，C₂，…，C₅｝=｛风能，光伏，水力，核能，火力｝，覆盖多能源发电核心子领域.对每个“已判定为相关”的文本x，使用分类头参数

{w i, b i} i = 1 5

，通过Softmax函数计算其属于第i类的概率，如下式（3）所示：

p i x = e x p w i T h C L S + b i ∑ j = 1 5 e x p w j T h C L S + b j, i = 1,2, …, 5 .

(3)

式中：

w i

为第i个子领域分类对应的权重向量；

w j

为对所有子领域的权重向量的遍历表示；

b i

为第i个子领域分类对应的偏置项；

b j

为对所有子领域的偏置项的遍历表示.

Softmax函数能够将模型输出转化为概率分布，方便确定文本属于各子领域的概率，从而实现多分类任务.本文损失函数L_dom（x）采用加权交叉熵，如下式（4）所示：

L d o m x = - w x ∑ i = 1 5 y i x l n p i x .

(4)

其中y_i （x）为文本的One-hot标签，w（x）为术语加权函数.该损失在参数学习中，与BERT模型主干一同反向更新，对其参数进行微调，可以使BERT模型更好地适应能源领域的文本特征，从而提高整个分类系统的性能.引入加权交叉熵的目的是为了突出含有专业术语的文本的重要性，因为在能源领域中，包含专业术语的文本往往更能体现其所属子领域的特征.

本文预先构建能源领域专业术语集

𝒟

，包含“涡轮机”“光伏组件效率”等关键词，并通过式（5）计算文本中专业术语的密集度.

ρ x = D ⋂ T o k e n s x T o k e n s x .

(5)

式中：

T o k e n s x

为文本

x

分词后的所有token构成的集合.

密集度反映了文本中专业术语的占比情况，占比越高，说明文本与能源领域的专业性越强.本文设计的术语加权函数如式（6）所示，主要基于监督式术语加权方法，可以有效放大专业度高的文本的梯度贡献.

w x = 1 + η ρ x, η > 0 .

(6)

式中，

η

为调节术语加权强度的超参数.

通过这种方式，当文本中包含较多专业术语（即

ρ x

较大）时，

w x

会相应增大，使得模型在训练过程中更加关注这些专业度高的文本，从而提高模型对能源领域各子领域特征的学习效果，提升分类的准确性.

1.1.2 多维度评分

本文构建了包含5 000条人工标注样本的多能源发电数据集，并基于该数据微调Llama 2-7B模型得到奖励模型，用于对多能源发电领域问答数据进行高质量筛选.模型从3个核心维度对每条样本进行评分，分别是领域专业性、问答准确性、可解释性，并通过线性加权筛选出总分大于等于0.6的高质量样本，以确保最终训练集的精炼与可靠.

首先，领域专业性评分S_domain主要评估回答中行业术语与概念的使用是否恰当、专业.使用微调后的模型对输入回答计算自回归（next-token）、负对数似然（negative log-likelihood，NLL），并将其线性映射到［0，1］区间，计算公式如下式（7）所示：

S d o m a i n = 1 - N L L x C .

(7)

式中：NLL（x）为输入文本x对应的负对数似然值；

C

为训练集中所有样本NLL的最大值，以保证

S d o m a i n ∈ [0,1]

然后，问答准确性评分主要用于衡量模型回答与专家参考答案的语义贴合度，将生成回答与参考答案分别编码为向量，并计算它们的余弦相似度S_acc，如式（8）所示.

S a c c = c o s E p r e d, E r e f = E p r e d ⋅ E r e f ‖ E p r e d ‖ ‖ E r e f ‖ .

(8)

式中：

E p r e d

为模型生成回答经过编码后得到的向量；

E r e f

为专家参考答案经过编码后得到的向量.

可解释性评分S_exp用于判断模型评分决策是否具备一定透明度.选取回答中若干关键词或句法结构（如因果句），对其进行简单扰动（如增删关键词），再比较扰动前后模型输出的评分差异，如式（9）所示：

S e x p = 1 - 1 M ∑ p = 1 M r x - r x p' .

(9)

式中：r（⋅）表示单一评分头输出（取值于［0，1］）；

x p'

为对第p个位置做微小修改后的输入；M表示位置个数，为5；此时S_exp∈［0，1］，数值越大表明评分对小改动越不敏感，可解释性越好.

最后，进行综合加权与数据筛选，总体评分采用线性加权，如下式（10）所示：

S t o t a l = α S d o m a i n + β S a c c + γ S e x p, α + β + γ = 1 .

(10)

式中：本文权重参数设置为α=0.4，β=0.4，γ=0.2.针对权重设置，由于多能源发电领域高度依赖专业术语和技术细节，且模型答案必须与专家参考高度一致，故将领域专业性与问答准确性置于同等且较高权重.虽然可解释性对数据筛选的透明度与可追溯性非常重要，但在首轮筛选中，其作用略低于前两者，因此赋予略低权重.

本文将样本总分阈值定为

τ = 0.6

.原因是三维评分均匀分布在0～1的情形下，

τ = 0.6

相当于各维度平均分达到0.6，确保样本在专业性与准确性上均不低于中等水平.同时，本文通过对5 000条样本进行初步打分及人工抽检，

τ = 0.6

可筛出约60%的高质量样本，既保证数据量，又良好提升了平均分布和下游训练效果.最终，保留集合

𝒟 g o o d

定义为：

𝒟 g o o d = x S t o t a l x ≥ 0.6 .

(11)

1.2 基座模型

本文构建多能源领域大模型所使用的基础模型是Llama 3.1-8B.Llama 3.1是MetaAI在其Llama系列中的重要更新，基于Llama 3的设计，通过更细致的训练策略进一步提升了模型性能和效率.该模型延续了仅解码器（decoder-only）的Transformer架构，增强了词汇表的容量，从而从原来的32 K提升至128 K，极大地提升了编码效率，使其在处理复杂语言任务时表现得更加游刃有余.此外，Llama 3.1继续使用分组查询注意力机制，有效地优化了推理过程，降低了计算成本，并确保在处理长文本时保持高效与准确性^［10］.

本文多维度评分构建的奖励模型，所用基础模型是Llama 2-7B.该模型采用了Transformer架构，并针对多样化的语言任务进行了特别优化.其核心特点之一是相对较小的词汇表（32 K token vocabulary），尽管如此，Llama 2依然在多种基准测试中展现了卓越的性能^［11］.

1.3 大语言模型微调

微调是大语言模型训练的常用技术，在预训练模型基础上调整参数，使其适配特定任务.指令微调是常见策略，通过提供任务指令示例，助力模型学习任务执行方法.此外，我们还可以使用全微调（full fine-tuning，FFT）更新模型全部权重，但是资源消耗较大；使用参数高效微调（parameter-efficient fine-tuning，PEFT）方法只更新模型的一小部分参数^［12］，避免了全量微调时的大规模资源消耗，同时保留了模型原有的知识和能力.这种方法提高了内存利用效率并减少了过拟合和灾难性遗忘的风险.其中最具代表性的是2021年微软提出的LoRA方法^［13］.之后陆续提出了很多参数高效微调方法，如斯坦福大学提出的Prefix-Tuning^［14］、谷歌提出的Prompt Tuning^［15］、2023年华盛顿大学提出的QLoRA^［16］以及2024年英伟达提出的DLoRA^［17］.

本文采用LoRA方法，通过减少可训练参数数量实现低成本高效的模型适配.该方法在预训练模型基础上添加新路径，引入降维矩阵 A 和升维矩阵 B 相乘模拟权重更新，同时“冻结”预训练模型权重，仅训练 A 和 B .

具体而言，设预训练模型某层原始权重为

W 0

，LoRA通过增加低秩增量

Δ W

调整原有权重，构造方式为引入两个低秩矩阵 A 与 B，公式如下：

Δ W = B A .

(12)

式中：

A ∈ R d × r

为降维矩阵；

B ∈ R r × d

为升维矩阵；

r

为低秩维度（通常远小于

d

）.

因此，经过LoRA微调后的权重可以表示为

W = W 0 + B A .

(13)

对应地，对于输入向量

x

，该层的输出为

y = W 0 x + B A x .

(14)

这两个矩阵的乘积 BA 可直接与预训练模型原始权重叠加，在推理时无需额外计算开销，即可实现与全量微调相当的效果.

2 实验与分析

2.1 实验环境与实验设置

本实验环境配置如下：GPU为NVIDIA RTX 4090；显存为24 GB；Python版本为3.10.8；CUDA版本为12.1；PyTorch版本为2.0.0.本实验大模型LoRA微调参数设置如表1所示.

2.2 基线模型

为了全面评估EcoPowerGPT在多能源发电领域问答的有效性，本文选取了6款在问答任务中具有代表性且覆盖不同架构特点的主流模型进行对比.这些基线模型既包括完全开源、可自由微调的研究型模型，也涵盖了拥有成熟商业化服务的闭源平台；既有侧重中文处理优化的本土化方案，也有在推理能力上表现突出的轻量化模型.通过在同一评测框架中对这6款模型展开横向对比，可以分析EcoPowerGPT在多能源发电领域问答能力的优势.所选择的基线模型详细如下：

1） Llama 2由Meta于2023年发布^［18］，相比第1代Llama，其在推理、文本生成和对话系统等任务上均有显著提升，且支持自定义微调和扩展，已在多个研究和工业场景中展现出了出色的可扩展性^［19］.

2） Qwen 2是阿里巴巴最新推出的开源大模型系列^［20］，采用混合专家架构，结合大规模预训练与针对性微调，并行优化模型能力.该系列在多语言理解、文本生成、数学运算与复杂推理等方面表现突出^［21］，社区活跃且易于二次开发和应用创新.

3） ERNIE-3.5是百度推出的商用级大语言模型，综合能力超越ChatGPT-3.5，并引入插件系统以便接入实时信息和处理长文本；同时结合知识图谱与自适应混合并行训练技术，在逻辑推理和数学计算等复杂任务上具备明显优势.

4） Baichuan 2是百川智能推出的新一代开源大模型，该模型专注于中文处理和多维度任务表现^［22］，在中文处理上展现出显著的优势，其开源特性尤其适合中文开发者^［23］.

5） Mistral-7B模型参数量为70亿，通过创新架构在小参数规模下实现了对推理、数学运算和代码生成的卓越性能，同时在推理速度和长序列处理能力上也颇具竞争力^［24］.

6） ChatGPT-3.5作为OpenAI InstructGPT的改进版本，专注于对话生成与上下文理解，具备成熟的应用程序编程接口（application programming interface，API）及“安全提示”策略，能生成流畅连贯且逻辑清晰的文本，在智能助手、客服机器人等应用中被广泛采用^［25］.

2.3 实验数据

本文所用微调数据集为自主收集并处理的多能源发电领域QA数据集，总量15 000条，其中水力发电4 998条、火力发电5 007条、光伏发电4 994条、核能发电4 995条、风力发电5 006条.测试基准包含两个数据集：其一是基于多能源发电报告及学术论文构建的QA测试集（含1 000个问答对），用于比对输出结果与真实答案；其二是从多能源题库整理的单选题集（含1 000题），每题设多个候选答案且仅有一个正确选项，用于评估选择准确性.

数据组织方面，QA类数据均按子领域分类存储，每条记录包含子领域缩写、序号、问题、答案、来源及子领域标签；训练集额外标注质量评分，测试QA集增设真实答案字段，单选题集则包含题干、候选答案与正确选项.采用JSON格式存储方案，并对高频访问的测试数据实施内存缓存策略以保障实验连贯性与硬件利用率.

训练集与测试集均源自权威渠道，各子领域数据占比严格控制在18%~22%，并通过数据溯源确保样本唯一性.训练集侧重QA知识学习，测试集通过“答案匹配与单选题选择”多任务模式评估模型泛化能力，有效规避过拟合风险.

2.4 评价指标

针对问答数据集，本文采用BLEU-4，ROUGE-1，ROUGE-2和ROUGE-L共4种评价指标来评估模型性能；针对单选题测试数据集，本文采用Accuracy评价指标进行评估，评价指标如下所示：

1） ROUGE是由Lin等^［26］提出的自动化文本摘要评估方法，是基于N-gram召回率的自动化评估指标，用于度量生成文本与参考文本之间的重叠程度，得分范围为0至1.

ROUGE-N通过计算生成文本与参考文本在N-gram级别上的重叠召回率，衡量摘要或答案生成质量.本文选用ROUGE-1和ROUGE-2，分别评估模型在词（1-gram）和短语（2-gram）层面的覆盖情况.

R O U G E - N = ∑ t ∈ R ∑ g r a m N ∈ g r a m N t C o u n t m a t c h g r a m N, s ∑ t ∈ R ∑ g r a m N ∈ g r a m N t C o u n t g r a m N, t .

(15)

式中：

R

为参考文本集合；

t

为单个参考文本；

s

为生成文本；N指代N-gram的长度参数；

g r a m N t

为参考文本

t

中所有N-gram的集合；

C o u n t m a t c h g r a m N, s

为生成文本

s

与参考文本

t

中匹配的N-gram数量；

C o u n t g r a m N, t

为参考文本t中所有N-gram的总数量.当N=1时，即ROUGE-1，评估单词层面的重叠率；当N=2时，即ROUGE-2，评估连续双词短语的覆盖度.

ROUGE-L通过最长公共子序列（LCS）计算召回率与精确率，既反映了词汇重叠，又兼顾了文本结构，公式如式（16）所示：

R O U G E - L = 1 + λ 2 R l c s P l c s R l c s + λ 2 P l c s

.(16)

式中：R_lcs代表最长公共子序列的召回率；P_lcs代表最长公共子序列的准确率；

λ

是召回率的权重参数.

2） BLEU-4用于衡量模型生成文本与参考答案在词汇和结构上的相似度，通过统计1-gram至4-gram的精确率并结合长度惩罚因子，防止过短输出获得高分^［27］，如下式（17）所示：

B L E U - 4 = B P × e x p l n P 1 + l n P 2 + l n P 3 + l n P 4 4

.(17)

式中，

P 1

，

P 2

，

P 3

，

P 4

分别代表1-gram到4-gram的精确率.长度惩罚因子BP定义为

B P = 1, l c > l s; e 1 - l s l c, l c ≤ l s .

(18)

式中：

l c

为生成文本长度；

l s

为参考文本长度.

3） Accuracy用于评估构建的多能源发电领域单选题数据集，公式如（19）所示.

A c c u r a c y = C o r r e c t A n s w e r s 1 000 × 100 %

.(19)

式中，CorrectAnswers代表正确的题目数.

2.5 实验结果与分析

根据构建的多能源发电微调数据集，对EcoPowerGPT模型进行了LoRA微调训练，并在训练过程中记录了每轮的损失值.训练损失曲线如图2所示，该曲线展示了模型在训练过程中的表现.损失值是衡量模型输出与实际结果之间差异的指标，数值越小表明模型输出与实际结果越接近，模型性能越好.图中原始曲线代表原始损失值，其波动较为明显，反映了每一轮训练中损失值的具体变化情况；而平滑曲线是对原始损失值进行平滑处理后得到的，它过滤了部分随机波动，更清晰地展现了损失值随训练步骤的总体变化趋势.

图2中的曲线清楚地显示，随着训练轮数的不断增加，损失值逐渐降低.这一变化表明，模型逐步学习到了训练集中的特征，并不断改进其预测能力.最终，损失值趋于稳定，表明模型已经达到基本收敛状态，在训练集上的性能也趋于稳定.这种稳定的损失值表明模型在经过充分训练后，其对训练数据的理解和预测能力已趋于成熟.

本文对原始大语言模型与微调后的EcoPowerGPT模型的效果进行了对比评估，结果如表2所示.

表2　原始大语言模型与微调大语言模型对比

Table 2　Comparison between original large

language model and fine-tuned

large language model

从实验结果可以看出，微调后的大语言模型在BLEU-4，ROUGE-1，ROUGE-2和ROUGE-L这4个指标上都显著优于原始模型.BLEU-4的提升表明模型在生成文本的准确性方面有了显著进步，而ROUGE指标的提升则反映出模型在词汇重叠、连续词组匹配以及文本结构上的表现更加出色.这表明微调后的模型不仅能够更好地生成与标准答案相似的文本，同时在语言流畅性和语义一致性上也有明显提升，充分验证了微调策略的有效性.

本文基于多能源发电QA数据集以及多能源发电领域的单选题数据集将EcoPowerGPT与其他基线模型进行比较.首先基于多能源发电QA数据集进行测试，结果如表3所示.

实验结果表明，EcoPowerGPT 在所有评价指标上均表现出显著优势.相比其他模型，EcoPowerGPT的BLEU-4得分高达61.61，高于其他模型，表明其在多能源发电领域生成与参考文本高度一致的句子方面能力突出.同时，EcoPowerGPT在ROUGE-1，ROUGE-2和ROUGE-L得分也分别达到75.17，64.00和70.40，表明其在整体语义结构的一致性上也保持了领先优势.这说明EcoPowerGPT在多能源发电领域具备较精准的领域问答能力.

本文基于多能源发电单选题测试集对模型进行测试，结果如表4所示.

在多能源发电单选题数据集评估中，EcoPowerGPT 以 90.3% 的准确率显著领先于其他基线模型，充分体现了其对多能源发电领域专业知识的深度理解与语义逻辑的精准把握，表明其在多能源发电场景下具有更全面的知识整合能力和更可靠的推理性能.

本文还针对EcoPowerGPT与Qwen 2-7B模型在多能源场景下的问答进行了典型问答示例测试对比，如表5所示.

在典型问答示例测试中，EcoPowerGPT展现出高效的推理效率与出色的专业问答能力.相较于Qwen 2-7B，其回答优势更体现在对问题核心的精准聚焦、专业信息的无冗余传递，以及与多能源领域需求的高度适配.模型回答术语使用精准，逻辑清晰，体现了对能源技术体系的深度理解与知识整合能力.实验结果表明，EcoPowerGPT在多能源领域问答中，既能快速响应不同复杂度的问题，又能确保回答内容准确专业、逻辑严谨，充分展现了其在实际应用场景中为用户提供高效、可靠知识服务的能力，有效验证了模型在多能源发电领域的实用性.

2.6 模型部署

本文将微调后的EcoPowerGPT模型基于Ollama框架部署为本地服务，以实现对多能源发电领域问答的在线对话能力.Ollama作为一款开源轻量级框架，可在本地硬件上简化大模型的管理与运行，有效减少对外部API的依赖并提升隐私安全性.部署完成后，EcoPowerGPT既可通过命令行接口直接交互，也可结合轻量级HTTP服务以RESTful API形式对外提供问答接口，满足电力系统场景中对高并发、低延迟与本地化推理的需求.

在电力系统实际应用中，EcoPowerGPT可直接对接水电、风电、光伏及火电等场站的SCADA系统，通过自然语言接口实时检索各类运行参数（如水轮机出力、风速、面板温度等），并在发现异常时自动生成故障报警与排查建议.调度人员和运维工程师只需以对话方式询问，如“当前风机振动水平是否正常”或“光伏阵列逆变器出现过载怎么办”，即可快速获得巡检指南、故障原因分析及针对不同能源类型的应急预案支持，为水电、风电、光伏等分布式能源场站的高可用性与运行安全提供了有力保障.

3 结语

本研究构建了针对多能源发电领域的生成式大语言模型 EcoPowerGPT，通过系统化数据处理与高效微调技术显著提升模型专业问答能力.本研究提出两阶段层次化领域分类（能源相关性判别与子领域多分类）及多维度评分的数据处理方法，从多源数据中筛选出15 000条高质量中文QA数据集，结合Llama 3.1-8B基座模型与LoRA参数高效微调技术，实现对多能源领域复杂术语的深度学习.实验表明，EcoPowerGPT在多能源发电QA数据集以及多能源发电单选题数据集上的表现显著优于Qwen 2，ChatGPT-3.5等基准模型，有效解决了领域数据不足与中文处理能力薄弱的问题.该模型为多能源领域智能问答系统提供了高性能解决方案，所提出的数据处理方法可为垂直领域大模型构建提供参考，推动相关技术在能源行业的实际应用与研究进展.

同时，本研究仍存在可改进之处.其一，数据以静态文本为主，缺乏多模态信息，知识时效性与场景适配性有待提升；其二，模型对复杂推理与数值计算的支持不足，架构未充分融合领域因果逻辑；其三，实验评估场景较单一，未覆盖实际运维、调度等场景.后续可围绕上述方向补充数据、优化模型架构与评估体系，推动模型向实用落地迈进.

参考文献

原文顺序 | 出版日期 | 本文引用

[1]	Raffel C， Shazeer N， Roberts A， et al. Exploring the limits of transfer learning with a unified text-to-text transformer［J］. Journal of Machine Learning Research， 2020， 21（1）： 5485-5551.

[2]	周昆，朱余韬，陈志朋，等. YuLan-Chat：基于多阶段课程学习的大语言模型［J］. 计算机学报， 2025， 48（1）： 1-18.

[3]	Zhou Kun， Zhu Yu-tao， Chen Zhi-peng， et al. YuLan-chat： a large language model based on multi-stage curriculum learning［J］. Chinese Journal of Computers， 2025， 48（1）： 1-18.

[4]	OpenAI， Achiam J， Adler S， et al. GPT-4 technical report［EB/OL］. （2023-03-15）［2024-10-19］.

[5]	田萱，吴志超. 基于信息检索的知识库问答综述［J］. 计算机研究与发展， 2025， 62（2）： 314-335.

[6]	Tian Xuan， Wu Zhi-chao. Review of knowledge base question answering based on information retrieval［J］. Journal of Computer Research and Development， 2025， 62（2）： 314-335.

[7]	李诗晨，王中卿，周国栋. 大语言模型驱动的跨领域属性级情感分析［J］. 软件学报， 2025， 36（2）： 644-659.

[8]	Li Shi-chen， Wang Zhong-qing， Zhou Guo-dong. LLM enhanced cross domain aspect-based sentiment analysis［J］. Journal of Software， 2025， 36（2）： 644-659.

[9]	宫丽娜，周易人，乔羽，等. 预训练模型在软件工程领域应用研究进展［J］. 软件学报， 2025， 36（1）： 1-26.

[10]	Gong Li-na， Zhou Yi-ren， Qiao Yu， et al. Research progress of pre-trained model in software engineering［J］. Journal of Software， 2025， 36（1）： 1-26.

[11]	Vakili T， Lamproudis A， Henriksson A， et al. Downstream task performance of BERT models pre-trained using automatically de-identified clinical data［C］//Proceedings of the Thirteenth Language Resources and Evaluation Conference. Marseille， 2022： 4245-4252.

[12]	Devlin J， Chang M W， Lee K， et al. BERT： pre-training of deep bidirectional transformers for language understanding［C］ // Proceedings of the 2019 Conference of the North American Chapter of the Association for Computational Linguistics： Human Language Technologies. Minneapolis， 2019： 4171-4186.

[13]	Song X Y， Salcianu A， Song Y， et al. Fast WordPiece tokenization［EB/OL］. （2020-12-31）［2024-10-19］.

[14]	Grattafiori A， Dubey A， Jauhri A， et al. The Llama 3 herd of models［EB/OL］. （2024-07-31）［2024-10-19］.

[15]	Basile P， Musacchio E， Polignano M， et al. LLaMAntino： LLaMA 2 models for effective text generation in Italian language［EB/OL］. （2023-12-15）［2024-10-19］.

[16]	Fu Z H， Yang H R， So A M， et al. On the effectiveness of parameter-efficient fine-tuning［J］. Proceedings of the AAAI Conference on Artificial Intelligence， 2023， 37（11）： 12799-12807.

[17]	Hu E J， Shen Y L， Wallis P， et al. LoRA： low-rank adaptation of large language models［EB/OL］. （2021-06-17）［2024-10-19］.

[18]	Li X L， Liang P. Prefix-tuning： optimizing continuous prompts for generation［EB/OL］. （2021-01-01）［2024-10-19］.

[19]	Lester B， Al-Rfou R， Constant N. The power of scale for parameter-efficient prompt tuning［EB/OL］. （2021-04-17）［2024-10-19］.

[20]	Dettmers T， Pagnoni A， Holtzman A， et al. QLoRA： efficient finetuning of quantized LLMs［EB/OL］. （2023-05-23）［2024-10-19］.

[21]	Gao C， Zhang S Q. DLoRA： distributed parameter-efficient fine-tuning solution for large language model［EB/OL］. （2024-04-08）［2024-10-19］.

[22]	Touvron H， Martin L， Stone K， et al. Llama 2： open foundation and fine-tuned chat models ［EB/OL］. （2023-07-19）［2024-10-19］.

[23]	Nguyen T T， Wilson C， Dalins J. Fine-tuning llama 2 large language models for detecting online sexual predatory chats and abusive texts ［EB/OL］. （2023-08-28）［2024-10-19］.

[24]	Yang A， Yang B S， Hui B Y， et al. Qwen2 technical report ［EB/OL］. （2024-07-15）［2024-10-19］.

[25]	Zhang S， Peng B C， Zhao X P， et al. LLaSA： large language and E-commerce shopping assistant［EB/OL］. （2024-08-02）［2024-10-19］.

[26]	Yang A Y， Xiao B， Wang B N， et al. Baichuan 2： open large-scale language models［EB/OL］. （2023-09-19）［2024-10-19］.

[27]	Cao Y Q， Yang L， Wei C， et al. Financial text sentiment classification based on Baichuan2 instruction finetuning model［C］//2023 5th International Conference on Frontiers Technology of Information and Computer （ICFTIC）. Qiangdao， 2024： 403-406.

[28]	Jiang A Q， Sablayrolles A， Mensch A， et al. Mistral 7B ［EB/OL］. （2023-10-10）［2024-10-19］.

[29]	B T B， Chen J M. Performance assessment of ChatGPT versus bard in detecting Alzheimer’s dementia［J］. Diagnostics， 2024， 14（8）： 817.

[30]	Lin C Y. ROUGE： a package for automatic evaluation of summaries［C］//Annual Meeting of the Association for Computational Linguistics.Stroudsburg， 2004： 74-81.

[31]	Papineni K， Roukos S， Ward T， et al. Bleu： a method for automatic evaluation of machine translation［C］//Proceedings of the 40th Annual Meeting on Association for Computational Linguistics-ACL ’02. Philadelphia. 2001： 311-318.