基于卷积与注意力增强的股票价格预测方法

罗云芳; 张广莹

doi:10.3969/j.issn.1672-8513.2025.05.010

云南民族大学学报(自然科学版) ›› 2025, Vol. 34 ›› Issue (05) : 572 -581. DOI: 10.3969/j.issn.1672-8513.2025.05.010

信息与计算机科学

基于卷积与注意力增强的股票价格预测方法

罗云芳 ,
张广莹

作者信息 +

Stock price prediction method based on convolution and attention enhancement

Author information +

文章历史 +

PDF (3099K)

摘要

股票市场受宏观经济、政策变动及投资者行为等因素影响，呈现高度非线性和动态复杂性，传统预测模型难以有效应对.近年来，以长短期记忆网络（LSTM）为代表的深度学习方法在时序预测中取得进展，但在捕捉复杂特征关系和空间动态方面存在不足.为此，提出一种融合卷积神经网络与空间 - 通道注意力机制的时空通道长短期记忆网络（TSC - LSTM）模型，通过卷积特征提取、残差通道注意力及多尺度空间注意力模块，提高模型对股票价格局部与全局特征的表达能力.基于平安银行、贵州茅台及上证指数的实验研究表明，在MAE、MSE和RMSE指标上，TSC - LSTM模型取得了更小的误差，具备更高的预测精度与泛化性能.

Abstract

The stock market is influenced by factors such as macroeconomic conditions， policy changes， and investor behavior， exhibiting high nonlinearity and dynamic complexity， making it difficult for traditional prediction models to effectively respond. In recent years， deep learning methods represented by Long Short - Term Memory （LSTM） networks have made notable progress in time series prediction. Nevertheless， they still face limitations in capturing complex feature relationships and spatial dynamics. To address these issues， this paper proposes a Temporal - Spatial Channel Long Short - Term Memory （TSC - LSTM） model that integrates Convolutional Neural Networks （CNN） with spatial and channel attention mechanisms. By incorporating convolutional feature extraction， a residual channel attention module （RCAM）， and a multi - scale spatial attention module （MSAM）， the proposed model enhances the representation of both local and global features in stock price data. Experimental results on datasets from Ping An Bank， Kweichow Moutai， and the Shanghai Composite Index demonstrate that the TSC - LSTM model achieves lower errors in MAE， MSE， and RMSE metrics， indicating superior prediction accuracy and generalization capability.

Graphical abstract

关键词

股价预测 / 深度学习 / LSTM / 卷积神经网络 / 注意力机制

Key words

stock price prediction / deep learning / LSTM / convolutional neural network / attention mechanism

引用本文

引用格式 ▾

[Author(id=1229035116866887796, tenantId=1045748351789510663, journalId=1155139928303341631, articleId=1190611558779613220, orderNo=0, firstName=null, middleName=null, lastName=null, nameCn=null, orcid=null, stid=null, country=null, authorPic=null, dead=0, email=null, emailSecond=null, emailThird=null, correspondingAuthor=0, authorType=1, ext={EN=AuthorExt(id=1229035116929802367, tenantId=1045748351789510663, journalId=1155139928303341631, articleId=1190611558779613220, authorId=1229035116866887796, language=EN, stringName=Yun-fang LUO, firstName=Yun-fang, middleName=null, lastName=LUO, prefix=null, suffix=null, authorComment=null, nameInitials=null, affiliation=null, department=null, xref=null, address=School of Economics and Management，Yunnan Minzu University，Kunming 650504，China, bio=null, bioImg=null, bioContent=null, aboutCorrespAuthor=null), CN=AuthorExt(id=1229035116971745415, tenantId=1045748351789510663, journalId=1155139928303341631, articleId=1190611558779613220, authorId=1229035116866887796, language=CN, stringName=罗云芳, firstName=null, middleName=null, lastName=null, prefix=null, suffix=null, authorComment=null, nameInitials=null, affiliation=null, department=null, xref=null, address=云南民族大学经济与管理学院，云南昆明 650504, bio={"content":"

罗云芳（1971 - ），女，教授，硕士生导师.主要从事会计信息质量控制与公司治理研究.

"}, bioImg=null, bioContent=

罗云芳（1971 - ），女，教授，硕士生导师.主要从事会计信息质量控制与公司治理研究.

, aboutCorrespAuthor=null)}, companyList=[AuthorCompany(id=1229035116787196008, tenantId=1045748351789510663, journalId=1155139928303341631, articleId=1190611558779613220, xref=null, ext=[AuthorCompanyExt(id=1229035116803973228, tenantId=1045748351789510663, journalId=1155139928303341631, articleId=1190611558779613220, companyId=1229035116787196008, language=EN, country=null, province=null, city=null, postcode=null, companyName=null, departmentName=null, remark=School of Economics and Management，Yunnan Minzu University，Kunming 650504，China), AuthorCompanyExt(id=1229035116816556141, tenantId=1045748351789510663, journalId=1155139928303341631, articleId=1190611558779613220, companyId=1229035116787196008, language=CN, country=null, province=null, city=null, postcode=null, companyName=null, departmentName=null, remark=云南民族大学经济与管理学院，云南昆明 650504)])]), Author(id=1229035117017882768, tenantId=1045748351789510663, journalId=1155139928303341631, articleId=1190611558779613220, orderNo=1, firstName=null, middleName=null, lastName=null, nameCn=null, orcid=null, stid=null, country=null, authorPic=null, dead=0, email=null, emailSecond=null, emailThird=null, correspondingAuthor=0, authorType=1, ext={EN=AuthorExt(id=1229035117072408729, tenantId=1045748351789510663, journalId=1155139928303341631, articleId=1190611558779613220, authorId=1229035117017882768, language=EN, stringName=Guang-ying ZHANG, firstName=Guang-ying, middleName=null, lastName=ZHANG, prefix=null, suffix=null, authorComment=null, nameInitials=null, affiliation=null, department=null, xref=null, address=School of Economics and Management，Yunnan Minzu University，Kunming 650504，China, bio=null, bioImg=null, bioContent=null, aboutCorrespAuthor=null), CN=AuthorExt(id=1229035117118546082, tenantId=1045748351789510663, journalId=1155139928303341631, articleId=1190611558779613220, authorId=1229035117017882768, language=CN, stringName=张广莹, firstName=null, middleName=null, lastName=null, prefix=null, suffix=null, authorComment=null, nameInitials=null, affiliation=null, department=null, xref=null, address=云南民族大学经济与管理学院，云南昆明 650504, bio={"content":"

张广莹（2001 - ），女，硕士研究生.主要从事大数据与金融量化，资本市场问题研究.

"}, bioImg=null, bioContent=

张广莹（2001 - ），女，硕士研究生.主要从事大数据与金融量化，资本市场问题研究.

登录浏览全文

4963

注册一个新账户忘记密码

在现代金融体系中，股票市场作为资本配置与资源优化的核心平台，对国家经济发展和企业融资活动具有重要推动作用.随着全球资本市场的迅速扩张与金融工具的不断创新，股票价格的波动性日益增强，使得其预测难度加剧.然而，准确预测股票价格不仅对于投资者制定买卖策略、控制风险至关重要，也对监管机构实现市场稳定与风险防范具有重要意义.因此，如何构建更高效、智能的预测模型，始终是金融工程与人工智能交叉领域的研究重点.股票价格受到宏观经济、政策变动、企业基本面及市场情绪等多重因素影响，呈现出高度非线性和不稳定性.这种复杂特征使得传统的线性统计模型如自回归（AR）、滑动平均（MA）、ARIMA及GARCH等虽在一定程度上能描述趋势波动，但难以应对高维特征间的非线性交互与长期依赖关系.

近年来，深度学习的发展为股票预测模型带来了新思路.自Rumelhart等^［1］提出反向传播算法（Backpropagation，BP）以来，神经网络的训练效率和建模能力得到了显著提升.例如，曾丽芳等^［2］构建了BP、PCA - BP、GA - BP 3类神经网络模型，并与ARIMA模型进行对比分析，实验研究表明，BP神经网络在股价预测精度方面展现出优于传统统计模型的预测能力.在时间序列数据处理领域，深度学习模型逐渐成为主流方法，在时间序列建模方面，循环神经网络（RNN）^［3］及其改进模型——长短期记忆网络（LSTM）^［4］——因其优秀的序列依赖建模能力而被广泛应用.例如，李丽萍等^［5］基于云南旅游类股票的历史交易数据构建了LSTM神经网络模型，并与BP神经网络和Elman网络^［6］进行了对比研究.研究结果表明，LSTM在预测精度、误差控制以及拟合能力等方面均表现出显著优势.

然而，尽管LSTM有效缓解了梯度消失问题，在建模长序列依赖方面表现优异，但其对高维特征间的空间依赖关系建模能力仍然有限.这是由于其模型结构仍以时间序列的单向递推为主^［7］，难以充分建模长距离特征之间的全局依赖关系，且在面对多变量输入时缺乏有效的特征选择与交互建模机制.为克服上述问题，Vaswani等^［8］提出了Transformer，其核心机制是自注意力（Self - Attention），使模型能够有效捕捉序列中各位置之间的全局依赖关系，从而显著提升长序列建模的能力.Transformer在金融领域得到广泛应用，例如Chen等^［9］提出的Multi - iTR模型，通过构建共享的Transformer编码器以挖掘多个股票间的共性演化特征，实现多支股票的并行预测，有效提升了收盘价预测的准确性.

尽管Transformer在长序列建模方面展现出显著优势，但其自注意力机制存在平方级计算复杂度，导致模型在训练阶段计算开销大、推理效率低^［10］.近年来，研究者逐渐关注卷积神经网络（CNN）在时间序列预测中的应用.CNN借助高效的并行卷积操作，能够有效提取局部时序特征，特别适用于捕捉股票市场中短期内的快速波动行为.例如，Mehtab等^［11］提出了基于CNN - LSTM的混合预测模型，分别利用CNN捕捉多变量金融数据中的局部模式，结合LSTM的时间记忆结构建模股票开盘价的日内波动，有效提升了模型在高频金融时间序列上的预测精度与运行效率；Lu等^［12］进一步增强CNN - LSTM模型，提出了CNN - BiLSTM - AM模型，将CNN的局部特征提取能力与双向LSTM的时序建模能力相结合，并引入注意力机制以增强模型对关键时刻特征的感知能力，在上证指数的实验预测中表现出优于多种对比模型的准确性和稳定性.尽管上述方法得了一定进展，但它们普遍受CNN局部感受野的限制^［13］，导致在处理长序列或特征交互关系高度复杂的金融数据时，其性能仍存在提升空间.

1 网络架构与方法

1.1 基于CNN的特征提取组件

在TSC - LSTM模型中（如图1a），特征提取组件的主要作用是从原始多变量时间序列数据中挖掘局部的时序特征和高层抽象表示.该模块接收形如

C × T

的输入特征图，其中C表示特征维度数，T表示时间步长，通过一系列卷积操作对输入进行逐层处理，提取高阶语义信息.

具体而言，该模块由3组一维卷积块（Conv Block）构成，经过3组Conv Block处理后，输出特征图的维度被映射为

20 C × T

，为后续注意力机制与LSTM模块提供更具表达力的特征表示.为保持时间步长维度不变，卷积操作采用了适当的填充策略，从而有效保留原始时间序列的结构信息.

每组Conv Block的具体结构如图1（b）所示，具体来说，Conv Block由3个的1D卷积层构成.前2个卷积层（卷积核大小为3）依次进行BatchNorm以及ReLU激活，用于提取局部特征；最后一个卷积层（卷积核大小为1）用于调整维度以实现跳跃连接，进一步提高了模型在深层网络中的训练稳定性与特征表达能力.

1.2 注意力机制增强组件

注意力机制增强组件由残差通道注意力模块（residual channel attention module，RCAM）与多尺度空间注意力模块（multi - scale spatial attention module，MSAM）构成.该组件旨在提升CNN在通道维度与时间序列结构中的特征表达能力，通过引导模型关注更加关键的特征区域，有效缓解传统CNN由于局部感受野有限而导致的全局建模能力不足，从而进一步提高整体预测精度.

1.2.1 RCAM模块

RCAM的结构如图2所示.其主要作用是结合残差与通道注意力机制，强化了特征通道间的重要性建模，从而增强特征的表达能力.

RCAM的主要包括2个阶段，分别是残差连接阶段与通道注意力增强阶段.

在残差连接阶段，若输入RCAM的特征图为

x r ∈ R C × T

，在本节记录C为RCAM模块实际的输入特征数，T为时间步长度.则残差连接阶段可用公式（1）表达.

x r' = R e L U (B N (C o n v k = 3 (x r))) ⊕ x r

.（1）

其中，

x r' ∈ R C × T

表示RCAM模块中，经过残差连接后的输出特征；

C o n v k = 3

表示核大小为3的一维卷积操作；BN表示BatchNorm批量归一化操作；ReLU表示激活函数；

⊕

表示矩阵相加.

在通道注意力增强阶段，考虑到二维卷积中的通道数目可类比于一维卷积中的特征数C，故对

x r' ∈ R C × T

进行转置运算，并与其本身进行矩阵乘积运算，以度量不同通道之间的相似性.随后，通过softmax激活函数对结果进行归一化处理，得到通道注意力权重图

x c ∈ R C × C

.上述过程可用公式（2）表达.

x c = s o f t m a x (x r' ⊗ t r a n s (x r'))

.（2）

其中，trans表示矩阵的转置运算，

⊗

表示矩阵乘法.

在获取

x c ∈ R C × C

后，将其用于对原始特征

x r' ∈ R C × T

进行加权，从而获得增强后的通道注意力特征图

x c a ∈ R C × T

.具体计算方式见公式（3）.

x c a = x c ⊗ x r'

.（3）

最后，为优化训练过程中的梯度计算，将

x r'

再次通过残差连接与

x c a

融合，得到RCAM模块的输出

O u t R C A M ∈ R C × T

.具体计算方式见公式（4）.

O u t R C A M = x r' ⊕ x c a

.（4）

1.2.2 MSAM 模块

最近的研究^［14］表明，多尺度金字塔池化模块表现出低通滤波特性，而卷积由于其局部感受野，表现出高通滤波特性.低频信息有助于捕捉序列中的全局特征模式，而高频信息则传递了各时间步局部变化的细节特征^［15］.考虑到低频信息与高频信息在特征表达中的互补性，将卷积操作与多尺度金字塔池化策略相结合，设计了MSAM，其结构如图3所示.

MSAM的过程主要分为3个阶段，分别是多尺度特征提取阶段、空间注意力增强阶段、多尺度特征拼接阶段.

在多尺度特征提取阶段，MSAM通过并行方式融合多尺度池化与卷积操作.具体而言，该模块分别执行全局平均池化，以及窗口大小为9、5和2的一维平均池化操作，同时引入卷积核大小为1的一维卷积以增强局部特征变换能力.多尺度平均池化能够有效突破CNN网络受限于单一局部感受野的瓶颈，使模型在保持局部敏感性的同时，更充分地捕获序列中的全局上下文信息，从而提升整体特征的表达能力.若给定MSAM的输入特征

x m ∈ R C × T

，在本节记录C为MSAM模块实际的输入特征数，T为时间步长度.多尺度特征提取阶段可用式（5）表达.

y 1 = G l o b a l P o o l (x m); y 2 = A v g P o o l s i z e = 9 (x m); y 3 = A v g P o o l s i z e = 5 (x m); y 4 = A v g P o o l s i z e = 2 (x m); y 5 = C o n v k = 1 (x m) .

（5）

式（5）中，

y 1

到

y 5

表示对应操作的输出特征，GlobalPool表示全局平均池化操作，AvgPool表示不同窗口的平均池化操作.

C o n v k = 1

表示核大小为1的一维卷积操作.

由于各池化分支输出的时间步长不同，故将

y 1

到

y 4

的尺寸使用线性插值的方式统一恢复至

C × T

，并与

y 5

进行残差连接.上述过程表示如式（6）.

y i' = U p (y i) ⊕ y i

.（6）

其中，

y i' ∈ R C × T

表示经过残差融合后的各池化分支的输出，且

i ∈ {1,2, 3,4}

表示分支的下标.Up表示线性插值的上采样操作.

在空间注意力（spatial attention，SA）增强阶段，MSAM会对

y i' ∈ R C × T

进行空间域上的建模，以提升其时序结构表达能力.具体而言，首先根据每个分支计算对应的空间注意力权重图

x i s a ∈ R T × T

x i s a = s o f t m a x (t r a n s (y i') ⊗ y i')

.（7）

其中，trans表示矩阵的转置运算，

⊗

表示矩阵乘法，用于度量不同时间步之间的相似性，softmax为激活函数.

随后将

x i s a

与原始特征

y i'

进行加权融合，生成经空间注意力增强后的输出特征

y i s a ∈ R C × T

，其计算方式见公式（8）.

y i s a = y i' ⊗ x i s a

.（8）

在多尺度特征拼接阶段，MSAM进行聚合操作，具体而言，其将各个分支经过空间注意力增强后的特征在通道维度进行拼接，得到聚合后的特征

x c a t ∈ R 4 C × T

，其计算方式见公式（9）.

x c a t = ∑ i = 1 4 c o n c a t (y i s a)

.（9）

其中，concat表示特征图在通道维度的拼接操作.最后，MSAM通过核大小为1的一维卷积来调整最终的输出通道数，得到MSAM的输出

O u t M S A M ∈ R 2 C × T

，其计算方式见公式（10）.

O u t M S A M = R e L U (B N (C o n v k = 1 (x c a t)))

.（10）

其中，BN表示BatchNorm批量归一化操作；ReLU表示激活函数.

1.3 预测输出组件

在TSC - LSTM中，预测输出组件承接前两部分所提取并增强的特征信息，完成对目标时间序列的最终预测任务.前置的CNN特征提取组件有效捕捉了局部时序特征，而RCAM与MSAM组成的注意力机制增强组件进一步从通道和时间维度上突出关键特征，从而为LSTM提供了更加结构化且语义丰富的输入表示.

如图1（a）橘色虚线框所示，为预测输出组件的结构示意.经过CNN特征提取与注意力增强后，图1中MSAM模块的实际输出张量

O u t M S A M ∈ R 40 C × T

，此处C表示图1中的输入特征数目.为适配LSTM的输入格式，该张量在批次（BatchSize）维度下被重排为三维结构，进而得到LSTM时序建模的输入

I n p u t l s t m ∈ R B × T × 40 C

.其中B为BatchSize，T为时间步长.

LSTM在此基础上进行长时序依赖建模，输出序列特征随后通过全连接层映射至目标变量空间，实现对第T + 1天股票收盘价的预测.整个网络的训练过程以预测值与真实值之间的误差为优化目标，采用均方误差损失函数（mean squared error，MSE）进行约束，设TSC - LSTM对第i个样本在第T + 1天对股票收盘价的预测值为

y^i

，而该天对应的真实值为

y i

，则损失函数定义见公式（11）.

𝓁 M S E = 1 N ∑ i = 1 N (y^i - y i) 2

.（11）

其中，N为BatchSize中样本总数.该损失函数能够有效度量模型在数值回归任务中的预测偏差，具有平滑、可导等性质，通过最小化

𝓁 M S E

，模型可持续提升在趋势拟合与误差控制方面的能力.

2 数据集与指标

本节将详细介绍本文所采用的数据集来源、特征选取策略以及模型性能评估所采用的指标体系.

2.1 数据集及特征选取

本文实验数据来源于国泰安金融数据库，包括平安银行（股票代码：000001）、贵州茅台（股票代码：600519），以及市场指数——上证指数（SSE composite index）.平安银行代表金融行业中市值大、交易活跃的蓝筹银行股，贵州茅台代表消费类龙头股，波动相对稳定，具有强烈的基本面驱动，上证指数中国大陆最重要的综合性股票指数，代表整体市场趋势与系统性风险.数据包含了不同行业、不同波动性资产以及个股与指数，数据覆盖时间范围为2014年1月1日 — 2024年11月1日，横跨近十年，涵盖了牛市与熊市以及震荡等多种市场状态，具有良好的时间跨度与市场代表性.所采集的数据按照时间顺序划分为训练集、验证集和测试集，以满足模型训练与性能评估的需求.

在输入特征构建方面，本文从股票交易中广泛使用的基本面指标中，选取了6项关键特征变量，分别为：开盘价、收盘价、最高价、最低价、成交量以及成交金额.上述特征共同构成了每个时间步的输入特征向量

x t

见公式（12）.

x t = [O p e n t, C l o s e t, H i g h t, L o w t, V o l u m e t, A m o u n t t]

.（12）

其中各变量含义如下：

O p e n t

为当日开盘价，表示该交易日第一个成交价格，反映市场当日开盘时的定价水平；

C l o s e t

为当日收盘价，表示该交易日最后一笔成交价格，用于衡量当日市场表现；

H i g h t

为该日内所有成交价格中的最大值，反映市场短期上行波动幅度；

L o w t

为该日内所有成交价格中的最小值，反映市场短期下行波动幅度；

V o l u m e t

为成交量，用来衡量市场活跃程度；

A m o u n t t

为成交金额，指该日股票交易的总资金量，体现资金在市场中的流入强度.

上述特征共同构成了对市场价格行为与交易活跃度的多维度描述，既反映了价格走势的结构性信息，又隐含了市场情绪与流动性的动态变化，为后续的时间序列建模与预测任务提供了扎实的数据基础.本文以“收盘价”作为主要预测目标，并围绕该目标变量开展多模型性能对比与实验分析，以全面评估所提出模型在金融时序预测场景下的有效性.

2.2 数据预处理

金融时间序列表现出明显的统计特征，包括较强的自相关性、显著的波动性，以及明显的周期性和趋势性.通常情况下，历史价格和交易行为会显著影响未来的市场走势，而重大事件或政策干预则可能导致结构性波动.此外，由于市场受到多种复杂因素的共同作用，价格与成交量数据中往往存在大量噪声和非系统性的扰动.针对上述特性，首先对原始数据进行标准化处理，以统一数值尺度、提高模型收敛速度并抑制异常值干扰.标准化公式如式（13）.

X n = X - μ σ

.（13）

式中，

X

表示原始特征值；

μ

与

σ

分别为该特征的均值与标准差；

X n

则为经标准化处理后的特征值.该标准化方法能够有效消除不同特征维度之间的量纲差异，提升模型训练的稳定性与效率.

标准化完成后，本文采用如图4所示的滑动窗口方法对时间序列数据进行分段处理.具体而言，将每7天作为一个历史输入窗口，结合未来若干步的预测输出构造训练样本，并按时间顺序将数据划分为训练集（90%）、验证集（5%）和测试集（5%）.这一处理方式不仅有助于模型捕捉时间序列中的短期变化和长期趋势，也确保了数据划分的时序一致性，从而提升预测任务的合理性与泛化能力.

2.3 模型评估指标

为全面评估预测模型在回归任务中的性能，本文选取3种常用误差类指标：平均绝对误差（mean absolute error，MAE）、均方误差（mean squared error， MSE）以及均方根误差（Root mean squared error， RMSE）.

MAE衡量预测值与真实值之间的平均绝对差值，反映模型整体的平均偏差，数值越小表示预测结果与实际值之间的偏离越小.

MSE计算预测误差的平方均值，更加敏感于大幅度偏差，从而强调对异常误差的惩罚能力.

RMSE为MSE的平方根，保留了其对大误差敏感的特性，同时与原始数据保持相同的量纲，更利于结果的直观理解与模型间对比.

三者的具体计算公式见公式（14） ~ （16）.

M A E = 1 n ∑ i = 1 n y i - y^i

.（14）

M S E = 1 n ∑ i = 1 n (y i - y^i) 2

.（15）

R M S E = 1 n ∑ i = 1 n (y i - y^i) 2

.（16）

其中，

y i

表示第i个样本的真实值，

y^i

为对应的预测值，n为样本总数.上述三项指标均以误差为衡量核心，其数值越低，通常代表模型在整体拟合精度、误差控制能力及对异常值的鲁棒性方面表现越优.因此，这些指标为模型性能的综合评估提供了定量且可靠的依据.

3 实验

本节将对TSC - LSTM模型的性能表现进行实验评估，内容包括消融实验与主流对比模型的综合对比分析.通过一系列系统性实验，验证本文所提出模块在整体架构中的有效性，并全面评估TSC - LSTM相较现有方法的预测性能优势.所有实验均基于单张RTX 4070Ti GPU，并在PyTorch 2.4.1、CUDA 11.8和cuDNN 8.9平台上进行.

3.1 消融实验

为验证TSC - LSTM中各关键模块对模型性能的贡献，本文设计了包含多个子模块组合的消融实验，逐步引入特征提取与注意力机制组件，并对其性能进行定量评估.具体模型设置如下：

LSTM：基础模型，仅使用标准LSTM结构进行序列建模；

LSTM + CNN：在LSTM的基础上引入CNN特征提取模块；

LSTM + CNN + RCAM：在CNN - LSTM的基础上引入RCAM；

LSTM + CNN + MSAM：在CNN - LSTM的基础上引入MSAM；

Ours（TSC - LSTM）：即本文提出的完整模型，融合CNN特征提取、RCAM和MSAM的LSTM架构.其消融结果如表1所示.

在表1中分别在平安银行、贵州茅台和上证指数3个数据集上，从MAE、MSE、RMSE3个维度对各模型进行对比评估.实验结果表明，随着模块的逐步引入，模型的预测性能持续提升，在平安银行、贵州茅台与上证指数3个数据集上，与基础LSTM相比，TSC - LSTM在平安银行数据集上的MAE从0.205 4降至0.062 1，下降达69.8%；RMSE从0.202 0降至0.081 6，下降59.6%.在贵州茅台数据集上，TSC - LSTM的MAE从0.203 5降至0.055 0，误差降低72.9%，RMSE降幅亦达59.2%.在上证指数上，TSC - LSTM的MAE从0.210 5降至0.077 3，RMSE从0.232 1降至0.108 3，分别下降63.3%和53.4%.

进一步地，相比仅引入CNN的LSTM - CNN结构，TSC - LSTM的MAE仍能平均降低约42.1%，说明注意力机制在对特征加权、提升关键时序建模效果方面具有显著作用.此外，相比单独加入RCAM或MSAM的模型，TSC - LSTM的性能也均优于二者，说明双重注意力机制具备互补性和协同增强效应.整体来看，随着卷积模块（CNN）与2个注意力机制模块（RCAM、MSAM）的逐步引入，模型预测性能持续提升，充分验证了各结构组件在建模能力与特征表达方面的重要作用.

3.2 对比实验

本文对比实验选取了多种具有代表性的时间序列预测模型，涵盖传统统计方法与深度学习模型.包括：ARIMA（自回归滑动平均模型，一种传统的线性时间序列模型），CNN - BiLSTM - AM（融合卷积、BiLSTM与注意力机制的组合模型），Multi - iTR（基于Transformer的多任务学习框架），BiLSTM（双向长短期记忆网络）以及GRU^［16］（门控循环单元）.所有模型在相同的输入特征、数据划分及训练超参数设置下进行训练与评估，并统一采用MAE、MSE、RMSE 3项指标进行性能比较.实验结果如表2所示.

表2展示了在平安银行、贵州茅台和上证指数3个数据集上的预测性能比较结果.总体来看，TSC - LSTM模型在所有数据集上的MAE、MSE和RMSE指标上均取得最优或近最优的表现，相较传统方法和多种深度学习基线方法展现出更强的预测能力与稳健性.

在平安银行数据集中，TSC - LSTM的RMSE为0.081 6，相较 ARIMA（0.118 0）降低了30.8%，相较GRU（0.102 1）和BiLSTM（0.086 0）分别降低了20.1%和5.1%.在贵州茅台数据上，TSC - LSTM的MAE为0.055 8，较GRU（0.063 7）下降12.4%，较BiLSTM（0.089 3）下降37.5%.此外，在上证指数这一指数型标的上，TSC - LSTM的MAE和RMSE分别为0.077 3和0.108 3，分别比ARIMA降低45.2%和43.5%，比BiLSTM 降低30.2%和26.4%.上述结果表明，TSC - LSTM所引入的多尺度卷积结构与双重注意力机制能够有效捕捉时间序列中的复杂空间—时间动态特征，显著提升模型的预测准确率与泛化能力.

为进一步验证模型在实际预测任务中的表现，本文绘制了平安银行、贵州茅台和上证指数3类数据集的可视化预测结果，如图（5） ~ （7）所示.

图7中蓝色曲线为TSC - LSTM模型预测值，紫色曲线为真实股价.从图7中可以观察到，在大多数时间段内，预测曲线与真实走势在整体趋势上高度一致，特别是在股价较为平稳的阶段，模型能够有效捕捉其长期变化趋势，并对局部短期波动做出合理响应，体现出良好的时序建模能力.即便在市场剧烈波动的情况下，模型依然能够在较大范围内反映股价的走势方向，表现出较强的鲁棒性.同时，不同模型的拟合效果存在明显差异，本文提出的TSC - LSTM模型在大多数区间内与真实值保持较高的一致性，显示出对金融时序波动规律的更精准刻画能力.相比之下，传统LSTM、GRU及BiLSTM模型在部分关键区段，尤其是股价急剧变化时段，预测结果存在较大偏差，表现出稳定性与泛化能力的不足.

4 结语

针对股票市场价格预测领域面临的高非线性、动态复杂性及不确定性等挑战，提出了一种融合卷积特征提取与空间 - 通道注意力机制的时空通道长短期记忆网络（TSC - LSTM）模型.

通过构建卷积特征提取模块（CNN）、残差通道注意力模块（RCAM）及多尺度空间注意力模块（MSAM），该模型有效克服了传统LSTM模型在捕捉特征之间复杂非线性关系和空间动态方面的不足，显著提升了对股票价格波动特征的建模能力.通过实验研究，以平安银行、贵州茅台和上证指数3个典型金融数据集为基础，对比传统统计模型（如ARIMA）、经典深度学习模型（如GRU、BiLSTM）以及先进的组合模型（如CNN - BiLSTM - AM和Multi - iTR），TSC - LSTM模型在MAE、MSE与RMSE等关键评价指标上均表现出明显优势，证明了所提方法在实际金融场景下的预测能力与泛化性能.此外，通过消融实验进一步验证了CNN特征提取和空间 - 通道注意力机制（RCAM、MSAM）对模型性能提升的必要性与有效性.

综上所述，TSC - LSTM模型通过综合多尺度特征提取与注意力机制，有效增强了模型的特征表达能力，更准确地刻画了股票价格非线性演化规律，为股票市场预测分析和投资决策提供了可靠的技术支持.未来的研究方向包括引入更多宏观经济及政策性因素以进一步提升模型的预测精度、增强模型的可解释性以及扩展其在更多金融领域中的应用范围.

参考文献

原文顺序 | 出版日期 | 本文引用

[1]	RUMELHART D E， HINTON G E， WILLIAMS R J. Learning representations by back - propagating errors［J］. Nature，1986， 323（6088）：533 - 536.

[2]	曾丽芳，李丽萍，江绍萍.基于BP神经网络的股票价格预测［J］.云南民族大学学报（自然科学版），2023，32（5）：658 - 665.

[3]	BAO W， CAO Y， YANG Y， et al. Data - driven stock forecasting models based on neural networks： a review［J］. Information Fusion， 2024， 102616.

[4]	HOCHREITER S， SCHMIDHUBER J. Long short - term memory［J］. Neural computation， 1997，9（8）：1735 - 1780.

[5]	李丽萍，曾丽芳，江绍萍，等. 基于 LSTM 神经网络的股票价格预测［J］.云南民族大学学报（自然科学版），2023，32（4）： 528 - 532.

[6]	HUANG J， QIN R. Elman neural network considering dynamic time delay estimation for short - term forecasting of offshore wind power［J］. Applied Energy， 2024，358：122671.

[7]	TANG Y， WANG Y， GUO J， et al. A survey on transformer compression［J］. arXiv preprint arXiv：2024.

[8]	VASWANI A， SHAZEER N， PARMAR N， et al. Attention is all you need［C］//Proceedings of the 31st Conference on Neural Information Processing Systems （NIPS 2017）.

[9]	CHEN Z， LIU B， ZHENG J，et al. Multi - Itr： A transformer - based multi - task learningframework for stock closing price prediction［J］. Available at SSRN， 5170218.

[10]	MA X， ZHANG X， PUN M O. Rs 3 mamba： Visual state space model for remote sensing image semantic segmentation［J］. IEEE Geoscience and Remote Sensing Letters， 2024，21：1 - 5.

[11]	MEHTAB S， SEN J. Analysis and forecasting of financial time series using CNN and LSTM - based deep learning models［C］//Advances in Distributed Computing and Machine Learning： Proceedings of ICADCML 2021. Springer Singapore，2022：405 - 423.

[12]	LU W， LI J， WANG J， et al. A CNN - BiLSTM - AM method for stock price prediction［J］. Neural Computing and Applications， 2021， 33（10）： 4741 - 4753.

[13]	RUAN J， LI J， XIANG S. Vm - unet： Vision mamba unet for medical image segmentation［J］. arXiv preprint arXiv：2402.02491，2024，

[14]	DAI D， DONG C， YAN Q， et al. I2u - net： A dual - path u - net with rich information interaction for medical image segmentation［J］. Medical Image Analysis， 2024， 97： 103241.

[15]	ZHAO H， SHI J， QI X， et al. Pyramid scene parsing network［C］//Proceedings of the IEEE conference on computer vision and pattern recognition.2017：2881 - 2890.

[16]	CHO K， VAN MERRIËNBOER B， GULCEHRE C， et al. Learning phrase representations using RNN encoder - decoder for statistical machine translation［J］. arXiv preprint arXiv：1406.1078，2014，