基于编码改进和频域增强的非平稳长时间序列预测

王鉴潇 ,  申时凯 ,  佘玉梅 ,  杨斌 ,  洪燚 ,  陶玉虎

云南民族大学学报(自然科学版) ›› 2025, Vol. 34 ›› Issue (03) : 350 -355+368.

PDF (1285KB)
云南民族大学学报(自然科学版) ›› 2025, Vol. 34 ›› Issue (03) : 350 -355+368. DOI: 10.3969/j.issn.1672-8513.2025.03.013
信息与计算机科学

基于编码改进和频域增强的非平稳长时间序列预测

作者信息 +

Non-Stationary long-term time series prediction based on encoding improvements and frequency domain enhancement

Author information +
文章历史 +
PDF (1315K)

摘要

针对Informer模型未考虑现实数据的非平稳性和频域信息的问题,提出了一种非平稳长时间序列预测模型,核心思想是编码改进和频域增强,为了非平稳信息恢复到时间依赖性中,时间绝对编码器用于提取时间点的相互依赖;同时,通过离散余弦变换的频域增强通道注意力机制,自适应地捕捉通道之间在频域中的相互依赖性,提高了预测性能.实验结果表明,相较于其他模型,所提模型在数据集上的均方误差(MSE)平均下降58.4%,最高下降66.5%.

关键词

长时间序列预测 / 时间绝对编码器 / 频域增强通道注意力 / 离散余弦变换

Key words

Long - term time series prediction / time absolute position encoding / frequency enhanced channel attention / discrete cosine transform

引用本文

引用格式 ▾
王鉴潇,申时凯,佘玉梅,杨斌,洪燚,陶玉虎. 基于编码改进和频域增强的非平稳长时间序列预测[J]. 云南民族大学学报(自然科学版), 2025, 34(03): 350-355+368 DOI:10.3969/j.issn.1672-8513.2025.03.013

登录浏览全文

4963

注册一个新账户 忘记密码

现实时间序列数据通常具有非平稳性且包含丰富的频域信息1,这需要深度学习模型进行有效利用.然而,现有模型的设计往往忽略了数据的自然属性及规律.在长序列预测中,Zhou等2提出的Informer模型以注意力机制为核心,但注意力机制存在一个固有的局限性,即无法充分捕捉输入序列的顺序.对于后续将非平稳信息恢复到时间依赖性来说,添加位置信息至关重要,因为该模型在其他方面对输入顺序缺乏敏感性,这使得它在处理顺序数据时表现不佳.
数据的非平稳性是指统计属性和联合分布会随时间连续变化.在以往的时间序列模型中,通常通过对数据进行平稳预处理3-5,非平稳性是现实世界中时间序列的固有属性,削弱这种特性会大大降低精确度及实际意义.尽管Liu等6提出的非平稳Transformers模型考虑数据的非平稳性,但在模拟频域模式上存在不足.
频域信息在跟踪和预测不同时间周期内的数据至关重要.仅仅单纯依赖注意力机制难以从分散的时间点中找到可靠的依赖关系7,导致模型的泛化性不佳.以往的工作中使用傅里叶变换提取数据频域信息,如Wu等8提出的Autoformer模型使用该方法有效计算自相关函数,Wu等9提出的TimesNet模型通过快速傅里叶变换提取周期性模式,然而由于傅里叶变换周期性定义,可能会引入高频分量导致吉布斯现象10.
综上所述,Informer模型存在以下问题:原位置编码无法充分捕捉数据的顺序性;缺乏有效考虑数据的非平稳性和提取频域信息特征的能力.

1 模型架构

与以往基于Informer的设计不同,TFEformer重点从位置编码和频域信息的自然观点来分析预测任务,其中包含时间绝对位置编码器、去平稳稀疏自注意力和频域提取模块,整体算法如图1a所示.

1.1 时间绝对位置编码器

自注意力考虑绝对位置编码11,并将绝对位置嵌入 P = ( p 1 , . . . , p L )添加到变量 x中,表示为式(1).

x i = x i + p i.

p i R d m o d e l,最常见的绝对位置编码就是Transformer编码器1112.绝对位置编码时可以表示为式(2).

p i ( 2 k ) = s i n i ω k , p i ( 2 k + 1 ) = c o s i ω k , ω k = 10000 - 2 k / d m o d e l.

k的取值范围为 0 , d m o d e l 2 d m o d e l是嵌入维度, ω k是频率项.

对于原始编码器,如图2a红线所示较高的嵌入维度可能由于额外的参数导致模型性能下降,低维嵌入下变量之间相似,说明不能利用嵌入向量来区分不同的变量.为了减轻这种情况,重新考虑频率项输入长度和嵌入维度如式(3)所示.

ω k T i m e = ω k × d m o d e l L.

其中 L是输入序列长度.图2b所示, L较大时,只有序列中相似位置具有单调递减趋势,随着序列中距离位置的增加( k > 50),黄线波动陡峭,递减程度变化不大,但蓝线下降趋势平缓,能稳定反映2个位置之间的距离;图2c所示, L较小时,两者相比,蓝线递减程度越大表明嵌入编码相似度低.由此可知时间绝对位置编码可有效利用嵌入向量空间,以更好区分不同位置.

1.2 去平稳稀疏自注意力

为了解决模型中数据因归一化操作引起的过度平稳化问题,根据非平稳Transformer6设计去平稳稀疏自注意力机制. 序列 x ' R L × C由序列 x R L × C归一化得到,其中 L C分别为输入长度和通道数.学习得去平稳因子 τ = σ x 2 R + Δ = K μ Q R L × 1,去平稳稀疏自注意力如公式(4) ~ (5)所示.

l o g τ = M L P ( σ x , x ) , Δ = M L P ( μ x , x ).
A t t n ( Q ' , K ' , V ' , τ , Δ ) = S o f t m a x ( τ Q ' ¯ K ' Τ + 1 Δ Τ d m o d e l ) V '.

其中, Q ' K ' V ' R L × d m o d e l是注意力输入维度为 d m o d e l向量查询 Q、键 K和值 V通过与原始数据的方差 σ x、平均值 μ x计算得到, Q ' ¯ Q '的稀疏矩阵, 1 R L × 1是一个全1的向量.这种设计既能提取重要的数据特征,又不会遗漏非平稳数据中的关键信息.

2 频域增强通道注意力机制

受到Hu等13提出的SEnet的启发,通过引入全局信息并重新加权特征通道,在时间序列预测任务中重视全局信息的融合与利用14,将通道注意力与频域增强组合用于提取频域信息.如图1b所示,一种在频域中显式建模以增强通道信息相互依赖特征的方法.

定理 离散余弦变换可以从本质上避免由傅里叶变换的周期问题引起的吉布斯现象,并且具有比傅里叶变换更有效的能量压缩.

频域增强往常的方法都是用傅里叶变换(fast fourier transform, FFT),由定理本节使用了离散余弦变换(discrete cosine transform, DCT)方法来解决吉布斯现象.对于时间序列数据 x R C × L L为输入序列长度,C为通道数,需要在时间维度 d m o d e l通过压缩时间信号 x的生成信道描述符.

首先,频域增强通道注意力将输入通道维度拆分为 n组, V p = R 1 × L p 0,1 , . n - 1,对于每一子组,用DCT方法处理低频到高频,这样就可以得到公式(6).

F i = D C T j V i = j = 0 d m o d e l - 1 V l i c o s 2 j + 1 l π 2 d m o d e l.

其中 i 0,1 , , n - 1 l 0,1 , , L - 1 j 0,1 , , d m o d e l - 1 l是通道输入变量长度, j V i的频域分量, F i R 1 × L是DCT后 L维向量的转换,通过叠加运算可以得到整个通道变量见公式(7).

F = D C T V = s t a c k F 0 , F 1 , , F n - 1.

其中 F R C × L V R C × L的注意向量.当模型获得了频域,注意力权重就可以进行学习.整个频域增强通道注意力机制框架可以写成等式(8).

F C - A = σ W 2 δ W 1 D C T V.

其中A、 σ δ分别指注意力向量、ReLU和sigmoid激活函数, W 1 W 2为全连接层.通过等式(8)每个通道特征与每个频域分量相互作用,从频域中全部获取重要的时间信息,这即将提升模型提取特征的多样性.

3 实验

3.1 数据集

实验使用了以下数据集:(1)Electricity记录2012年 — 2014年321个客户端每小时用电量;(2)ETT包含电力变压器2016年7月 — 2018年7月收集油温和电力负荷的时间序列;(3)Exchange15收集8个国家1990年 — 2016年的每日汇率面板数据;(4)ILI包括2002年 — 2021年美国疾病控制和预防中心每周数据;(5)Weather包含2020年生物地球化学研究所气象站收集气象时间序列.根据时间顺序将每个数据集分为训练集、验证集和测试集,ETT分割比为6∶2∶2,其他数据集的分割比为7∶1∶2.

3.2 评价指标

为了准确评价模型性能,选择平均绝对误差 (mean absolute error,MAE)和均方误差(mean square error,MSE)2种预测评价指标,分别如式(9)所示:

M A E = 1 n m = 1 n y m - y ^ m , M S E = 1 n m = 1 n y m - y ^ m 2.

MAE 是实际结果与预测结果的差值的绝对值然后求和平均;MSE是真实值与预测值的差值的平方后求和平均, y m是真实值, y ^ m是预测值, n是测试集的长度.

3.3 实验结果

为了准确与其他模型作比较,TFEformer实验设置参数一样,其中ILI数据集输入长度固定为36,预测的输出长度分别为24、36、48和60,其余数据集输入长度固定为96,预测的输出长度分别为96、192、336和720.

TFEformer在5个基准数据集中的预测长度上大多实现了最低MSE,实验结果如表1所示,最低的MSE、MAE设置了加粗与斜体.TFEformer的MSE平均下降了58.4%,最高下降了66.5%.注意到在预测不同长度输出时,MSE变化相对较小,能够捕捉到长期的关系,具有良好的鲁棒性.随着预测周期长度的增加,Weather中由于提取周期项提取显著,在预测性能上表现最佳;ILI结合了多种维度的信息,对模型捕捉其时间序列特征、非平稳性以及其他高维特征能力要求较大;Electricity有321个维度,对于样本特征维度建模要求较高,采用时间绝对位置编码对数据顺序性进行建模以便注意力能更好地挖掘关键信息,从而TFEformer表现较佳.

图3所示为各个模型在ETTm2的数据集上预测结果可视化,TFEformer相比Transformer、Informer能够更接近真实值.

3.4 消融实验

为验证TFEformer的有效性,本节分别设置以下3个对比模型.

Model-1:将DCT改为FFT;

Model-2:改用原始绝对位置编码器;

Model-3:不考虑数据的非平稳性.

本文在ETTh1、ETTh2、ETTm1和ETTm2这4个数据集上做了实验,上述3个版本与TFEformer的对比如表2所示,最低的MSE、MAE设置了加粗与斜体.

对比模型1实验结果分析可以发现,DCT相较于FFT结果较为接近,但MSE有一定的下降:数据集中多个长度下平均下降了11.1%,最高下降了28.4%,证明DCT避免频域泄露并能升预测性能.

与模型2对比结果显示,TFEformer的MSE更低,在4个数据集多个预测长度上平均下降了6.6%,最高下降了31%.这说明时间绝对位置编码有效.

模型3和TFEformer差异仅仅在于有无考虑时间的非平稳特性,不同长度预测结果中MSE平均下降了76%,最高下降了91%;实验结果差距较大,验证了长时间序列预测中,需充分考虑现实数据的非平稳性、依赖性以及不同长度所对应的季节效应,才可对于现实数据有预测意义及提高相应模型预测性能.

4 结语

提出了一种基于编码改进和频域增强的非平稳Informer模型变体,不但可以提取数据的自然属性,又能提升特征的区分度.时间绝对位置编码与去平稳稀疏注意力能捕捉序列顺序性,离散余弦变换的频域增强通道注意力可以有效提取频域信息并避免吉布斯现象.最后,在5个基准数据集上,广泛的实验证明了与多种算法相比实现了最佳的预测性能.对于现实中周期特征不明显的非平稳长时间序列数据,需要设计更复杂的网络挖掘序列维度更深层次潜在的信息,这是更进一步研究的方向所在.

参考文献

[1]

YE H CHEN J GONG S, et al. ATFNet: adaptive time - frequency ensembled network for long-term time series forecasting[EB/OL]. 2024 - 04 - 08/2025 - 04 - 30.

[2]

ZHOU H ZHANG S PENG J, et al. Informer: beyond efficient transformer for long sequence time-series forecasting[C]//Proceedings of the AAAI Conference on Artificial Intelligence, 202135(12): 11106 - 11115.

[3]

OGASAWARA E MARTINEZ L C OLIVEIRA D, et al. Adaptive normalization: a novel data normalization approach for non - stationary time series[C]//The 2010 International Joint Conference on Neural Networks (IJCNN). IEEE, 2010: 1 - 8.

[4]

PASSALIS N TEFAS A KANNIAINEN J, et al. Deep adaptive input normalization for time series forecasting[J]. IEEE Transactions on Neural Networks and Learning Systems201931(9): 3760 - 3765.

[5]

KIM T KIM J, TAE Y, et al. Reversible instance normalization for accurate time - series forecasting against distribution shift[C]//ICLR, 2022.

[6]

LIU Y WU H WANG J, et al. Non-stationary transformers: exploring the stationarity in time series forecasting[J]. Advances in Neural Information Processing Systems202235: 9881 - 9893.

[7]

ZENG A CHEN M ZHANG L, et al. Are transformers effective for time series forecasting?[C]//Proceedings of the AAAI Conference on Artificial Intelligence, 202337(9): 11121 - 11128.

[8]

WU H XU J WANG J, et al. Autoformer: decomposition transformers with auto-correlation for long-term series forecasting[C]//Advances in Neural Information Processing Systems, 202134: 22419 - 22430.

[9]

WU H XU J WANG J, et al. TimesNet: temporal 2D-variation modeling for general time series analysis [J]. arXiv preprint arXiv:2022.

[10]

GIBBS J W. Fourier's series[J]. Nature189959(1539): 606.

[11]

VASWANI A SHAZEER N PARMAR N, et al. Attention is all you need[C]//Advances in Neural Information Processing Systems, 2017: 30.

[12]

DEVLIN J CHANG M W LEE K, et al. BERT: pre training of deep bidirectional transformers for language understanding[C]//Proceedings of the 2019 conference of the North American chapter of the Association for Computational Linguistics: Human Language Technologies, 2019: 4171 - 4186.

[13]

HU J SHEN L ALBANIE S, et al. Squeeze - and - excitation networks[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2018: 7132 - 7141.

[14]

JIANG M ZENG P WANG K, et al. FECAM: frequency enhanced channel attention mechanism for time series forecasting[J]. Advanced Engineering Informatics202358: 102158.

[15]

CHAVES S S LYNFYIELD R LINDEGREN M L, et al. The US influenza hospitalization surveillance network[J]. Emerging Infectious Diseases201521(9): 1543.

[16]

KITAEV N KAISER L LEVSKAYA A, et al. Reformer: the efficient transformer[J]. arXiv preprint arXiv:2001.044512020: 1 - 12.

[17]

LAI G CHANG W YANG Y, et al. Modeling long- and short-term temporal patterns with deep neural networks[C]//The 41st international ACM SIGIR Conference on Research & Development in Information Retrieval. 2018: 95 - 104.

[18]

LI S JIN X XUAN Y, et al. Enhancing the locality and breaking the memory bottleneck of transformer on time series forecasting[J]. Advances in Neural Information Processing Systems201932: 5243 - 5253.

基金资助

国家自然科学基金(61962033)

国家自然科学基金(62372076)

AI Summary AI Mindmap
PDF (1285KB)

261

访问

0

被引

详细

导航
相关文章

AI思维导图

/