基于LightGBM⁃SVM堆叠算法的强震动记录尖刺波形识别

张越; 周宝峰; 郭文轩; 温瑞智

doi:10.3799/dqkx.2025.233

地球科学 ›› 2026, Vol. 51 ›› Issue (01) : 185 -198. DOI: 10.3799/dqkx.2025.233

基于LightGBM⁃SVM堆叠算法的强震动记录尖刺波形识别

张越 ¹^,² ,
周宝峰 ¹^,² ,
郭文轩 ¹^,² ,
温瑞智 ¹^,²

作者信息 +

Spike Waveform Recognition for Strong⁃Motion Records Based on LightGBM⁃SVM Stacking Algorithm

Yue Zhang ¹^,² ,
Baofeng Zhou ¹^,² ,
Wenxuan Guo ¹^,² ,
Ruizhi Wen ¹^,²

Author information +

文章历史 +

PDF (4870K)

摘要

强震动记录中的尖刺是一种常见异常波形，其产生机理尚不清晰，需积累大量数据深入研究，因此尖刺识别具有重要意义.提出了一种基于波形比例尺自适应预处理方法，用于提取并强化幅值变化特征，结合时间尺度判别标准，降低幅值差异对人工标注的影响.同时提出了一种特征表征方法，将一维数据按采样点幅值的累积分布归一化为特征向量，以表征强震动记录的空间分布特征.对类别极不平衡数据集，训练多种机器学习模型，并对误识别情况进行分析.进一步采用贝叶斯优化的LightGBM-SVM堆叠算法实现尖刺波形识别，测试集马修斯相关系数（MCC）超过86%.结果表明，所提尖刺判别标准具有稳定性与普适性，可作为数据质量评估辅助工具，并为尖刺波形机理研究提供技术支撑.

Abstract

Spike in strong-motion record is a common type of abnormal waveform. However, their generation mechanism remains unclear and requires the accumulation of large datasets for further study, making spike identification highly significant. This study proposes a preprocessing method based on adaptive waveform scaling to extract and enhance amplitude variation features, combined with time-scale discrimination criteria, thereby reducing the impact of amplitude differences on manual annotation accuracy. In addition, a novel feature representation approach is introduced, in which one-dimensional data are transformed into feature vectors by normalizing the cumulative distribution of sampling amplitudes, enabling the spatial distribution characteristics of strong-motion records to be represented. Using a highly imbalanced dataset, multiple machine learning models were trained, and cases of misclassification were analyzed. Furthermore, LightGBM-SVM stacking algorithm optimized with Bayesian optimization is adopted to achieve the recognition of spike waveforms, achieving a Matthews correlation coefficient (MCC) exceeding 86% on the test set. The results show that the proposed spike discrimination criterion achieved satisfactory performance, confirming its stability and generalizability. The method can serve as an auxiliary tool for spike waveform screening in data quality assessment and provide technical support for further investigations into the generation mechanism of spike waveforms.

Graphical abstract

关键词

尖刺波形 / 强震动记录 / 机器学习 / LightGBM / SVM / 堆叠算法 / 地震学.

Key words

spike waveform / strong⁃motion record / machine learning / LightGBM / SVM / stacking algorithm / seismology

引用本文

引用格式 ▾

张越,周宝峰,郭文轩,温瑞智. 基于LightGBM⁃SVM堆叠算法的强震动记录尖刺波形识别[J]. 地球科学, 2026, 51(01): 185-198 DOI:10.3799/dqkx.2025.233

登录浏览全文

4963

注册一个新账户忘记密码

0 引言

中国是世界上多地震的国家之一，同时是遭受地震灾害最严重的国家，自2008年中国国家强震动观测网络系统（NSMONS）运行以来，随着我国强震动记录数量与日俱增，具有异常波形的低质量数据的数量也大大增加（Li et al.， 2008； Ji et al.， 2017），作为地震工程领域的重要研究资料，高质量的强震动记录对震源机制分析、地震动衰减关系建立、烈度速报、地震预警、地震动输入选择等研究意义重大.因此，如何提高强震动数据的质量、提升其利用效率，已成为研究者关注的核心问题（周宝峰等， 2017）.其中尖刺作为一种常见的异常波形，其周期短、能量高的特点使其对强震动记录的加速度反应谱有着较大的影响，但受地震差异性的影响，尖刺的识别存在一定的困难，而这类强震动记录存在应用风险或利用率不高的问题，对于应用在像核电站、大坝、海洋平台等地震安全性要求较高的关键工程设施上将会带来一定的安全隐患.针对这类强震动记录研究并给出高效的识别方法，以此给出相应的校正方法，提高强震动记录的利用率，提升其科学应用价值，对于我国基于性态地震工程发展以及韧性城乡建设均具有重大意义.

尖刺的形成因素多样，例如环境噪声、仪器故障、电信号传输过程中的干扰等.Douglas（2003）提出尖刺波形可能由模拟强震仪记录数模转换过程中小数点错位引起，在数字强震动仪器广泛应用于强震观测工作的今天，此类问题已基本消除，再难从PGA较大的加速度波形中观察到这类现象.姚鑫鑫（2023）对大量的强震动记录进行分析，在个别强震动记录的噪声段和远场记录中观察到了类似的尖刺波形，并推测这类异常数据可能由故障仪器记录所得，图1所示为一段含有尖刺的仪器响应，其加速度波形中存在多个异常尖峰，放大后如图1b所示，在两个采样周期（红色直线之间）的波形中，幅值出现剧烈变化，表现出典型的尖刺特征.周宝峰等（2024）基于振动台试验研究了基墩尺寸对强震动记录的影响，结果表明2 m高基墩则可能使PGA放大超过2倍，且傅里叶谱的高频成分显著增加.Barnes（2009）对地震信号复地震道中的瞬时频率尖刺产生的原因及意义进行了研究，提出尖刺是由破坏性反射干涉、不连续性和噪声引起的，在定量分析中通常会将其作为噪声尖刺进行校正，而在定性分析中却可以作为揭示地层结构信息的关键信号.随着强震观测技术的发展，数模转换导致的尖刺波形已基本消除，但实际强震动记录中仍存在尖刺现象，其成因尚不明确，仍需大量数据深入分析加以研究.

幅值比较法是一种定量的尖刺识别方法，该方法将峰值点与周围其他采样点的幅值进行比较，通过比值确定该处是否为尖刺波形.Stanghellini and Bonazzi（2002）提出一种SPZ算法对每个采样点与其前后区域上计算的平均绝对值进行比较，并在发现两者差异超过某个阈值（适合的阈值范围为平均绝对值的5~20倍）时将采样点幅值归零，以此来抑制尖刺，但此类方法对阈值选取较为敏感.Boore and Bommer（2005）提出“jerk”方法，对加速度迹线求导将尖刺转换为双面脉冲，从而更容易识别尖刺，但这种方法适用于存在较为明显的尖刺的强震动记录，即图1所示类型，但当加速度某些采样点不为局部最大值且与之前的采样点幅值差较大时，该采样点易被识别为尖刺.Wang et al.（2003）则采用小波分析并提出了一种非线性能量算子WNEO算法，该方法能够有效分离并检测幅值较大的尖刺.

强震动记录中尖刺波形识别与生物、医学领域中的信号尖峰的识别相比有着较大差异（Yu et al.， 2018； Liu and Yue， 2019； Yu et al.， 2022），不同强震动记录的幅值、时程甚至采样周期的差异导致研究人员在将大量的数据放至时间尺度、幅值大小皆不相同的窗口内比较时，往往难以得到准确直观的判断（Yao et al.， 2021），尽管地震工程领域的研究者早已注意到这一与实际不符、与邻近采样点不协调的异常现象，但在尖刺的识别上始终未能形成统一的标准.为了尽量避免幅值差异较大的多组数据，在尖刺识别过程中标准不一致的问题，本文提出一种将采样点幅值按其所对应的持时长短进行调整，并在原始幅值大小尺度下提取并强化关键特征的方法，以此辅助研究人员对含有尖刺波形的强震动记录进行标记.

随着强震动记录数据量与日俱增，机器学习被广泛地应用于强震动记录的校正及应用研究中.宋晋东等（2023）以2022年青海门源6.9级地震为例，基于机器学习地震预警方法模块，震级估计与现地阈值报警进行了回溯验证.朱景宝等（2025）提出一种结合机器学习与迁移学习的现地地震动峰值预测方法.李春果等（2025）提出一种基于谱元法（SEM）的模拟与基于人工神经网络（ANN）的宽频带地震动模拟方法.不同的强震动记录可能具有不同采样点数，因此难以通过单一的模型直接对一维时序数据进行分类，故此计算机视觉被广泛应用于波形识别.Zhao et al.（2024）利用小波分析得到速度时程的小波系数图，应用卷积神经网络对速度时程中的脉冲进行有效识别，但在小波分析之前需要人为选取固定时长的记录以适应机器学习模型.仅使用未调整时长的加速度记录，数据的时程尺度的不一致在绘制二维图像时也会导致前述问题.为此本文提出一种将数据特征转换为一维数据特征向量的处理方法，该方法可以一定程度上避免上述问题，并使得机器学习能够被应用于大量的、不同时程长度的强震动记录尖刺识别.经处理后的数据，即便仅结合简单的集成决策树模型，也能够实现超过 86% 的马修斯相关系数（MCC）.同时去时程尺度限制的思路为后续开发可广泛适用于一维数据的机器学习方法提供了有益的借鉴.

1 尖刺波形判别

1.1　数据集选取

考虑到大震能够产生更高的地震动幅值和更丰富的强震动记录，有利于保证数据的代表性与研究结果的工程应用价值.浅源地震中，日本M_JMA与M_w在5~7级范围内较为一致（Katsumata， 1996），当震级大于7时M_JMA略低于M_w.M_s在8级左右会出现饱和现象，除此之外M_s与M_w整体相近，因此以7级以上地震事件作为研究数据集具有可比性与可行性.自20世纪90年代起，国际强震动观测网络建设显著推进，如美国ANSS、日本K⁃NET及我国“十五”期间台网建设（李山有等，2003）.综合考虑，研究选取了2000年后若干7级以上的地震事件，从中选取PGA大于100 cm/s²的强震动记录构建样本数据，并对其应用了0.1~40 Hz的巴特沃斯带通滤波（姚鑫鑫等，2022），地震事件信息如表1所示.

1.2　典型尖刺波形特征分析

2017年8月8日九寨沟M_s7.0地震中，章扎台站（51JZZ）强震动记录东西向PGA高达1.92 g，然而该地区并未出现严重的结构破坏，因此学界普遍认为该组记录存在异常.图2展示了该台站三分向加速度波形：其中，东西向记录的时段1、南北向和竖直向记录的时段2分别对应各分向的PGA时段.通过对比可以发现，在PGA所在时段内，加速度波形整体幅值变化较为平缓，并未出现尖刺波形.相比之下，南北向记录在时段3内的加速度波形（图2h）中，标注的3个相邻采样点则形成了典型的尖刺特征；同时，在该时刻，东西向与竖直向的加速度幅值也出现了明显增大.这表明，PGA 并不一定对应于尖刺波形所在时段的幅值，且尖刺波形的产生可能受实际的地面运动影响.

李渝生等（2017）在研究九寨沟M_s7.0地震的发震构造后指出，其震源断层的破裂过程受一条走向北偏西331°、倾角87°的断层面控制，表现为左旋走滑性质.根据公开资料，九寨沟地震的震源位置为 E103.812°、N32.200°，而51JZZ台站的经纬度为 E103.879°、N32.290°，震源距约11 km.由此计算得出震源与台站的连线方向基本垂直于断层走向.将东西向与南北向加速度数据绘制成加速度平面轨迹图与加速度差值平面轨迹图（图3），结果显示红色线段分别为两幅轨迹图的最大向量，其方向分别为326°和332°，与断层走向高度一致.

结合地震现场调查结果分析，51JZZ 台站位于九寨沟县章扎镇301省道南侧，建于河沟陡坡之上，场地类型为Ⅱ类场地，土质较为松软.对该台站强震仪进行检查与测试表明，其3个方向极性均正确，标定记录无误差，衰减波清晰，说明仪器工作正常.该台站基墩尺寸为0.44 m×0.44 m×1.5 m，与规范（DB/T17-2018）规定的0.4 m×0.4 m×0.6 m（中国地震局，2018）相比存在较大差异.图4给出了一组标准截面尺寸、高度1.6 m基墩的基墩振动台试验数据，其PGA相较于振动台输入数据放大了约1.7倍，在14~15 s时段的加速度波形中可以明显观察到基墩作用使高频成分增强，这一现象在傅里叶幅值谱中也有清晰体现，同时基墩对记录的低频成分亦存在一定影响.由此推测，基墩尺寸异常导致的高频成分增强可能是造成51JZZ台站PGA幅值偏高及尖刺波形出现的可能原因.但鉴于该台站场地较软，且地理位置相对特殊，因此不能排除场地效应及与断层空间关系等因素对尖刺波形产生的贡献.

1.3　加速度幅值变化特征提取

尖刺波形的定义尽管有着大致的范围与描述，但其在强震动记录中的识别一直以来都具有较强的主观因素，无论是对幅值比较阈值的选取还是利用图像人为筛选，强震动持续时间与幅值的差异将会干扰研究者的判断.基于以上问题，我们希望找到一种数据筛选手段，将强震动记录的加速度幅值变化特征提取出来，同时根据其变化的剧烈程度来判断该数据中的疑似尖刺波形.

对原始数据进行二次微分，斜率不为0且斜率瞬时变化率与该点幅值正负号相反的采样点被定义为峰点，同理将斜率不为0且斜率瞬时变化率与该点幅值正负号相同的采样点定义为谷点，能够同时作为峰点和谷点的采样点定义为共轭峰谷点，如图5所示.当一个峰点的幅值远远高于周围数据点的幅值时，将其视为一个尖刺波形，但对于定量的幅值比较法，不同研究者对其比值阈值的确定标准并不统一，因此将明确尖刺波形的概念、减少尖刺波形数据筛选的主观因素影响作为本文提出特征提取方法出发点以此开展后续的工作.

本研究将波峰的形成视为一个完整的过程：当加速度斜率的绝对值相较于前一采样点增大时，定义为波峰产生过程的起始；至峰点时刻，加速度绝对值达到最大值；随后，当加速度斜率的绝对值相较于前一采样点减小时，定义为该过程的结束.简而言之，即在峰点两侧的谷点范围内搜索拐点，并将最靠近峰点的拐点视为波峰产生过程的起点.随后，计算该峰点与两个拐点的幅值差，并取其中绝对值最大者作为该峰点的幅值变化值；同时，将两个拐点之间的时长与采样周期的比值定义为峰点持时（图6）.需要强调的是，幅值变化值曲线相较于传统加速度时程曲线具有完全不同的物理意义，其仅衡量波峰形成过程中加速度的相对变化，而忽略其余采样点的幅值波动.这种处理方式使数据更为稀疏，既便于特征观察，也有利于后续特征提取与分析.

在获得峰点幅值变化值后，还需进一步乘以持时系数，以强化可能存在的尖刺特征，便于数据分类.该系数保证峰点持时较长的峰点幅值变化值被削减，而峰点持时较短的峰点幅值变化值基本保持不变.考虑到有些强震动记录存在峰点单侧幅值变化较为剧烈的情况，因此本研究将峰点持时≤3的持时系数设定为1；峰点持时≥5的峰点持时对应的系数设定为

υ

（

υ

为持时系数的下限值），这意味着不满足尖刺定义的峰点幅值变化值至多被减少到原本幅值的

υ

倍，很多强震动记录的峰点幅值变化特征散点图，散点分布较为稀疏，特征不够显著，为了让特征向量更具辨识性，只能使

υ

取值尽可能小，因此本研究采用0.1作为持时系数下限值.

1.4　处理结果讨论

基于1.3节提出的方法，对选取的强震动记录进行了处理.图7与图8展示了对强震动记录进行特征提取的主要步骤.图7a给出了2008汶川M_s8.0地震062WIX台站南北向强震动记录的加速度时程曲线，其中突出显示区域为疑似尖刺波形所在区段.将该区域在相同时间尺度下展开，如图7b所示，其中红色部分对应于采样周期内加速度变化值较大的一个波峰形成过程.基于此，得到未经持时系数修正的峰点幅值变化特征散点图（图7c），可见该峰点的幅值变化特征得以保留.经持时系数作用后（图7d），大部分峰点的幅值变化值受到明显调整，而该峰点的幅值变化值基本保持不变，且在负幅值一侧出现了一个较为突出的离群点.因此，该条记录被标记为正样本.

图8a展示了2024能登半岛M_w7.5地震ISK005台站南北向强震动记录的加速度时程曲线.在突出显示区域内可观察到一个较为明显的异常尖峰.将其展开后（图8b），可以发现该峰点的持时较长，不符合尖刺波形的定义.图8c给出了该记录未经持时系数修正的峰点幅值变化特征散点图，其中存在两个显著的离群点，然而经持时系数作用后（图8d），这些离群点在原幅值变化特征的尺度下已基本消失，因此该条记录被标记为负样本.

“jerk”方法通过对加速度进行微分将单侧脉冲转换为双侧脉冲以更好地实现尖刺波形识别.对已标记的强震动记录应用“jerk”方法，许多被判定为含有尖刺波形的强震动记录其加速度微分曲线在jerk图像中呈现出较为明显的双侧脉冲，如图9c所示.但仍有相当一部分记录仅表现为单侧脉冲（图9a），或两侧脉冲幅值差异较大（图9b）.这是因为本文研究聚焦于波峰产生过程而非单个峰点与周围采样点之间的幅值差异.

当某一峰点仅在一侧表现出较大的幅值变化时，也会被视为尖刺波形，从而导致jerk图像中仅在一侧出现显著脉冲.此外，部分jerk图像未能呈现明显脉冲，这是由于非峰点处的微分值过大，掩盖了峰点对应的jerk脉冲特征.另一方面，对于标记为不含尖刺波形的强震动记录，其jerk图像中也可能出现类似的双侧或单侧脉冲，图10所示为2008年汶川M_s8.0地震051AXT台站东西向记录的jerk图像，该记录被标记为不含尖刺波形的负样本，其加速度微分曲线呈现出明显的双侧脉冲，但与之对应的加速度时程曲线在双侧脉冲出现的时段却整体较为平滑，仅包含一处幅值较小的高频波动.这说明当加速度中出现高频成分时，即使加速度幅值较低、幅值变化较小，jerk图像中仍可能产生明显的脉冲.进一步分析表明，图中两侧脉冲分别出现在67.322 s与67.328 s，相隔6个采样周期（采样周期为0.002 s），不满足Boore对尖刺波形的严格定义.

综上所述，单纯依靠研究者对强震动记录加速度时程曲线的直观判断，并不足以作为识别尖刺波形存在与否的可靠依据.这是因为尖刺波形在部分记录中表现并不显著，容易受到高频噪声或幅值波动的干扰，从而造成误判.除本文所展示的两条典型记录外，还有相当数量的强震动记录在时程图像中未能直观呈现出异常特征，但通过第1.3节提出的特征提取方法，可以有效捕捉并量化峰点的幅值变化，并进一步利用持时系数对该特征进行强化.该方法不仅降低了人为主观判断带来的不确定性，而且为尖刺波形的识别提供了更加客观的依据，辅助研究者更准确地对含有尖刺波形的强震动记录进行标记.

基于现有的数据考虑到仪器参数、地区特性以及发布数据的完整性等复杂因素，无法对单一因素进行研究分析，因此本文仅聚焦于现有数据的尖刺波形识别，不就尖刺波形的成因过多讨论.

2 特征提取

强震动记录时长不一致，给一维时序数据的直接利用及其在机器学习模型中的应用带来了困难.研究者通常采用两种方式来解决数据长度差异：其一是对原始数据进行截取，其二是通过补零将较短的记录扩展至统一的数据点数（Wang et al.， 2020）.其中，补零方法能够有效保证数据维度的一致性，且不会影响第1.3节所提出方法的处理结果.然而，当采样点数超过统一设定值时，截取方式却难以确保异常波形等关键特征得以完整保留（人工截取可以在一定程度上保留有价值的信息，但自动化程序难以实现这一点）.鉴于此，本文提出了一种新的特征提取方法，将数据转化为维度一致的特征向量，从而避免截取造成的特征损失.

该方法首先计算峰点幅值变化值的双侧累积分布，并以未经峰点持时作用的峰点幅值变化值最大值为边界，将其划分为200个区间，统计处理后峰点幅值变化值在各区间范围内的点数.随后，将双侧累积分布取倒数以强化尖刺特征，并对数据进行归一化处理，从而得到最终的特征向量.图11展示了第1.4节中两条强震动记录的双侧累积分布图像及其特征向量可视化结果.其中，图11a和图11b分别对应图7d与图8d的双侧累积分布.可以看出，不同峰点数的强震动记录，其累积分布数值存在较大差异，但峰点数量本身并非判别尖刺波形的有效特征.若直接将其归一化作为模型输入，反而会削弱模型的判别能力并降低可解释性.尖刺波形的特征应体现为小数值占主导，因此通过取倒数操作可强化小数值的作用，同时抑制大数值的影响.图11c、11d分别为典型的尖刺、非尖刺记录特征向量，其特征向量可视化图像出现了明显的差异，且特征向量值被约束于［0，1］范围，达到了归一化的目的.

以上述特征提取方法作为辅助手段对数据集进行分类，最终样本集含有尖刺波形的正样本67条，不含尖刺波形的负样本2 388条.

3 机器学习在强震动记录“尖刺”识别中的应用

3.1　LightGBM⁃SVM的决策树堆叠模型Stacking

本研究采用第2节所述的数据集训练了7种机器学习模型.结果表明，经过贝叶斯优化的 SVM模型在分类准确率、F1分数、召回率及马修斯相关系数（Matthews Correlation Coefficient， MCC）方面均表现最佳；LightGBM模型次之.在此基础上，进一步采用决策树算法对LightGBM与SVM 进行堆叠（Stacking），结果显示该集成模型对正类样本的识别准确率显著提升，且仅在某一类型的正类数据上存在稳定的误判现象.最后，将未参与训练和测试的独立数据集作为验证集，对堆叠模型的性能进行了进一步分析与验证.

LightGBM（Light Gradient Boosting Machine）是一种基于决策树的分布式梯度提升框架，具有更高的效率和准确性（Chen et al.， 2023）.它采用了Gradient⁃based One⁃Side Sampling（GOSS）、Exclusive Feature Bundling （EFB）技术通过优先保留梯度较大的样本，减少梯度较小的样本，从而加速训练过程并保持准确性同时将互斥的特征进行捆绑，减少特征维度，提升训练速度并降低内存开销.此外LightGBM采用Leaf⁃Wis树构建方式，进一步提升了模型的准确性和收敛速度，并利用直方图方法来加速分割过程，特别适用于高维数据集的特征提取，对异常值和缺失值不敏感导致其具有良好的鲁棒性，在处理大规模数据集、稀疏数据和高维度特征的工作中表现尤为出色.

支持向量机（Support Vector Machine，简称SVM）是一种常用于分类和回归分析的监督学习模型（Kim et al.， 2020； Pakniat et al.， 2025）.SVM的核心思想是搜索一个最优的超平面，将不同类别的样本尽可能地分离并最大化超平面两侧的间隔，以此构建出稳定的决策边界，使得SVM具有良好的处理高维数据和小样本数据的能力，并通过最大化类间间隔来保证分类的稳定以及对样本小扰动的鲁棒性，因此该模型适用于二分类及多分类问题.

贝叶斯优化（Bayesian Optimization）是一种用于优化目标函数的全局优化方法，它是一种序列决策过程，通过构建目标函数的代理模型逐步推测并选择下一个最有可能带来最好结果的试验点，从而逐步完成对模型的超参数优化，各机器学习模型均采用贝叶斯优化的方式进行超参数优化，参与优化的主要参数、取值范围以及最优参数如表2所示.

由于正负样本数据集类别极不平衡，在训练过程中考虑添加类别权重并将MCC作为贝叶斯优化指标（Chicco and Jurman， 2020）.MCC是一种常用于评估二分类问题中分类器性能的指标，能够在类别不平衡的情况下提供更为稳定和全面的评估，它考虑了4个指标：真正例（TP）、真反例（TN）、假正例（FP）和假反例（FN），其计算公式为：

M C C = T P × T N - F P × F N T P + F P T P + F N T N + F P T N + F N

.(2)

对LightGBM与SVM的误识别案例进行分析发现，两种模型在正类样本上的错误识别仅有少量交集.因此本文采用决策树模型作为元学习器，将LightGBM与SVM作为基模型构建堆叠（Stacking）模型.堆叠是一种典型的集成学习方法，通过融合多个模型的预测结果来提升整体预测性能（Long et al.， 2025）.其具体流程为：以LightGBM与SVM的预测结果作为输入，训练一个新的决策树模型，并由该模型重新输出最终预测结果.

3.2　多模型识别结果分析

为验证所提方法在不同机器学习模型中的适用性，本文选取了7种传统机器学习模型及1种集成模型进行训练.将强震动记录数量大于30的地震事件作为验证集与测试集.为增加样本数量，对数据集中的正样本特征向量进行顺序翻转，从而构造出原始数据量两倍的正样本集.训练与测试集按照 4：1的比例划分，并在每次随机划分数据后重复训练10次，统计结果如表3所示.结果表明，集成模型Stacking在MCC的统计学描述指标上整体优于其他模型，仅在标准差方面略低于SVM与Logistic Regression（LR）；而Naive Bayes（NB）的各项指标表现最差.

由图12的ROC曲线可知，集成模型Stacking的AUC（曲线下面积）值最高，为0.969；其次为LightGBM和SVM，AUC值分别为0.956和0.955；Naive Bayes（NB）的AUC值最低，仅为 0.870.这一结果与表4中的统计学描述基本一致.需要注意的是，Stacking 模型在负样本（即不含尖刺波形的数据）上的误识别率相对较高，但本研究更关注正样本的识别准确性.从表3的混淆矩阵可以看出，Stacking模型对正样本的误识别率显著降低，其在负样本上的误识别率仍处于可接受范围内.相比之下，尽管NB在正类样本上的误识别率低于KNN，但其对负类样本的误识别率远高于其他模型，这一结论与表4及ROC曲线的结果保持一致.

对误识别案例的深入分析进一步验证了 Stacking 集成模型的优越性与局限性.由图13可见，单一模型在面对不同类型的正类样本时存在明显短板，SVM对于图13a、13c所示类型的正类样本识别能力较弱，这说明在处理某些尖刺波形特征向量时，SVM对小尺度特征差异不够敏感；LightGBM则在图13b、13c所示类型的正类样本识别准确率较低，说明树模型在特征分布高度不均衡时，容易受离群点影响，导致分类边界偏移容易将其与负样本混淆.当两者进行堆叠后，Stacking模型能有效弥补SVM与LightGBM的局部不足.在图13a、13b所示类型的正类样本中，Stacking 的识别准确率显著提升，说明其在融合特征空间信息后对典型尖刺波形识别表现更加稳健.然而，对于图13c这类样本，Stacking的表现仍不理想.造成这一现象的主要原因在于部分强震动记录即使经过持时因子修正，其峰点幅值变化特征仍保留异常大的离群点.例如2008汶川M_s8.0地震051DFB台站垂直向强震动记录（图14所示）中，未经持时因子校正的峰点幅值变化最大值高达804 cm/s².校正后虽被削弱，但仍保留了一个290 cm/s²的离群点，而其余数据点均低于 100 cm/s².这种情况下，样本在统计意义上属于正类，但其特征分布与部分负类样本过于接近，导致模型在训练与预测过程中倾向于将其误判为负类.整体而言集成模型Stacking误识别的正样本特征更为稳定.

对于负样本而言，三种模型的误识别类型整体上更为随机，没有表现出稳定或系统性的模式.这表明负样本整体特征分布相对复杂，且模型之间在对负样本的判别过程中并未形成一致性的偏差.

3.3　独立验证集分析

为了检验训练得到的机器学习模型对未参与训练的数据集的识别效果，本研究选取强震动记录数量小于30的地震事件组成独立验证集，并加入少量故障仪器的响应作为补充，同上对地震事件里的正样本特征向量做顺序翻转.

各机器学习模型对验证集的混淆矩阵如表5所示，可以发现LR与NB的识别效果不佳，其余机器学习模型对正样本以及负样本的识别准确率均较高，这证明本文提出的特征提取方法在应用机器学习识别尖刺波形的工作中具有普适性与稳定性.观察验证集混淆矩阵发现，DNN对负样本的识别准确率相较于SVM、LightGBM基本相同，在小样本条件下DNN对负样本的识别准确率高于SVM、LightGBM是可以接受的.同时由于测试集的正样本较少，为较标准的正样本类型数据，因此三者对正样本的识别准确率较为一致，对误识别样本进行分析，除DNN外，其他机器学习模型均对同一个负样本进行了误判，该样本的幅值变化特征散点图与特征向量可视化图像如图15a、15c所示，其并未含有明显的尖刺波形特征，特征向量可视化图像在底部呈现出较宽的平台段，这可能是机器学习模型将其识别为正样本的原因；对于误识别的正样本，均属于故障仪器的响应，如图15b、15d所示，该强震动记录由故障仪器所记录，经检查其加速度时程曲线存在大量尖刺波形，但由于该记录时程过长，同时含有多个幅值相近的离群值点，其特征向量可视化图像与某类负样本的可视化图像较为接近，因此被机器学习模型识别为负样本.

由此可见，对于多波包、多尖刺的强震动数据，本文提出的方法难以对其进行精准的分类，需要对多波包强震动记录进行分段或截取，对于故障仪器的响应可以采用异常模态检测的方法判断其中是否存在尖刺波形.

4 结论

本文首先基于实际强震动观测经验说明了尖刺波形的客观存在，以及尖刺波形产生机理研究的重要性，进而针对强震动记录尖刺波形自动识别问题，提出了一种基于峰点幅值变化特征与持时系数加权机制的特征提取方法，并结合去时程化处理策略，构建了适用于机器学习模型输入的标准特征向量表示形式.在此基础上，系统对比了包括逻辑回归（LR）、朴素贝叶斯（NB）、支持向量机（SVM）、K最近邻（KNN）、深度神经网络（DNN）、卷积神经网络（CNN）、LightGBM以及LightGBM⁃SVM决策树堆叠模型（Stacking）在内的八种机器学习方法的识别效果，重点评估了各模型在精度、稳定性、泛化能力以及误识别特征上的表现.得到以下主要结论：

（1）本文提出的峰点幅值变化与峰点持时联合特征提取方法，能够在不依赖固定窗口长度的情况下有效提取尖刺波形的异常特征，具备良好的适应性与通用性，适用于不同震级、采样频率和记录时长的强震动数据，显著提升了模型的输入统一性与分类准确性.

（2）在所有模型中，Stacking模型表现最为优异，其在训练集与独立验证集上的MCC平均值分别达到0.925和0.901，优于其他单一模型.相比之下，朴素贝叶斯和KNN模型表现不稳定，准确率和抗噪性能较低，不适合用于高噪声或特征分布不均的数据环境.

（3）误识别样本分析表明，SVM与LightGBM在处理某些特定类型的尖刺记录上存在盲区，而Stacking模型通过整合两者优势，有效提升了对边界样本的识别能力，降低了正类数据误判概率，并在特征相近负样本上保持了良好的稳定性，体现了其在样本不平衡情况下的鲁棒性.

（4）对于包含多个尖刺或尖刺密集型的记录，当前方法存在识别能力下降的问题，主要原因在于遍历整条记录特征提取难以准确捕捉局部尖刺信息.后续研究应引入时序分段策略、动态窗口机制等局部强化方法，以进一步提升复杂记录的识别精度.

（5）尖刺波形产生的因素多种多样，难以对单一因素进行研究分析，需要对尖刺波形数据进行大量的积累并结合现场调查、仪器检测等工作才能对尖刺波形的产生提出假设、探明机理并进一步发展修正方法.

综上所述，本文构建的基于特征提取与集成学习的尖刺波形识别体系，在强震动数据异常检测中展现出较高的准确性与实用性.该方法可作为强震动记录自动化处理流程中的关键一环，为后续地震动参数提取、地震危险性分析及抗震设计等提供更为可靠的数据基础.

参考文献

原文顺序 | 出版日期 | 本文引用

[1]	Barnes, A. E., 2009. The Origin and Significance of Spikes in Complex Seismic Trace Attributes. SEG Technical Program Expanded Abstracts, 28(1): 1048-1052.https://doi.org/10.1190/1.3255029

[2]	Boore, D. M., Bommer, J. J., 2005.Processing of Strong⁃Motion Accelerograms: Needs, Options and Consequences.Soil Dynamics and Earthquake Engineering, 25(2): 93-115. https://doi.org/10.1016/j.soildyn.2004.10.007

[3]	Chen, H. Y., Li, X. Y., Feng, Z. B., et al., 2023. Shield Attitude Prediction Based on Bayesian⁃LGBM Machine Learning. Information Sciences, 632: 105-129.https://doi.org/10.1016/j.ins.2023.03.004

[4]	Chicco, D., Jurman, G., 2020. The Advantages of the Matthews Correlation Coefficient (MCC) over F1 Score and Accuracy in Binary Classification Evaluation.BMC Genomics, 21: 1-13.https://doi.org/10.1186/s12864⁃019⁃6413⁃7

[5]	China Earthquake Administration, 2018.Specification for the Construction of Seismic Station-Strong Motion Station (DB/T17-2018). Seismological Press, Beijing (in Chinese).

[6]	Douglas, J., 2003. What is a Poor Quality Strong⁃Motion Record? Bulletin of Earthquake Engineering, 1(1): 141-156. https://doi.org/10.1023/A:1024861528201

[7]	Ji, K., Ren, Y. F., Wen, R. Z., 2017. Site Classification for National Strong Motion Observation Network System (NSMONS) Stations in China Using an Empirical H/V Spectral Ratio Method.Journal of Asian Earth Sciences, 147: 79-94. https://doi.org/10.1016/j.jseaes.2017.07.032

[8]	Katsumata,A., 1996. Comparison of Magnitudes Estimated by the Japan Meteorological Agency with Moment Magnitudes for Intermediate and Deep Earthquakes. Bulletin of the Seismological Society of America, 86(3): 832-842. https://doi.org/10.1785/bssa0860030832

[9]	Kim, S., Lee, K., You, K., et al., 2020.Seismic Discrimination between Earthquakes and Explosions Using Support Vector Machine. Sensors, 20(7): 1879. https://doi.org/10.3390/s20071879

[10]	Li, C. G., Wang, H. W., Wen, R. Z., et al., 2025. Simulation of Broadband Ground Motion in Yangbi Earthquake by Integrating Spectral Element Method and Artificial Neural Networks. Earth Science, 51(1): 1-14 (in Chinese with English abstract).

[11]	Li, S. Y., Jin, X., Liu, Q. F., et al., 2003. Prospect of Strong Motion Observation in China.Earthquake Engineering and Engineering Vibration, 23(2): 1-7 (in Chinese with English abstract).

[12]	Li, X. J., Zhou, Z. H., Yu, H. Y., et al., 2008.Strong Motion Observations and Recordings from the Great Wenchuan Earthquake.Earthquake Engineering and Engineering Vibration, 7(3): 235-246. https://doi.org/10.1007/s11803⁃008⁃0892⁃x

[13]	Li, Y. S., Huang, C., Yi, S. J., et al., 2017. Study on Seismic Fault and Source Rupture Tectonic Dynamic Mechanism of Jiuzhaigou M_S7.0 Earthquake. Journal of Engineering Geology, 25(4): 1141-1150 (in Chinese with English abstract).

[14]	Liu, D. Q., Yue, S. G., 2019. Event⁃Driven Continuous STDP Learning with Deep Structure for Visual Pattern Recognition.IEEE Transactions on Cybernetics, 49(4): 1377-1390. https://doi.org/10.1109/TCYB.2018.2801476

[15]	Long, T., Akbari, M., Fakharian, P., 2025. Prediction of Soil Liquefaction Using a Multi⁃Algorithm Technique: Stacking Ensemble Techniques and Bayesian Optimization. Journal of Soft Computing in Civil Engineering, 9(2): 32-55. https://doi.org/10.22115/scce.2024.453006.1860

[16]	Pakniat, S., Najafizadeh, J., Kadkhodaavval, M., 2025. Machine Learning for Earthquake Engineering Analysis: Comparing Regression Models to Predict Peak Ground Acceleration. World Journal of Advanced Research and Reviews, 26(2): 856-867. https://doi.org/10.30574/wjarr.2025.26.2.1714

[17]

Song, J. D., Zhu, J. B., Wei, Y. X., et al., 2023. Backtracking Verification of Machine Learning Earthquake Early Warning Magnitude Estimation and On⁃Site Threshold Alarm for Menyuan M6.9 Earthquake in Qinghai on January 8, 2022. Chinese Journal of Geophysics, 66(7): 2903-2919 (in Chinese with English abstract).

[18]	Stanghellini, G., Bonazzi, C., 2002. Local⁃Trace Zeroing and Spike Zeroing: Two Short Automated Noise⁃ Rejection Routines to Remove Noise and Spikes on Seismic Traces.Geophysics, 67(1): 188-196. https://doi.org/10.1190/1.1451510

[19]	Wang, H. J., Jin, P., Liu, G. Z., 2003. Automatic Spikes Detection in Seismogram. Acta Seismologica Sinica, 16: 348-355. https://doi.org/10.1007/s11589⁃003⁃0039⁃0

[20]	Wang, W.Y., Ji, K., Wen, R.Z., et al., 2020. Impact of Strong Ground Motion's Process Procedure on the Structural Nonlinear Time⁃History Analysis. Engineering Mechanics, 37(S):42-50, 62. https://doi.org/10.6052/j.issn.1000⁃4750.2019.04.S003

[21]	Yao, X.Y., 2023. Study on the Elaborate Data Processing of Strong Motion Record and the Flatfile Parameters in China (Dissertation). Institute of Engineering Mechanics, China Earthquake Administration, Harbin (in Chinese with English abstract).

[22]	Yao, X. X., Ren, Y. F., Kishida,T., et al., 2022. The Procedure of Filtering the Strong Motion Record: Denoising and Filtering. Engineering Mechanics, 39(S1): 320-329 (in Chinese with English abstract).

[23]	Yao, X. Y., Zhou, Q. Z., Wang, C., et al., 2021. An Adaptive Seismic Signal Denoising Method Based on Variational Mode Decomposition. Measurement, 177: 109277. https://doi.org/10.1016/j.measurement.2021.109277

[24]	Yu, Q., Li, S. L., Tang, H. J., et al., 2022. Toward Efficient Processing and Learning with Spikes: New Approaches for Multispike Learning. IEEE Transactions on Cybernetics, 52(3): 1364-1376. https://doi.org/10.1109/TCYB.2020.2984888

[25]	Yu, Q., Wang, L. B., Dang, J. W., 2018. Efficient Multi⁃Spike Learning with Tempotron⁃Like LTP and PSD⁃Like LTD. In: Cheng, L., Leung, A., Ozawa, S., eds., Neural Information Processing. Springer, Cham, 545-554.

[26]	Zhao, G. C., Xu, L. J., Lin, S. B., et al., 2024.An Easy⁃to⁃Update Pulse⁃like Ground Motion Identification Method Based on Siamese Convolutional Neural Networks.Journal of Earthquake Engineering, 28(1): 1-19. https://doi.org/10.1080/13632469.2023.2199433

[27]	Zhou, B. F., Song, Q., Ren, Y. F., et al., 2024.The Study on the Influence and Application of Foundation Pier Height on Strong Motion Records.Earth Science, 49(2): 414-424 (in Chinese with English abstract).

[28]	Zhou, B. F., Yu, H. Y., Wen, R. Z., et al., 2017. Preliminary Study on Data Quality in Strong Motion Records.Seismological and Geomagnetic Observation and Research, 38(1): 69-75 (in Chinese with English abstract).

[29]	Zhu, J. B., Liu, H. Y., Luan, S. C., et al., 2025. Prediction of On⁃Site Peak Ground Motion Based on Machine Learning and Transfer Learning. Earth Science, 50(5): 1842-1860 (in Chinese with English abstract).