基于空间分组GCN的UAV航拍视频行为识别

刘芳; 黄盛; 石祥滨; 赵亮

doi:10.3969/j.issn.2095-1248.2024.04.006

沈阳航空航天大学学报 ›› 2024, Vol. 41 ›› Issue (04) : 50 -58. DOI: 10.3969/j.issn.2095-1248.2024.04.006

信息科学与工程

基于空间分组GCN的UAV航拍视频行为识别

作者信息 +

UAV aerial video action recognition based on spatial grouping GCN

Author information +

文章历史 +

PDF (1183K)

摘要

人体行为识别（human action recognition，HAR）是从无人机捕获视频中理解行人意图的一项关键技术。但无人机平台算力有限、现有行为识别方法效率较低。提出轻量级的空间分组注意力图卷积网络，降低网络深度，提升效率并保证行为识别精度。为了捕获能够代表全局运动的肢体部位，提出空间分组注意力模型，增强与全局特征相似性高的局部特征。此外，仅靠关节和骨架特征无法有效区分具有相似运动轨迹的行为，构建骨骼角度的高阶特征编码，捕获更能反映细微运动差异的肢体关节间角度的变化，提升特征的表示能力。最后，针对无人机航拍视频的低帧率问题，提出基于帧间差异的线性插帧方案，提升样本信息量。结果表明，与现有SOTA方法相比，该方法在UAV-Human数据集上的识别率、参数量、训练耗时、执行耗时都具有更好的性能。

Abstract

Human action recognition is a key technology for understanding pedestrian intentions from video captured by unmanned aerial vehicles （UAV）.However，UAV platforms have limited computing power，and existing action recognition methods are inefficient.A lightweight spatial grouping attention graph convolutional network （SGA-GCN） was proposed to reduce network depth to improve the efficiency and ensure the accuracy of action recognition.In order to capture body parts that represent global motion，spatial grouping attention was introduced to enhance local features with high similarity to global features.Moreover，since it was impossible to effectively distinguish actions with similar motion trajectories solely based on joint and skeletal features，a high-order feature encoding of skeletal angles was constructed to capture changes in angles between limb joints that better reflected subtle motion differences and improved feature representation capabilities.Finally，to address the low frame rate issue in UAV aerial video，a linear interpolation scheme based on inter-frame differences was proposed to increase sample information quantity.Experimental results demonstrate that compared to the existing state-of-the-art （SOTA） methods，the proposed approach achieves better performance in terms of recognition rate，parameter quantity，training time and execution time on the UAV-Human dataset.

Graphical abstract

关键词

无人机 / 空间分组 / 行为识别 / 高阶特征编码 / 线性插帧

Key words

unmanned aerial vehicle / spatial grouping / action recognition / high-order feature encoding / linear interpolation

引用本文

引用格式 ▾

[Author(id=1268490863643087150, tenantId=1045748351789510663, journalId=1155139928303341632, articleId=1159908381487194763, orderNo=0, firstName=null, middleName=null, lastName=null, nameCn=null, orcid=null, stid=null, country=null, authorPic=null, dead=0, email=liufang@sau.edu.cn, emailSecond=null, emailThird=null, correspondingAuthor=0, authorType=1, ext={EN=AuthorExt(id=1268490863718584631, tenantId=1045748351789510663, journalId=1155139928303341632, articleId=1159908381487194763, authorId=1268490863643087150, language=EN, stringName=Fang LIU, firstName=Fang, middleName=null, lastName=LIU, prefix=null, suffix=null, authorComment=null, nameInitials=null, affiliation=null, department=null, xref=null, address=College of Computer Science，Shenyang Aerospace University，Shenyang 110136，China, bio=null, bioImg=null, bioContent=null, aboutCorrespAuthor=null), CN=AuthorExt(id=1268490863773110589, tenantId=1045748351789510663, journalId=1155139928303341632, articleId=1159908381487194763, authorId=1268490863643087150, language=CN, stringName=刘芳, firstName=null, middleName=null, lastName=null, prefix=null, suffix=null, authorComment=null, nameInitials=null, affiliation=null, department=null, xref=null, address=沈阳航空航天大学计算机学院，沈阳 110136, bio={"content":"

刘芳（1981-），女，辽宁鞍山人，副教授，博士，主要研究方向：视频理解，E-mail：liufang@sau.edu.cn。

"}, bioImg=null, bioContent=

刘芳（1981-），女，辽宁鞍山人，副教授，博士，主要研究方向：视频理解，E-mail：liufang@sau.edu.cn。

, aboutCorrespAuthor=null)}, companyList=[AuthorCompany(id=1268490863555006752, tenantId=1045748351789510663, journalId=1155139928303341632, articleId=1159908381487194763, xref=null, ext=[AuthorCompanyExt(id=1268490863571783971, tenantId=1045748351789510663, journalId=1155139928303341632, articleId=1159908381487194763, companyId=1268490863555006752, language=EN, country=null, province=null, city=null, postcode=null, companyName=null, departmentName=null, remark=College of Computer Science，Shenyang Aerospace University，Shenyang 110136，China), AuthorCompanyExt(id=1268490863588561190, tenantId=1045748351789510663, journalId=1155139928303341632, articleId=1159908381487194763, companyId=1268490863555006752, language=CN, country=null, province=null, city=null, postcode=null, companyName=null, departmentName=null, remark=沈阳航空航天大学计算机学院，沈阳 110136)])]), Author(id=1268490863823442242, tenantId=1045748351789510663, journalId=1155139928303341632, articleId=1159908381487194763, orderNo=1, firstName=null, middleName=null, lastName=null, nameCn=null, orcid=null, stid=null, country=null, authorPic=null, dead=0, email=null, emailSecond=null, emailThird=null, correspondingAuthor=0, authorType=1, ext={EN=AuthorExt(id=1268490863894745416, tenantId=1045748351789510663, journalId=1155139928303341632, articleId=1159908381487194763, authorId=1268490863823442242, language=EN, stringName=Sheng HUANG, firstName=Sheng, middleName=null, lastName=HUANG, prefix=null, suffix=null, authorComment=null, nameInitials=null, affiliation=null, department=null, xref=null, address=College of Computer Science，Shenyang Aerospace University，Shenyang 110136，China, bio=null, bioImg=null, bioContent=null, aboutCorrespAuthor=null), CN=AuthorExt(id=1268490863945077067, tenantId=1045748351789510663, journalId=1155139928303341632, articleId=1159908381487194763, authorId=1268490863823442242, language=CN, stringName=黄盛, firstName=null, middleName=null, lastName=null, prefix=null, suffix=null, authorComment=null, nameInitials=null, affiliation=null, department=null, xref=null, address=沈阳航空航天大学计算机学院，沈阳 110136, bio=null, bioImg=null, bioContent=null, aboutCorrespAuthor=null)}, companyList=[AuthorCompany(id=1268490863555006752, tenantId=1045748351789510663, journalId=1155139928303341632, articleId=1159908381487194763, xref=null, ext=[AuthorCompanyExt(id=1268490863571783971, tenantId=1045748351789510663, journalId=1155139928303341632, articleId=1159908381487194763, companyId=1268490863555006752, language=EN, country=null, province=null, city=null, postcode=null, companyName=null, departmentName=null, remark=College of Computer Science，Shenyang Aerospace University，Shenyang 110136，China), AuthorCompanyExt(id=1268490863588561190, tenantId=1045748351789510663, journalId=1155139928303341632, articleId=1159908381487194763, companyId=1268490863555006752, language=CN, country=null, province=null, city=null, postcode=null, companyName=null, departmentName=null, remark=沈阳航空航天大学计算机学院，沈阳 110136)])]), Author(id=1268490863999603023, tenantId=1045748351789510663, journalId=1155139928303341632, articleId=1159908381487194763, orderNo=2, firstName=null, middleName=null, lastName=null, nameCn=null, orcid=null, stid=null, country=null, authorPic=null, dead=0, email=null, emailSecond=null, emailThird=null, correspondingAuthor=0, authorType=1, ext={EN=AuthorExt(id=1268490864066711892, tenantId=1045748351789510663, journalId=1155139928303341632, articleId=1159908381487194763, authorId=1268490863999603023, language=EN, stringName=Xiangbin SHI, firstName=Xiangbin, middleName=null, lastName=SHI, prefix=null, suffix=null, authorComment=null, nameInitials=null, affiliation=null, department=null, xref=null, address=College of Computer Science，Shenyang Aerospace University，Shenyang 110136，China, bio=null, bioImg=null, bioContent=null, aboutCorrespAuthor=null), CN=AuthorExt(id=1268490864117043544, tenantId=1045748351789510663, journalId=1155139928303341632, articleId=1159908381487194763, authorId=1268490863999603023, language=CN, stringName=石祥滨, firstName=null, middleName=null, lastName=null, prefix=null, suffix=null, authorComment=null, nameInitials=null, affiliation=null, department=null, xref=null, address=沈阳航空航天大学计算机学院，沈阳 110136, bio=null, bioImg=null, bioContent=null, aboutCorrespAuthor=null)}, companyList=[AuthorCompany(id=1268490863555006752, tenantId=1045748351789510663, journalId=1155139928303341632, articleId=1159908381487194763, xref=null, ext=[AuthorCompanyExt(id=1268490863571783971, tenantId=1045748351789510663, journalId=1155139928303341632, articleId=1159908381487194763, companyId=1268490863555006752, language=EN, country=null, province=null, city=null, postcode=null, companyName=null, departmentName=null, remark=College of Computer Science，Shenyang Aerospace University，Shenyang 110136，China), AuthorCompanyExt(id=1268490863588561190, tenantId=1045748351789510663, journalId=1155139928303341632, articleId=1159908381487194763, companyId=1268490863555006752, language=CN, country=null, province=null, city=null, postcode=null, companyName=null, departmentName=null, remark=沈阳航空航天大学计算机学院，沈阳 110136)])]), Author(id=1268490864175763805, tenantId=1045748351789510663, journalId=1155139928303341632, articleId=1159908381487194763, orderNo=3, firstName=null, middleName=null, lastName=null, nameCn=null, orcid=null, stid=null, country=null, authorPic=null, dead=0, email=null, emailSecond=null, emailThird=null, correspondingAuthor=0, authorType=1, ext={EN=AuthorExt(id=1268490864242872675, tenantId=1045748351789510663, journalId=1155139928303341632, articleId=1159908381487194763, authorId=1268490864175763805, language=EN, stringName=Liang ZHAO, firstName=Liang, middleName=null, lastName=ZHAO, prefix=null, suffix=null, authorComment=null, nameInitials=null, affiliation=null, department=null, xref=null, address=College of Computer Science，Shenyang Aerospace University，Shenyang 110136，China, bio=null, bioImg=null, bioContent=null, aboutCorrespAuthor=null), CN=AuthorExt(id=1268490864293204327, tenantId=1045748351789510663, journalId=1155139928303341632, articleId=1159908381487194763, authorId=1268490864175763805, language=CN, stringName=赵亮, firstName=null, middleName=null, lastName=null, prefix=null, suffix=null, authorComment=null, nameInitials=null, affiliation=null, department=null, xref=null, address=沈阳航空航天大学计算机学院，沈阳 110136, bio=null, bioImg=null, bioContent=null, aboutCorrespAuthor=null)}, companyList=[AuthorCompany(id=1268490863555006752, tenantId=1045748351789510663, journalId=1155139928303341632, articleId=1159908381487194763, xref=null, ext=[AuthorCompanyExt(id=1268490863571783971, tenantId=1045748351789510663, journalId=1155139928303341632, articleId=1159908381487194763, companyId=1268490863555006752, language=EN, country=null, province=null, city=null, postcode=null, companyName=null, departmentName=null, remark=College of Computer Science，Shenyang Aerospace University，Shenyang 110136，China), AuthorCompanyExt(id=1268490863588561190, tenantId=1045748351789510663, journalId=1155139928303341632, articleId=1159908381487194763, companyId=1268490863555006752, language=CN, country=null, province=null, city=null, postcode=null, companyName=null, departmentName=null, remark=沈阳航空航天大学计算机学院，沈阳 110136)])])] 刘芳,黄盛,石祥滨,赵亮. 基于空间分组GCN的UAV航拍视频行为识别[J]. 沈阳航空航天大学学报, 2024, 41(04): 50-58 DOI:10.3969/j.issn.2095-1248.2024.04.006

登录浏览全文

4963

注册一个新账户忘记密码

无人机具有极强的灵活性和远程跟踪能力，在空中搜索救援、巡逻监视等领域发挥着重要作用。人体行为识别（HAR）是实现其自动化的关键技术和重要环节，也是计算机视觉和人工智能领域的研究热点^［1-3］。和常规的HAR类似，无人机HAR可以依赖不同的数据模态，例如RGB、光流和骨骼数据。与其他模态数据相比，骨骼数据具有实时性、鲁棒性强、数据量小但信息量大等优势。因此，本文专注于研究基于无人机视频骨骼数据的HAR。

近年来，无人机HAR^［4-6］的研究热度有所提升。为捕捉样本的更多运动信息，Hu等^［7］提出了FR-AGCN，通过增加逆向数据，使得一些动作具有更好的区分度。Xie等^［8］提出了TE-GCN，引入因果卷积，使模型能专注于重要的时间步长。Cheng等^［9］提出了MSST模块捕捉时空特征，构建多尺度特征聚合的轻量级动作识别模型。Huang等^［10］提出了MS&TA-HGCN_FC增加空间和时间的注意力机制，并使用全连接图卷积提高不同动作骨架间的差异性。

虽然现有的深度学习模型在无人机HAR上已经取得了一些成果，然而，随着模型研究的不断加深和扩展，网络的复杂度也随之增加，导致模型参数量的爆发式增长，因此训练与执行时间极大增加，从而无法有效地应用到实际场景中。在不损失性能的前提下，降低网络复杂度成为目前研究中的关键问题。本文提出空间分组注意力（spatial grouping attention，SGA），在降低网络深度、减少参数量、缩短训练和执行时间情况下依旧保持良好的性能。分析可知，局部肢体特征能精准地反映行为，为了降低无益于区分行为的局部特征对模型的干扰，本文将人体划分成多个区域，利用局部和全局特征的相似性，捕获能够代表全局运动的肢体部位，采用注意力机制在特征图中提升对关键部位的表示能力，使模型关注于更能区分行为的局部特征；其次，由于部分不同行为仅具有细微差别，导致帧中的关节坐标相似，从而模型容易被具有相似运动轨迹的行为干扰。为了缓解这一问题，本文捕获身体部位之间的相对运动，提出骨骼角度的高阶特征编码（higher-order feature coding of bone angles，HFBA）方法，捕捉更能反映细微运动差异的肢体关节间角度的变化，降低模型被相似行为的干扰；最后，针对低帧率问题，现有大多方案采用重复采样或填充空帧的策略，这些方法都未增加样本信息。因此，本文采用基于帧间差异的线性插帧（linear interpolation，LI）方案进行帧间插值，增加了样本信息量。

1 相关工作

目前，利用图卷积网络（graph convolutional network，GCN）进行骨骼数据的HAR已成为主流。基于GCN的方法是将人体骨架简化为一个由顶点和边组成的图，其能自然地对人体进行建模，从而取得较好的效果。李志新等^［11］通过小波包变换获取原始信号的时频特征，并在结构特征中加入距离约束，更好地处理时间序列信息。Li等^［12］建议使用行为连接表示任何顶点之间的潜在关系，并使用结构连接表示高阶特征。Shi等^［13］提出基于自适应图卷积网络（attentive graph convolutional networks，AGCN）的两流结构2s-AGCN（包括关节流和骨架流）。AGCN在表示人体物理结构的原始邻接矩阵的基础上，参数化了两类邻接矩阵，增加了模型对图结构的灵活性。Shi等^［4］在AGCN基础上提出空间通道注意力（spatial-temporal channel attention，STC）模块，利用串联的空间、时间和通道注意力有效提升了模型性能。Song等^［14］提出基于多输入分支策略的模型，该模型通过先验知识将原始骨骼数据分为3类，进行早期融合后作为网络的输入。Cheng等^［15］提出一个轻量级的GCN模型Shift-GCN，其使用移位卷积操作替代了二维卷积操作，用更少的参数量和计算量达到更好的模型性能。

为了在行动完成之前预测行动标签，Li等^［16］在HARD-Net中提议重点关注早期的HAR。Yin等^［17］采用SPIANet模拟人体运动过程中关节之间的复杂时空纠缠，通过平行聚合人体不同部位的特征，解决大多数动作仅与局部关节的动态特征相关的问题。She等^［18］提出具有EM动态路由的图卷积网络EMD-GCN，将多个关节点有效地聚类到相应的图拓扑中，使得模型能够学习到不同的结构特征。李梦荷等^［19］提出将骨骼点提取与动作识别相结合的方法，利用OpenPose算法提取关键点数据，并通过帧窗口矩阵的特征描述方法完成多人行为识别。宋震等^［20］提出根据人体关节点及连接关系的拓扑结构将全局空间特征划分为人体局部空间特征，学习各关节内部的特征关系，并通过融合各部分特征向量，学习关节间的协同关系。李炫烨等^［21］提出多注意力时空图卷积网络，根据时间序列和骨骼自然连接构建连通图，利用具有多注意力机制的时空图卷积网络自主地学习空间和时间特征。

然而，现有用于普通HAR的模型在无人机HAR上的性能并不优异。Hu等^［7］提出FR-AGCN，利用正反向数据在部分动作上具有了更好的识别效果。Xie等^［8］提出TE-GCN，引入因果卷积来确保不泄露动作的未来信息以保持顺序特征，并提出了TA层来捕获长范围的时间依赖性，使模型能够专注重要的时间步长。Cheng等^［9］采用MSST模块捕捉时空特征，构建多尺度特征聚合的轻量级动作识别模型。Huang等^［10］提出MS&TA-HGCN_FC，增加空间和时间的注意力机制并使用全连接图卷积，使用FCGC捕获长距离的空间依赖关系，以提高骨架间的区分度。

虽然现有工作推进了图卷积网络用于行为识别的发展，但大多工作需要较高的算力和较多的推理时间成本。另外，现有方法在区分具有相似运动轨迹的行为时表现不佳，这为模型应用于实际场景带来了一定的挑战。

2 空间分组注意力图卷积网络

空间分组注意力图卷积网络（spatial grouping attention graph convolutional network，SGA-GCN）的整体框架如图1所示，包含了LI模块、HFBA模块和SGA-GCN。首先通过LI模块对原始数据进行数据增强，然后采用HFBA模块对骨骼角度进行编码，以获取角度的三阶特征，最后将关节、骨架、角度和时空特征作为SGA-GCN的输入。SGA-GCN由7个基本块组成（B1—B7），每个基本块由一个空间GCN（ConvS）、一个AAGCN中的STC模块^［14］、一个SGA模块和一个时间GCN（ConvT）组成。

2.1 骨架图定义

定义骨架图为

G = (λ, ε)

，

λ

和

ε

分别表示人体骨骼中的关节点和骨骼。

λ = (λ 1, λ 2, ⋯, λ N)

是人体的

N

个关节点，

ε

是由邻接矩阵

A

定义的边集，

A ∈ R N × N

。如果在骨架图中关节沿

λ i

指向

λ j

，则

A i j = 1

，否则

A i j = 0

，其中

A i j = A j i

。

在网络中，每个输入行为样本的特征张量为

F i n ∈ R C × T × N

，输出为

F o u t ∈ R C × T × N

，其中：

C

为通道数；

T

为帧数；

N

为关节数。GCN网络在时间

t

处

l

层与

l + 1

层更新规则为

F o u t (l + 1) = ϑ (F i n (l) w i D ˜ - 1 / 2 A ˜ D ˜ - 1 / 2)

（1）

式中：

A ˜ = A + I

，为具有增加自循环来保持自身特征的骨架图；

D ˜

是

A ˜

的对角矩阵；

ϑ

为激活函数；

w i

为需要学习的权重。

2.2 空间分组注意力模块

在实际应用中，如何在保持良好识别性能的同时降低模型复杂度是目前研究的热点。本文通过降低网络深度来减少模型参数量，降低模型训练时间，提升模型执行效率。同时为保持模型性能，提出空间分组图卷积网络。分析可知，由肢体构建的局部特征能有效反映全局行为。因此，利用局部特征与全局特征相似性，捕捉突出行为的关键局部特征，增强注意力图，提升模型的表征能力。

为了提升模型对数据的学习能力，通过突出凸显行为的局部特征来增强特征分布。这种方法可以使模型更好地捕捉数据中的关键信息，并提高其性能和泛化能力。本文假设，分出的每个组在同一类别学习过程中都能够从局部信息中捕获同一局部特征。具体方法如下：首先将特征分组，利用整个组的空间整体信息来增强局部区域中特征的学习，防止局部特征中相似噪音特征对特征图推断的影响，并通过空间平均函数计算全局特征来近似表示该组学习到的运动特征，如式（2）所示。

F g p (χ) = 1 m ∑ i = 1 m x i

（2）

式中：

m = T × N

；

x i ∈ R C / G

，其中

G

为划分的局部数；

χ = {x 1, x 2, ⋯, x m}

。

然后，利用全局特征为每个特征生成相应的重要性系数，其在一定程度上度量了全局特征和局部特征之间的相似性，因此对于每个局部区域有

e i = F g p (χ) x i

（3）

不同样本在同一组上的注意力掩码分布存在差异，需要归一化到一定范围，因此对特征输入进行映射有

x^i = x i · s i g m o i d (γ e^i + β)

（4）

式中：

e^i = (e i - e ¯ i) / σ 2 + ι

；

e ¯ i

和

σ 2

分别为

e

的均值和方差；

ι

为实参数；

γ

和

β

为可学习的参数。

2.3 骨骼角度的高阶特征编码

解决如戴眼镜与带耳机等具有相似运动轨迹的行为时，即使执行不同行为，但帧中关节坐标仅具有微小差异，模型被这类行为所干扰。本文提出骨骼角度的高阶特征编码方法，有效地捕捉关节和身体部位之间的关系，通过肢体间角度的变化，降低模型受到仅具有细微差别行为的干扰。

现有方法大多使用关节和骨架特征形成双流结构。本文提出骨骼角度的高阶特征编码方法，将高阶角度特征作为新的特征提取方式，使得模型能够捕获更多运动信息。高阶角度特征的提取具体可表示为

R a (g) = 1 - b ⃗ g a 1 ⋅ b ⃗ g a 2 | b ⃗ g a 1 | | b ⃗ g a 2 | g ≠ a 1, g ≠ a 2 0 g = a 1 或 g = a 2

（5）

式中：

g 、 a 1 、 a 2

分别为骨架图中的3个关节点；

R a (g)

表示以节点

g

为顶点的角度。定义

g

为目标关节，

g 、 a 1 、 a 2

的坐标分别表示为

(x g, y g, z g) 、 (x a 1, y a 1, z a 1) 、 (x a 2, y a 2, z a 2)

。则由

g

指向

a 1

和

a 2

的向量可表示为

b ⃗ g a 1 = (x a 1 - x g, y a 1 - y g, z a 1 - z g) b ⃗ g a 2 = (x a 2 - x g, y a 2 - y g, z a 2 - z g)

（6）

式中：

b ⃗ g a 1

和

b ⃗ g a 2

分别为由

g

指向

a 1

和

a 2

的向量。

然而，由于各关节间的组合方式较多，实际运用时角度特征的数量不宜过多，因此提出相邻节点角度、中心定向角度和基于成对关节点的角度定义。

（1）相邻节点角度定义如图2a所示。如果目标节点恰好具有2个相邻节点时，利用式（5）计算角度特征；如果仅有1个相邻节点时，则将角度记为0；如果目标节点具有2个以上相邻节点时，如肩部，其与颈部、肘部相连接，与髋部相比，肘部和颈部更加灵活，运动范围更广，对捕获行为的运动特征更加有益。因此，选取肘部或者颈部节点，如果骨架图中无颈部节点，则可以用相近的头部节点替代，例如鼻子节点等。

（2）中心定向角度定义如图2b所示。对于构建目标关节与颈部、髋部之间的角度特征，使用颈部-目标关节-髋部，以及颈部-髋部-目标关节两个角度测定。如果目标关节为颈部或者髋部，则将角度特征记为0。

（3）对称节点的角度定义如图2c所示。可用式（5）计算目标关节与对称关节点之间的高阶角度特征，对称关节包括手部、肘部、肩部、膝部及脚部。这5个对称关节点之间的交互构建了复杂多变的高阶角度特征，极大地增益了模型对于人体行为的识别。

2.4 插帧策略

无人机拍摄视频会有低帧率问题，因此需要增加样本信息量。由于不同行为所需的时间存在差异，相同行为在不同场景、设备、环境和人物下所需的时间也不同，因此各个样本的视频帧数也存在差异。为解决上述2个问题，本文采用基于帧间差异的线性插帧方法。

为了统一输入数据，现有方法^{［4，13，15，22］}对小于300帧的样本进行重复采样或者填充空帧。二者处理后的样本所包含的信息量都未增加。因此，本文提出线性插帧方案。首先，根据要求，所有样本填充到指定的帧数；然后，根据

F ∈ R C × T × N

的定义，第

t

帧中的第

i

个顶点

λ i

的坐标向量标记为

C t, i = (x t, i, y t, i, z t, i)

。合并后的帧数表示为

f u

，每个样本的原始帧数表示为

f o

，由此计算出相邻帧之间需要插入的帧数

f f

和插帧之后需要删除的帧数

f d

；最后，根据帧间矩阵的差值可计算出帧间移位矩阵

M

，根据相邻帧间需要插入的帧数

f f

计算出帧间单步移位矩阵

P

，最终计算出第

i

帧位置插入第

k

帧的矩阵表达

C i, k

。具体计算步骤如表1所示。

C i

为对原视频第

i

帧提取的骨骼数据；

M i

为骨架数据第

i

帧和

i + 1

帧之间的空间位移矩阵；

P i

是骨骼数据中第

i

帧和

i + 1

帧之间插入帧的单步移位矩阵。

为解决

f f

不为正整数的情况，有如式（7）所示办法。

ρ (x) = x, x - x ≥ 0.5 x, x - x < 0.5

（7）

将

f f

更新，即

f f = ρ (f f)

。

3 实验结果与分析

本文在UAV-Human数据集上对最终模型进行了评估，并与其他基于骨架的HAR任务方法进行比较以验证模型的性能。

3.1 数据集

Li等^［23］提出UAV-Human数据集。由一架无人机在多场景下采集，包含67 428个多模态视频序列和119个人物。基于骨架的行为识别包含155个行为类别，并且作者定义了两种跨主题评估标准用于HAR（CSV1和CSV2），每个评估标准使用89个人物的行为样本进行训练和30个人物的行为样本进行测试。对于不同的跨主体评估标准的区别是用于训练和测试主体的ID不同。本文遵循这些协议并计算top-1和top-5准确性。

3.2 实验配置

所有实验都是在Pytorch深度学习框架上进行。本文应用Nesterov动量的随机梯度下降算法，为优化策略将Nesterov动量、权衰减和初始学习速率分别设置为0.9、0.000 1、0.1，并在第30和第40个epoch除以10，训练过程在第60个epoch结束。所有实验都是在一台配有Xeon（R）Gold 5218R CPU（2.1 GHz）、RTX 4090GPU*1和128GB RAM的计算机上进行的。

3.3 实验方法与结果

本文将骨骼数据进行高斯中心增强，补充样本关键信息后仍使用UAV-Human中的原始数据预处理策略。首先将骨骼数据填充空帧以使其在帧数上均匀，随后对每个样本进行归一化以统一每个通道的数据分布。

在SGA-GCN中，数据分支输入分为关节、骨架、角度和时空特征。为了便于描述，本文根据输入数据定义了网络输入。具体地，FJ、FB、FA、FM作为输入到网络的4个数据流分支。此外，FJB表示FJ和FB最终融合结果。FBM、FBR等可以类比推导，SGA-GCN是由AAGCN模型进行改进，因此本文将在多角度与AAGCN模型比较。

3.3.1 参数量、训练及推理时长分析

为了直观体现本文方法对于模型在综合性能上的优化，本文与AAGCN模型相比在参数量、训练时间和执行时间上的性能提升情况如表2—4所示。

从表2—4中可以看出，SGA-GCN模型在参数量上降低超30%，训练时间较原文的模型减少超30%，降低了模型的训练成本，且在测试执行效率上减少24%的时间。实验结果表明，本文通过空间分组注意力机制推断注意力图并降低网络复杂度，有效减少模型的训练时间和提升模型的执行效率。

3.3.2 多分支融合消融实验

为验证骨骼角度的高阶特征编码和不同数据分支对于模型性能的影响，SGA-GCN在UAV-Human数据集的TOP-1和TOP-5上分别报告了不同数据分支上融合的结果，如表5和表6所示。

从表5、6中的FJBM和FJBMA对比可发现，骨骼角度的高阶特征编码在2个评估标准上对模型性能分别提升了1.06%和0.64%。显然，该方法对模型性能的提升不可忽视。

从表6可知，增加不同数据分支对模型识别性能的提升是可行的。在UAV-Human数据集上将4个分支结果融合后，与双分支FJ和FB融合结果相比，在Csv1和Csv2上分别提升了2.68%和3.12%。采取增加不同数据分支使网络从不同的角度获取特征，再将多分支数据的优点相联合的方式是有效的。

3.3.3 线性插帧消融实验

为了验证插值方案对于每个数据分支的有效性，本文分别比较了填充空帧、重复采样和线性插帧在Csv1评估标准上的识别性能，并比较了不同插帧方式对数据分支性能的影响。融合后的识别性能如表7所示，不同插帧方式的不同数据分支识别性能如表8所示。

由表7可知，与填充空帧相比，本文的方法在Csv1的TOP-1基准上获得了3.8%的提升。与重复采样相比，本文的方法获得了1.56%的提高。由表8可知，本文的插帧方法在4个数据流上均优于填充空帧和重复采样方法，有效提升了模型的识别精度。

3.3.4 模型评估

在UAV-Human数据集上，比较了最终模型与现有常用方法，结果如表9所示。

由表9可知，本文提出方法的识别性能在UAV-Human数据集上优于现有的方法。与早期的ST-GCN方法相比，SGA-GCN在CSV1基准上具有15.33%的提升，与AAGCN相比有4.15%的提升。本文提出的方法与大多数网络的参数量相比都有所减少，与AAGCN相比参数量减少了33.46%，有效降低了网络的复杂程度。总之，SGA-GCN在关节特征、骨架特征、角度特征、时空特征4个数据分支上提取不同数据特征，联合不同数据分支的优点，优化了无人机骨骼数据的HAR任务是有效的。

4 结论

本文提出空间分组图卷积网络，首先，空间分组注意力利用局部和全局信息的相似性推断注意力图，在降低网络复杂度的同时保持识别性能；其次，骨骼角度的高阶特征为模型提供了不同角度的行为特征，缓解具有相似运动轨迹的行为对模型的干扰；此外，线性插帧方案有效增加样本信息量，使得模型能在训练过程中获取更多的关键帧；最后，本文提出的方法在识别性能、参数量、训练时间和执行时间上都优于现有模型。在未来工作中，将考虑如何完成特征的早期融合，进一步降低网络复杂度，提升网络效率，使得模型更具实用价值。

参考文献

原文顺序 | 出版日期 | 本文引用

[1]	印珍.无人机在农业机械精准施肥中的应用研究［J］.南方农机，2024，55（4）：174-176.

[2]	李云飞.农业无人机智能化技术在作物病虫害防控中的应用［J］.农业工程技术，2023，43（32）：48-49.

[3]	Si C Y， Chen W T， Wang W，et al.An attention enhanced graph convolutional LSTM network for skeleton-based action recognition［C］//2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition.Long Beach：IEEE，2019：1227-1236.

[4]	Shi L， Zhang Y F， Cheng J，et al.Skeleton-based action recognition with multi-stream adaptive graph convolutional networks［J］.IEEE Transactions on Image Processing，2020，29（5）：9532-9545.

[5]	Plizzari C， Cannici M， Matteucci M.Skeleton-based action recognition via spatial and temporal transformer networks［J］.Computer Vision and I-mage Understanding，2021，208/209：103219.

[6]	Ye F F， Pu S L， Zhong Q Y，et al.Dynamic GCN：context-enriched topology learning for skeleton-based action recognition［C］//Proceedings of the 28th ACM International Conference on Multimedia.Seattle：ACM，2020：55-63.

[7]	Hu Z S， Pan Z H， Wang Q，et al.Forward-reverse adaptive graph convolutional networks for skeleton-based action recognition［J］.Neurocomputing，2022，492（7）：624-636.

[8]	Xie Y L， Zhang Y， Ren F.Temporal-enhanced graph convolution network for skeleton‐based action recognition［J］.IET Computer Vision，2022，16（3）：266-279.

[9]	Cheng Q， Cheng J， Ren Z L，et al.Multi-scale spatial-temporal convolutional neural network for skeleton-based action recognition［J］.Pattern Analysis and Applications，2023，26（3）：1303-1315.

[10]	Huang Z X， Qin Y S， Lin X B，et al.Motion-driven spatial and temporal adaptive high-resolution graph convolutional networks for skeleton-based action recognition［J］.IEEE Transactions on Circuits and Systems for Video Technology，2023，33（4）：1868-1883.

[11]	李志新，商樊淇，郇战，等.基于混合特征图卷积神经网络的人体行为识别方法［J］.郑州大学学报，2024，1（7）：1671-6833.

[12]	Li M S， Chen S H， Chen X，et al.Actional-structural graph convolutional networks for skeleton-based action recognition［C］//2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition.Long Beach：IEEE，2019：3590-3598.

[13]	Shi L， Zhang Y F， Cheng J，et al.Two-stream adaptive graph convolutional networks for skeleton-based action recognition［C］//2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition.Long Beach：IEEE，2019：12018-12027.

[14]	Song Y F， Zhang Z， Shan C F，et al.Stronger，faster and more explainable：a graph convolutional baseline for skeleton-based action recognition［C］//Proceedings of the 28th ACM International Conference on Multimedia.Seattle ：ACM，2020：1625-1633.

[15]	Cheng K， Zhang Y F， He X Y，et al.Skeleton-based action recognition with shift graph convolutional network［C］//2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition.Seattle：IEEE，2020：180-189.

[16]	Li T J， Liu J， Zhang W，et al.HARD-net：hardness-AwaRe discrimination network for 3D early activity prediction［C］//European Conference on Computer Vision.Cham：Springer，2020：420-436.

[17]	Yin X P， Zhong J Q， Lian D L，et al.Spatiotemporal progressive inward-outward aggregation network for skeleton-based action recognition［J］.Pattern Recognition，2024，150：110262.

[18]	She J N， Wang Q.EMD-GCN：graph convolution network with EM dynamic routing for skeleton-based action recognition［C］//Second International Conference on Biomedical and Intelligent Systems.Xiamen：SPIE，2023：473-478.

[19]	李梦荷，许宏吉，石磊鑫，等.基于骨骼关键点检测的多人行为识别［J］.计算机科学，2021，48（4）：138-143.

[20]	宋震，周元峰，贾金公，等.面向人体动作识别的局部特征融合时间卷积网络［J］.计算机辅助设计与图形学学报，2020，32（3）：418-424.

[21]	李炫烨，郝兴伟，贾金公，等.结合多注意力机制与时空图卷积网络的人体动作识别方法［J］.计算机辅助设计与图形学学报，2021，33（7）：1055-1063.

[22]	Shi L， Zhang Y F， Cheng J，et al.Skeleton-based action recognition with directed graph neural networks［C］//2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition.Long Beach：IEEE，2019：7904-7913.

[23]	Li T J， Liu J， Zhang W，et al.UAV-human：a large benchmark for human behavior understanding with unmanned aerial vehicles［C］//2021 IEEE/CVF Conference on Computer Vision and Pattern Recognition.Nashville：IEEE，2021：16261-16270.