随着物联网、人工智能和大数据技术的成熟,智能无线感知(Intelligent wireless sensing,IWS)技术已成为连接物理世界与数字世界的关键
[1-2]。手势识别作为最符合人类自然行为习惯的交互模态,在人机交互和虚拟现实等方面具有非常大的潜力,并在多个领域拥有广泛的应用前景
[3]。
在现有研究中,主要通过商用WiFi无线网卡提取接收信号强度指示(Received signal strength indicator,RSSI)和信道状态信息(Channel state information,CSI)等物理层信息实现手势识别。早期基于RSSI的定位与手势识别研究虽验证了技术可行性(手势识别准确率为87.5%,定位误差为3~5 m),但局限性显著,定位精度易受环境影响,手势识别仅能进行粗粒度分类,且对信号波动和设备异质性高度敏感
[4-8]。随着CSI的引入,Yang等
[9]证明了CSI在定位精度上优于RSSI;温新宇
[10]通过幅值滤波与相位校准实现手势识别;Pu等
[11]利用微多普勒特征识别手势;康敬民
[12]采用波谱卷积与双塔结构提高手势特征表示能力。为解决跨域问题,Liu等
[13]提出位置方向无关的新速度特征;Virmani等
[14]通过手势样本虚拟化实现位置方向无关识别;Ma等
[15]采用深度网络实现位置无关手势识别;Zhang等
[16]提出WiGr系统结合少量标记样本实现跨域识别;Qi等
[17]引入迁移学习并开发分布式边缘感知系统;Zinys等
[18]使用域无关生成对抗网络(Generative adversarial network,GAN)进行活动识别;Mao等
[19]通过GAN和少量目标样本实现跨域识别;Zheng等
[20]提出基于身体坐标速度曲线的跨域识别系统;Zhang等
[21]利用CSI提取动态相位向量和运动旋转变量实现手写识别;韩子钧
[22]通过条件GAN生成虚拟样本,并结合特征迁移提升陌生环境识别精度。然而,基于WiFi的手势识别技术面临信号连续性不足和稳定性差等问题,限制了其在复杂环境中的应用。
基于长期演进(Long term evolution,LTE)的无线感知技术逐步被关注。在蜂窝系统优化方面,徐彤等
[23]针对LTE网络中的乒乓切换问题,分析切换信令流程并提出了优化方案。刘云浩等
[24]针对代际交错“近因现象”给出4G/5G双连接自调控机制,提升网络能效与可靠性。边缘计算的兴起进一步推动了实时视频流分析与无线感知的发展,杨铮等
[25]系统综述了边缘计算在实时视频分析中的关键技术,并提出了以Argus平台实现实时视频流分析全流程优化。天地一体化网络中,梁浩等
[26]引入拟态计算增强异构网络效能。智能无线感知技术逐步实现无传感器、无接触的场景感知,为其应用开辟了新方向。
本文基于LTE信号,分析信道频率响应(Channel frequency response,CFR)信息的相位特征,针对随机相位偏移导致手势动作特征难以提取的问题,通过CSI商模型有效去除噪声和随机相位偏移,构建了一种基于多普勒特征的手势识别方法,利用多普勒谱图表征手势运动信息,结合卷积神经网络实现了高精度的手势识别。
1 基于射频信号的手势识别原理
无线信号传播过程中会受到环境中物体和人体的影响,易发生直射、反射和散射等物理现象,导致在接收机处形成多径叠加信号,这就携带了能够反映信号传播空间的信息。基于无线信号的手势识别技术就是通过分析目标手势对周围无线信号的影响从而进行手势分类的
[27-28]。
在LTE系统中,信道状态的估计依赖于预定义的小区特定参考信号(Cell-specific reference signal,CRS)
[29]。用户设备(User equipment,UE)通过接收CRS信号并计算信道频率响应,精确量化无线信道对信号的幅度衰减、相位偏移及多径效应影响。LTE的信道频率响应计算模型为
其中,为基站发送的CRS理论值,为用户设备接收的CRS信号,的复数特性同时可以反映出无线传输信道引起的幅度与相位变化。
在正交频分复用(Orthogonal frequency division multiplexing,OFDM)通信系统中,接收端的子载波信号在频域上可以表示为
,
其中,
代表接收端信号,
表示信道频率响应,
代表发送端信号,
代表高斯白噪声。当手在移动时,信号会发生衰减、时延和相位偏移等现象,导致信道状态信息的幅值和相位发生变化,如
图1所示。因此,可以通过提取手势的相关特征来进行手势识别。
本文虽采用LTE的CRS信号进行手势感知,但其物理层模型与WiFi基于CSI的手势识别高度相似。在减少相位误差的研究中,研究人员提出的CSI商模型同样可以用到LTE系统中
[21]。该模型通过计算接收天线间CSI比率分析手势引起的信号变化,并利用同一设备不同天线共享同一时钟的特性,能够有效消除随机相位偏移。
CSI商模型定义为两根接收端天线之间第K个子载波中信道状态信息的商,可表示为
,
其中,和分别为第一、二根天线上的第K个子载波中的信道状态信息,对于LTE系统中给定的第K个子载波,其信道状态信息可以表示为
,
其中,表示幅度,表示相位。
在LTE信号覆盖的环境中,无线信号沿视距(Line of sight,LoS)路径及反射路径传播。当手部移动时,反射路径长度变化引起CFR变化,如
图1所示。因此,CFR可分为静态和动态分量
[30]。视距路径和环境传播的信号不变,静态分量保持稳定,动态分量随手部运动变化。此外,还存在由硬件和环境引起的相位偏移和振幅噪声。因此,CFR可以分解表示为
,
其中,和分别表示噪声和随机相位偏移,是静态分量,是动态分量,表示动态路径衰减,d(t)表示随手部运动变化的路径长度,表示动态路径长度变化导致的相位偏移。因此,两根天线间CFR之比可有效抵消共同的相位偏移项,仅保留由手势运动产生的多普勒变化信息,表示为
,
其中,表示两根天线之间的动态路径长度差。一般来说,两根距离相近的天线上的动态路径长度差可以视为常数。
文献[
31-
32]的研究已证明,由单个移动目标引起的CSI商能够有效消除大部分相位偏移和抑制脉冲噪声,并在复平面上呈圆形变化。如果反射路径长度的变化正好是一个波长,CSI商将在复平面上精确旋转2
。随着反射路径长度的减小,CSI商会顺时针旋转,否则会逆时针旋转。因此,通过分析信道频率响应在复平面内的变化趋势即可实现手势识别。
2 系统架构
本文目标是消除LTE信号中由于载波频率偏移(Carrier frequency offset,CFO)和采样频率偏移(Sampling frequency offset,SFO)引起的随机相位偏移,并准确提取与手势动作相关的多普勒信息。CFO由发射端和接收端本地振荡器频率偏差所致,会造成信号相位线性偏移;SFO则源于发射端和接收端的采样时钟的不完全同步,导致其非线性相位偏移。这些偏移使得信号相位随机变化,难以提取手势特征,尤其是在人体运动引起的微小相位变化中,CFO和SFO的干扰会削弱系统的感知性能。
为解决这一问题,本文提出了一种基于多普勒特征的手势识别方法,系统架构如
图2所示,其主要由LTE信号采集模块、数据预处理模块、多普勒谱图构建模块和基于卷积神经网络的手势识别模块构成。在LTE信号采集模块中,通过LTE系统提取两根接收天线中不同载波上的CRS,并计算相应载波的CFR。在数据预处理模块中,通过计算不同接收天线的CFR商以消除CFO和SFO引起的相位偏移,并使用Savitzky-Golay滤波器进行去噪和平滑处理。在多普勒谱图构建模块中,首先计算CFR商的切线相位变化,得到信号传播路径随时间的变化,然后采用连续小波变换生成与手势运动信息相关的多普勒谱图,并通过一阶时间微分去除静态干扰。最后,在基于卷积神经网络的手势识别模块中,利用卷积神经网络学习不同手势的多普勒特征,完成手势分类任务。
2.1 LTE信号采集模块
在LTE信号采集模块中,使用YunSDR Y750软件定义无线电平台并搭建LTE下行系统,提取CRS信息并计算CFR。硬件设备包括一台主机、一台YunSDR Y750设备、三根全向天线(一发两收)和一根光纤等。在进行环境配置后,首先对YunSDR Y750设备进行初始化,然后当设备接收到从主机生成的数据后,缓存数据并配置设备切换至Tx循环模式,从Tx端口持续发射同相-正交(IQ)数据。在信号发送后,将接收到的无线信号数据发送到主机进行处理。
在CRS提取与CFR计算中,首先根据CRS信号在子载波K上的索引位置,从接收的OFDM符号网格中提取对应天线端口N(N=1,2)中子载波K上的CRS信号。然后,根据eNodeB配置参数获取发射端的CRS信号,并通过计算对应接收天线端口N的CRS与该发射端CRS的比值,最终得到天线端口N中各CRS子载波上的CFR信号,公式为
。
2.2 数据预处理模块
数据预处理模块的主要任务是通过消除CFO和SFO引起的随机相位偏移,从而有效提取手势引起的切线相位变化。具体的处理流程如下。
1) CFR商的计算
为了更清楚地展示CFO和SFO对相位的影响,采集受试者“先推后拉”手势过程中不同载波编号对应的CFR数据,然后获取单根接收天线不同载波在不同时间点上的CFR相位变化,结果如
图3所示,可以看出,直接提取的CFR相位存在较大的由CFO和SFO引起的整体相位偏移,导致难以准确提取与手势相关的特征。
因此,进一步计算两根不同接收天线在相同CRS载波编号下的CFR商,公式为
,
其中,
和
为第一、二根天线上的第
K个子载波中的CFR,
表示各接收天线间的CFR商。然后,通过angle函数进一步计算CFR的相位,结果如
图4所示,该方法在很大程度上消除了由CFO和SFO引起的相位偏移,使得相位变化更能反映人体手势的实际动态特征。
然而,由于相位是周期性的,范围通常被限制在[-π,π]之间,所以当信号相位超出该范围时,会发生相位卷绕形成跳变现象。因此,采用unwrap函数对相位数据进行解卷绕操作,如
图5所示,还原真实的相位变化趋势,有助于准确捕捉由手势动作引起的相位变化。
2) Savitzky-Golay滤波
去除随机相位偏移后,CFR相位数据仍包含脉冲噪声,表现为波形上的不规则毛刺。CFR高频分量由噪声引起,手势运动信息集中在低频部分,因此使用Savitzky-Golay滤波器平滑操作有效去除噪声。该滤波器基于局部多项式拟合,能去除噪声并保持信号趋势不变,通过在滑动窗口内采用最小二乘准则拟合低阶多项式,并以拟合多项式在窗口中心处的取值替代原始信号,从而实现对信号的平滑处理。
在进行滤波时,设置多项式阶数为5,窗口长度为301。CFR商数据经过Savitzky-Golay滤波处理前、后的可视化效果如图
6(a)、
6(b)所示,并设置信号从蓝色开始逐渐过渡到红色结束。显然,滤波后的数据整体趋势保持不变,且噪声引起的毛刺被有效抑制,同时还保留了手势运动产生的相位信息。
3) 切线相位变化计算
由CSI商的特性可知,当反射路径长度的变化为一个波长时,CSI商在复平面上旋转
;若反射路径长度减少,CSI商呈现顺时针旋转;反之,则逆时针旋转,这一特性可以通过
图6进行验证。在实验中,设置目标初始位置为距离收发天线3.0 m处,手掌从起始位置向天线方向运动,路径长度约43 cm(对应胳膊弯曲到伸展的手掌运动距离),然后回到起始位置(即执行“先推后拉”手势)。由
图6可知,数据先是顺时针旋转,表明反射路径长度减少;随后逆时针旋转,表明反射路径长度增加。此外,每次旋转的圈数
n对应路径变化
n个波长。因此,通过计算旋转的方向及圈数,即可估计出反射路径的变化,从而有效识别手势动作。
通过计算相邻样本点复数的差值得到切线相位变化,对相位进行解卷绕,结果如
图7(a)所示。
由于反射路径长度每变化一个波长,切线相位会在复平面上旋转,因此,可通过切线相位变化求出信号反射路径长度变化,计算公式为
其中,
为反射路径长度变化,
为切线相位变化,
为信号波长,本文搭建的LTE系统的中心频率为2.46 GHz,对应波长为12.2 cm。使用滑动窗口滤波器对结果进行平滑处理,得到反射路径随时间的变化,如
图7(b)所示,两个手势运动阶段对应的路径变化绝对值分别为0.80 m和0.92 m,由此可推算出手掌移动的距离为40 cm和46 cm,两次推算结果的绝对误差均为3 cm。该结果进一步表明,以上过程能够准确捕捉由手势动作引起的信号反射路径的长度变化。
2.3 多普勒谱图构建模块
为了更直观地表征手势特征,本文采用连续小波变换(Continuous wavelet transform,CWT)计算手势的多普勒谱图,以实现手势的识别。CWT通过对母小波函数的缩放和平移,提取信号的局部频率特征。相较于传统的傅里叶变换,CWT具有更优越的时频局部化特性,能够有效分析非平稳信号。CWT的数学表达式为
,
其中,x(t)为输入信号,为母小波函数,a和b分别为尺度因子和时间平移因子,*表示共轭运算。尺度因子a和频率f满足关系
其中,fCWT是母小波函数的中心频率。通过调整尺度因子a,CWT可以解析信号在不同频率下的局部特征,从而获得其完整的时频信息。
对处理后的切线相位变化进行CWT变换得到多普勒谱图,并选用Morse小波作为母小波函数。本文采用2 kHz的采样率,对经Savitzky-Golay滤波后的CFR商信号进行一阶微分以突出动态分量,随后利用Morse小波进行CWT变换以获取信号的时频特征。Morse小波的公式为
其中,为单位阶跃函数,用于保证小波在t>0内被定义;和控制小波的形状,使其能够适应不同信号特征。
获得多普勒谱图后,利用多普勒频移与目标手势速度的关系来估计手势运动的速度,计算公式为
其中,
fd 为多普勒频移(Hz),
v为目标的径向速度(m/s),
fc 为载波频率(Hz),
c为电磁波在空气中的传播速度。由于人手的运动速度通常不会超过3 m/s,因此约束了频谱图的速度范围,“先推后拉”手势动作的多普勒谱图如
图8(a)所示。
从
图8(a)可以看出,在速度为0的附近区域,谱图中存在显著的静态分量干扰。由于不同环境下的静态反射分量具有差异,会影响系统的跨域泛化能力与识别准确率,因此,为了提高手势识别系统对不同环境的适应能力,在构建多普勒谱图之前,先对切线相位变化进行一阶时间微分处理,去除环境静态分量的干扰,仅保留手势运动相关的特征信息。去除静态分量后,“先推后拉”手势的多普勒谱图如
图8(b)所示。
2.4 基于卷积神经网络的手势识别模块
利用卷积神经网络对去除静态分量后的多普勒谱图进行分类,以实现手势识别。因此,设计了一个基于深度学习的无设备手势识别系统,其网络架构如
图9所示。该卷积神经网络由4个卷积层组成
[33-34],每一层的卷积核数量依次为16、32、64和256。卷积核的大小为3×3,步长和填充大小均设置为1。前三层网络包括一个卷积层、一个批归一化层、一个ReLU激活层和一个最大池化层。第四层则由一个卷积层、一个批归一化层和一个ReLU激活层构成。批归一化层能够有效加速模型训练并提高其泛化能力,而ReLU激活层则增强了模型对数据的特征提取能力
[35]。最大池化层有助于减少模型需要学习的参数数量,池化核的大小为2×2,步长为2。分类器部分由一个包含100个神经元的全连接层、一个包含5个神经元的全连接层以及一个Softmax层组成,用于处理5种手势类别的分类任务。
3 实验结果与分析
3.1 实验设置
本文使用YunSDR Y750软件定义无线电平台来验证所构建的基于多普勒谱图的手势识别方法的性能。所构建数据集采集了4名受试者在不同环境下特定位置的手势原始CFR数据,手势类型包含“X”“圆形”“矩形”“推”及“推拉”5种手势动作,涵盖日常交互中的典型动作和典型的生活场景,确保数据来源的多样性和代表性。其中,每种手势收集50个样本并计算谱图,然后将谱图统一调整为386×343像素作为网络输入。在实验验证阶段,针对多普勒谱图构造过程中所提出的策略以及系统在不同径向距离的准确率进行了性能评估。所有实验均在Intel i9-11900处理器上运行,卷积神经网络的批量大小设置为50,迭代轮次设置为300,最终以识别准确率作为系统性能评估指标,并利用混淆矩阵对识别结果进行更加直观地展示。
3.2 性能评估与分析
1) 多普勒谱图构造过程中提出策略的有效性评估
为了验证所提方法的性能,本文邀请了4个不同的目标(P1、P2、P3、P4)在两个环境(S1、S2)中执行手势,设置每个受试者坐在Tx和Rx构成线段的中垂线上,分别在对应环境中的1.5 m的垂直距离下以径向方向执行手势,其中的一些场景如
图10所示。训练集收集目标P1在环境S1中径向距离1.5 m处执行5种手势的原始数据,每种手势类型收集40个样本。测试集则收集不同目标分别在S1、S2环境中径向距离1.5 m处执行5种手势的原始数据,每种类型收集10个样本。
基于以上采集到的原始数据,首先对两根天线对应载波的原始CFR信息进行预处理,然后分别构建未去静态分量的多普勒谱图(RD-S)和去静态分量后的多普勒谱图(SFD-S)。5种手势的部分多普勒谱图如
图11所示,可以看出未去静态分量的多普勒谱图包含与环境相关的静态分量,其较强的能量可能会掩盖部分手势的多普勒信息。去静态分量后,不同手势对应的多普勒信息更加清晰。最后,分别将这两种谱图作为卷积神经网络的输入,并比较它们各自的性能,以验证所提出方法的有效性。
实验结果如
表1所示,未去静态分量的多普勒谱图对环境和目标变化较为敏感,在4个目标和两个环境中的径向方向上,最高识别准确率为94%,最低识别准确率为74%,平均识别准确率为83%。而对于去静态分量的多普勒谱图,最高识别准确率为96%,最低识别准确率为92%,平均识别准确率提高到94%。去静态分量后在单个手势的识别准确率和整体识别准确率上都有所提高,进一步验证了基于一阶时间微分去除静态干扰方法的有效性。
为了更加直观地展示去除静态分量前后系统在各手势类别下的表现,进一步绘制了在所有场景下进行手势识别的混淆矩阵,结果如
图12所示。当使用RD-S完成识别任务时,混淆矩阵如
图12(a)所示,整体识别准确率不高,尤其是在某些动作相近的手势之间容易混淆,例如“推拉”与“X”以及“矩形”与“圆形”。分析表明,“推拉”与“X”两类手势在多普勒谱图中均呈现出双向频移结构,当动作速度不均或轨迹偏离轴线时,其特征分布重叠,易致误判;而“矩形”与“圆形”手势的误识别则与手势幅度及旋转速率有关。相比之下,采用SFD-S进行手势识别任务时,识别效果显著提升,大多数手势类别均能被准确区分,误识率大幅降低,混淆矩阵如
图12(b)所示。以上结果验证了所提SFD-S方法在不同场景下的有效性与鲁棒性,展现了其在实际手势识别应用中的良好潜力。
2) 基于多普勒谱图的手势识别方法在不同径向距离下的有效性评估
为了验证多普勒谱图的手势识别方法在不同径向距离下的性能,设置受试者P1坐在Tx和Rx构成线段的中垂线上,分别在环境S1中的1.5、3.0及4.5 m的垂直距离下以径向方向执行手势。训练集收集受试者P1在距离1.5 m径向方向上执行5种手势的原始数据,每种手势类型收集40个样本。测试集则收集受试者P1分别在1.5、3.0及4.5 m垂直距离下,以径向方向执行5种手势的原始数据,每种手势类型收集10个样本。基于以上原始数据,分别构建了RD-S和SFD-S,分别将这两种谱图作为卷积神经网络的输入,并比较它们各自的识别性能,实验结果如
表2所示。
由
表2实验结果可以看出,基于RD-S的手势识别方法在1.5、3.0和4.5 m距离下的准确率分别为96%、68%和40%,基于SFD-S的手势识别方法在1.5、3.0和4.5 m距离下的准确率分别为96%、78%和54%。由此可见,手势识别准确率会随着手势执行距离的增加而显著下降,其中,基于RD-S方法的性能下降更为明显,因为随着距离的增加,手势相关的多普勒特征强度会逐渐衰减,同时,环境中静态成分较强的能量也会掩盖部分手势的多普勒信息。相比之下,因为SFD-S中的静态成分得到有效去除,所以能够更好地提取手势的运动特征。实验结果表明,基于SFD-S的手势识别方法在各距离上均表现出更优的鲁棒性。
4 结论
针对LTE信号在手势识别中因随机相位偏移导致特征提取困难的问题,本文提出了一种基于多普勒谱图的手势识别方法。该方法通过接收天线间的CFR商来有效消除CFO和SFO造成的随机相位影响,结合Savitzky-Golay滤波实现平滑去噪,并采用连续小波变换生成多普勒谱图以提取动态特征。在抑制静态干扰后,引入卷积神经网络进行分类,实现精准的手势识别。基于YunSDR Y750平台的原型系统实验表明,所提方法能有效抑制CFO和SFO的影响,精准提取与手势相关的多普勒特征。在1.5 m径向方向上,4种场景下的平均识别准确率达94%,验证了该方法在特定条件下的有效性与稳定性。将基于WiFi信号的CSI模型应用于基于LTE信号的手势识别系统,进一步表明该方法不仅适用于WiFi信号,也可推广至采用OFDM与多输入多输出(Multiple-input multiple-output,MIMO)技术的LTE系统,侧面验证了该方法具有良好的通用性与应用潜力。
然而,在复杂环境中,当存在多个移动物体或手势方向变化较大时,额外的多普勒频移及方向偏差可能会干扰特征提取,导致识别精度下降。未来研究可考虑引入具备自适应学习能力的深度学习方法,以识别不同方向下的多普勒特征,并结合背景干扰抑制等技术优化特征提取,提高系统在复杂环境下的鲁棒性与泛化能力。