语言是人类信息传递的核心载体,唇语识别作为融合计算机视觉、语音识别与自然语言处理的交叉领域技术,在军事情报、公共安全、语音增强等领域有着重要价值。近年来,随着深度学习技术的快速发展,英文唇语识别准确率不断提高,诸如GRID
[1]、LRW
[2]等优质英文语料库陆续涌现。中文作为世界上使用人数最多的语言,已成为唇语识别的热点方向,但面临着更复杂的挑战:一是汉语作为典型的单音节语言,同音字率高达85%
[3],导致发音过程中唇部形态差异细微,识别难度更高;二是中文唇语语料库的稀缺性与碎片化严重制约了识别模型的性能提升,现有语料库在规模、多样性和泛化性等方面亟待完善。
目前,针对唇语识别的综述文章相对较少,文献[
4-
7]对唇语识别方法和相关语料库进行了梳理和评述,仅有文献[
8]专门对唇语语料库进行了整理和比较分析,且以上综述文章均未考虑到中文唇语的特殊性。本文专门针对中文唇语语料库,在简要介绍唇语识别技术的基础上,全面梳理迄今为止出现过的主要中文唇语语料库,并从多个维度进行了比较分析,然后对中文唇语语料库面临的主要挑战和应对措施进行了剖析,最后对唇语识别可能的应用领域进行了讨论。
1 唇语识别技术
唇语识别技术(亦称唇读),是一项通过分析说话者唇部运动变化序列来识别其所说内容的技术,其核心任务是建立唇部运动特征与语言内容之间的映射关系。概括而言,唇语识别技术经历了从基于人工特征的传统技术到深度学习技术的发展历程,二者对比如
表1所示。
传统技术通常包含3个阶段:首先进行脸部检测与唇部分割;其次提取唇部的几何特征、纹理特征或混合特征;最后通过动态时间规整(Dynamic Time Warping, DTW)、隐马尔可夫模型(Hidden Markov Model, HMM)等算法对特征序列进行训练与识别。这些方法依赖专家经验设计特征,对计算资源需求较低,但泛化性差,难以适应复杂自然场景。
深度学习技术主要是通过卷积神经网络(Convolutional Neural Networks, CNN)和循环神经网络(Recurrent Neural Networks, RNN)的协同工作实现:前端通常采用2D CNN提取单帧唇部空间特征,或3D CNN捕捉连续帧的时空联合特征;后端通常利用长短时记忆(Long Short-Term Memory, LSTM)网络、门控循环单元(Gated Recurrent Unit, GRU)或Transformer等算法建模长时序依赖,结合注意力机制聚焦关键帧信息;最终采用连接时序分类(Connectionist Temporal Classification, CTC)损失、注意力机制或编解码结构(Sequence-to-Sequence)等方法输出文本。基于深度学习技术凭借自动特征学习和强大的时序建模能力已成为主流,尤其在复杂任务和大规模数据场景下表现突出。
2 中文唇语语料库
无论何种识别技术,规范、全面的唇语语料库是精确识别的基础。本文全面梳理了从2000年至今公开发表论文中用于唇语识别的主要中文唇语语料库,及其对应的识别技术和效果。
2.1 语料库详述
从数据颗粒度来看,目前主要中文唇语语料库可分为汉字级、词语(短语)级和句子级3个层次;从数据采集条件来看,又可分为实验环境采集和自然环境采集两类。为全面对比各语料库的特性差异,从颗粒度、规模、采集条件、清晰度、模态等多个维度对其进行了系统梳理。
1)CAVSR1.0语料库
[9]:这是目前已知最早的中文唇语语料库,由徐彦君等人于2000年提出。该语料库为汉字级音视频双模态唇语语料库,以中国科学院编制的汉语清晰度实验音节表内容加上少数音节为语料(共78个汉字音)。语料库包含20名志愿者(12男8女)在实验环境重复朗读2遍语料的音视频,共获取3 120个样本;采集角度为正面,视频帧率为25 FPS,图像分辨率为352×288像素,音频采样率为22.05 kHz。该语料库填补了中文唇语语料库的空白,且覆盖了所有汉语声韵母,但受制于当时的硬件条件,音视频参数均不够理想。
2)CAVSR语料库
[10]:该语料库由王东等人构建,包括4个部分。40名志愿者(25男15女)分别正对镜头、左45°/右45°斜对镜头朗读语料各1遍,语料同样选自中国科学院编制的37个基本音子,由79个汉字组成;1名志愿者重复5遍朗读10个数字,仅保留唇部192×160像素区域;40名志愿者朗读特定句子;40名志愿者头部正、侧面像共240幅。采集环境均为实验环境,视频帧率为30 FPS,图像分辨率为352×240像素,音频采样率为16 kHz。该语料库囊括了汉字、数字和句子,数据较为全面。
3)HIT Bi-CAVDatabase语料库
[11]:该语料库由姚鸿勋在其博士论文中提出,其语料选择同样参照CAVSR1.0的中文语音基本组成,并将规模扩大到82个汉字音。但是该语料库不再以单个汉字音作为语料,而是为每个汉字音拟定3个句子作为基本语料。语料库在自然环境中正面采集头部区域,包括音视频双模态、视频帧率为25 FPS、分辨率为256×256像素、音频采样率为11.025 kHz以及志愿者为10人(6男4女)。该语料库考虑到了唇语的连续性,是第1个句子级的中文唇语语料库。
4)HIT Bi-CAVDatabase Ⅱ语料库
[12]:该语料库由洪晓鹏等人提出,是第3种语料库的改进版本,主要是将汉字音由82拓展到96,语料规模从246个句子缩减至200个,志愿者性别比例从6男4女调整为5男5女,其他采集参数保持不变。
5)Bi-VSS语料库
[13]:该语料库由赵晖等人提出,基于视频三音子模型,利用评估函数从原始语料中自动选取了31 070个句子作为语料,由5名志愿者(3男2女)在实验环境中正对采集设备分别朗读1次进行录制,包括了音视频双模态。采集区域为唇部,视频帧率为24 FPS,图形分辨率为640×360像素。Bi-VSS优点在于其覆盖率、覆盖效率和高频词分布率均有提高。
6)LSD-AV语料库
[14]:该语料库由Wang等人构建,利用微软Kinect设备在室内理想实验环境下进行采集,69名志愿者(44男25女)分别朗读146个句子(筛选自文学网站,平均25个字),最终得到10 074个样本。样本数据不仅包括音视频,还包括深度图像和3D面部点云等模态。采集角度为正面,图像区域为头部,视频分辨率为1 920×1 080像素,帧率为30 FPS,音频采样率为16 kHz,深度图像分辨率为512×424像素、帧率为30 FPS,面部三维信息包括了1 347个点。LSD-AV是首个集成深度图像信息的多模态中文唇语语料库,样本数据信息更加完备。
7)CAS-VSR-W1k语料库
[15]:该语料库由Yang等人发布,原名LRW-1000。其借鉴英文唇语语料库LRW的构建思路,从26家电视台的51个新闻和访谈类节目中收集原始视频,并从中提取出1 000个词语的音视频,最终得到718 018个样本。视频中均为自然环境,角度并不固定,图像经裁剪后仅保留头部区域,视频帧率为25 FPS,分辨率包括1 920×1 080像素(高清)和1 024×768像素(标清)两种,音频比特率为128~160 Kbps。语料库包括了2 000多名不同的说话者,充分考虑了姿态、年龄、性别、角度、光照、背景等不同条件,是当前公开可获取的最大规模词语级中文唇语语料库。
8)CMLR语料库
[16]:该语料库由Zhao等人发布,其内容采集自2009年6月至2018年6月中国网络电视网站的新闻联播节目,包括11个说话人的102 072个句子(最长29字)、25 633个词语和3 517个汉字,不包括英文、数字和特殊符号。同CAS-VSR-W1k,该语料库亦为音视频双模态,自然环境采集,图像区域仅保留头部,但仅有正面头像,视频和音频参数不详。CMLR作为公开的大型句子级中文唇语语料库,为中文唇语的发展发挥了一定促进作用。
9)AVSR语料库
[17]:AVSR语料库由Zhou等人提出,采集自广播电视新闻类视频,包含100个说话人、104 881个样本。样本平均含22个汉字,时长约5 s。AVSR还提供了另外33 026条样本作为测试集。样本中包括音视频双模态,图像区域仅保留头部,视频帧率为25 FPS,其余参数、采集和处理方法文献[
17]中未做详述。
10)CCTVDS语料库
[3]:该语料库由张晓冰等人构建,通过对CCTV网站上连续6个月的新闻联播视频进行半自动化处理所得。每个样本为一个包含2~25个汉字的句子,数量共计14 975,图片仅保留嘴唇区域,大小为120×120像素。该语料库在自然环境中采集,包括视频、文本两种模态。作为大型句子级中文唇语语料库,其构建思路同CAS-VSR-W1k相似,但仅包含说话者正面嘴唇图像,且缺少音频信息。
11)NSTDB语料库
[18]:该语料库由Chen等人提出,源自互联网上新闻联播、演讲和脱口秀等节目视频,其采集环境、角度、区域、模态类型均同CCTVDS。所有视频在经人脸定位等预处理后,被切分成3 s长的片段,即每个样本包括75张唇部图像序列(视频帧率25 FPS)。语料库使用无声调的汉语拼音作为标签,共有349个类别。该语料库以时间为单位进行样本切分,而非以完整的句子或短语,且样本规模未公开。
12)AVMC语料库
[19]:该语料库由Xu等人提出,其语料为中国教育部公布的《通用规格表》中的162个汉字。10名志愿者(5男5女)在安静的室内实验环境中正对采集设备朗读语料3遍,得到30个音频和视频。图像区域仅保留头部,分辨率为1 920×1 080像素,帧率为50 FPS,音频采样率为48 kHz。AVMC为实验环境下的汉字级视听语料库,但未考虑发音的连续性。
13)DMCLR语料库
[20]:该语料库由Haq等人构建,其语料为汉语水平考试、普通话学习指南等资料中的100句日常用语(长2~10字)。10名志愿者在实验环境下正对摄像头朗读1遍语料,得到1 000个样本。语料库包括音视频双模态,视频分辨率为1 920×1 080像素,帧率为30 FPS,图像仅截取嘴唇区域,大小为88×88像素。该语料库仅包含540个常用汉字,普适性较为有限。
14)MCLR-100语料库
[21]:该语料库由Yang等人构建,采集了50名志愿者在实验环境各朗读10遍100个词语的音视频(时长2 s),共计50 000个样本。视频帧率为30 FPS,分辨率为480×640像素。该语料库主要用于开发便携式唇语识别系统,因此采用头戴式相机采集唇部区域,是第1个微距中文唇语语料库。但也正因如此,使其适用性较为狭窄。
15)Databox语料库
[22]:该语料库由Fu等人提出,其语料为20个日常生活中常用的二字词语,如太阳、工作等,语料的选取尽量避开了同音字和近音字。80名志愿者在实验环境中正对摄像头各朗读10遍语料,最终得到16 000个头部视频样本。该语料库为词语级中文唇语语料库,仅包含视频,且视频参数不详,语料规模有限。
16)ICSLR语料库
[23]:该语料库由Sun等人发布,采集了27名志愿者(16男11女)在实验环境各朗读1遍语料(656个句子,长2~8字)的音视频,样本数量为17 712。视频的区域为整个头部,帧率为25 FPS,分辨率为960×540像素,音频采样率为48 kHz。此语料库旨在排除干扰,致力研究唇读,因此采集环境较为严苛,包括正对摄像头、灯光不变、语速稳定以及环境安静等,是目前较大的室内句子级中文唇语语料库。
17)CELR-200语料库
[24]:该语料库由Feng等人提出,以LRW和CAS-VSR-W1k为基础,针对其中未截取嘴唇区域和视频不清晰的问题进行了处理和筛选,最终得到200个词语(中英文各100个)共计83 788个样本。样本各包含25帧图像,分辨率为96×96像素。CELR-200是首个同时包含中文和英文的词语级唇语语料库,且样本源自已有一定影响力的语料库。
18)Mandarin-Lipreading
[25]:该语料库由Wu等人构建,是一个大型句子级室内中文唇语语料库,由27名志愿者(16男11女)在实验环境下正对摄像头各朗读1遍语料组成,共有样本17 712个。语料由456个常用短语和200个句子组成,覆盖了732个汉字。该语料库包括视频和文本双模态,图像区域为头部,视频帧率为25 FPS,分辨率为1 080×720像素,视频长度均只保留77帧。
19)DuAGNet
[26]:该语料库由Wu等人构建,包括40名志愿者在实验环境中佩戴专用采集设备并正对摄像头朗读10遍语料的音频、视频和肌电信号,在清洗后共有39 914个样本。语料由生理状况、安全要求、社交互动和常见娱乐等4种类型的100个句子(长3~5字)组成,涵盖190个词汇。图像区域仅保留唇部,音视频参数未做说明。该语料库首次将唇部肌电信号作为输入模态之一,但同时也带来了应用拓展性受限的问题。
2.2 语料库识别算法及效果
上述语料库大多都设计了各种算法进行识别实验。本文对其识别思路、算法和效果进行了梳理,以作为后续研究者的参考和对比基准。
文献[
11]采用传统技术,提出基于最大熵的特征有效表示法和独立分量表示法表征唇动信息,利用半连续HMM模型实现覆盖全部发音的中文口型图像序列的训练和识别,最终在HIT Bi-CAVDatabase语料库上取得45.12%的准确率。
LSD-AV语料库结合音频、视频、深度信息和3D面部点云数据进行多模态特征提取,采用深度神经网络(Deep Neural Network, DNN)实现高精度的中文连续唇语识别,识别准确率高达98.78%。
CAS-VSR-W1k语料库通过3D CNN提取视频序列的时空特征,再结合2D CNN进行细粒度特征处理。前端采用全3D卷积前端(如D3D DenseNet)处理动态唇部运动,后端网络则沿用统一结构以保持对比公平性,在该语料库上的综合准确率为38.19%。
文献[
16]提出了一种三阶段级联模型CSSMCM,即:拼音预测子网络基于视觉特征生成拼音序列;声调预测子网络结合视频与拼音序列推断声调;字符预测子网络融合视频、拼音与声调信息解码汉字序列。最终,在CMLR语料库上字符错误率(Character Error Rate, CER)为32.48%。
文献[
17]属于视听语音识别方法,通过引入额外的注意力机制,使模型能够根据输入信号的重要性自动调整音频和视频模态的融合权重,特别是在噪声环境下动态选择更可靠的模态。同时结合LSTM建模各模态的时间动态变化特征,在所提AVSR语料库上识别CER仅为6.85%。
文献[
3]提出一种二级结构端到端模型ChLip-Net。首先,输入唇部视频帧序列,通过3D CNN和LSTM提取时空特征,输出对应的拼音序列;然后,将拼音序列输入GRU Encoder生成上下文向量,Decoder结合注意力机制逐字生成汉字语句。在CCTVDS上达到了45.7%句子级准确率。
NSTDB在文献[
18]中同样提出一种双阶段识别方案。第1阶段将3D CNN和DenseNet与两层resBi-LSTM相结合,并采用CTC损失函数进行端到端训练,对汉语拼音序列进行预测;第2阶段使用多头注意力机制对拼音序列进行建模,采用交叉熵损失函数训练,结合上下文语义将拼音映射为汉字。在该语料库上CER为58.2%。
文献[
19]通过Dlib和Gabor滤波实现高效的特征提取,并基于Inception-ResNet进行唇语识别,最终在其语料库AVMC上识别准确率为64.96%。
文献[
20]提出一种针对日常普通话对话的唇读识别模型,前端包含时空卷积层和SE-ResNet-18网络,专注于从视频序列中提取唇部运动的时空特征。后端由双向门控循环单元(Bi-GRU)、一维卷积层和全连接层组成,用于学习唇动序列的时间动态特征并进行目标句子预测。在其自构语料库DMCLR上取得了94.2%的准确率。
MCLR-100所提模型在前端通过ResNet18提取空间特征,3D CNN捕获短时运动。后端针对多尺度时序卷积网络(Multiscale Temporal Convolutional Network, MS-TCN)处理随机噪声的不足,引入残差收缩单元构建MS-TSN,并使用NetVLAD替代全局平均池化,通过聚类机制分配帧级特征权重,提升关键特征的提取能力,最终取得93.03%的准确率。
Databox所提模型的前端采用3D卷积预处理,使用ShuffleNet V2替代传统ResNet,通过分组卷积和通道混洗技术降低计算量。后端引入卷积注意力模块(Convolutional Block Attention Module, CBAM),同时处理通道和空间维度特征,提升关键信息关注度,并结合时序卷积网络(Temporal Convolutional Network, TCN)处理长时依赖。最终的识别准确率为71.2%。
ICSLR在其模型中引入声道特征,将唇部特征(视觉)与声道特征(音频衍生)进行拼接,得到融合特征。通过通道注意力自适应筛选有效特征,过滤无效信息。模型采用TSM-SE-ResNet与U-Net相结合的结构,得到13.33%的CER。
CELR-200所提模型的前端模块将ResNet18的首层3D卷积和首层残差块替换为STR-3D卷积核,形成Serial-STRNet和Parallel-STRNet。后端则采用MS-TCN进行序列建模,保留原有残差连接结构,优化跨语言单词级分类。两种算法分别得到了66.35%和65.68%的识别准确率。
Mandarin-Lipreading的前端采用伪3D残差网络(Pseudo-3D ResNet)提取帧序列的视觉特征,后端则通过级联注意力和CTC架构进行时序建模并完成标签分类,实验所得CER为14.77%。
DuAGNet首次融合音频、唇部图像和肌电信号,设计由3D CNN、ResNet34、BGRU等构成的双自适应门控融合框架,实现单模态特征保留与跨模态关联的全局感知,显著提升噪声环境下的唇语识别性能,识别准确率高达98.79%。
综合对比分析发现以下两点。
1)在实验环境采集的语料库因环境可控、噪声少、特征清晰,其模型识别准确率普遍高于在自然环境下采集的语料库,但后者更适用于实际场景。前者虽然识别准确率较高,但在自然环境中的泛化能力较弱,而后者虽然识别准确率较低,但更贴近实际应用场景。
2)为达到较高的识别准确率,英文等语种可依赖仅包含唇部图像的单模态数据,但中文唇语识别还需融合音频信号、深度信息、肌电信号等多模态数据,以提升识别模型的精度和抗噪能力。此外,同一识别模型在英文语料库上的准确率显著高于中文语料库,且差距可达40%~46%
[5]。这均是中文的语言特性所导致。
3 主要挑战与应对措施
中文唇语语料库在发展中仍面临多重挑战,且与英文唇语存在显著差异,具体如下。
1)语言特性带来的视觉歧义。中文是声调语言,同一音节的不同声调对应完全不同的语义,但声调信息无法通过唇形直接捕捉,导致语义歧义率显著高于非声调语言。此外,中文还存在大量的同音字和多音字,这进一步导致其视觉歧义性远高于英文等语种。因此,在构建中文唇语语料库时可重点考虑以下两点:一是谨慎选取和设计语料,使识别模型可通过上下文语义关联等方式最大化消除视觉歧义。选择语料时,尽量涵盖不同领域及语境,以确保语料样本具有广泛代表性。设计语料时,可增加上下文信息的比重,以帮助模型更好地理解语义;二是在图像采集的基础上,可通过生物、电磁、振动等技术采集鼻翼、颧肌、舌位、肌电等额外信息,建立补充特征通道,通过多模态融合破解视觉歧义难题。
2)语料库规模和多样性不足。中文唇语语料库虽有所发展,但仍远落后于英文唇语语料库,目前可公开获取的仅有CAS-VSR-W1k和CMLR。另外,现有中文唇语语料库的语料普遍较少,说话人数通常不超过百人,且多数语料库在实验室或固定场景下采集,未充分涵盖光照变化、多角度拍摄、背景噪声等因素,导致语料库规模与多样性不足,直接限制了识别模型的泛化能力。为提升中文唇语语料库的规模和多样性,未来需注重以下3点:一是制定统一的数据格式和标注规范,确保语料库之间能够无缝对接和整合;二是构建更大规模的语料库,涵盖更多的说话人、更多的场景和更多的环境因素,充分考虑实际应用场景的多样性;三是推动语料库的公开共享,以此吸引更多的研究者参与中文唇语语料库的建设,共同完善中文唇语数据生态。
3)对齐与标注困难。唇语数据需精确对齐视频帧与文本,为此英文仅需音素或单词标注。但中文分词结构复杂,需同步标注拼音、声调、汉字、语义边界等,导致中文标注复杂度成倍增加,带来标注效率低、易出错和标准不统一等问题。此外,中文包含大量复合韵母(如“iao”等),其发音过程需要连续唇形变化,这对帧序列的时序标注精度要求极高。为此,在构建语料库时可采取以下措施:一是制定统一的拼音、声调及汉字的联合标注规范,确保标注的一致性和准确性;二是结合AI技术开发自动化标注工具,降低人工标注的成本和错误率;三是针对中文复合韵母的发音特点,开发专门的时序标注工具,通过多模态数据融合等技术,确保帧序列的时序标注精度。
4 唇语识别应用
随着唇语识别技术的不断发展和识别精度的不断提升,其在多个领域展现出显著的应用价值。
1)军事情报获取。在电磁静默或超远距离侦察等战场条件下,通过高分辨率光学设备捕获重要目标人物的唇部微动作,结合军事术语库和上下文语义分析,可有效提取关键军事情报信息。该方法无需近距离部署拾音装置,且对电磁干扰免疫,可保障侦察行动的隐蔽性。
2)公共安全监控与反恐侦察。通过视频监控中的唇部动作分析,实现在复杂声学环境或远距离监控场景中,提取可疑人员或重点关注对象的关键语义信息,辅助执法部门识别潜在威胁,弥补传统音频监控的局限性,为犯罪预防和反恐情报获取提供新的技术手段
[27]。
3)生物特征身份认证。不同于静态生物特征,唇部运动模式具有时空动态性和个体特异性,结合特定发音内容可构建双重认证因子。该技术可通过检测唇部运动和发音节奏的生物特征,有效抵御照片、视频等二维伪造攻击。
4)多模态语音识别增强。通过融合视觉模态信息显著提升了语音系统的鲁棒性。在环境噪声干扰、声学信号缺失等复杂场景下,唇动特征与声学特征的时空对齐与互补机制,能够有效降低语音识别错误率。
5)辅助听力障碍者沟通与康复。将唇部运动特征实时转化为文字或语音输出,为听障人群提供无障碍交流工具。同时,该技术可集成于康复训练系统,通过视觉反馈帮助听障者矫正发音动作,促进语言功能重建。
5 结束语
针对中文的唇语识别已成为当前研究热点之一,且在诸多领域有着潜在的重要应用价值。本文在简述唇语识别两种技术的基础上,系统性地梳理了截至目前出现的19个主要中文唇语语料库,并从颗粒度、规模、采集条件、清晰度、模态、识别算法、识别精度等多个维度进行了详细对比分析,接着探讨了中文唇语语料库发展所面临的主要挑战及应对措施,最后展望了唇语识别的主要应用场景。本文旨在吸引更多研究者关注中文唇语识别,并共建中文唇语语料库良好生态。