面向未知协议的格式推断技术研究综述

粘镇泓 ,  井靖 ,  王永豪

信息工程大学学报 ›› 2025, Vol. 26 ›› Issue (05) : 585 -592.

PDF (520KB)
信息工程大学学报 ›› 2025, Vol. 26 ›› Issue (05) : 585 -592. DOI: 10.3969/j.issn.1671-0673.2025.05.012
网络空间安全

面向未知协议的格式推断技术研究综述

作者信息 +

Review of Format Inference Techniques Based on Unknown Protocols

Author information +
文章历史 +
PDF (532K)

摘要

格式推断技术作为未知协议逆向分析框架中的核心环节,其划分准确性直接决定协议逆向和安全性检测的可靠性,因此成为近年来协议逆向分析领域关注的热点问题。首先,从不同分析手段和不同报文格式两方面,给出未知协议格式推断方法的分类;其次,从序列比对、概率统计、频繁项挖掘、深度学习、融合式等5个维度,系统梳理各类未知协议格式推断方法的核心思想,深入剖析各类方法的优势与局限性;最后,从技术革新和应用拓展两个层面,对未知协议格式推断技术面临的挑战和未来发展方向进行展望。

Abstract

Format inference technology is the core part of the unknown protocol reverse analysis framework, and its division accuracy directly determines the reliability of protocol reverse and security detection, so it has become a hot issue in the field of protocol reverse analysis in recent years. Firstly, the classification of unknown protocol format inference methods is given from two aspects: different analysis methods and different message formats. Secondly, the core ideas of various unknown protocol format inference methods are systematically sorted out from five dimensions of sequence alignment, probability statistics, frequent item mining, deep learning and fusion, and the advantages and limitations of various methods are deeply analyzed. Finally, the challenges and future development directions of unknown protocol format inference technology are prospected from two aspects of technical innovation and application expansion.

Graphical abstract

关键词

未知协议 / 格式推断 / 序列比对 / 概率统计 / 频繁项挖掘 / 深度学习

Key words

unknown protocols / format inference / sequence alignment / probabilistic statistics / frequent item mining / deep learning

引用本文

引用格式 ▾
粘镇泓,井靖,王永豪. 面向未知协议的格式推断技术研究综述[J]. 信息工程大学学报, 2025, 26(05): 585-592 DOI:10.3969/j.issn.1671-0673.2025.05.012

登录浏览全文

4963

注册一个新账户 忘记密码

近年来,全球网络流量呈现指数级增长态势,大量私有或未知协议不断涌现,据相关统计数据显示,当前网络中约30%的流量来源于未公开或未知协议,且有超过60%的新型恶意软件通过利用私有协议的特性来逃避传统安全检测。与此同时,由于相关企业出于对知识产权和商业利益的保护,往往选择不公开协议细节,这不仅增加了网络安全管理的难度,也为恶意程序的肆意传播提供便利。因此,面向未知协议的检测和分析已成为网络安全领域亟待解决的关键问题之一。
传统的未知协议检测及分析等协议逆向工程主要依赖人工,存在效率低下、准确性不足等问题。随着人工智能和大数据技术的发展,协议逆向工程领域涌现出许多新方法。格式推断技术作为协议逆向工程的核心环节,其性能直接影响着协议分析的准确性和效率。然而,目前尚缺乏针对格式推断技术的系统性梳理与对比分析,尤其未能深入探讨各类方法的优缺点。基于此,本文旨在系统归纳和分类讨论未知协议的格式推断技术,通过对比分析不同方法的性能特点和适用范围,为研究人员提供参考。

1 未知协议格式推断方法分类

1.1 依据不同逆向分析方法的分类

1)基于程序分析方法,主要采用动态程序分析技术,如污点分析[1]和执行轨迹监控[2]等,通过跟踪协议实现的内部行为,揭示协议运行时设计逻辑和不同位置字段的含义。该类方法的优势在于能够获取协议实现的内部细节,推断结果准确性高,适用于复杂协议的字段推断。然而,该方法需要访问源代码或二进制文件,在实际应用中存在适用场景受限的问题。

2)基于网络流量的分析方法,该方法基于捕获的数据包,利用统计学和模式识别技术挖掘协议结构特征,分析推断协议格式。该方法的优势在于非侵入性和跨平台性,即无需访问源代码或二进制文件,可广泛应用于各类网络环境。然而,该方法依赖高质量流量样本,在处理复杂协议时,往往容易出现过划分或者少划分的问题。

由于基于程序运行的分析方法重点关注对源代码或二进制代码的解读,在实际应用中获取代码的条件通常很难满足,因此,相比之下,基于网络流量的分析方法适用性更强。本文主要聚焦基于网络流量的分析方法,系统梳理其关键技术研究现状和未来发展方向。

1.2 依据不同报文格式的分类

1)面向二进制格式协议,如TCP、SMB等协议,其报文由二进制比特流构成,缺乏可读性。针对此类协议,分析重点在于识别比特序列模式,以及字段边界和类型。常用的技术手段包括比特流分析、模式识别和统计分析等。

2)面向文本格式协议,如HTTP、SMTP等协议,其报文由可读文本构成,包含可读性强的字符串,便于后续的语义分析。针对此类协议,分析重点在于识别关键词、语法结构和语义关系,推断协议功能和字段含义。常用的技术手段包括自然语言处理、语法分析和语义分析等。

3)面向混合格式协议,如HTTP-FLV,其报文同时包含文本和二进制数据,需要结合两种格式的特点进行分析。针对此类协议,分析过程通常采用分阶段策略,首先解析文本部分的结构与内容,然后结合语义信息解析二进制数据,逐步还原协议结构和功能逻辑。

2 未知协议格式推断技术

2.1 基于序列比对的协议格式推断

序列比对算法源于生物信息学领域,通过识别消息序列中的相似模式确定字段边界。经典的序列比对算法主要包括Needleman-Wunsch(NW)全局比对算法[3]和Smith-Waterman(SW)局部比对算法 [4]。经典的序列比对算法在应用于协议格式推断时,存在对齐精度和分割准确度不足的问题,研究人员从序列对齐和矩阵对齐两方面对经典方法进行优化,如表1所示。

2.1.1 基于经典序列比对算法

基于经典序列比对算法的格式推断方法,借鉴生物信息学中DNA序列分析的思想,将协议报文视为特征序列进行处理。协议信息(Protocol Informatics, PI)项目[5]首次将NW算法与非加权组平均法结合,通过序列相似度进行聚类和对齐,以实现协议字段划分。尽管该方法开创性地应用序列比对技术,但在处理复杂协议时计算效率较低,且字段划分精度有限。AutoFuzz[6]针对计算效率低的问题,在PI项目的基础上,提出分层比对策略,即先对报文首部4 byte进行粗粒度聚类,然后在类内提取公共序列生成协议语法树。该策略显著提升了计算效率,但对齐精度不足的问题依然存在。

2.1.2 序列对齐优化方法

为解决经典序列比对算法对齐精度不足的问题,研究人员开始探索新的匹配规则。Discoverer[7]引入基于字段类型的序列比对技术,将序列比对粒度从字节级提升到token级,依据token的类型和属性进行匹配,减少了因报文格式变化导致的错位,在提高灵活性的同时,也改善了对齐精度。

2.1.3 矩阵对齐优化方法

为进一步提高字段划分的准确性,研究人员着眼于优化对齐矩阵的构建过程。通过在矩阵评分中融入更多信息,旨在实现更精确的协议结构解析。Netzob[8]通过融合语义特征来改进NW算法的对齐矩阵评分,从而实现基于语义信息的对齐。此外,它还结合使用最大信息系数和Pearson相关性分析来构建字段依赖图谱,有效提升字段划分的准确性,但该方法需要较多人工干预,成本较高。Kleber等[9]提出基于消息段特征向量相似度对齐的网络消息类型识别方法(Network Message Type Identification By Alignment on Similarity Between Message Segment Feature Vectors, NEMETYL),将Hirschberg高效对齐算法与基于密度的有噪空间聚类应用方法(Density-Based Spatial Clustering of Applications with Noise, DBSCAN)结合,通过Canberra距离来度量字段差异并优化对齐评分过程,显著提升二进制协议的字段分割准确性。

2.2 基于概率统计的协议格式推断

概率统计方法通过解析协议数据的统计特征实现协议结构推断,该方法主要涵盖协议关键词挖掘、概率模型构建、熵变化分析等,如表2所示。

2.2.1 协议关键词挖掘

协议关键词挖掘方法聚焦协议语义特征提取,通过统计特征筛选关键字段。NetPlier[10]将字段建模为随机变量,基于观测值构建联合概率分布实现关键词精准定位,其缺点在于缺乏有效性验证机制,影响聚类结果可信度。RelaNet[11]构建N-gram上下文关联模型,通过粗粒度结构生成与关系学习迭代优化,有效解决载荷长度变化大、关键词重复等复杂场景下的协议逆向难题。

2.2.2 概率模型构建

概率模型构建方法将报文数据的高度随机性和模糊性建模为概率模型,把复杂信息转化为具体的概率分布,从而更清晰地洞察数据内部结构。ProPrint[12]通过贝叶斯决策树优化字段划分策略,引入轮廓系数评估聚类质量,虽然在字段边界检测精度上有所提升,但仍仅限于字段边界划分,无法提取完整协议格式。He等[13]针对小样本场景提出BPSO-vote-HMM混合模型,引入二进制粒子群优化算法、改进参数搜索空间,结合投票机制优化隐马尔可夫模型(Hidden Markov Model, HMM)。相较其他算法,其更适应稀疏样本环境,但对参数较敏感,需精心调整。童笛[14]提出渐进式多序列比对与多元统计方法(Progressive Multiple Sequence Alignment and Multivariate Statistics, PMSAMS),融合潜在狄利克雷分配(Latent Dirichlet Allocation, LDA)主题模型和改进密度峰值算法,利用多元统计分析构建动态关键词训练框架,有效提高精度,更适合解决二进制协议的格式推断问题。

2.2.3 熵变化分析

考虑到熵、互信息等概念可以有效度量字段间信息差异,确定关键字段,并挖掘字段潜在依赖关系,研究人员在报文结构解析中引入信息论,以此提升解析的准确性与效率。网络消息语法分析(Network Message Syntax Analysis, NEMESYS)[15]方法通过分析报文比特位一致性和字节相似性推断字段边界。该方法侧重于分析消息内部的字段差异,从而有效提高了计算效率。Sha等[16]提出信息增益字段划分法,针对工业物联网未知协议,通过计算信息熵及信息增益比,堆叠报文并分析熵值变化,从而高效准确地推断字段边界,提升逆向协议分析效率。

2.3 基于频繁项挖掘的协议格式推断

频繁模式挖掘通过识别数据集中重复出现的模式揭示内在关联规则,可分为基于候选生成的Apriori算法[17]、基于模式增长的FP-Growth算法[18]、基于前缀投影的PrefixSpan算法[19],如表3所示。

2.3.1 Apriori算法

Apriori算法通过逐层候选生成与剪枝策略挖掘频繁项集,适用于协议字段模式发现。Goo等[20]提出的连续顺序模式(Contiguous Sequential Pattern, CSP)算法在此基础上定义4类协议字段类型,通过分层挖掘静态、动态定长及高随机性字段实现格式推断。尽管该方法采用精细化的分类方法,但泛化能力较弱。

2.3.2 FP-Growth算法

频繁模式增长(Frequent Pattern Growth, FP-Growth)算法通过构建频繁模式树(Frequent Pattern Tree, FP-Tree)压缩数据存储,直接提取频繁项集,节省了Apriori算法多次扫描数据集的开销,显著提升大规模数据处理效率。Fan等[21]提出的安全协议逆向工程方法(Security Protocols Reverse Engineering Approach, SPREA)通过分析加密字段边界特征,在保持FP-Tree优势的同时有效处理字段顺序关系。Lin等[22]提出闭合频繁序列挖掘(Closed Frequent Sequence Mining, CFSM)和闭合频繁群挖掘(Closed Frequent Group Mining, CFGM)方法,结合FP-Growth挖掘协议关键词及其位置特征,通过最长公共子序列与F-DBSCAN聚类算法实现协议格式推断,提高抗噪声能力,适合处理复杂协议。

2.3.3 PrefixSpan算法

PrefixSpan算法通过投影数据库递归分割策略高效发现序列关联。朱玉娜等[23]提出面向未知安全协议的格式解析方法(Security Protocols Format Parsing Approach, SPFPA),利用该算法提取加密协议关键词,引入字节偏移阈值与树形层次挖掘结构,但其基于位置偏移假设的提取方法存在应用局限性,不适合处理使用变长字段的协议。

2.4 基于深度学习的协议格式推断

相较于前面3种格式推断方法,深度学习通过多层神经网络[24]自动提取协议数据的复杂特征,能够有效处理高维、非线性及动态变化的协议数据。现有方法主要基于3类模型:循环神经网络(Recurrent Neural Network, RNN)、卷积神经网络(Convolutional Neural Network, CNN)和自编码器,如表4所示。

2.4.1 循环神经网络

RNN及其变体,因其处理序列数据的能力,在协议格式推断中得到广泛应用,能够有效捕捉协议字段间的时序依赖关系,如长短期记忆神经网络(Long Short-Term Memory Networks, LSTM)、双向长短期记忆神经网络(Bi-Directional Long Short-Term Memory, BiLSTM)。Yang等[25]提出长短期记忆全卷积网络(Long Short-Term Memory Fully Convolutional Network, LSTM-FCN)混合模型,通过时序特征建模自动识别字段类型,在降低主观干预的同时展现较强泛化能力。基于无监督学习和深度神经网络方法的工业控制协议逆向工程工具(Industrial Control Protocols Reverse Engineering Tool Based on Unsupervised Learning and Deep Neural Network Methods, PREIUD)[26]采用引导式投票专家算法定位字段边界,并集成双向长短期记忆条件随机场(Bidirectional Long Short-Term Memory Conditional Random Field, BiLSTM-CRF)模型与优化注意力机制实现格式解析,在处理复杂和长文本数据时,具有较强的泛化能力。刘俊杰[27]针对未知协议会话方向难以判定的问题,提出基于无方向完整会话流的字段分类方法,采用带有注意力机制的LSTM-FCN(Attention-Based LSTM-FCN, ALSTM-FCN)模型,通过注意力机制捕捉字段序列的全局依赖特征,以弥补缺失单向序列时序信息的问题,实现对6种预定义字段类型的有效分类。安晓明等[28]将二进制变种协议的字段划分视为序列标注问题,提出PRO-BiLSTM-CRF神经网络模型。该模型的关键在于引入并融合协议字段列特征,并将其与报文序列本身的特征相结合,最后利用CRF层确保输出的标注序列符合语法规则,提高对二进制变种协议字段划分的准确性。

2.4.2 卷积神经网络

CNN通过“卷积层—池化层—全连接层”架构实现局部特征提取与数据降维。张路煜等[29]提出CNN深度模型法,将CNN应用于协议数据流直接训练,虽能完成基础格式推断,但存在特征字段提取不充分和协议状态机构建缺失的问题。Yin等[30]提出一维CNN模型法,用于划分二进制协议数据帧,构建输入矩阵,并结合最大频率池化提取字段功能特征,实现自动化的协议字段划分。其优点是无需手动特征设计,字段划分准确率高;缺点是字段划分依赖预聚类结果,误差可能随环节累积,且对复杂协议结构的适应性需进一步验证。

2.4.3 自编码器

自编码器模型通过编码器—解码器结构实现无监督特征学习。Kiechle开发的神经网络协议逆向工程(Protocol Reverse Engineering Using Neural Networks, PREUNN)[31]系统融合自编码器、LSTM与粒子群算法,兼具协议特征提取与通信状态识别功能。然而,该方法与其他基于深度学习的模型类似,存在可解释性较差的问题,且其解析性能相较于一些成熟的传统格式推断方法仍有改进空间。Nemati等[32]提出基于增强自动编码器聚类的二进制协议消息分析(Enhanced Autoencoder-Based Clustering for Message Analysis in Binary Protocols, EACMABP),利用自编码器从有状态二进制协议中提取低维特征信息,通过降维为协议状态聚类提供输入,成功推断协议状态格式,为私有和未知协议的状态机构建奠定基础。该方法无需先验知识即可实现高精度的状态聚类和格式推断,通过核心间隔和变化率阈值优化了聚类效果,在FTP等协议上展现出更细粒度的状态区分。但未详细探讨状态机构建的优化策略,且对私有协议的实际应用验证受限于数据可得性,需进一步研究以提升泛化能力。

2.5 基于融合式的协议格式推断

部分研究人员跳出原有思维框架,不再只聚焦于字段差异,而是尝试通过融合不同领域思想与技术来解决问题。这些融合方法主要包括融合启发式规则、融合特定标识、融合主动交互以及融合图像处理等,如表5所示。

2.5.1 融合启发式规则

该方法基于领域知识定义解析规则识别协议结构,避免对标注数据的依赖。Wang等[33]提出多阶段集成逆向分析方法(Multistage Ensemble Reverse Analysis Method, MSERA),将语义分析与格式推断并行处理,通过结合启发式规则与机器识别技术,提升不同处理阶段间的协作效率。BinaryInferno[34]利用规则检测器自动生成协议语义描述,显著降低误报率,但其基于字节级操作的特性,使其在处理含噪声样本时能力有限。

2.5.2 融合特定标识

该方法主要针对文本协议,通过识别其中固定的分隔符,从而实现精准的字段划分。FieldHunter[35]采用双模块架构:字段提取器负责识别分隔符特征;类型推断模块则解析协议结构。其在文本协议分析中展现独特优势,但对结构复杂的协议适应性不强。罗馨[36]提出协议逆向工程的网络跟踪和执行跟踪方法(Network trace and Execution trace for Protocol Reverse Engineering, NEPRE),通过识别协议消息中的分隔符和关键字段,结合多粒度分析和语义信息提取,实现高效的网络协议格式推断,但对分隔符不明显或加密协议的适应性较弱。

2.5.3 融合主动交互

该方法将被动分析转化为双向数据交换,通过动态反馈优化推断过程。基于动态推理的协议逆向工程方法(Protocol Reverse Engineering via Dynamic Inference, DynPRE)[37]克服静态分析对预收集样本的依赖,其通过动态会话标识符检测和自适应消息重构机制,有效提升字段识别与消息类型推断的联合精度。

2.5.4 融合图像处理

基于图像处理的方法是一种跨模态分析技术。研究者将报文流转化为图像,进而利用计算机视觉算法分析图像的视觉特征来进行协议结构解析。基于深度学习字段边界识别的二进制协议格式提取方法(Binary Protocol Format Extraction by Deep Learning-Based Field Boundary Identification, ProsegDL)[38]采用图像语义分割技术,通过将多个二进制消息叠加生成图片,利用卷积神经网络提取空间特征模式,结合连体网络的对比学习机制实现固定格式字段的亚像素级分割,提高了分割的精度,但计算复杂度高。

2.6 算法对比分析

实际网络环境中,协议格式推断方法的通用性不足,需根据具体场景选择适配算法,如表6所示。

1)序列比对方法,其核心在于通过比对多条报文,寻找字节序列中的相似(保守)与差异(易变)部分,从而推断字段边界。优势在于原理直观,对于固定字段占比较高、结构相对稳定的协议能够取得良好效果,可以直接识别出协议头部的常量字段或固定长度字段。然而,其显著缺点在于计算复杂度较高,经典的全局或局部比对算法(如NW、SW)通常具有二次方时间复杂度,处理大量或长报文时效率低下。

2)概率统计方法,着眼于挖掘协议数据内在的统计规律,如字节值的分布、字段频率、熵值变化、N-gram模式等,以此推断协议结构。优势在于通常不需要严格的先验知识,能基于数据自身的特性进行分析,具有较强环境适应能力,可发现基于简单比对难以识别的模式。但其主要局限性在于对数据质量和数量较为敏感。噪声数据可能严重干扰统计结果,导致误判;数据量不足,则难以形成可靠的统计分布。

3)频繁项挖掘方法,利用数据挖掘技术来发现报文中重复出现的字节序列或模式,并以此作为推断协议结构的基础。优点是能够高效地处理具有明显重复结构或关键词的协议,尤其适用于文本协议或某些二进制协议中的固定标记字段。算法相对成熟,易于理解和实现。然而,其核心弱点在于严重依赖模式的“频繁”性,对于那些虽然重要但出现频率不高的字段可能无法有效识别。

4)深度学习方法,利用神经网络强大的自动特征提取和模式识别能力,直接从原始报文数据中学习协议的结构特征。其潜力在于能够处理高维、非线性以及具有复杂时序依赖关系的协议数据,尤其是在面对结构复杂、动态性强的未知协议时,有望突破传统方法的瓶颈,实现更精准的字段划分甚至类型推断。然而,深度学习方法也面临需要大量的、高质量的标注数据进行模型训练,对硬件资源要求高,可解释性较差等严峻挑战。

5)融合式方法,旨在跳出单一技术路径的局限,通过结合多种不同方法的优势或引入新的视角来解决格式推断问题。优势在于灵活性和潜在的性能提升,通过融合可利用一种方法的输出来指导另一种方法,或者结合领域知识来弥补纯数据驱动方法的不足。其挑战在于融合策略的设计复杂性,需要精心协调不同模块功能和接口。同时,融合式方法有可能继承原有方法的某些缺点。

3 挑战与展望

未知协议格式推断技术在技术革新与应用拓展中仍面临若干亟待研究的问题。技术革新方面,未来主要挑战归纳如下。1)智能协议解析:面对日益复杂的网络协议,现有技术在多层嵌套、动态变长字段等情况下难以取得突破。未来可融合自监督与强化学习构建自适应模型,提升对未知协议的解析精度。2)高效计算优化:在大规模数据流环境下,协议格式推断面临计算资源消耗大的问题。未来可探索轻量级深度学习架构,结合图计算与边缘计算技术提高推断效率,以适应资源受限的场景。3)抗噪异常识别:面对混合加密流量、协议伪装等复杂情况,现有技术容易受到噪声干扰而误判。未来可采用对抗训练与鲁棒特征提取方法,增强抗干扰能力,建立高噪声环境下的稳定解析机制。此外,协议格式推断的应用拓展亦面临若干挑战。1)跨域迁移能力:协议格式推断在物联网、工业控制、云计算等领域的应用面临环境异构、数据格式多样等挑战。未来可探索迁移学习技术,实现多场景快速适配。2)隐私合规治理:在医疗、金融等隐私高度敏感领域,传统格式推断技术采用数据集中式处理方法,易引发隐私泄露风险。未来可探索引入差分隐私技术,在协议字段提取过程中添加可控噪声。

4 结束语

尽管未知协议逆向工程研究已取得阶段性成果,但依然面临着复杂的技术挑战。系统梳理协议格式推断方法的发展脉络,聚焦网络流量分析驱动的协议逆向解析技术,从基于序列比对、概率统计、频繁项挖掘、深度学习以及融合式方法5个维度构建分析框架。在深入解构各类核心算法机理基础上,建立多维评价指标体系,对比其理论边界与应用效能,进而揭示共性问题。基于技术演进趋势与领域需求演变,展望未来研究方向,为下一步技术发展和成果应用奠定新的基础。

参考文献

[1]

CABALLERO JYIN HLIANG Z Ket al. Polyglot: automatic extraction of protocol message format using dynamic binary analysis[C]∥Proceedings of the 14th ACM Conference on Computer and Communications Security. New York, USA: ACM, 2007:317-329.

[2]

NEWSOME JBRUMLEY DFRANKLIN Jet al. Replayer: automatic protocol replay by binary analysis[C]∥Proceedings of the 13th ACM Conference on Computer and Communications Security. New York, USA: ACM, 2006:311-321.

[3]

NEEDLEMAN S BWUNSCH C D. A general method applicable to the search for similarities in the amino acid sequence of two proteins[J]. Journal of Molecular Biology197048(3):443-453.

[4]

SMITH T FWATERMAN M S. Identification of common molecular subsequences[J]. Journal of Molecular Biology1981147(1):195-197.

[5]

BEDDOE M A. Network protocol analysis using bioinformatics algorithms[J]. Toorcon200426(6):1095-1098.

[6]

GORBUNOV SROSENBLOOM A. AutoFuzz: automated network protocol fuzzing framework[J]. International Journal of Computer Science and Network Security201010(8):239-245.

[7]

CUI WKANNAN JWANG H J. Discoverer: automatic protocol reverse engineering from network traces[C]∥Proceedings of 16th USENIX Security Symposium. Berkeley, USA: USENIX Association, 2007:199-212.

[8]

BOSSERT GGUIHÉRY FHIET G. Towards automated protocol reverse engineering using semantic information[C]∥Proceedings of the 9th ACM Symposium on Information, Computer and Communications Security. New York, USA: ACM, 2014:51-62.

[9]

KLEBER SVAN DER HEIJDEN R WKARGL F. Message type identification of binary network protocols using continuous segment similarity[C]∥Proceedings of IEEE INFOCOM 2020. Piscataway, USA: IEEE, 2020:2243-2252.

[10]

YE Y PZHANG ZWANG Fet al. NetPlier: probabilistic network protocol reverse engineering from message traces[C]∥Proceedings of 2021 Network and Distributed System Security Symposium. Rosten, USA: Internet Society, 2021. DOI: 10.14722/ndss.2021.24531 .

[11]

TANG TLAI Y XWANG Y P. Relational reasoning-based approach for network protocol reverse engineering[J]. Computer Networks2023,230:No.109797.

[12]

WANG Y PYUN X CZHANG Y Zet al. A nonparametric approach to the automated protocol fingerprint inference[J]. Journal of Network and Computer Applications201799:1-9.

[13]

HE Y HSHEN J LXIAO Ket al. A sparse protocol parsing method for IIoT protocols based on HMM hybrid model[C]∥Proceedings of 2020 IEEE International Conference on Communications. Piscataway, USA: IEEE, 2020. DOI: 10.1109/ICC40277.2020.9149040 .

[14]

童笛.基于网络迹的工控协议格式逆向提取技术研究[D].长沙:国防科技大学,2022:34-44.

[15]

KLEBER SKOPP HKARGL F. NEMESYS: network message syntax reverse engineering by analysis of the intrinsic structure of individual messages[C]∥Proceedings of 12th USENIX Workshop on Offensive Technologies. Berkeley, USA: USENIX Association, 2018:No.8.

[16]

SHA Z YLIU C FZHOU X Bet al. An entropy-based field segmentation method for unknown protocols in industrial IoT[C]∥Proceedings of 2024 27th International Conference on Computer Supported Cooperative Work in Design. Piscataway, USA: IEEE, 2024:3257-3262.

[17]

AGRAWAL RSRIKANT R. Fast algorithms for mining association rules[C]∥Proceedings of the 20th International Conference on Very Large Data Bases. Piscataway, USA: IEEE, 1994:487-499.

[18]

HAN J WPEI JYIN Y W. Mining frequent patterns without candidate generation[J]. ACM SIGMOD Record200029(2):1-12.

[19]

PEI JHAN J WMORTAZAVI-ASL Bet al. Mining sequential patterns by pattern-growth: the PrefixSpan approach[J]. IEEE Transactions on Knowledge and Data Engineering200416(11):1424-1440.

[20]

GOO Y HSHIM K SLEE M Set al. Protocol specification extraction based on contiguous sequential pattern algorithm[J]. IEEE Access20197:36057-36074.

[21]

FAN Y DZHU Y NYUAN L. Automatic reverse engineering of unknown security protocols from network traces[C]∥Proceedings of 2018 IEEE 4th International Conference on Computer and Communications. Piscataway, USA: IEEE, 2018:1139-1148.

[22]

LIN P HHONG ZWU L Fet al. Protocol format extraction based on an improved CFSM algorithm[J]. China Communications202017(11):156-180.

[23]

朱玉娜,韩继红,袁霖,.SPFPA:一种面向未知安全协议的格式解析方法[J].计算机研究与发展201552(10):2200-2211.

[24]

于治平,刘彩霞,刘树新,.基于机器学习的网络流量分类综述[J].信息工程大学学报202324(4):447-453.

[25]

YANG C LFU CQIAN Y Ket al. Deep learning-based reverse method of binary protocol[M]∥YU S, MUELLER P, QIAN J B. Security and privacy in digital economy. Singapore: Springer, 2020:606-624.

[26]

NING B WZONG X JHE Ket al. PREIUD: an industrial control protocols reverse engineering tool based on unsupervised learning and deep neural network methods[J]. Symmetry202315(3):706.

[27]

刘俊杰.基于深度学习的二进制网络协议逆向系统研究与实现[D].北京邮电大学,2023:1-63.

[28]

安晓明,王忠勇,翟慧鹏,.基于深度学习的二进制变种协议字段划分方法[J].计算机工程与设计202445(4):982-988.

[29]

张路煜,廖鹏,赵俊峰,.基于卷积神经网络的未知协议识别方法[J].微电子学与计算机201835(7):106-108.

[30]

YIN S ZYOU Z FHU Q Wet al. Unknown binary protocol recognition algorithm based on one class of classification and one-dimensional CNN[J]. Mathematical Problems In Engineering20232023(1):No.1919045.

[31]

KIECHLE VBÖRSIG MNITZSCHE Set al. PREUNN: protocol reverse engineering using neural networks[C]∥Proceedings of 8th International Conference on Information Systems Security and Privacy. Setúbal, Portugal: SciTePress, 2022:345-356.

[32]

NEMATI MMAHMOUDZADEH STEIMOURI M. Enhanced autoencoder-based clustering for message analysis in binary protocols[C]∥Proceedings of 2024 14th International Conference on Computer and Knowledge Engineering. Piscataway, USA: IEEE, 2024:302-307.

[33]

WANG QSUN Z HWANG Z Qet al. A practical format and semantic reverse analysis approach for industrial control protocols[J]. Security and Communication Networks20212021(1):No.6690988.

[34]

CHANDLER JWICK AFISHER K. BinaryInferno: a semantic-driven approach to field inference for binary message formats[C]∥Proceedings of 2023 Network and Distributed System Security Symposium. Rosten, USA: Internet Society, 2023. DOI: 10.14722/ndss.2023.23131 .

[35]

BERMUDEZ ITONGAONKAR AILIOFOTOU Met al. Towards automatic protocol field inference[J]. Computer Communications201684:40-51.

[36]

罗馨.网络协议消息格式提取关键技术研究[D].长沙:国防科技大学,2020:22-83.

[37]

LUO Z XLIANG KZHAO Y Yet al. DynPRE: protocol reverse engineering via dynamic inference[C]∥Proceedings of 2024 Network and Distributed System Security Symposium. Rosten, USA: Internet Society, 2024. DOI: 10.14722/ndss.2024.24083 .

[38]

ZHAO SWANG J FYANG S Get al. ProsegDL: binary protocol format extraction by deep learning-based field boundary identification[C]∥Proceedings of 2022 IEEE 30th International Conference on Network Protocols. Piscataway, USA: IEEE, 2022. DOI: 10.1109/ICNP55882.2022.9940264 .

AI Summary AI Mindmap
PDF (520KB)

47

访问

0

被引

详细

导航
相关文章

AI思维导图

/