【2022·第4期】半监督学习在恶意软件流量检测中的应用

人气：240

发表时间：2022-06-27

☞《移动通信》2022年第4期目录

面向智能反射面辅助通信的深度学习信号检测

迁移学习在6G无线通信中的应用综述

面向远距离目标感知通信一体化的OFDM信号波形设计

《移动通信》2022年第4期

专题“面向6G的智能感知与信息处理”

半监督学习在恶意软件流量检测中的应用*

桂冠，宁金辉，王禹

【摘要】恶意软件检测是保障网络安全、防止网络异常的关键技术之一。为了解决基于深度学习的恶意软件流量检测方法需要大量人工标注的有标签网络流量样本的问题，同时保持算法的检测精度，提出了一种基于半监督学习与网络流量的恶意软件检测方法，其利用少量有标签网络流量样本与大量无标签网络流量样本训练恶意软件检测模型。实验结果表明，所提出的方法在小样本流量环境中比一般的基于深度学习的恶意软件流量检测方法有更好的性能，可用于现实中有标签数据较少的恶意软件流量检测场景。

【关键词】恶意软件检测；网络流量；半监督学习；迁移学习

doi:10.3969/j.issn.1006-1010.2022.04.005

中图分类号：TN929.5 文献标志码：A

文章编号：1006-1010(2022)04-0028-05

引用格式：桂冠,宁金辉,王禹. 半监督学习在恶意软件流量检测中的应用[J]. 移动通信, 2022,46(4): 28-32.

0 引言

目前出现了三种传统的恶意软件流量分类方法 [8-10] ：基于端口的方法、基于有效负载或深度包检测（DPI, Deep Packet Inspection）的方法和基于统计的方法，具体 如图1所示：

1 问题描述

首先，对原始软件流量数据进行预处理。对于一组有标签网络流量样本，使用卷积神经网络进行分类，该分类过程可表示为：

2 提出的方法

2.1 数据预处理

实验中使用的数据集是USTC-TFC2016 [14] 。数据集大致由两部分组成：一部分是研究人员从真实网络环境中收集的十种恶意软件流量，包括Neris、Zeus、Virut等；另一部分是专业网络流量模拟设备IXIA BPS收集的十种正常流量，如Facetime、Gmail、Weibo等。从应用软件流量中获取流量数据后，对数据进行切片、整理以防止重复数据，生成输入大小为784字节的图像，再转换为IDX格式。

2.2 实验方法

（1）基于CCLN的恶意软件检测方法

半监督学习是监督学习和无监督学习的结合，由于监督学习的目标是尽可能保留数据的关键特征，而无监督学习的目标是尽可能保留数据的全部特征以还原数据，二者存在矛盾，因此使用式(3)的半监督方法无法获得良好的性能。受阶梯网络LadderNet [20] 的启发，在自编码器的编码层中加入高斯噪声，设噪声变换为g，则

。然后使用

分别处理有标签数据和无标签数据。为了优化网络，为每层计算一个要优化的损失函数Lul 。对于CNN中任意j层，修改目标函数为：

其中，L是网络总层数；

是每层的特征数据量；

是编码器的输出通过第j层解码层

输出的结果。CCLN方法由卷积神经网络CNN和阶梯网络LadderNet组成，处理后的训练数据被送入卷积层进行训练。提取数据特征后，将特征输入阶梯网络进行数据分类，最终得到分类结果。训练前，将数据集分为训练部分和验证部分进行交叉验证，然后在训练部分分离出一个小样本部分作为有标签数据，其余数据作为无标签数据。

（2）基于TCCLN的恶意软件检测方法

为了充分利用一些现有的网络流量数据集，在半监督方法的基础上结合了迁移学习的方法。首先将现有的网络流量数据集进行预处理，然后按照式(2)进行训练，得到可用于提取网络流量特征的卷积神经网络c。随后去掉c的分类层，使其输出特征数据如下：

（3）基于TCCLN方法的消融实验 [22]

在上文采用的TCCLN方法中，将预训练后迁移到目标域的两个卷积层全部冻结再进行训练，与此同时也采用了两种不同的迁移情况：第一种是对于参与预训练的两个卷积层均进行迁移学习的二次训练，这种方法称为权重未冻结下的TCCLN（UTCCLN, Unfrozen Transfer Convolution Cascade Ladder Network）；第二种是冻结参与预训练的前一层卷积层，第二层卷积层参与二次训练，这种方法称为部分权重冻结下的TCCLN（PTCCLN, Partially frozen Transfer Convolution Cascade Ladder Network）。三种基于迁移学习的恶意软件流量分类方法如图2所示。其中，灰色方框内的卷积层代表迁移后在目标域被冻结不参与训练；绿色方框内的卷积层参与二次训练。

3 实验与评估

3.1 实验参数设置

本文所有实验均基于Geforce GTX 1080ti为核心的硬件平台，环境为Keras 2.2.4深度学习框架和Python 3.6.2，使用sklearn 0.23.2中的工具来评估模型，实验中使用的随机森林（RF, Random Forest）与支持向量机（SVM, Support Vector Machine）也基于sklearn机器学习库。

3.2 实验结果

本次实验主要使用准确率、精确率、召回率、F1值以及混淆矩阵来对实验结果进行评估。在本节中，首先比较提出的CCLN、TCCLN方法在有标签样本比例为1%和5%的情况下的分类准确率。 如图3所示，本文所采用的两种方法准确率均高于RF、SVM方法，且采用知识迁移学习的方法（TCCLN）在有标签样本数较少（1%）的情况下获得了更好的性能，当有标签样本数量增加（5%）时，直接特征提取方法（CCLN）会取得更好的效果。造成这种现象的原因是在样本较少的情况下，从源域数据中学习到的知识有助于目标域的数据训练。然而，当目标域的训练数据增加时，目标域的特征提取层提取的特征与训练数据更加一致，具有更好的分类性能，而在源域提取的特征不再适用于目标域的分类。因此，在这种情况下，采用迁移学习的方法性能会更差。

消融实验结果表明，采用全冻结模式的TCCLN方法取得了最高的准确率，而采用部分冻结的PTCCLN方法和全不冻结的UTCCLN方法准确率起伏较大，这是由于迁移过程中源域数据量大，预训练过程较为完善，此时的特征提取器分类准确性更强，而在目标域中的有标签数据量较少，会对训练过程产生一定程度上的影响。

4 结束语

★扫描二维码，到知网阅读下载本篇论文

★原文发表于《移动通信》2022年第4期★

doi:10.3969/j.issn.1006-1010.2022.04.005

中图分类号：TN929.5 文献标志码：A

文章编号：1006-1010(2022)04-0028-05

引用格式：桂冠,宁金辉,王禹. 半监督学习在恶意软件流量检测中的应用[J]. 移动通信, 2022,46(4): 28-32.

作者简介

《移动通信》投稿方式为在线投稿

请您登录网页投稿系统

链接地址：http://ydtx.cbpt.cnki.net

【5G专网应用】第8期专题征稿 7月5日截稿

【面向6G的边缘人工智能】2022年第9期专题征稿

【空天地海一体化】2022年第10期专题征稿

【关注】2022年下半年专题征稿计划

【100篇】《移动通信》2021年1—6期专题论文集合

#扫码关注我们#

《移动通信》

用论文解读通信

《移动通信》杂志由中国电子科技集团公司主管，中国电子科技集团公司第七研究所主办，是中国科技核心期刊、中国期刊方阵“双效期刊”、工业和信息化部精品电子期刊、广东省优秀期刊、中国科技论文统计源刊。国内连续出版物号：CN44-1301/TN，国际连续出版物号：ISSN1006-1010，邮发代号：46-181。

上一篇：劳保鞋的保养下一篇：什么是传感器？传感器的主要作用及应用原理是什么?