摘要: 近年来,各地党委、政府加快推进新型工业化,部署实施制造强市战略,提出工业企业“智改数转”是推动全市工业经济稳增长的重要引擎,更是稳增长、促发展的重要抓手。今天博主就以互联网防火墙异常行为识别为例给大家介绍一种“智改数转”普遍运用于数字制造新型工业化的强大算法。
关键词: XGBoost, 异常行为识别,互联网安全,机器学习
READY GO!
随着互联网技术的飞速发展,网络攻击手段也日益多样化和隐蔽化。传统的防火墙技术虽然在一定程度上能够防御常见的网络威胁,但对于新型的、复杂的攻击模式,其识别能力往往显得力不从心。为了应对这一挑战,越来越多的研究者开始将目光投向机器学习领域,尤其是那些能够处理高维数据集并具有较强泛化能力的算法,如XGBoost。
XGBoost,即eXtreme Gradient Boosting,是一种基于梯度提升决策树的集成学习算法。它通过构建多个弱预测模型,并将它们组合起来,以提高整体模型的预测准确性。XGBoost在处理分类和回归问题时表现出色,尤其是在需要处理大量特征和复杂数据结构的场景中。
在构建互联网防火墙异常行为识别模型时,XGBoost算法的优势主要体现在以下几个方面:
- 高效率:XGBoost算法优化了传统梯度提升算法的计算过程,提高了模型训练的速度。
- 高准确性:通过正则化项的引入,XGBoost能够在保持模型复杂度的同时,减少过拟合的风险。
- 可扩展性:XGBoost支持并行处理,能够高效地处理大规模数据集。
灵活性:XGBoost提供了丰富的参数设置,允许用户根据具体问题调整模型性能。
基本组成元素:
- 决策树:XGBoost的基本组成元素是决策树,这些决策树作为“弱学习器”共同组成了XGBoost模型。每棵决策树都有先后顺序,后一棵树会考虑前一棵树的预测结果,并调整样本分布来训练下一棵决策树。
整体思路:
- 训练过程:从目标函数出发,通过计算目标函数增益选择特征,再使用加权分位法确定分裂点,建立决策树。不断重复该算法直到所有特征都被使用或达到限定层数。
- 测试过程:输入特征依次进入每棵决策树,每棵树的节点给出预测权值,最后将所有预测权值相加得到最终结果。
目标函数:
- 最初的目标函数:设定第t个决策树的目标函数,包括样本损失函数、前t-1棵树的预测值、第t棵树的模型复杂度(正则化项)。
- 推导:通过泰勒展开公式进行简化,保留一阶和二阶导数信息,去掉常数项,从而得到简化版的目标函数。
特征划分准则:
- 信息增益:根据目标函数的最优解,确定特征划分准则。通过计算每个特征划分点的信息增益,选择最佳分割点。
- 加权分位法:为了提高算法效率,采用加权分位法寻找最佳分割点,并对每个特征的重要性进行排序。
优缺点:
- 优点:XGBoost具有高精度、灵活性强、防止过拟合、处理缺失值和并行化操作等优点。
- 缺点:尽管XGBoost在许多方面表现出色,但在处理极其大规模数据时可能相对简单,超参数调优也可能需要大量计算资源和时间。
总的来说,XGBoost通过一系列精确的设计和优化措施,显著提升了模型的性能和计算速度。在实际应用中,合理调优XGBoost的各个超参数能够进一步提高模型的精度和泛化能力。
应用领域:
- 金融行业:XGBoost在金融风控领域被用于信用卡欺诈检测、信贷审批、保险定价等,基于用户特征构建风险预测模型,以识别潜在的风险和欺诈行为。
- 医疗保健:在医疗领域,XGBoost被用于疾病诊断、疾病发生风险预测、疾病转归与预后评估、合理安全用药指导以及药物研发等,提高决策效率和质量。
- 推荐系统:在电商、新闻媒体等行业中,XGBoost用于构建推荐系统,预测用户对商品或内容的点击率、购买率或评分,以提供个性化推荐。
- 生物信息学:XGBoost在基因表达数据分析、疾病基因研究和药物发现中应用,帮助科学家挖掘生物标志物,构建精确的诊断或预后模型。
- 制造业:在制造业中,XGBoost可以用于产品缺陷检测、质量控制、预测设备维护需求等,优化生产流程和降低成本。
- 教育:XGBoost在教育领域中用于分析学生数据,预测学生的成绩、辍学率等,帮助教育机构优化教学策略。
- 广告技术:在广告投放中,XGBoost用于预测广告的点击率,帮助企业优化广告投放策略,提高广告效果。
- 网络安全:XGBoost也被应用于网络安全领域,用于异常行为检测、入侵检测系统等,提高系统的安全性。
- 能源行业:在能源领域,XGBoost可以用于预测能源消耗、优化能源分配、预测设备故障等。
- 汽车行业:在汽车行业中,XGBoost可以用于预测汽车销量、优化供应链管理、车辆故障预测等。
- 电信行业:XGBoost在电信行业中用于客户流失预测、网络优化、服务质量管理等。
数据集介绍
数据集来源于kaggle,由美国大学防火墙收集的一些互联网流量纪录,数据65532行,12列。
数据特征():
我不想去一个一个翻译打字了,网上搜的数据列名,英文可能会有一点小出入,中文大体应该是对的。
- 协议类型 (Protocol Type):网络通信使用的协议类型,例如TCP、UDP等。
- 源IP (Source IP):发起网络连接的源头IP地址。
- 源端口 (Source Port):发起连接的源头端口号。
- 目标IP (Destination IP):网络连接的目标IP地址。
- 目标端口 (Destination Port):网络连接的目标端口号。
- 攻击状态 (Attack Type):标记当前记录是否为异常攻击行为,通常是分类标签。
- 协议 (Protocol):详细描述协议的种类,如http、ftp等。
- 服务 (Service):标识所使用服务的类型,如private、ecr_i等。
- 登录失败的次数 (Failed Login Attempts):记录在当前会话中登录尝试失败的次数。
- 登录尝试 (Login Attempts):记录在当前会话中的总登录尝试次数。
- 数据发送量 (Data Sent):从源到目的地发送的数据总量,单位通常为字节。
- 数据接收量 (Data Received):从目的地返回到源的数据总量,单位通常为字节。
加载数据
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
import plotly as py
import plotly.graph_objs as go
from plotly.offline import iplot
import plotly.express as px
from sklearn.cluster import KMeans
import warnings
import os
warnings.filterwarnings("ignore")
plt.rcParams ['font.sans-serif'] ='SimHei' #显示中文
plt.rcParams ['axes.unicode_minus']=False #显示负号
df = pd.read_csv('Firewall.csv')
df.head()
显示前五行数据:
简单说明一下数据情况,Action列不是数字类型,该列为目标变量也是就原始结果,等会儿需做特征工程,因为机器学习计算机是不认识数字以外的数值。
开始眼神交流,主要需要描述的东西太多了,实在不想打字。
上图作个简要说明,原始数据有65532行,经过清洗发现数据有8362行数据为重复值,最后删除后最终数据为57170行。
iplot(px.bar( df['Action'].value_counts(), labels={'value':'数量', 'name':'类型'}, # 设置图表的标签 color=df['Action'].value_counts().index, # 设置每个柱子的颜色为其对应的名称 text_auto=True, # 自动将计数值添加到柱子上 title='互联网防火墙行为类型目标变量分布图' # 设置图表的标题
))
上图为目标变量分布图,也就是是否标记为攻击行为,第一个是允许访问,第二个为拒绝访问,第三是其它,第四个数据太少了忽略。图上的k代表千为单位,比如第一个数量应该为37640.
int_1 = df.drop('Action', axis=1)
fig = plt.figure(figsize=(20,18))
sns.heatmap(int_1.corr(),vmax=1,annot=True,linewidths=0.5,cbar=False,cmap='YlGnBu',annot_kws={'fontsize':18})
plt.xticks(fontsize=13)
plt.yticks(fontsize=13)
plt.title('互联网防火墙数据特征相关系数矩阵热图',fontsize=25)
plt.savefig('/Users/c/Desktop/heatmap_correlation_matrix.png', dpi=300)
plt.show()
特征工程
将英文用数字0、1、2、3替换成分类数据,代表4类值,和柱状图保持一致。
开始机器学习
# 准备用于创建模型的数据
from sklearn.model_selection import train_test_split
X = df.drop('Action', axis=1)
y = df["Action"]
# 划分数据集
X_train,X_test,y_train,y_test = train_test_split(X,y,test_size=0.2,random_state=42)
print('训练集大小:',X_train.shape[0])
print('测试集大小:',X_test.shape[0])
# 构建逻辑回归模型
from sklearn.linear_model import LogisticRegression
lr = LogisticRegression()
lr.fit(X_train,y_train)
print('逻辑回归模型准确率:',lr.score(X_test,y_test))
# 构建KNN模型
from sklearn.neighbors import KNeighborsClassifier
knn = KNeighborsClassifier()
knn.fit(X_train,y_train)
print('KNN模型准确率:',knn.score(X_test,y_test))
# 构建xgboost模型
from xgboost import XGBClassifier
xgb = XGBClassifier()
xgb.fit(X_train,y_train)
print('xgboost模型准确率:',xgb.score(X_test,y_test))
可以看到XGBoost模型准确率达到了99.9%,我们就选本文的主角进行模型评估。
模型评估:
from sklearn.metrics import r2_score,confusion_matrix,classification_report,auc,roc_curve
# 模型评估
y_pred = xgb.predict(X_test)
print('模型的R平方值','\n', r2_score(y_test,y_pred))
print('模型混淆矩阵:','\n',confusion_matrix(y_test,y_pred))
print('模型分类报告:','\n',classification_report(y_test,y_pred))
怎样看上图,下面有解释:
R方值(R-squared, R²):
R方值(也称为决定系数)是回归问题中常用的一个评估指标,它表示模型预测的响应变量与真实响应变量之间的相关性。
R²的值范围在0到1之间,值越接近1表示模型拟合得越好。
如果R²为0,表示模型没有解释任何响应变量的变异;如果R²为1,表示模型完美地解释了响应变量的变异。
混淆矩阵(Confusion Matrix):
混淆矩阵是分类问题中常用的一个评估工具,用于展示模型分类结果的分布情况。
它包括真正例(TP)、假正例(FP)、真反例(TN)和假反例(FN)四个指标。
通过混淆矩阵,我们可以计算准确率、精确率、召回率等更具体的评估指标。
分类报告(Classification Report):
分类报告是一个包含了精确率(Precision)、召回率(Recall)、F1分数(F1-score)和支持度(Support)等评估指标的文本报告。
这些指标有助于我们更全面地了解模型在每个类别上的表现。
如何解释评估结果:
对于R方值,您可以直接查看其值来判断模型拟合的好坏。例如,如果R²为0.9964,那么模型解释了响应变量99.6%的变异。
对于混淆矩阵,您需要查看每个类别的真正例(TP)、假正例(FP)、真反例(TN)和假反例(FN)的数量。这些数字可以帮助您了解模型在哪些类别上表现较好,哪些类别上表现较差。
对于分类报告,您可以查看每个类别的精确率、召回率和F1分数。精确率表示模型预测为正例的样本中真正为正例的比例;召回率表示真正为正例的样本中被模型预测为正例的比例;F1分数是精确率和召回率的调和平均数,用于综合考虑这两个指标。
# 打印特征重要性评分
# 获取训练数据X_train的列标签,即特征名称
feat_labels = X_train.columns[0:] # feat_labels 是一个包含所有特征名称的列表
# 获取XGBoost模型的特征重要性评分
importances = xgb.feature_importances_ # importances 是一个数组,包含了每个特征的重要性评分
# 对特征重要性评分进行排序,得到排序后的索引
indices = np.argsort(importances)[::-1] # np.argsort 返回排序后的索引,[::-1] 将其反转,使得最重要的特征排在前面
# 初始化两个列表,用于存储排序后的特征名称和重要性评分
index_list = []
value_list = []
# 循环遍历每个特征和其对应的索引
for f, j in zip(range(X_train.shape[1]), indices): # 将特征名称和重要性评分添加到对应的列表中 index_list.append(feat_labels[j]) # 根据排序后的索引j,从feat_labels中获取特征名称 value_list.append(importances[j]) # 根据排序后的索引j,从importances中获取重要性评分 # 打印当前特征和其重要性评分(索引从1开始,因为通常我们不说第0个特征) print(f + 1, feat_labels[j], importances[j])
# 创建一个新的图形,并设置其大小
plt.figure(figsize=(10,6))
# 使用水平条形图绘制特征重要性评分
# 注意这里我们对index_list和value_list使用了[::-1],以确保最重要的特征在图的顶部
plt.barh(index_list[::-1], value_list[::-1])
# 设置y轴标签的字体大小
plt.yticks(fontsize=12)
# 设置图形的标题和字体大小
plt.title('各特征重要程度排序', fontsize=14)
# 显示图形
plt.show()
从上图可以看出各特征重要程度排名最多的是“尝试登录”,说明Haker也不是一次就能成功的。
模型预测:
# 模型预测
res = pd.DataFrame()
res['真实值'] = y_test
res['预测值'] = y_pred
res.sample(10)
可以看到我构建了一个有数据行数、真实值、预测值的二维表格,随机抽取10条数据,所有数据预测完全准确(上图的0、1、2就是上面特征工程处理的英文类别,可以在上面一一对应)。
小结
在当今的数据驱动时代,XGBoost算法以其卓越的性能和效率,在众多行业中发挥着重要作用。从金融风控到医疗诊断,从个性化推荐到网络安全,XGBoost的应用案例证明了其解决复杂预测问题的非凡能力。随着技术的不断进步,我们可以预见XGBoost将继续扩展其应用边界,为更多行业带来深远的变革。对于数据科学家和行业从业者而言,深入理解XGBoost的原理和应用,将有助于他们在未来的工作中更好地利用这一强大的工具。