基于机器学习的异常点检测算法

admin • 2022-08-19 12:16 • 人工智能

1、概要

本来想着自己基于UEBA的概念搞一个账号安全检测和网络攻击的模型，但是近期有点忙，没太多时间去研究实现了，下面就主要利用目前常用的几个异常检测算法做了一个案例比对，包括：One-Class SVM、Isolation Forest（孤立森林）、Local Outlier Factor（局部异常因子LOF）主要利用python的sklearn实现。

关键词：异常点检测；网络安全；机器学习；

2、概念

我们依旧不去讨论过多模型算法的理论和复杂的公式，主要针对三种算法进行简单的阐述和区别！

One-Class SVM：单分类算法，通过超平面去进行异常点的区分，数据较多时不太适合使用
Isolation Forest：从超空间的角度看，这样就是不断地用随机选取的超平面切分样本点，直到所有的样本点都被这些超平面“孤立”起来。算法的所占内存少。
Local Outlier Factor：局部异常因子是基于密度的，是通过点之间的距离来计算的，点之间距离越远，密度越低，距离越近，密度越高的概念实现异常点检测。

3、案例

如下为python使用sklearn的的代码案例，生成图示分别是按照models的顺序进行异常点检测的结果图示：

from sklearn.svm import OneClassSVM
from sklearn.ensemble import IsolationForest
from sklearn.neighbors import LocalOutlierFactor
from sklearn.datasets import make_blobs
import matplotlib.pyplot as plt
# 解决中文
plt.rcParams['font.sans-serif']=['SimHei']
# 解决负数显示
plt.rcParams['axes.unicode_minus'] = False

x,y = make_blobs(n_samples=200,centers=2,random_state=100,cluster_std=1.2)
plt.figure(figsize=(8, 8))
plt.subplot(221)
plt.subplots_adjust(left=None, bottom=None, right=None, top=None,wspace=0.2, hspace=0.2)
plt.title("原始数据")
plt.scatter(x[:,0], x[:,1])
# plt.show()

models = [
    ("One-Class SVM", OneClassSVM(nu=0.15, kernel='rbf',gamma=0.1)),
    ("Isolation Forest", IsolationForest(contamination=0.15, random_state=42)),
    ("Local Outlier Factor", LocalOutlierFactor(n_neighbors=20))
]
loc = 222
for name,model in models:
    print(name,model)
    plt.subplot(loc)
    plt.title(name)
    if name == 'Local Outlier Factor':
        y_pred = model.fit_predict(x)
    else:
        model.fit(x)
        y_pred = model.predict(x)
    plt.scatter(x[:,0], x[:,1],c=y_pred)
    loc +=1
plt.show()

4、UEBA概念

随着企业业务及用户增多，产生大量的数据信息，数据信息是企业和用户重要的核心资产，关乎企业的发展和用户自身安全，所以为了防止第三方人员通过非法途径获取数据，需要有一种安全机制和手段避免数据被窃取，避免给企业和用户造成巨大损失。而一部分的原因是系统本身的用户登录方式存在安全漏洞，本文将结合当前流行的用户实体行为分析(User and Entity Behavior Analytics，UEBA)系统利用机器学习算法实现异常用户检测模型，从“被动防御”到“主动出击”。

实现UEBA需要基于用户自身行为基线检测特征例如：用户名、登录地点、登录IP、登录时间、登录方式、登录时间段、基于用户与用户之间行为基线检测特征用户名、登录频次、常用IP数量、登录时长、是否是活跃用户、操作频次、常用登录地点、密码错误频次，其次根据TCP/UDP层一些数据包进行特征提取，最终通过多模型进行分析预测。

以上就是今日分享，希望大家点赞关注加收藏~

本图文内容来源于网友网络收集整理提供，作为学习参考使用，版权属于原作者。

THE END

python 机器学习算法

二维码

2022年“研究生科研素养提升”系列公益讲座在线测评【2】

< <上一篇

2022年“研究生科研素养提升”系列公益讲座在线测评【1】

下一篇>>

搜索内容

基于机器学习的异常点检测算法

最新文章

分类

标签云