• +86-156-1535-0639
  • jianpengqi@126.com

异常检测数据观察

  • QI-Jianpeng

Smtp (KDDCUP99) dataset

数据集有三维, 由于每一维的值在0附近, 因此采用了y = log(x + 0.1)映射, 处理后的数据包含95,156个样本,包括30个异常值, 另有标签属性, 0代表正常, 1代表异常. 数据分布图如下:

异常点用暗红色表示, 可以看出都分布在了下方, 同样也可看出, 使用一个维度就可以把绝大部分异常值检测出来.

http (KDDCUP99) dataset

数据集有三维, 每一维采用了y = log(x + 0.1)映射, 处理后的数据包含567,497个样本,包括2211个异常值.

异常点用暗红色表示, 可以看出跟正常数据糅合到了一起.