本文共 898 字,大约阅读时间需要 2 分钟。
根据老师的课件整理而成
离群点是一个数据对象,它显著不同于其它数据对象,好像它是被不同的机制产生的一样
类型:全局离群点、局部离群点、集体离群点
异常数据通常作为噪音而忽略,许多数据挖掘算法试图降低或消除异常数据的影响
在有些应用领域识别异常数据是许多工作的基础和前提,异常数据会带给我们新的视角。
如在欺诈检测中,异常数据可能意味欺诈行为的发生,在入侵检测中异常数据可能意味入侵行为的发生。
离群点分析方法
基本思想:
对给定的数据集合假设了一个分布或概率模型(例如, 正态分布), 然后根据模型采用不一致性检验(discordancy test)来确定孤立点
检验要求的参数
不一致性检验:验证一个对象O关于分布F是否显著不同
缺点
对于数据集T 中的一个对象o,使得 T 中的对象至少有p 部分与o 的距离大于d
将基于距离的孤立点看作是那些没有“足够多”邻居的对象
这里的邻居是基于距给定对象的距离来定义的
基于距离的孤立点挖掘算法
基本思想
通过检查一组对象的主要特征来确定孤立点 ,如果与给出的描述偏离大的对象被认为是孤立点 。
序列异常技术:
模仿人类从一系列推测类似的对象中识别异常对象的方式
术语:异常集、相异度函数、平滑因子
转载地址:http://jkdii.baihongyu.com/