博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
离群点(孤立点)检测
阅读量:4091 次
发布时间:2019-05-25

本文共 898 字,大约阅读时间需要 2 分钟。

根据老师的课件整理而成

离群点(孤立点)检测

离群点

  • 离群点是一个数据对象,它显著不同于其它数据对象,好像它是被不同的机制产生的一样

  • 类型:全局离群点、局部离群点、集体离群点

  • 异常数据通常作为噪音而忽略,许多数据挖掘算法试图降低或消除异常数据的影响

  • 在有些应用领域识别异常数据是许多工作的基础和前提,异常数据会带给我们新的视角。

  • 如在欺诈检测中,异常数据可能意味欺诈行为的发生,在入侵检测中异常数据可能意味入侵行为的发生。

  • 离群点分析方法

    • 统计学方法
    • 基于距离的方法
    • 基于偏差的方法
    • 基于密度的方法

基于统计学的孤立点检测

  • 基本思想:

    对给定的数据集合假设了一个分布或概率模型(例如, 正态分布), 然后根据模型采用不一致性检验(discordancy test)来确定孤立点

  • 检验要求的参数

    • 数据集参数: 例如, 假设的数据分布
    • 分布参数: 例如平均值和方差
    • 和预期的孤立点的数目
  • 不一致性检验:验证一个对象O关于分布F是否显著不同

  • 缺点

    • 绝大多数检验是针对单个属性的, 而许多数据挖掘问题要求在多维空间中发现孤立点
    • 统计学方法要求关于数据集合参数的知识(如数据分布),但是在许多情况下, 数据分布可能是未知的
    • 当没有特定的检验时, 统计学方法不能确保所有的孤立点被发现; 或者观察到的分布不能恰当地被任何标准的分布来模拟

基于距离的孤立点检测

  • 对于数据集T 中的一个对象o,使得 T 中的对象至少有p 部分与o 的距离大于d

  • 将基于距离的孤立点看作是那些没有“足够多”邻居的对象

  • 这里的邻居是基于距给定对象的距离来定义的

  • 基于距离的孤立点挖掘算法

    • 基于索引的算法
    • 嵌套循环算法
    • 基于单元(cell-based)的算法

基于偏离的孤立点检测

  • 基本思想

    通过检查一组对象的主要特征来确定孤立点 ,如果与给出的描述偏离大的对象被认为是孤立点 。

  • 序列异常技术:

    模仿人类从一系列推测类似的对象中识别异常对象的方式

  • 术语:异常集、相异度函数、平滑因子

基于密度的方法

  • 参考文献: M. M. Breunig, H.-P. Kriegel, R. Ng, J. Sander.(SIGMOD’2000)

转载地址:http://jkdii.baihongyu.com/

你可能感兴趣的文章
STM32F429使用STM32CUBMX5.6移植touchGFX4.13
查看>>
Plugin Android Material Design Icon Generator was not installed: Cannot download ,Read timed out
查看>>
The SDK platform-tools version (27.0.1) is too old to check APIs compiled with API 28
查看>>
Could not find support-fragment.jar (com.android.support:support-fragment:27.1.1)
查看>>
android studo无法预览xml布局效果failed to load AppCompat ActionBar with unkNown error
查看>>
Error: Invoke-customs are only supported starting with Android O (--min-api 26)
查看>>
IllegalArgumentException: Invalid character found in method name. HTTP method names must be tokens
查看>>
公平锁,非公平锁,乐观锁,悲观锁、ReenTrantLock、synchronized、CompareAndSet(CAS)
查看>>
集合-Queue 、Deque 、Stack/链表与数组的对比、DelayQueue、LinkedBlockingQueue
查看>>
集合:list、set与map(HashMap、TreeMap和HashTable、LinkedHashMap、ConcurrentHashMap)
查看>>
Successfully created project 'MyApplication' on GitHub, but initial commit failed:
查看>>
MySQL练习题推荐,别名,having和where的区别,left join 、right join 、inner join之间的区别
查看>>
netty一些概念: ChannelHandler,ChannelHandlerContext,ChannelPipeline
查看>>
gradle错误:ERROR: Cannot choose between the following configurations of project :logic:
查看>>
gradle错误:ERROR: Unexpected lock protocol found in lock file. Expected 3, found 37.
查看>>
gradle报错:ERROR: Cannot read packageName from xxx\app\src\main\debug\AndroidMan
查看>>
gradle报错:ERROR: All flavors must now belong to a named flavor dimension.
查看>>
gradle报错:ERROR: Failed to resolve: com.github.Aspsine:SwipeToLoadLayout:1.0.3
查看>>
打包出错 "XXX" is translated here but not found in default locale
查看>>
flutter Material示例与MediaQuery.of(context) called with a context that does not contain a MediaQuery.
查看>>