信息熵 条件熵 信息增益 信息增益比 GINI系数

   日期:2024-12-29     作者:x5bnw       评论:0    移动:http://oml01z.riyuangf.com/mobile/news/12204.html
核心提示:此文是一些机器学习常用概念的整理,搬运过来的。另外,细节才是在信息论与概率统计学中,熵(entropy&


此文是一些机器学习常用概念的整理,搬运过来的。
另外,细节才是

在信息论与概率统计学中,熵(entropy)是一个很重要的概念。在机器学习与特征工程中,熵的概念也用得很多。

“承载了信息的东西”才是数据

  • 信息是用来消除不确定性的东西

熵是神马东东?信息论的开山祖师爷Shannon说,信息的不确定性可以用熵来表示,即信息熵是信息杂乱程度的描述
对于一个取有限个值的随机变量X,如果其概率分布为

优点

  • 1.信息增益考虑了特征出现与不出现的两种情况,比较全面,一般而言效果不错。
  • 2.使用了所有样例的统计属性,减小了对噪声的敏感度。
  • 3.容易理解,计算简单。

缺陷

  • 1.信息增益考察的是特征对整个系统的贡献,没有到具体的类别上,所以一般只能用来做全局的特征选择,而没法针对单个类别做特征选择。
  • 2.只能处理连续型的属性值,没法处理连续值的特征。
  • 3.算法天生偏向选择分支多的属性,容易导致overfitting。
 
特别提示:本信息由相关用户自行提供,真实性未证实,仅供参考。请谨慎采用,风险自负。

举报收藏 0打赏 0评论 0
 
更多>同类最新资讯
0相关评论

相关文章
最新文章
推荐文章
推荐图文
最新资讯
点击排行
{
网站首页  |  关于我们  |  联系方式  |  使用协议  |  隐私政策  |  版权隐私  |  网站地图  |  排名推广  |  广告服务  |  积分换礼  |  网站留言  |  RSS订阅  |  违规举报  |  鄂ICP备2020018471号