频道栏目
首页 > 程序开发 > 综合编程 > 其他综合 > 正文
mrmr 最大关联度-最小冗余度 特征选择
2017-03-07 09:36:00         来源:banbuduoyujian的博客  
收藏   我要投稿

mrmr 最大关联度-最小冗余度 特征选择:在做特征选择时,可能面临两个问题:特征与类别预测有多大相关性,特征之间有多大冗余度。在特征选择中,“最好的m个特征不一定是m个最好的特征”。

从相关度与冗余度来看,最好的m个特征是指与分类最相关的特征,但由于最好的m个特征之间可能存在冗余,因此最相关的m个特征并不一定比其他m个特征产生更好的分类准确率。可以看出,特征选择可以分为两个过程:1、怎样度量特征相关性。2、怎样解决特征之间的冗余。
1、互信息
互信息可以度量两个变量x,y之间的相关关系。如下图所示:
这里写图片描述
考虑特征x与分类目标c,计算I(x,c),I(x,c)的大小代表了x与c之间的关联度的大小。从所有特征中选出与c之间互信息最大的m个特征,就可以得到与c最相关的m个特征。
2、最大相关度与最小冗余度
设S表示特征{xi}的集合,"S|=m. 为了选出m个最相关特征,使得S满足如下公式:
这里写图片描述
可见目标是选出m个平均互信息最大的集合S。
S很可能包含相关度很大的特征,也就是说特征之间存在冗余。集合S的冗余度如下式所示:
这里写图片描述
最终目标是求出拥有最大相关度-最小冗余度的集合S,直接优化下式:
这里写图片描述
直观上说D的增大,R的减小都会使得目标函数增大。
假设现在S中已有m-1个特征,现在需要从余下的特征中选择第m个特征,如下式:
这里写图片描述
3、特征选择过程

点击复制链接 与好友分享!回本站首页
上一篇:leetcode 275题目解答
下一篇:centos下搭建redis集群
相关文章
图文推荐
点击排行

关于我们 | 联系我们 | 广告服务 | 投资合作 | 版权申明 | 在线帮助 | 网站地图 | 作品发布 | Vip技术培训 | 举报中心

版权所有: 红黑联盟--致力于做实用的IT技术学习网站