频道栏目
首页 > 网络 > 云计算 > 正文

数据分析笔试题分析分享

2018-08-08 11:12:22           
收藏   我要投稿

1.请说明随机森林较一般决策树稳定的几点原因

随机森林分类的过程就是对于每个随机产生的决策树分类器,输入特征向量,森林中每棵决策树对样本进行分类,根据每个决策树的权重得到最后的分类结果。即随机森林就是由多颗决策树形成的并且随机森林是并行计算多颗决策树。
bagging的方法,多个树投票提高泛化能力
bagging中引入随机(参数、样本、特征、空间映射),避免单棵树的过拟合,提高整体泛化能力

决策树缺点和注意事项:
决策树的最大缺点是原理中的贪心算法。因此它所做的选择只能是某种意义上的局部最优选择。
若目标变量是连续变量,那么决策树就不使用了,改用回归模型
若某些自变量的类别种类较多,或者自变量是区间型时,决策树过拟合的危险会增大。这种情况需要分箱或多次模型验证,确保其具有稳定性。
对区间型变量进行分箱操作时,无论是否考虑了顺序因素,都有可能因为分箱丧失了某些重要信息,尤其是当分箱前的区间型便变量与目标变量有明显的线性关系时,这种分箱造成的损失更为明显。

2.什么是聚类分析?聚类算法有哪几种?请选择一种详细描述其计算原理和步骤

1)聚类分析是一种无监督的学习方法,根据一定条件将相对同质的样本归到一个类总(俗话说人以类聚,物以群分)
正式一点的:聚类是对点集进行考察并按照某种距离测度将他们聚成多个“簇”的过程。聚类的目标是使得同一簇内的点之间的距离较短,而不同簇中点之间的距离较大。
2)聚类方法主要有:
a. 层次聚类
层次法(hierarchical methods),这种方法对给定的数据集进行层次似的分解,直到某种条件满足为止。。具体又可分为“自底向上”和“自顶向下”两种方案。

  例如,在“自底向上”方案中,初始时每一个数据纪录都组成一个单独的组,在接下来的迭代中,它把那些相互邻近的组合并成一个组,直到所有的记录组成一个分组或者某个条件满足为止。
经典算法为:CURE;采用抽样技术先对数据集D随机抽取样本,再采用分区技术对样本进行分区,然后对每个分区局部聚类,最后对局部聚类进行全局聚类。
b. 划分聚类:(经典算法为kmeans)
划分法(parTITIoning methods),给定一个有N个元组或者纪录的数据集,分裂法将构造K个分组,每一个分组就代表一个聚类,K《N。而且这K个分组满足下列条件:

  (1) 每一个分组至少包含一个数据纪录;

  (2)每一个数据纪录属于且仅属于一个分组(注意:这个要求在某些模糊聚类算法中可以放宽);

  对于给定的K,算法首先给出一个初始的分组方法,以后通过反复迭代的方法改变分组,使得每一次改进之后的分组方案都较前一次好,而所谓好的标准就是:同一分组中的记录越近越好,而不同分组中的纪录越远越好。
c. 密度聚类
基于密度的方法(density-based methods),基于密度的方法与其它方法的一个根本区别是:它不是基于各种各样的距离的,而是基于密度的。这样就能克服基于距离的算法只能发现“类圆形”的聚类的缺点。
经典算法:DBSCAN:DBSCAN算法是一种典型的基于密度的聚类算法,该算法采用空间索引技术来搜索对象的邻域,引入了“核心对象”和“密度可达”等概念,从核心对象出发,把所有密度可达的对象组成一个簇。
这个方法的指导思想:只要一个区域中的点的密度大过某个阈值,就把它加到与之相近的聚类中去。
d. 网格聚类
基于网格的方法(grid-based methods),这种方法首先将数据空间划分成为有限个单元(cell)的网格结构,所有的处理都是以单个的单元为对象的。这么处理的一个突出的优点就是处理速度很快,通常这是与目标数据库中记录的个数无关的,它只与把数据空间分为多少个单元有关。
经典算法:STING:利用网格单元保存数据统计信息,从而实现多分辨率的聚类
e. 模型聚类:高斯混合模型
基于模型的方法(model-based methods),基于模型的方法给每一个聚类假定一个模型,然后去寻找能够很好的满足这个模型的数据集。这样一个模型可能是数据点在空间中的密度分布函数或者其它。它的一个潜在的假定就是:目标数据集是由一系列的概率分布所决定的。
3)k-means比较好介绍,选k个点开始作为聚类中心,然后剩下的点根据距离划分到类中;找到新的类中心;重新分配点;迭代直到达到收敛条件或者迭代次数。 优点是快;缺点是要先指定k,同时对异常值很敏感。

3.以下算法对缺失值敏感的模型包括:(AE)

A、Logistic Regression(逻辑回归)
B、随机森林
C、朴素贝叶斯
D、C4.5
E、SVM

逻辑回归(目标变量是二元变量)

建模数据量不能太少,目标变量中每个类别所对应的样本数量要足够充分,才能支持建模
排除共线性问题(自变量间相关性很大)
异常值会给模型带来很大干扰,要剔除
逻辑回归不能处理缺失值,所以之前应对缺失值进行适当处理。

随机森林的优点:
可以处理高维数据,不同进行特征选择(特征子集是随机选择)
模型的泛化能力较强
训练模型时速度快,成并行化方式,即树之间相互独立
模型可以处理不平衡数据,平衡误差
最终训练结果,可以对特种额排序,选择比较重要的特征
随机森林有袋外数据(OOB),因此不需要单独划分交叉验证集
对缺失值、异常值不敏感
模型训练结果准确度高
相对Bagging能够收敛于更小的泛化误差

朴素贝叶斯的假设前提有两个第一个为:各特征彼此独立;第二个为且对被解释变量的影响一致,不能进行变量筛选
朴素贝叶斯对缺失值不敏感它

C4.5决策树
C4.5算法的优点是:产生的分类规则易于理解,不用做特征选择,准确率较高。
C4.5算法的缺点是:在构造树的过程中,需要对数据集进行多次的顺序扫描和排序,因而导致算法的低效
C4.5对缺失值不敏感,因为它有应对缺失值的处理方案。
SVM:
最优分类面就是要求分类线不但能将两类正确分开(训练错误率为0),且使分类间隔最大。SVM考虑寻找一个满足分类要求的超平面,并且使训练集中的点距离分类面尽可能的远,也就是寻找一个分类面使它两侧的空白区域(margin)最大。
C是惩罚因子,是一个由用户去指定的系数,表示对分错的点加入多少的惩罚,当C很大的时候,分错的点就会更少,但是过拟合的情况可能会比较严重,当C很小的时候,分错的点可能会很多,不过可能由此得到的模型也会不太正确。
SVM的优点:
可以解决小样本,高维和非线性问题。
可以避免神经网络结构选择和局部极小点问题。
SVM的缺点:
对缺失数据敏感。
对非线性问题没有通用解决方案,须谨慎选择不同Kernelfunction来处理。

3.线性回归和逻辑回归的区别

线性回归针对的目标变量是区间型的, 逻辑回归针对的目标变量是类别型的
线性回归模型的目标变量和自变量之间的关系假设是线性相关的 ,逻辑回归模型中的目标变量和自变量是非线性的
线性回归中通常会用假设,对应于自变量x的某个值,目标变量y的观察值是服从正太分布的。逻辑回归中目标变量y是服从二项分布0和1或者多项分布的
逻辑回归中不存在线性回归中常见的残差
参数估值上,线性回归采用最小平方法,逻辑回归采用最大似染法。

上一篇:关于kafka数据的可靠性分析
下一篇:Centos7结束某个进程的命令
相关文章
图文推荐

关于我们 | 联系我们 | 广告服务 | 投资合作 | 版权申明 | 在线帮助 | 网站地图 | 作品发布 | Vip技术培训 | 举报中心

版权所有: 红黑联盟--致力于做实用的IT技术学习网站