1.2.1 对象与维度_机器学习算法原理与编程实践

读书频道 > 网站 > 网页设计 > 机器学习算法原理与编程实践

1.2.1 对象与维度

15-11-26 下载编辑

收藏我要投稿

本文所属图书 > 机器学习算法原理与编程实践

本书从结构上阐明了研究机器学习理论和算法的方法。最重要的不是数学，也不是这些算法本身，而是思想的发展过程，这与之前所有的书籍都有所不同。全书分为三条主线：第一条主线：从第一代神经网络（线性分类器）立即去当当网订购

1.2 对象、矩阵与矢量化编程

有了工具，很多事情就变得方便了。现在，我们正式进入机器学习的基础知识。简单回忆一下绪论部分所提出的三种对象类型：文本、表格、图。乍一看，有点眼花缭乱，仔细分析下来，三种结构虽各有千秋，却存在着共性。

1.2.1 对象与维度

对于大多数程序员而言，对象应该不是个陌生的概念。在面向对象的程序设计思想中，对象就是一个类的实例。机器学习中的对象与之很相似，在机器学习中，对象是指含有一组特征的行向量。而行向量的集合最容易构造的结构就是表。下面我们来观察一张表（如表1.1），此表来源于现实中真实的统计数据：

表中第一行黑体字：种属、重量(平均)、颜色(主)、生命周期/保质期表示为特征名称。所有特征组合在一起构成一组行向量，也称为特征向量，我们为了区别线性代数中的特征值和特征向量引入对象这个名称。以非洲象、大白鲨等开头的数据行就是一组行向量，也是一个对象。对象的维度就是行向量的列数，上述数据集的维度为5。

在实际计算中，除非特殊情况，特征名称不需列明；含有字符串的对象名称因无法直接参与运算，一般情况下可以编码为数字，我们将种属特征转换为是否动物（用布尔值0,1替代），颜色特征转换为十六进制。各列的特征值为了计算方便，应统一单位，区间值可以选择中间值。为了方便量化，表1.1删除第一列，大型动物与水果表就转换为（如表1.2）：