第一章绪论
`
1.2基本术语
数据集:各种数据的一个集合
- 样本: 每条记录是关于一个事件或对象(这里 是 一个西瓜)的描述
- 特征:反映事件或对象在某方面的表现或性质的事项,例如”色泽””根蒂” “敲声”
- 属性值:属性上的取值,例如”青绿” “乌黑”
- 样本空间:学得模型后,使用其母行预测的过程
- 特征向量:例如我们把”色泽” “根蒂” “敲声”作为三个坐标轴,则它们张成一个用于
描述西瓜的三维空间,每个西瓜都可在这个空间中找到自己的坐标位置
学习/训练:从数据中学得模型的过程
- 训练数据:训练过程中使用的数据
- 训练样本:训练的数据中的每个样本
- 训练集:训练样本组成的集合
- 假设:学得模型对应了关于数据的某种潜在的规律
- “真相”/”真实”:数据的某种潜在的规律
- 学习器:学习算法在给定数据和参数空间上的实例化
标记:训练样本结果的信息(例如好瓜坏瓜)
- 样例:拥有了标记信息的实例
测试:学得模型后,使用其进行预测的过程
回归:预测的是连续值
分类:预测的任务是离散值时
-
二分类:只涉及两个分类
- 正类
- 反类
-
多分类:涉及多个分类
聚类:训练集中分成若干个组,每个组称为一个簇,这些自动形成的簇对应一些潜在概念划分
泛化:学得模型适用于新样本的能力
`
1.3假设空间
“归纳学习”:顾名思义,从样例中学习显然时一个归纳的过程
- 广义的归纳学习:从样例中学习
- 侠义的归纳学习:从训练数据中学的概念/概念生成/概念(concept)学习
假设空间:我们可以把学习过程看作一个在所有假设(hypothesis) 组成的空间中进行搜索的过程,搜索目标是找到与训练集”匹配”的假设,即能够将训练集中的瓜判断正确的假设.假设的表示一旦确定,假设空间及其规模大小就确定了.
版本空间:与训练集一致的”假设集合”
1.5发展历程
数据储量爆发式增长,计算机算力的增强带动了机器学习的发展
第二章模型评估和选择
2.1经验误差与过拟合
误差:学习器的实际预测输出与样本的真实输出之间的差异
- 错误率:分类错误的样本数占样本总数
- 精度:1 – 错误率
- 训练误差:学习器在训练集上的误差
- 泛化误差:在新样本上的误差
拟合:
- 过拟合:当学习器把训练样本学得”太好”了的时候,很可能巳经把训练样本自身的一些特点当作了所有潜在样本都会具有的一般性质,这样就会导致泛化性能下
- 欠拟合:欠拟合则通常是由于学习能力低下而造成的
2.2评估方法
训练集 用于训练模型
测试集 用于验证模型
三种方法
-
留出法:直接将数据集 划分为两个互斥的集合,其中一个集合作为训练集 ,另一个作为测试集
常见做法是将大约 2/3~4/5用于训练,剩余用于测试 -
交叉验证法:将数据分为k个大小相似的互斥子集,每个子集尽可能保持数据分布的一致性,即从D中通过分层采样得到. 然后每次用k-1个子集的并集作为训练集,剩下的那个子集作测试集;
-
自助法:具体做法是:在含有 m 个样本的数据集中,每次随机挑选一个样本, 将其作为训练样本,再将此样本放回到数据集中,这样有放回地抽样 m 次,生成一个与原数据集大小相同的数据集,这个新数据集就是训练集。这样有些样本可能在训练集中出现多次,有些则可能从未出现。原数据集中大概有 36.8% 的样本不会出现在新数据集中。因此,我们把这些未出现在新数据集中的样本作为验证集。把前面的步骤重复进行多次,这样就可以训练出多个模型并得到它们的验证误差,然后取平均值,作为该模型的验证误差。
调参与最终模型
2.3性能度量:
性能度量有衡量模型泛化能力的评价标准
性能度量反映了任务需求,在对比不同模型的能力时,使用不同的性能度量往往会导致不同的评判结果;这意味着模型的”好坏”是相对的,什么样的模型是好的,不仅取决于算法和数据,还决定于任务需求.
2.3.1错误率和精度
2.3.2查准率、查全率与Fl
- “检索出的信息中有多少比例是用户感兴趣的”用户感兴趣的信息中有多少被检索出来了
原创文章,作者:dweifng,如若转载,请注明出处:https://blog.ytso.com/267730.html