机器学习信仰之决策树详解大数据

1、决策树是一种基本的分类、回归算法
2、1986年ID3算法;1994年C4.5算法;1984年CART算法
3、决策树从根节点到一个叶节点表示一条路径,代表一串规则、条件。
4、决策树考量的是叶节点代表的条件概率,是判别模型
5、决策树算法包括特征选择、树的生成、剪枝三个步骤。 由于决策树表示一个条件概率分布,所有不同的树的深度代表不同复杂度的概率模型;决策树的生成对应模型的局部选择,剪枝对应模型的全局选择。 决策树的生成只考虑局部最优,剪枝考虑全局最优

熵、信息增益、信息增益比、基尼系数

熵 — 度量随机变量的不确定性(纯度)

定义:假设随机变量X是一个取有限个数的离散随机变量,其概率分布为:
其概率 P(X=xi) = pi , ( i = 1,2, … , n)
因此随机变量X的熵:

原创文章,作者:ItWorker,如若转载,请注明出处:https://blog.ytso.com/9322.html

(0)
上一篇 2021年7月19日
下一篇 2021年7月19日

相关推荐

发表回复

登录后才能评论