####参考书籍 《统计学习方法》-李航 ####决策树 分类决策树模型是一种描述对实例进行分类的树形结构。决策树由结点(node)和有向边(directed edge)组成。结点有两种类型:内部结点(internal node)和叶结点(leaf node)。内部结点表示一个特征或属性,叶结点表示一个类。 用决策树分类,从根结点开始,对实例的某一特征进行测试,根据测试结果,将实例分配到其子结点;这时,每一个子结点对应着该特征的一个取值。如此递归地对实例进行测试并分配,直至达到叶结点。最后将实例分到叶结点的类中。  程序设计中的条件分支结构就是if-then结构,决策树可以看作一个if-then规则的集合,在决策树的结构中,每一个实例都被一条路径或者一条规则所覆盖。 决策树的路径或其对应的if-then规则集合具有一个重要的性质:互斥并且完备。这就是说,每一个实例都被一条路径或一条规则所覆盖,而且只被一条路径或一条规则所覆盖。这里所谓覆盖是指实例的特征与路径上的特征一致或实例满足规则的条件。 ####特征选择问题 特征选择在于选取对训练数据具有分类能力的特征。这样可以提高决策树学习的效率。如果利用一个特征进行分类的结果与随机分类的结果没有很大差别,则称这个特征是没有分类能力的。经验上扔掉这样的特征对决策树学习的精度影响不大。通常特征选择的准则是信息增益或信息增益比。 举个例子:  上图是银行贷款数据表, 那么我们该如何去划分一个人是否能得到贷呢? 特征选择是决定用哪个特征来划分特征空间。  决策树的划分:  最后修改:2019 年 01 月 09 日 02 : 09 PM © 著作权归作者所有