决策树

信息增益

信息熵为(越小则纯度越高)
$E n t (D) = - \sum_{k = 1}^{| y |} p_{k} l o g_{2} p_{k}$
信息增益为
$G a i n (D) = E n t (D) - \sum_{v = 1}^{V} \frac{| D^{v} |}{| D |} E n t (D^{v})$
缺点：对于可以取值数目较多的属性有所偏好。
信息增益率（克服上述所述缺点）
$G a i n_r a t i o (D, a) = \frac{G a i n (D, a)}{I V (a)}$
其中
$I V (a) = - \sum_{v = 1}^{V} \frac{| D^{v} |}{| D |} l o g_{2} \frac{| D^{v} |}{| D |}$
称为属性a的固有属性值
Gini系数
$G i n i (D) = \sum_{k = 1}^{| y |} \sum_{k^{'} \neq k} p_{k} p_{k^{'}} = 1 - \sum_{k = 1}^{| y |} p_{k}^{2}$
反应了从数据集D中随机抽取两个样本，其类别标记不一致的概率

基尼指数(选择最小的)
$G i n i_i n d e x (D, a) = \sum_{v = 1}^{V} \frac{| D^{v} |}{| D |} G i n i (D^{v})$

预剪枝
- 若当前划分不能带来决策树泛化性能的提升，则停止划分并将当前结点标记为叶结点
后剪枝
- 自底向上对非叶子节点进行考察，若将该节点对应的子树替换为叶结点能带来泛化能力的提升，则将该子树替换为叶结点
- 代价复杂性剪枝：对于每个非叶子节点计算它的表面误差率增益值 $α$ 。
  $α = \frac{R (t) - R (T_{t})}{| N_{T_{t}} | - 1}$
  $| N_{T_{t}} |$ 为子树中包含的叶子结点的个数
  
  $R (t) = r (t) * p (t)$ 为结点的误差代价，如果该结点被剪枝,r(t)为结点t的误差率；p(t)为结点t上的数据占所有数据的比例
  
  $R (T_{t})$ 是子树Tt的误差代价，如果该节点不被剪枝。它等于子树Tt上所有叶子节点的误差代价之和。
  
  找到 $α$ 值最小的非叶子节点，令其左右孩子为NULL
- 最小误差剪枝
- 悲观误差剪枝