Policy Information
EL:集成学习(Ensemble Learning)的概念讲解、算法分类、问题应用、关键步骤、代码实现等相关配图详细攻略
目录
集成学习是使用一系列学习器进行学习,并使用某种规则把各个学习结果进行整合,从而获得比单个学习器更好的学习效果的一种机器学习方法。它本身不是一个单独的机器学习算法,而是通过构建并结合多个机器学习器来完成学习任务,实现博采众长。
一般而言,通常所说的集成学习中的多个学习器都是同质的“弱学习器”。基于该弱学习器,通过样本集扰动、输入特征扰动、输出表示扰动、算法参数扰动等方式生成多个学习器,进行集成后获得一个精度较好的“强学习器”。
思路步骤:集成学习的主要思路是先通过一定的规则生成多个学习器,再采用某种集成策略进行组合,最后综合判断输出最终结果。
核心思想:就是如何训练多个弱分类器以及如何将这些弱分类器进行组合。
模型 | 优势 | 缺点 |
EL(RF/GBDT) | 准确度高 鲁棒性好 泛化能力好 可解释性差 | 部署困难 计算量大 |
一般采用弱分类器的原因在于将误差进行均衡,因为一旦某个分类器太强了就会造成后面的结果受其影响太大,严重的会导致后面的分类器无法进行分类。常用的弱分类器可以采用误差率小于0.5的,比如说逻辑回归、SVM、神经网络。
基本分类器之间的整合方式,一般有简单多数投票、权重投票,贝叶斯投票,基于D-S证据理论的整合,基于不同的特征子集的整合。
比如分类问题集成、回归问题集成、特征选取集成、异常点检查集成等。
Boosting、Bagging、随机森林。
更新……
评论