首页 > 业内资讯 > 8个经过证实的方法:提高机器学习模型的准确率

8个经过证实的方法:提高机器学习模型的准确率

时间:2016-01-19 | 来源:数据挖掘与数据分析 | 阅读:163

话题: 数据挖掘与数据分析


4. 特征选择

特征选择是寻找众多属性的哪个子集合,能够最好的解释目标变量与各个自变量的关系的过程。

你可以根据多种标准选取有用的特征,例如:

  • 所在领域知识:根据在此领域的经验,可以选出对目标变量有更大影响的变量。

  • 可视化:正如这名字所示,可视化让变量间的关系可以被看见,使特征选择的过程更轻松。

  • 统计参数:我们可以考虑 p 值,信息价值(information values)和其他统计参数来选择正确的参数。

  • PCA:这种方法有助于在低维空间表现训练集数据。这是一种降维技术。 降低数据集维度还有许多方法:如因子分析、低方差、高相关、前向后向变量选择及其他。


5. 使用多种算法

使用正确的机器学习算法是获得更高准确率的理想方法。但是说起来容易做起来难。

这种直觉来自于经验和不断尝试。有些算法比其他算法更适合特定类型数据。因此,我们应该使用所有有关的模型,并检测其表现。

来源:Scikit-Learn 算法选择图


6. 算法的调整

我们都知道机器学习算法是由参数驱动的。这些参数对学习的结果有明显影响。参数调整的目的是为每个参数寻找最优值,以改善模型正确率。要调整这些参数,你必须对它们的意义和各自的影响有所了解。你可以在一些表现良好的模型上重复这个过程。

例如,在随机森林中,我们有 max_features, number_trees, random_state, oob_score 以及其他参数。优化这些参数值会带来更好更准确的模型。

想要详细了解调整参数带来的影响,可以查阅《Tuning the parameters of your Random Forest model》。下面是随机森林算法在scikit learn中的全部参数清单:

RandomForestClassifier(n_estimators=10, criterion='gini', max_depth=None,min_samples_split=2, min_samples_leaf=1, min_weight_fraction_leaf=0.0, max_features='auto', max_leaf_nodes=None,bootstrap=True, oob_score=False, n_jobs=1, random_state=None, verbose=0, warm_start=False,class_weight=None)


湘ICP备2022002427号-10湘公网安备:43070202000427号
© 2013~2019 haote.com 好特网