python – 使用随机森林的AUC-base功能重要性

我试图用随机森林和逻辑回归预测二元变量.我有很多不平衡的课程(约占Y = 1的1.5%).

随机森林中的默认特征重要性技术基于分类准确性(错误率) – 已被证明是不平衡类的不良衡量标准(见herehere).

The two standard VIMs for feature selection with RF are the Gini VIM and the permutation VIM. Roughly speaking the Gini VIM of a predictor of interest is the sum over the forest of the decreases of Gini impurity generated by this predictor whenever it was selected for splitting, scaled by the number of trees.

我的问题是:在scikit-learn中实现的那种方法(就像它在R包方中一样)?或者可能是一种解决方法?

PS:这个问题与an other有点联系.

最佳答案
评分只是测试样本中使用的性能评估工具,它不会在每个拆分节点进入内部DecisionTreeClassifier算法.您只能将标准(每个拆分节点的内部损失函数的类型)指定为树算法的基尼或信息熵.

评分可用于交叉验证上下文,其目标是调整一些超参数(如max_depth).在您的情况下,您可以使用GridSearchCV使用评分函数roc_auc调整一些超参数.

转载注明原文:python – 使用随机森林的AUC-base功能重要性 - 代码日志