R随机森林可变重要性

我试图使用随机森林包在R中的分类。

所列的可变重要性措施包括:

> 0类变量x的平均原始重要性得分
>对于类1的变量x的平均原始重要性得分
> MeanDecreaseAccuracy
> MeanDecreaseGini

现在我知道这些“意思”,因为我知道他们的定义。我想知道的是如何使用它们。

我真正想知道的是这些价值意味着什么是准确的,什么是好的价值,什么是坏的价值,什么是最大值和最小值等的上下文。

如果变量具有高MeanDecreaseAccuracy或MeanDecreaseGini这意味着它是重要的还是不重要的?还有关于原始分数的任何信息也可能是有用的。
我想知道一切有关这些数字是与它们的应用相关的。

使用单词“错误”,“求和”或“置换”的解释将不那么有帮助,因为更简单的解释不涉及任意讨论随机森林如何工作。

就像我想要有人向我解释如何使用收音机,我不希望解释涉及无线电如何将无线电波转换为声音。

最佳答案

An explanation that uses the words ‘error’, ‘summation’, or ‘permutated’
would be less helpful then a simpler explanation that didn’t involve any
discussion of how random forests works.

Like if I wanted someone to explain to me how to use a radio, I wouldn’t
expect the explanation to involve how a radio converts radio waves into sound.

你如何解释WKRP 100.5 FM中的数字是什么意思,而不考虑波频率的烦琐技术细节?坦率地说,随机森林的参数和相关的性能问题很难让你头脑,即使你理解一些技术术语。

这里是我的一些答案:

-mean raw importance score of variable x for class 0

-mean raw importance score of variable x for class 1

从随机森林web page简化,原始重要性分数测量特定预测变量在成功分类数据中比随机的有用多少。

-MeanDecreaseAccuracy

我认为这只是在R module,我相信它测量这个预测器在模型中多少包括减少分类误差。

-MeanDecreaseGini

Gini在用于描述社会的收入分布或基于树的分类中的“节点杂质”的度量时被定义为“不等式”。低Gini(即Gini中的更高的降级)意味着特定的预测变量在将数据划分成定义的类中起更大的作用。这是一个很难描述,而不谈论分类树中的数据基于预测变量的值在单个节点分裂的事实。我不是很清楚如何将这转化为更好的性能。

转载注明原文:R随机森林可变重要性 - 代码日志