邻近矩阵 – 随机森林,R

我在R中使用randomForest包,它允许计算邻近矩阵(P).在包的描述中,它将参数描述为:“如果在调用randomForest时,如果proximity = TRUE,则输入中的邻近度量矩阵(基于数据点对在同一终端节点中的频率).”

我获得随机森林的邻近矩阵如下:

P <- randomForest(x, y, ntree = 1000, proximity=TRUE)$proximity

当我研究P矩阵时,我看到像P(i,j)= 0.971014493这样的值,其中i和j是我的训练数据集(x)中的两个数据实例.这样的值没有意义,因为当它乘以1000(森林中的树数)时,得到的数字不是整数,因此是“频率”.有人可以帮我理解,为什么我会在邻近矩阵中得到这样的实数?

最佳答案
因为与默认预测一样,默认接近度仅使用树,其中既没有观察结果包含在用于构建该树的样本中(它们是“袋外”).

对于每对案例,这种情况发生的次数会略有不同,当然也不会像1000那样很好.

您会注意到,接近后列出的下一个参数称为oob.prox,指示是仅使用袋对(默认值)还是使用每棵树.

转载注明原文:邻近矩阵 – 随机森林,R - 代码日志