机器学习 – 执行随机森林时的最小观察次数

是否可以将RandomForests应用于非常小的数据集?
我有一个包含许多变量的数据集,但每个变量只有25个.随机森林产生合理的结果,低OOB误差(10-25%).
关于使用的最小观测数量是否有任何经验法则?
事实上,其中一个响应变量是不平衡的,如果我要对它进行二次采样,我最终会得到更少的观察结果.
提前致谢
最佳答案
绝对RF可以用在这些类型的数据集上(即p> n).事实上,他们在像基因组学这样的领域中使用RF,其中字段数> = 20000并且只有非常少的行 – 比如10-12.整个问题是弄清楚哪个20k变量构成一个简约标记(即特征选择是整个问题).

我没有任何关于最小尺寸的ROT,除非你的模型在保留的样本上不能很好地工作(或者Hold-One-Back交叉验证可能在你的情况下很好),那么你应该尝试其他的东西.

希望这可以帮助

转载注明原文:机器学习 – 执行随机森林时的最小观察次数 - 代码日志