python – 无法理解scikit随机森林的输出

假设我有这样的数据集:

5.9;0.645;0.12;2;0.075;32;44;0.99547;3.57;0.71;10.2;5
6;0.31;0.47;3.6;0.067;18;42;0.99549;3.39;0.66;11;6

其中前11列表示特征(酸度,氯化物等),最后一列表示项目的评级(例如5或6)

因此训练数据集:

target = [x[11] for x in dataset]
train = [x[0:11] for x in dataset]

rf = RandomForestClassifier(n_estimators=120, n_jobs=-1)
rf.fit(train, target)

predictions = rf.predict_proba(testdataset)
print predictions[0] 

打印出类似的东西

[ 0.          0.01666667  0.98333333  0.          0.          0.        ]

现在,为什么它不输出单个分类,例如5或6等级?

文档说“输入样本的预测类概率被计算为森林中树木的平均预测类概率”,我很难理解.

如果你使用

print rf.predict(testdataset[-1])
[ 6.  6.  6.  6.  6.  6.  6.  6.  6.  6.  6.]

它打印的内容更像你期望的 – 至少它看起来像收视率 – 但我仍然不明白为什么每个功能都有预测而不考虑所有功能的单一预测?

最佳答案
除了迭戈的回答:

RandomForestClassifier是一种分类器,用于预测离散数量的类的类分配,而无需在类标签之间进行排序.

如果要输出连续浮点额定值,则应尝试使用回归模型,例如RandomForestRegressor.

您可能必须将输出钳位到范围[0,6],因为没有保证模型不会输出预测,例如6.2.

编辑以回答第二点,预测方法需要一个样本列表.因此,您应该在案例中为其提供一个样本列表.尝试:

print rf.predict([testdataset[-1]])

或者:

print rf.predict(testdataset[-1:])

我想知道为什么你不会在这种情况下得到错误.

编辑:输出没有意义:数据集的形状是什么?

>>> print np.asarray(train).shape

>>> print np.asarray(target).shape

>>> print np.asarray(testdataset).shape

转载注明原文:python – 无法理解scikit随机森林的输出 - 代码日志