python – 在pandas数据帧中的apply函数中使用三元运算符,而不对列进行分组

如何在pandas dataframe的apply函数中的lambda函数中使用三元运算符?

首先,这段代码来自R / plyr,这正是我想得到的:

ddply(mtcars, .(cyl), summarise, sum(ifelse(carb==4,1,0))/sum(ifelse(carb %in% c(4,1),1,0)))

在上面的函数中,我可以使用ifelse函数,即R的三元运算符来计算结果数据帧.

但是,当我想在Python / pandas中使用以下代码执行相同操作时

mtcars.groupby(["cyl"]).apply(lambda x: sum(1 if x["carb"] == 4 else 0) / sum(1 if x["carb"] in (4, 1) else 0))

,发生以下错误:

ValueError: The truth value of an array with more than one element is ambiguous. Use a.any() or a.all()

那么我如何计算和获得与R / plyr相同的数据帧?

对于您的信息,如果我使用三元运算符而不对列进行分组,例如

mtcars.apply(lambda x: sum(1 if x["carb"] == 4 else 0) / sum(1 if x["carb"] in (4, 1) else 0), axis=1)

,我可以出于某些原因得到结果数据帧(但这不是我想要做的).

谢谢.

[更新]

对不起,原始示例在使用三元运算符时不是很好,因为它使用1和0,可以用作二进制.所以更新的R / plyr代码如下:

ddply(mtcars, .(cyl), summarise, sum(ifelse(carb==4,6,3))/sum(ifelse(carb %in% c(4,1),8,4)))

在这种情况下使用三元运算符是否可行?

最佳答案
我认为您的代码可以转换为:

mtcars.groupby(["cyl"])['carb'].apply(lambda x: sum((x == 4).astype(float)) / sum(x.isin((4, 1))))

玩具示例:

>>> mtcars = pd.DataFrame({'cyl':[8,8,6,6,6,4], 'carb':[4,3,1,5,4,1]})
>>> mtcars
   carb  cyl
0     4    8
1     3    8
2     1    6
3     5    6
4     4    6
5     1    4
>>> mtcars.groupby(["cyl"])['carb'].apply(lambda x: sum((x == 4).astype(float)) / sum(x.isin((4, 1))))
cyl
4      0.0
6      0.5
8      1.0
dtype: float64

更新

在更复杂的情况下,您可以使用numpy.where()功能:

>>> import numpy as np
>>> mtcars.groupby(["cyl"])['carb'].apply(lambda x: sum(np.where(x == 4,6,3).astype(float)) / sum(np.where(x.isin((4,1)),8,4)))
cyl
4      0.375
6      0.600
8      0.750
dtype: float64

转载注明原文:python – 在pandas数据帧中的apply函数中使用三元运算符,而不对列进行分组 - 代码日志