python – 将来自一个数据帧的值与来自另一个数据帧中的列的值进行比较,并从第三列获取数据

标题有点令人困惑,但我会尽力在这里解释我的问题.我有2个pandas数据帧,a和b:

>> print a

id | value
 1 | 250
 2 | 150
 3 | 350
 4 | 550
 5 | 450

>> print b

low | high | class
100 | 200  | 'A' 
200 | 300  | 'B' 
300 | 500  | 'A' 
500 | 600  | 'C' 

我想在表a中创建一个名为class的新列,该列包含符合表b的值的类.这是我想要的结果:

>> print a

id | value | class
 1 | 250   | 'B'
 2 | 150   | 'A'
 3 | 350   | 'A'
 4 | 550   | 'C'
 5 | 450   | 'A'

我编写了以下代码,它可以满足我的需求:

a['class'] = pd.Series()
for i in range(len(a)):
    val = a['value'][i]
    cl = (b['class'][ (b['low'] <= val) \
                      (b['high'] >= val) ].iat[0])
    a['class'].set_value(i,cl)

问题是,对于10个左右的表长度来说这很快,但是我试图用a和b的表大小为100,000.使用pandas中的某些函数/属性有更快的方法吗?

最佳答案
这是一个比使用Series.searchsorted更不优雅的解决方案,但它运行速度超快!

我从pandas DataFrames中提取数据并将它们转换为列表然后使用np.where来填充一个名为“aclass”的变量,其中条件得到满足(用于循环的强力).然后我将“aclass”写入原始数据框a.

评估时间为0.07489705秒,因此速度非常快,即使有200,000个数据点!

# create 200,000 fake a data points
avalue = 100+600*np.random.random(200000) # assuming you extracted this from a with avalue = np.array(a['value'])

blow = [100,200,300,500] # assuming you extracted this from b with list(b['low'])
bhigh = [200,300,500,600] # assuming you extracted this from b with list(b['high'])
bclass = ['A','B','A','C'] # assuming you extracted this from b with list(b['class'])

aclass = [[]]*len(avalue) # initialize aclass

start_time = time.time() # this is just for timing the execution
for i in range(len(blow)):
    for j in np.where((avalue>=blow[i]) & (avalue<=bhigh[i]))[0]:
        aclass[j]=bclass[i]

# add the class column to the original a DataFrame
a['class'] = aclass

print("--- %s seconds ---" % np.round(time.time() - start_time,decimals = 8))

转载注明原文:python – 将来自一个数据帧的值与来自另一个数据帧中的列的值进行比较,并从第三列获取数据 - 代码日志