apache-spark – 根据另一个指定黑名单标准的DataFrame过滤Spark DataFrame

我有一个largeDataFrame(多列和十亿行)和一个smallDataFrame(单列和10,000行).

每当largeDataFrame中的some_identifier列与smallDataFrame中的某个行匹配时,我都想过滤largeDataFrame中的所有行.

这是一个例子:

largeDataFrame

some_idenfitier,first_name
111,bob
123,phil
222,mary
456,sue

smallDataFrame

some_identifier
123
456

desiredOutput

111,bob
222,mary

这是我丑陋的解决方案.

val smallDataFrame2 = smallDataFrame.withColumn("is_bad", lit("bad_row"))
val desiredOutput = largeDataFrame.join(broadcast(smallDataFrame2), Seq("some_identifier"), "left").filter($"is_bad".isNull).drop("is_bad")

有更清洁的解决方案吗?

最佳答案
在这种情况下,您需要使用left_anti连接.

左反连接与左半连接相反.

它根据给定的密钥从左表中的右表中过滤掉数据:

largeDataFrame
   .join(smallDataFrame, Seq("some_identifier"),"left_anti")
   .show
// +---------------+----------+
// |some_identifier|first_name|
// +---------------+----------+
// |            222|      mary|
// |            111|       bob|
// +---------------+----------+

转载注明原文:apache-spark – 根据另一个指定黑名单标准的DataFrame过滤Spark DataFrame - 代码日志