Python MapReduce Hadoop Streaming Job需要多个输入文件?

我的群集文件A和文件B中有两个文件,包含以下数据 –

档案A.

#Format: 
#Food Item | Is_A_Fruit (BOOL)

Orange | Yes
Pineapple | Yes
Cucumber | No
Carrot | No
Mango | Yes

档案B.

#Format:
#Food Item | Vendor Name

Orange | Vendor A
Pineapple | Vendor B
Cucumber | Vendor B
Carrot | Vendor B
Mango | Vendor A

基本上我想找出来
每个供应商销售多少水果?

预期产量:

Vendor A | 2
Vendor B | 1

我需要使用hadoop流式传输python map reduce.

我已经阅读了如何进行基本单词计数,我从sys.stdin中读取并为reducer发出k,v对然后减少.

我该如何处理这个问题?

我主要关注的是如何读取多个文件,然后在Hadoop Streaming中进行比较.

我可以在普通的python中做到这一点(即没有MapReduce& Hadoop,它很简单.)但是对于我拥有的庞大的数据大小它是不可行的.

最佳答案
请查看this示例,因为它与您正在寻找的内容非常直接相关.

转载注明原文:Python MapReduce Hadoop Streaming Job需要多个输入文件? - 代码日志