hadoop – MapReduce或Spark?

我已经测试hadoop和mapreduce与cloudera,我发现它很酷,我以为我是最新和相关的BigData解决方案。但是前几天,我发现这个:
https://spark.incubator.apache.org/

“闪电快速集群计算系统”,能够在Hadoop集群的顶部工作,并且显然能够压缩mapreduce。我看到它在RAM中比mapreduce更有效。
我认为mapreduce仍然是相关的,当你必须做集群计算,以克服在单个机器上可能有的I / O问题。
但是,由于Spark可以执行mapreduce做的工作,并且可能在多个操作中更有效率,MapReduce不是结束吗?还是有更多MapReduce可以做的事情,或者MapReduce在某个上下文中比Spark更有效率?

MapReduce是批量导向的。因此,像Hive和Pig这样的MR实现之上的任何框架也是批量导向的。对于机器学习和交互式分析的迭代处理,Hadoop / MR不符合要求。 Here是来自Cloudera的一篇很好的文章,为什么Spark总结很好。

这不是MR的结局。在撰写本文时,Hadoop与Spark相比是非常成熟的,许多厂商都支持它。它会随着时间的推移而改变。 Cloudera已经开始将Spark引入CDH,随着时间的推移,越来越多的供应商将其纳入其Big Data分布并为其提供商业支持。我们将在可预见的未来看到MR和Spark并行。

还有Hadoop 2(又名YARN),MR和其他型号(包括Spark)可以在单个集群上运行。所以,Hadoop不会去任何地方。

http://stackoverflow.com/questions/22167684/mapreduce-or-spark

本站文章除注明转载外,均为本站原创或编译
转载请明显位置注明出处:hadoop – MapReduce或Spark?