SparkR vs sparklyr

有人有关于SparkR vs sparklyr的优点/缺点的概述? Google不会产生令人满意的结果,两者看起来都相似。尝试两者,SparkR看起来更麻烦,而sparklyr是非常简单的(安装,但也使用,特别是与dplyr输入)。 Sparklyr只能用于并行运行dplyr函数,还可以用于“正常”R代码?

最好

SparkR的最大优点是可以运行在Spark上用R编写的任意用户定义函数:

https://spark.apache.org/docs/2.0.1/sparkr.html#applying-user-defined-function

由于sparklyr将R转换为SQL,您只能在mutate语句中使用非常小的一组函数:

http://spark.rstudio.com/dplyr.html#sql_translation

这种缺陷在扩展(http://spark.rstudio.com/extensions.html#wrapper_functions)有些缓解。

除此之外,sparklyr是赢家(在我看来)。除了使用熟悉的dplyr功能的明显优势之外,sparklyr还提供了更为全面的MLlib(http://spark.rstudio.com/mllib.html)API和上述扩展。

http://stackoverflow.com/questions/39494484/sparkr-vs-sparklyr

本站文章除注明转载外,均为本站原创或编译
转载请明显位置注明出处:SparkR vs sparklyr