大家好,又见面了,我是你们的朋友全栈君。
在集群中跑应用,而不是在shell中
感受写spark应用的过程
整个过程为:
1、案例分析:要用哪些spark的RDD的API
2、编程实现: 用到scala
3、提交到集群执行:如何提交到集群,文件是否先传到HDFS上
4、监控执行结果: 通过web可以看到
介绍了四个案例:
比如 统计1千万个人的平均身高,如果用其他语言,估计要好几小时,因为磁盘读写,要反复计算
用了spark之后,分布式了,而且还大量使用了内存的资源
学到了一个完整的分布式系统的程序是怎么在集群上跑的
还有对Spark job 的执行流程简介
参考链接:
https://www.ibm.com/developerworks/cn/opensource/os-cn-spark-practice1/
有四个使用spark的具体实例
我现在的问题:如何放到集群上跑?本地是没问题的
发布者:全栈程序员-用户IM,转载请注明出处:https://javaforall.cn/133772.html原文链接:https://javaforall.cn
【正版授权,激活自己账号】: Jetbrains全家桶Ide使用,1年售后保障,每天仅需1毛
【官方授权 正版激活】: 官方授权 正版激活 支持Jetbrains家族下所有IDE 使用个人JB账号...