Spark1.0.0 开发环境高速搭建

Spark1.0.0 开发环境高速搭建

大家好,又见面了,我是全栈君。

      在本系列博客中。为了解析一些概念、解析一些架构、代码測试。搭建了一个实验平台。例如以下图所看到的:
Spark1.0.0 开发环境高速搭建

 

      本实验平台是在一台物理机上搭建的。物理机的配置是16G内存,4核8线程CPU。

平台的环境配置例如以下:

 机器名  配置  角色  软件安装
 hadoop1  2G内存。双核  hadoop:NN/DN Spark:Master/worker  /app/hadoop/hadoop220

/app/hadoop/spark100
/app/scala2104
/usr/java/jdk1.7.0_21
 hadoop2  2G内存。双核  hadoop:DN Spark:worker  /app/hadoop/hadoop220

/app/hadoop/spark100
/app/scala2104
/usr/java/jdk1.7.0_21
 hadoop3  2G内存。双核  hadoop:DN Spark:worker  /app/hadoop/hadoop220

/app/hadoop/spark100
/app/scala2104
/usr/java/jdk1.7.0_21
 wyy  16G内存,四核  client  /app/hadoop/hadoop220
以上hadoop和spark安装文件夹的用户属性都是hadoop(组别为hadoop)。其它的安装文件夹的用户属性是root:root。

      实验平台搭建顺序
1:虚拟集群的搭建
A:hadoop2.2.0集群搭建
或者參看视频
http://pan.baidu.com/s/1qWqFY4c 提取password:xv4i
B:Spark1.0.0 Standalone集群搭建

2:开发端的搭建
      client採用的Ubuntu操作系统。而Spark虚拟集群採用的是CentOS。默认的java安装文件夹两个操作系统是不一样的,所以在Ubuntu下安装java的时候特意将java的安装路径改成和CentOS一样。不然的话,每次scp了虚拟集群的配置文件之后,要改动hadoop-env.sh中的java配置。
      clienthadoop2.2.0和Spark1.0.0是直接从虚拟集群中scp出来的。放置在同样的文件夹下,拥有同样的用户属性。
      开发用的IDE採用IntelliJ IDEA。项目的搭建參见博客
使用IntelliJ IDEA开发Spark1.0.0应用程序

      应用程序的部署和调试參见博客
应用程序部署工具spark-submit

3:实验数据来源
      实验用的数据来源于搜狗实验室下载地址为:
http://download.labs.sogou.com/resources.html?v=1
  • 互联网语料库(SogouT)
  • 网页搜索结果评价(SogouE)
  • 链接关系库(SogouT-Link)
  • SogouRank库(SogouT-Rank)
  • 用户查询日志(SogouQ)
  • 互联网词库(SogouW)

4:伪分布式实验平台搭建
      上面的实验平台是将hadoop集群、Spark集群和开发环境分离,更接近生产系统;但非常多朋友的物理机配置可能偏低,那样的话能够採用伪分布式部署。但伪分布式会有一些缺陷:
  • spark的数据本地性不易測试
  • 对于并行性不易理解
  • job调度不易理解
      至于伪分布式的部署非常easy,步骤和虚拟集群搭建差点儿相同,仅仅要改动两个地方:
  • ssh无password登陆仅仅须要ssh一下本机
  • hadoop和spark的配置文件salves改动成本机机器名

5:调试工具
  • 日志配置(尚未撰写博客。近期写完补上链接)
  • history server配置
  • job server配置(尚未撰写博客。近期写完补上链接)



版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 举报,一经查实,本站将立刻删除。

发布者:全栈程序员-用户IM,转载请注明出处:https://javaforall.cn/115373.html原文链接:https://javaforall.cn

【正版授权,激活自己账号】: Jetbrains全家桶Ide使用,1年售后保障,每天仅需1毛

【官方授权 正版激活】: 官方授权 正版激活 支持Jetbrains家族下所有IDE 使用个人JB账号...

(0)
blank

相关推荐

  • jasypt 原理_litmp试剂

    jasypt 原理_litmp试剂文章目录一、jasypt的启动类加载二、jasypt中Encryptor、Detector和Resolver加载三、jasypt中EnableEncryptablePropertiesBeanFactoryPostProcesso四、proxy代理方式增强propertySources五、wrapper包装类方式增强propertySources六、resolver中属性值解密作者:史佳健推荐理由:文章详尽并有对应分析说明一、jasypt的启动类加载引入了jasypt-spring-boot-st

  • 关闭ESLint检查

    关闭ESLint检查打开settings中搜索EsLint选择disable进行关闭即可

  • win10图标变白纸_同是Office365,为什么你的软件图标还是旧版的?

    win10图标变白纸_同是Office365,为什么你的软件图标还是旧版的?为什么你的office365套件最新版的图标还是旧版?是新版图标还没向正式版用户推送吗?我的office365的账号有问题吗?难道是我打开的方式不对吗?旧版图标新版图标打开产品信息一看你的版本信息是这样的:版本号1808、半年频道怎么点更新都是显示已经到了最新的版本对吧?再看看新版图标的office365的产品信息是这样的:版本1904、每月频道这就定位到问题了,同是office365专业增强订阅…

    2022年10月19日
  • jdbc 中 excute executeUpdate的用法作用

    jdbc 中 excute executeUpdate的用法作用Statement接口提供了三种执行SQL语句的方法:executeQuery、executeUpdate和execute。使用哪一个方法由SQL语句所产生的内容决定。 方法e

  • python生成13位时间戳_python精确到毫秒时间戳

    python生成13位时间戳_python精确到毫秒时间戳Unix时间戳根据精度的不同,有10位(秒级),13位(毫秒级),16位(微妙级)和19位(纳秒级)。平时我们在linux命令行下,使用date+%s返回的是一个10位的unix时间,而在常用的http的响应头里,我们经常会发现有13位的unix时间戳。在python下可以比较容易的获取10和13位的时间戳并转换成常见的时间格式。一、10时间戳的使用和转换>>>…

  • java安装下载步骤_java下载安装教程

    java安装下载步骤_java下载安装教程java下载安装教程首先,我们可能需要查看一下电脑的配置信息,单击开始按钮选择系统,一般我们只需要关注是多少位的系统,还有是windows或Linux即可,如图:推荐教程:《java学习》在网络畅通的情况下,在任意浏览器都可以查找java的下载链接,我这边的链接是http://www.oracle.com/technetwork/java/javase/downloads/index.html,输…

发表回复

您的电子邮箱地址不会被公开。

关注全栈程序员社区公众号