大家好,又见面了,我是全栈君。
平台的环境配置例如以下:
机器名 | 配置 | 角色 | 软件安装 |
hadoop1 | 2G内存。双核 | hadoop:NN/DN Spark:Master/worker | /app/hadoop/hadoop220
/app/hadoop/spark100
/app/scala2104
/usr/java/jdk1.7.0_21
|
hadoop2 | 2G内存。双核 | hadoop:DN Spark:worker | /app/hadoop/hadoop220
/app/hadoop/spark100
/app/scala2104
/usr/java/jdk1.7.0_21
|
hadoop3 | 2G内存。双核 | hadoop:DN Spark:worker | /app/hadoop/hadoop220
/app/hadoop/spark100
/app/scala2104
/usr/java/jdk1.7.0_21
|
wyy | 16G内存,四核 | client | /app/hadoop/hadoop220 |
hadoop2.2.0測试环境搭建
http://pan.baidu.com/s/1qWqFY4c 提取password:xv4i
使用IntelliJ IDEA开发Spark1.0.0应用程序。
应用程序部署工具spark-submit 。
http://download.labs.sogou.com/resources.html?v=1
- 互联网语料库(SogouT)
- 网页搜索结果评价(SogouE)
- 链接关系库(SogouT-Link)
- SogouRank库(SogouT-Rank)
- 用户查询日志(SogouQ)
- 互联网词库(SogouW)
- spark的数据本地性不易測试
- 对于并行性不易理解
- job调度不易理解
- ssh无password登陆仅仅须要ssh一下本机
- hadoop和spark的配置文件salves改动成本机机器名
- 日志配置(尚未撰写博客。近期写完补上链接)
- history server配置
- job server配置(尚未撰写博客。近期写完补上链接)
发布者:全栈程序员-用户IM,转载请注明出处:https://javaforall.cn/115373.html原文链接:https://javaforall.cn
【正版授权,激活自己账号】: Jetbrains全家桶Ide使用,1年售后保障,每天仅需1毛
【官方授权 正版激活】: 官方授权 正版激活 支持Jetbrains家族下所有IDE 使用个人JB账号...