从ZERO开始系列:大数据软件之1.Hadoop的安装与wordcount运行

从ZERO开始系列:大数据软件之1.Hadoop的安装与wordcount运行

在说攻略之前,个人建议,先把攻略整体看一下,再进行修改操作,因为每台电脑的条件不一样,很多设置需要根据自身情况进行设置,减少返工。
本文涉及到知识点
①Centos安装
②用WINSCP将window文件传输到虚拟机中
③修改静态IP导致无法上网
④配置jdk不成功,显示openjdk版本
⑤配置hadoop伪分布
⑥伪分布下wordcount实现
一.准备工作:
JDK安装包:链接:https://pan.baidu.com/s/19MqD4Td4Hn0zp0sc1ms5iA
提取码:dlv8
Hadoop安装包:链接:https://pan.baidu.com/s/15v5R9CRZMFDl4TmRT9RHMQ
提取码:l5ey
WINSCP安装包:链接:https://pan.baidu.com/s/19y1XfUS6p5IR4FBTrdhGyQ
提取码:2ycl
CentOS安装包:链接:https://pan.baidu.com/s/1W0ykzeTFlLz_uaJSikTEiQ
提取码:ev5o
二.自行安装VMware
直接按装就行,选好安装地点,没什么问题。
三.CentOS系统安装
1.点击安装虚拟机
在这里插入图片描述
2.选择自定义安装,最好别选典型,有些设置不好调整
在这里插入图片描述
3.下一步——稍后安装操作系统——下一步——下一步——选好安装位置

![在这在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

4.选择处理器数量,一般稍大一点,2*2——下一步
在这里插入图片描述
5.选择内存,最少1G——下一步
在这里插入图片描述
6.默认:下一步
在这里插入图片描述
在这里插入图片描述

7.选择磁盘:40G
在这里插入图片描述
8.默认下一步:
在这里插入图片描述
9.编辑虚拟机设置
在这里插入图片描述
10.CD/DVD——使用ISO映像文件(就是Centos安装包)——确定——回到上个界面,开启虚拟机安装
在这里插入图片描述
11.开始安装——选择Install CentOS 7——选择语言
在这里插入图片描述
在这里插入图片描述
12.选择软件安装(目的:选择桌面),选择GNOME(对新人友好一些)
在这里插入图片描述
在这里插入图片描述
13.点击安装位置,默认就行,完成——开始安装
在这里插入图片描述
14.设置root和用户——完成,等待安装完成就可以
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
15.重启—出现协议:1—回车—2—回车—c—回车,顺利进入系统
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
四.
F1.在开始之前先讲一些基本的命令行指令,以后就用汉字替代了
(1)进入root权限:su——输入密码,基本所有命令都在root权限下,否则有可能保存不上
在这里插入图片描述
(2)进入跟目录:cd ~
在这里插入图片描述
(3)显示当前路径:pwd
在这里插入图片描述
(4)返回上一级菜单:cd…
在这里插入图片描述
(5)保存文件,在编辑模式下,ESC退出编辑模式:qw

1.测试网络连通性,用浏览器也行,pingbaidu也行
在这里插入图片描述
如果网络无法连通,参考https://baijiahao.baidu.com/s?id=1597809303775176940&wfr=spider&for=pc
2.建立文件夹:
目的:储存安装包和软件
因为后期很多地方需要填写软件和安装包的位置,建议放在桌面或者方便的地方,少写点字
文章中选择放在桌面
[root@localhost 桌面]# mkdir software
[root@localhost 桌面]# mkdir app

在桌面上能看到这两个文件夹
在这里插入图片描述
3.利用winSCP将JDK和Hadoop安装包传到虚拟机中
winSCP功能主要是在Linux和window实现文件互相传输
(1)在终端输入ifconfig,查看网络网卡名称和ip地址,
网卡名称为eno16777736,不唯一,可能是其他的
ip为192.168.184.129
在这里插入图片描述
(2)在window系统上打开winscp
主机名为IP,用户名称为root,密码为自己开始设置的,之后登陆
找到你传输位置,点击上传
备注:因为你的文件夹是用root创建的,所以登陆winscp的时候要用root账户
要是使用其他账户(文章中的hadoopa)用会导致传输报错:权限不够
在这里插入图片描述
(3)左侧为windows的文件管理系统,右侧为CentOS文件系统
可以找到文件夹直接拖拽
或者在CentOS中用命令行传输(不愿写代码,不演示了)
事例:scp D:\new\jdk-8u231-linux-x64.tar.gz 用户名@服务器IP:~/software/
将安装包放在software中
在这里插入图片描述
在这里插入图片描述

四.修改hostname,ip地址以及hosts
目的: 为了后续节点识别
①修改计算机名称
vi /etc/sysconfig/network
在文档中填入
NETWORKING=yes
HOSTNAME=Master.Hadoop
保存
在这里插入图片描述
②修改hostname
查看当前hostname
[root@localhost 桌面]# hostname
修改为Master.Hadoop
[root@localhost 桌面]# hostnamectl set-hostname Master.Hadoop
在这里插入图片描述
③修改固定IP
查看网卡信息
[root@master 桌面]# ifconfig
网卡为:eno16777736,因为没开网,所以不显示IP,开网络之后,会显示IP
在这里插入图片描述
在这里插入图片描述
修改:
[root@master 桌面]# vi /etc/sysconfig/network-scripts/ifcfg-eno16777736
BOOTPROTO=dhcp改为BOOTPROTO=static
修改改为ONBOOT=yes
(为什么这么设置,在下面有说明,当然随便也可以,但是会导致设置固定IP无法联网)
增加IPADDR=192.168.88.184
增加GATEWAY=192.168.88.2
增加NETMASK=255.255.255.0
增加DNS1=192.168.88.2
重启网络
service network restart
检查修改的静态IP
ifconfig
在这里插入图片描述
④修改hosts文件
[root@master 桌面]# vi /etc/hosts
最后加上修改后的IP及主机名
192.168.88.184 Master.Hadoop
在这里插入图片描述
⑤重启计算机:reboot
备注:
1.修改静态IP无法修改或者修改完不执行
建议修改的地方用复制,别手打,虽然手打没错,但是就是不执行
2.静态IP无法上网
如果随意修改静态IP,会导致无法联网。操作如下
①vmware编辑—虚拟网络编辑器,点击VMnet8,点掉使用本地DHCP
在这里插入图片描述
②在这个页面点击NAT设置,查看网管IP,本机为:192.168.88.2,记住他
在这里插入图片描述
③编辑虚拟机配置—网络适配器—自定义,选择VMnet8,确定
在这里插入图片描述
④在系统内内修改网卡eno16777736的时候
增加IPADDR=192.168.88.184:前三位192.168.88与第二步那个一样,最后一组随意不超255就行。
增加GATEWAY=192.168.88.2:与第二步那个一样
增加NETMASK=255.255.255.0:与第二步子网掩码那个一样
增加DNS1=192.168.88.2:理论上GATEWAY相同

五.JDK的配置
1.解压到指定文件夹
将安装包解压到,注意要进去安装包所在的目录才能解压
[root@master software]# tar -zvxf jdk-8u181-linux-x64.tar.gz
在这里插入图片描述
2.修改JDK配置
[root@master software]# vim /etc/profile
在这里插入图片描述
在这里插入图片描述

更新系统路径配置
[root@master software]# source /etc/profile
检测JDK版本
[root@master software]# java -version
出现openJDK说明配置没有成功,因为没有删除系统自带的JDK
从ZERO开始系列:大数据软件之1.Hadoop的安装与wordcount运行
查看现有java
[root@master software]# rpm -qa|grep java
在这里插入图片描述
在这里插入图片描将java开头的全部删除
[root@master software]# rpm -e –nodeps java-1.7.0-openjdk-1.7.0.91-2.6.2.3.el7.x86_64
[root@master software]# rpm -e –nodeps java-1.8.0-openjdk-headless-1.8.0.65-3.b17.el7.x86_64
[root@master software]# rpm -e –nodeps java-1.7.0-openjdk-headless-1.7.0.91-2.6.2.3.el7.x86_64
[root@master software]# rpm -e –nodeps java-1.8.0-openjdk-1.8.0.65-3.b17.el7.x86_64
在这里插入图片描述
更新系统路径配置
[root@master software]# source /etc/profile
检测JDK版本
[root@master software]# java -version
成功!!!
在这里插入图片描述

六.Hadoop的配置
1.解压到当下文件夹
[root@master software]# tar -zvxf hadoop-2.7.3.tar.gz
2.修改Hadoop配置
①进入根目录[root@master software]# cd ~
配置环境变量
[root@master ~]# vi .bash_profile
在这里插入图片描述
填入:注意文件夹地址
PATH= P A T H : PATH: PATH:HOME/.local/bin: H O M E / b i n e x p o r t J A V A H O M E = / h o m e / h a d o o p / 桌 面 / s o f t w a r e / j d k 1.8. 0 1 81 e x p o r t P A T H = HOME/bin export JAVA_HOME=/home/hadoop/桌面/software/jdk1.8.0_181 export PATH= HOME/binexportJAVAHOME=/home/hadoop//software/jdk1.8.0181exportPATH=PATH: J A V A H O M E / b i n e x p o r t H A D O O P H O M E = / h o m e / h a d o o p / 桌 面 / s o f t w a r e / h a d o o p − 2.7.3 e x p o r t P A T H = JAVA_HOME/bin export HADOOP_HOME=/home/hadoop/桌面/software/hadoop-2.7.3 export PATH= JAVAHOME/binexportHADOOPHOME=/home/hadoop//software/hadoop2.7.3exportPATH=HADOOP_HOME/bin:$PATH
在这里插入图片描述
保存
更新一下
[root@master ~]# source .bash_profile
测试
[root@master ~]# echo $JAVA_HOME
[root@master ~]# echo $HADOOP_HOME
在这里插入图片描述

②进入hadoop-2.7.3目录(你的hadoop文件夹)进行配置修改
在hadoop-2.7.3目录进入etc/hadoop,然后
[root@master hadoop]# vi core-site.xml
在这里插入图片描述
填写
fs.defaultFS
hdfs://Master.Hadoop:8020

在这里插入图片描述
保存

③进入[root@master hadoop]# vi hdfs-site.xml
在这里插入图片描述
填写:
dfs.replication
1

<property>
    <name>hadoop.tmp.dir</name>
    <value>/home/hadoop/桌面/tmp</value>
</property>

在这里插入图片描述

保存
④在桌面上建立tmp文件夹
在当下文件夹下进slaves,
在这里插入图片描述
修改为Mater.Hadoop
[root@master hadoop]# vi slaves
在这里插入图片描述
在这里插入图片描述
⑤在目录下etc/hadoop文件夹下
[root@master hadoop]# vi hadoop-env.sh
填写export JAVA_HOME=/home/hadoop/桌面/software/jdk1.8.0_181
在这里插入图片描述
保存

配置到这里就结束了

3.测试
①格式化:在hadoop-2.7.3文件夹下
[root@master hadoop-2.7.3]# bin/hadoop namenode -format
在这里插入图片描述
②开启Hadoop
[root@master sbin]# ./start-dfs.sh
在这里插入图片描述

okok大功告成

其实也可以进行网页查看,但是需要关闭防火墙
http://服务器IP:50070
文章中的网址:http://192.168.88.184:5070
在这里插入图片描述
在启动Hadoop集群后
可以输入[root@master hadoop-2.7.3]# sbin/start-yarn.sh
用浏览器打开:http://服务器IP:8088/cluster
在这里插入图片描述
七.其他配置修改
1.免密登陆
在根目录下输入[root@master ~]# ssh-keygen -t rsa
然后一直回车
[root@master ~]# cd .ssh
[root@master .ssh]# cat id_rsa.pub >> authorized_keys
[root@master .ssh]# chmod 600 authorized_keys
然后测试一下
[root@master ~]# ssh master.hadoop
全部结果见图
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

2.关闭防火墙
跟目录下关闭防火墙
[root@master ~]# systemctl disable firewalld
在这里插入图片描述

八.关于wordcount实现
1.在桌面创建一个文件夹,为了存储文件
[root@master 桌面]# mkdir textfile
2.进入textfile目录,创建两个txt文件,并在文件中写入内容
[root@master textfile]# echo “hello hadoop-java” > file1.txt
[root@master textfile]# echo “hello hadoop-wp” > file2.txt
在这里插入图片描述
3.在HDFS上创建输入文件夹目录input
备注:HDFS是hadoop核心架构,是一个文件管理系统
[root@master hadoop-2.7.3]# bin/hadoop fs -mkdir /input
4.将刚才在本地写的文档传进HDFS的input中,并查看一下
[root@master hadoop-2.7.3]# bin/hadoop fs -put /home/hadoop/桌面/textfile/file*.txt /input
在这里插入图片描述
5.开启HADOOP,并用自带的wordcount进行对文件字符进行检测
[root@master hadoop-2.7.3]# sbin/start-dfs.sh
找到自带的wordcount程序
/home/hadoop/桌面/software/hadoop-2.7.3/share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.3.jar
在这里插入图片描述
运行程序:
[root@master hadoop-2.7.3]# bin/hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.3.jar wordcount /input/ /output/wordcount1
查看结果:
[root@master hadoop-2.7.3]# bin/hdfs dfs -cat /output/wordcount1/*

在这里插入图片描述

功成身退!!!

备注:
其实对于伪分布来说,前面很多点都可以不用做,例如配置网络,改主机名什么的
文章中提到流程是按照集群分布走的,但是配置是按照伪分布配置的

参考文献:
hadoop-2.6.0伪分布运行WordCount
https://blog.csdn.net/baolibin528/article/details/43021465Hadoop搭建伪分布式环境(linux环境)
Hadoop集群大数据平台搭建
https://www.cnblogs.com/jichui/p/7137804.htmlCentOS7 修改hostname,ip地址以及hosts(永久生效)
https://blog.csdn.net/ntuxiaolei/article/details/81130866解决centos 7下配置了静态IP却无法上网的问题
https://www.cnblogs.com/justuntil/p/7879748.html

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 举报,一经查实,本站将立刻删除。

发布者:全栈程序员-用户IM,转载请注明出处:https://javaforall.cn/114579.html原文链接:https://javaforall.cn

【正版授权,激活自己账号】: Jetbrains全家桶Ide使用,1年售后保障,每天仅需1毛

【官方授权 正版激活】: 官方授权 正版激活 支持Jetbrains家族下所有IDE 使用个人JB账号...

(0)
blank

相关推荐

发表回复

您的电子邮箱地址不会被公开。

关注全栈程序员社区公众号