从ZERO开始系列：大数据软件之1.Hadoop的安装与wordcount运行

在说攻略之前，个人建议，先把攻略整体看一下，再进行修改操作，因为每台电脑的条件不一样，很多设置需要根据自身情况进行设置，减少返工。
本文涉及到知识点
①Centos安装
②用WINSCP将window文件传输到虚拟机中
③修改静态IP导致无法上网
④配置jdk不成功，显示openjdk版本
⑤配置hadoop伪分布
⑥伪分布下wordcount实现
一.准备工作：
JDK安装包：链接：https://pan.baidu.com/s/19MqD4Td4Hn0zp0sc1ms5iA
提取码：dlv8
Hadoop安装包：链接：https://pan.baidu.com/s/15v5R9CRZMFDl4TmRT9RHMQ
提取码：l5ey
WINSCP安装包：链接：https://pan.baidu.com/s/19y1XfUS6p5IR4FBTrdhGyQ
提取码：2ycl
CentOS安装包：链接：https://pan.baidu.com/s/1W0ykzeTFlLz_uaJSikTEiQ
提取码：ev5o
二.自行安装VMware
直接按装就行，选好安装地点，没什么问题。
三.CentOS系统安装
1.点击安装虚拟机

2.选择自定义安装，最好别选典型，有些设置不好调整
在这里插入图片描述
3.下一步——稍后安装操作系统——下一步——下一步——选好安装位置

![在这

在这里插入图片描述

4.选择处理器数量，一般稍大一点，2*2——下一步

5.选择内存，最少1G——下一步

6.默认：下一步

在这里插入图片描述

7.选择磁盘：40G

8.默认下一步：

9.编辑虚拟机设置

10.CD/DVD——使用ISO映像文件（就是Centos安装包）——确定——回到上个界面，开启虚拟机安装

11.开始安装——选择Install CentOS 7——选择语言

12.选择软件安装（目的：选择桌面），选择GNOME（对新人友好一些）

13.点击安装位置，默认就行，完成——开始安装

14.设置root和用户——完成，等待安装完成就可以

15.重启—出现协议：1—回车—2—回车—c—回车，顺利进入系统

四.
F1.在开始之前先讲一些基本的命令行指令，以后就用汉字替代了
（1）进入root权限：su——输入密码，基本所有命令都在root权限下，否则有可能保存不上

（2）进入跟目录：cd ~

（3）显示当前路径：pwd

（4）返回上一级菜单：cd…
在这里插入图片描述
（5）保存文件，在编辑模式下，ESC退出编辑模式：qw

1.测试网络连通性，用浏览器也行，pingbaidu也行
在这里插入图片描述
如果网络无法连通，参考https://baijiahao.baidu.com/s?id=1597809303775176940&wfr=spider&for=pc
2.建立文件夹:
目的：储存安装包和软件
因为后期很多地方需要填写软件和安装包的位置，建议放在桌面或者方便的地方，少写点字
文章中选择放在桌面
[root@localhost 桌面]# mkdir software
[root@localhost 桌面]# mkdir app

在桌面上能看到这两个文件夹
在这里插入图片描述
3.利用winSCP将JDK和Hadoop安装包传到虚拟机中
winSCP功能主要是在Linux和window实现文件互相传输
（1）在终端输入ifconfig，查看网络网卡名称和ip地址，
网卡名称为eno16777736，不唯一，可能是其他的
ip为192.168.184.129
在这里插入图片描述
（2）在window系统上打开winscp
主机名为IP，用户名称为root，密码为自己开始设置的，之后登陆
找到你传输位置，点击上传
备注：因为你的文件夹是用root创建的，所以登陆winscp的时候要用root账户
要是使用其他账户（文章中的hadoopa）用会导致传输报错：权限不够
在这里插入图片描述
（3）左侧为windows的文件管理系统，右侧为CentOS文件系统
可以找到文件夹直接拖拽
或者在CentOS中用命令行传输（不愿写代码，不演示了）
事例:scp D:\new\jdk-8u231-linux-x64.tar.gz 用户名@服务器IP:~/software/
将安装包放在software中

在这里插入图片描述

四.修改hostname，ip地址以及hosts
目的：为了后续节点识别
①修改计算机名称
vi /etc/sysconfig/network
在文档中填入
NETWORKING=yes
HOSTNAME=Master.Hadoop
保存

②修改hostname
查看当前hostname
[root@localhost 桌面]# hostname
修改为Master.Hadoop
[root@localhost 桌面]# hostnamectl set-hostname Master.Hadoop

③修改固定IP
查看网卡信息
[root@master 桌面]# ifconfig
网卡为：eno16777736，因为没开网，所以不显示IP，开网络之后，会显示IP

在这里插入图片描述
修改：
[root@master 桌面]# vi /etc/sysconfig/network-scripts/ifcfg-eno16777736
BOOTPROTO=dhcp改为BOOTPROTO=static
修改改为ONBOOT=yes
（为什么这么设置，在下面有说明，当然随便也可以，但是会导致设置固定IP无法联网）
增加IPADDR=192.168.88.184
增加GATEWAY=192.168.88.2
增加NETMASK=255.255.255.0
增加DNS1=192.168.88.2
重启网络
service network restart
检查修改的静态IP
ifconfig

④修改hosts文件
[root@master 桌面]# vi /etc/hosts
最后加上修改后的IP及主机名
192.168.88.184 Master.Hadoop
在这里插入图片描述
⑤重启计算机：reboot
备注：
1.修改静态IP无法修改或者修改完不执行
建议修改的地方用复制，别手打，虽然手打没错，但是就是不执行
2.静态IP无法上网
如果随意修改静态IP，会导致无法联网。操作如下
①vmware编辑—虚拟网络编辑器，点击VMnet8，点掉使用本地DHCP

②在这个页面点击NAT设置,查看网管IP，本机为：192.168.88.2，记住他

③编辑虚拟机配置—网络适配器—自定义，选择VMnet8，确定
在这里插入图片描述
④在系统内内修改网卡eno16777736的时候
增加IPADDR=192.168.88.184：前三位192.168.88与第二步那个一样，最后一组随意不超255就行。
增加GATEWAY=192.168.88.2：与第二步那个一样
增加NETMASK=255.255.255.0：与第二步子网掩码那个一样
增加DNS1=192.168.88.2：理论上GATEWAY相同

五.JDK的配置
1.解压到指定文件夹
将安装包解压到，注意要进去安装包所在的目录才能解压
[root@master software]# tar -zvxf jdk-8u181-linux-x64.tar.gz

2.修改JDK配置
[root@master software]# vim /etc/profile

在这里插入图片描述

更新系统路径配置
[root@master software]# source /etc/profile
检测JDK版本
[root@master software]# java -version
出现openJDK说明配置没有成功，因为没有删除系统自带的JDK
从ZERO开始系列：大数据软件之1.Hadoop的安装与wordcount运行
查看现有java
[root@master software]# rpm -qa|grep java
在这里插入图片描述
在这里插入图片描将java开头的全部删除
[root@master software]# rpm -e –nodeps java-1.7.0-openjdk-1.7.0.91-2.6.2.3.el7.x86_64
[root@master software]# rpm -e –nodeps java-1.8.0-openjdk-headless-1.8.0.65-3.b17.el7.x86_64
[root@master software]# rpm -e –nodeps java-1.7.0-openjdk-headless-1.7.0.91-2.6.2.3.el7.x86_64
[root@master software]# rpm -e –nodeps java-1.8.0-openjdk-1.8.0.65-3.b17.el7.x86_64

更新系统路径配置
[root@master software]# source /etc/profile
检测JDK版本
[root@master software]# java -version
成功！！！
在这里插入图片描述

六.Hadoop的配置
1.解压到当下文件夹
[root@master software]# tar -zvxf hadoop-2.7.3.tar.gz
2.修改Hadoop配置
①进入根目录[root@master software]# cd ~
配置环境变量
[root@master ~]# vi .bash_profile
在这里插入图片描述
填入：注意文件夹地址
PATH= $P A T H :$ HOME/.local/bin: $HOME/bin export JAVA_HOME=/home/hadoop/桌面/software/jdk1.8.0_181 export PATH=$ PATH: $JAVA_HOME/bin export HADOOP_HOME=/home/hadoop/桌面/software/hadoop-2.7.3 export PATH=$ HADOOP_HOME/bin:$PATH

保存
更新一下
[root@master ~]# source .bash_profile
测试
[root@master ~]# echo $JAVA_HOME
[root@master ~]# echo $HADOOP_HOME
在这里插入图片描述

②进入hadoop-2.7.3目录（你的hadoop文件夹）进行配置修改
在hadoop-2.7.3目录进入etc/hadoop，然后
[root@master hadoop]# vi core-site.xml
在这里插入图片描述
填写
fs.defaultFS
hdfs://Master.Hadoop:8020

在这里插入图片描述
保存

③进入[root@master hadoop]# vi hdfs-site.xml
在这里插入图片描述
填写：
dfs.replication
1

<property>
    <name>hadoop.tmp.dir</name>
    <value>/home/hadoop/桌面/tmp</value>
</property>

在这里插入图片描述

保存
④在桌面上建立tmp文件夹
在当下文件夹下进slaves，

修改为Mater.Hadoop
[root@master hadoop]# vi slaves

⑤在目录下etc/hadoop文件夹下
[root@master hadoop]# vi hadoop-env.sh
填写export JAVA_HOME=/home/hadoop/桌面/software/jdk1.8.0_181
在这里插入图片描述
保存

配置到这里就结束了

3.测试
①格式化：在hadoop-2.7.3文件夹下
[root@master hadoop-2.7.3]# bin/hadoop namenode -format

②开启Hadoop
[root@master sbin]# ./start-dfs.sh
在这里插入图片描述

okok大功告成

其实也可以进行网页查看，但是需要关闭防火墙
http：//服务器IP：50070
文章中的网址：http：//192.168.88.184：5070

在启动Hadoop集群后
可以输入[root@master hadoop-2.7.3]# sbin/start-yarn.sh
用浏览器打开：http：//服务器IP:8088/cluster
在这里插入图片描述
七.其他配置修改
1.免密登陆
在根目录下输入[root@master ~]# ssh-keygen -t rsa
然后一直回车
[root@master ~]# cd .ssh
[root@master .ssh]# cat id_rsa.pub >> authorized_keys
[root@master .ssh]# chmod 600 authorized_keys
然后测试一下
[root@master ~]# ssh master.hadoop
全部结果见图

在这里插入图片描述

2.关闭防火墙
跟目录下关闭防火墙
[root@master ~]# systemctl disable firewalld
在这里插入图片描述

八.关于wordcount实现
1.在桌面创建一个文件夹，为了存储文件
[root@master 桌面]# mkdir textfile
2.进入textfile目录，创建两个txt文件，并在文件中写入内容
[root@master textfile]# echo “hello hadoop-java” > file1.txt
[root@master textfile]# echo “hello hadoop-wp” > file2.txt
在这里插入图片描述
3.在HDFS上创建输入文件夹目录input
备注：HDFS是hadoop核心架构，是一个文件管理系统
[root@master hadoop-2.7.3]# bin/hadoop fs -mkdir /input
4.将刚才在本地写的文档传进HDFS的input中，并查看一下
[root@master hadoop-2.7.3]# bin/hadoop fs -put /home/hadoop/桌面/textfile/file*.txt /input
在这里插入图片描述
5.开启HADOOP,并用自带的wordcount进行对文件字符进行检测
[root@master hadoop-2.7.3]# sbin/start-dfs.sh
找到自带的wordcount程序
/home/hadoop/桌面/software/hadoop-2.7.3/share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.3.jar

运行程序：
[root@master hadoop-2.7.3]# bin/hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.3.jar wordcount /input/ /output/wordcount1
查看结果:
[root@master hadoop-2.7.3]# bin/hdfs dfs -cat /output/wordcount1/*

在这里插入图片描述

功成身退！！！

备注：
其实对于伪分布来说，前面很多点都可以不用做，例如配置网络，改主机名什么的
文章中提到流程是按照集群分布走的，但是配置是按照伪分布配置的

参考文献：
hadoop-2.6.0伪分布运行WordCount
https://blog.csdn.net/baolibin528/article/details/43021465Hadoop搭建伪分布式环境（linux环境）
Hadoop集群大数据平台搭建
https://www.cnblogs.com/jichui/p/7137804.htmlCentOS7 修改hostname，ip地址以及hosts（永久生效）
https://blog.csdn.net/ntuxiaolei/article/details/81130866解决centos 7下配置了静态IP却无法上网的问题
https://www.cnblogs.com/justuntil/p/7879748.html

发布者：全栈程序员-用户IM，转载请注明出处：https://javaforall.cn/114579.html原文链接：https://javaforall.cn

【正版授权，激活自己账号】： Jetbrains全家桶Ide使用，1年售后保障，每天仅需1毛

【官方授权正版激活】： 官方授权正版激活支持Jetbrains家族下所有IDE 使用个人JB账号...