第四章:hadoop 启动wordcount实例,包括hadoop自带jar包和eclipsejar包。hdfs常用命令[通俗易懂]

第四章:hadoop 启动wordcount实例,包括hadoop自带jar包和eclipsejar包。hdfs常用命令[通俗易懂]第四章:hadoop 启动wordcount实例,包括hadoop自带jar包和eclipsejar包。hdfs常用命令

大家好,又见面了,我是你们的朋友全栈君。

1,首先介绍启动hadoop自带的wordcount的jar包实例

1.1启动hadoop

hadoop安装目录下:./sbin/start-all.sh

查看进程:jps

第四章:hadoop 启动wordcount实例,包括hadoop自带jar包和eclipsejar包。hdfs常用命令[通俗易懂]

1.2 ,进入到home目录下,创建一个文本,随便写点东西

第四章:hadoop 启动wordcount实例,包括hadoop自带jar包和eclipsejar包。hdfs常用命令[通俗易懂]

1.3 进入到hadoop安装目录下,模糊查找hadoop 案例jar包

第四章:hadoop 启动wordcount实例,包括hadoop自带jar包和eclipsejar包。hdfs常用命令[通俗易懂]

我们用hadoop-mapreduce-examples-3.0.0.jar

1.4 ./bin/hadoop fs -mkdir /input   在hdfs上创建一个目录,用来存放刚才创建的文档

1.5 ./bin/hadoop fs -put ../classes/aa.txt /input   将文档上传到hdfs上

1.6 ./bin/hadoop fs -ls /input  查看

1.7 ./bin/hadoop jar ./share/hadoop/mapreduce/hadoop-mapreduce-examples-3.0.0.jar wordcount /input /output

运行wordcount

1.9 ./bin/hadoop fs -ls /output  查看出入文件目录

1.10 ./bin/hadoop fs -cat /output/part-r-00000 查看处理后的结果

整体截图如下:

第四章:hadoop 启动wordcount实例,包括hadoop自带jar包和eclipsejar包。hdfs常用命令[通俗易懂]

第四章:hadoop 启动wordcount实例,包括hadoop自带jar包和eclipsejar包。hdfs常用命令[通俗易懂]

第四章:hadoop 启动wordcount实例,包括hadoop自带jar包和eclipsejar包。hdfs常用命令[通俗易懂]


2,在eclipse编写wordcount代码,打包放到hdfs上运行

案例下载地址:https://download.csdn.net/download/csdnliuxin123524/10276666

2.1,eclipse上创建maven工程(自行配置安装maven等)

创建好maven工程后,pom内容如下:

<project 
	xmlns="http://maven.apache.org/POM/4.0.0" 
	xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" 
	xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http://maven.apache.org/xsd/maven-4.0.0.xsd">
		  <modelVersion>4.0.0</modelVersion>
		  <groupId>hadoop</groupId>
		  <artifactId>wordCount</artifactId>
		  <version>0.0.1-SNAPSHOT</version>
		  
		  <repositories>
        <repository>
            <id>apache</id>
            <url>http://maven.apache.org</url>
        </repository>
    </repositories>

    <dependencies>
        <dependency>
            <groupId>org.apache.hadoop</groupId>
            <artifactId>hadoop-core</artifactId>
            <version>1.2.1</version>
        </dependency>
        <dependency>
            <groupId>org.apache.hadoop</groupId>
            <artifactId>hadoop-common</artifactId>
            <version>2.7.2</version>
        </dependency>
    </dependencies>

    <build>
        <plugins>
            <plugin>
                <artifactId>maven-dependency-plugin</artifactId>
                <configuration>
                    <excludeTransitive>false</excludeTransitive>
                    <stripVersion>true</stripVersion>
                    <outputDirectory>./lib</outputDirectory>
                </configuration>

            </plugin>
        </plugins>
    </build>
</project>

这里读者只需要拷贝如下部分即可,其余的创建maven工程师会自动填好:

	  <repositories>
        <repository>
            <id>apache</id>
            <url>http://maven.apache.org</url>
        </repository>
    </repositories>

    <dependencies>
        <dependency>
            <groupId>org.apache.hadoop</groupId>
            <artifactId>hadoop-core</artifactId>
            <version>1.2.1</version>
        </dependency>
        <dependency>
            <groupId>org.apache.hadoop</groupId>
            <artifactId>hadoop-common</artifactId>
            <version>2.7.2</version>
        </dependency>
    </dependencies>

    <build>
        <plugins>
            <plugin>
                <artifactId>maven-dependency-plugin</artifactId>
                <configuration>
                    <excludeTransitive>false</excludeTransitive>
                    <stripVersion>true</stripVersion>
                    <outputDirectory>./lib</outputDirectory>
                </configuration>

            </plugin>
        </plugins>
    </build>

配置好后,maven update 会自动从网上拉取相应的jar包,当然别忘了设置maven的setting文件:

第四章:hadoop 启动wordcount实例,包括hadoop自带jar包和eclipsejar包。hdfs常用命令[通俗易懂]

setting使用maven自带的就行了。

下面写三个雷,一个是map,一个reduce,一个是main:

整体如下:

第四章:hadoop 启动wordcount实例,包括hadoop自带jar包和eclipsejar包。hdfs常用命令[通俗易懂]

mapper类:

package test;

import java.io.IOException;

import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.LongWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Mapper;

/* 
 * KEYIN:输入kv数据对中key的数据类型 
 * VALUEIN:输入kv数据对中value的数据类型 
 * KEYOUT:输出kv数据对中key的数据类型 
 * VALUEOUT:输出kv数据对中value的数据类型 
 */  
public class WordCountMapper extends Mapper<LongWritable, Text, Text, IntWritable>{  
      
    /* 
     * map方法是提供给map task进程来调用的,map task进程是每读取一行文本来调用一次我们自定义的map方法 
     * map task在调用map方法时,传递的参数: 
     *      一行的起始偏移量LongWritable作为key 
     *      一行的文本内容Text作为value 
     */  
    @Override  
    protected void map(LongWritable key, Text value,Context context) throws IOException, InterruptedException {  
        //拿到一行文本内容,转换成String 类型  
        String line = value.toString();  
        //将这行文本切分成单词  
        String[] words=line.split(" ");  
          
        //输出<单词,1>  
        for(String word:words){  
            context.write(new Text(word), new IntWritable(1));  
        }  
    }  
}  

reduce类:

package test;

import java.io.IOException;

import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Reducer;

/* 
 * KEYIN:对应mapper阶段输出的key类型 
 * VALUEIN:对应mapper阶段输出的value类型 
 * KEYOUT:reduce处理完之后输出的结果kv对中key的类型 
 * VALUEOUT:reduce处理完之后输出的结果kv对中value的类型 
 */  
public class WordCountReducer extends Reducer<Text, IntWritable, Text, IntWritable>{  
    @Override  
    /* 
     * reduce方法提供给reduce task进程来调用 
     *  
     * reduce task会将shuffle阶段分发过来的大量kv数据对进行聚合,聚合的机制是相同key的kv对聚合为一组 
     * 然后reduce task对每一组聚合kv调用一次我们自定义的reduce方法 
     * 比如:<hello,1><hello,1><hello,1><tom,1><tom,1><tom,1> 
     *  hello组会调用一次reduce方法进行处理,tom组也会调用一次reduce方法进行处理 
     *  调用时传递的参数: 
     *          key:一组kv中的key 
     *          values:一组kv中所有value的迭代器 
     */  
    protected void reduce(Text key, Iterable<IntWritable> values,Context context) throws IOException, InterruptedException {  
        //定义一个计数器  
        int count = 0;  
        //通过value这个迭代器,遍历这一组kv中所有的value,进行累加  
        for(IntWritable value:values){  
            count+=value.get();  
        }  
          
        //输出这个单词的统计结果  
        context.write(key, new IntWritable(count));  
    }  
}  

main类:

这里的输入与输出文件路径设置很重要:是主机名:core-site.xml中配置的端口

package test;

import java.io.IOException;

import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.Text;

import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;

public class WordCountJobSubmitter {  
    
    public static void main(String[] args) throws IOException, ClassNotFoundException, InterruptedException {  
        Configuration conf = new Configuration();  
        Job wordCountJob = Job.getInstance(conf);  
          
        //重要:指定本job所在的jar包  
        wordCountJob.setJarByClass(WordCountJobSubmitter.class);  
          
        //设置wordCountJob所用的mapper逻辑类为哪个类  
        wordCountJob.setMapperClass(WordCountMapper.class);  
        //设置wordCountJob所用的reducer逻辑类为哪个类  
        wordCountJob.setReducerClass(WordCountReducer.class);  
          
        //设置map阶段输出的kv数据类型  
        wordCountJob.setMapOutputKeyClass(Text.class);  
        wordCountJob.setMapOutputValueClass(IntWritable.class);  
          
        //设置最终输出的kv数据类型  
        wordCountJob.setOutputKeyClass(Text.class);  
        wordCountJob.setOutputValueClass(IntWritable.class);  
          
        //设置要处理的文本数据所存放的路径  
        FileInputFormat.setInputPaths(wordCountJob, "hdfs://ubuntu:9000/input/aa.txt");  
        FileOutputFormat.setOutputPath(wordCountJob, new Path("hdfs://ubuntu:9000/output/"));  
          
        //提交job给hadoop集群  
        wordCountJob.waitForCompletion(true);  
    }  
}  

右键工程

maven update 确保不报错。

maven clean 

maven uddate

maven install

经过这几步就能够自动生成jar包,如下:

第四章:hadoop 启动wordcount实例,包括hadoop自带jar包和eclipsejar包。hdfs常用命令[通俗易懂]

把jar包拷到桌面上,并把包名改为wc.jar,方便上传,

2.2, eclipse准备好后,就开始虚拟机这边:

在用户的home目录下创建一个classes文件夹,用来存放上传的jar包:

第四章:hadoop 启动wordcount实例,包括hadoop自带jar包和eclipsejar包。hdfs常用命令[通俗易懂]

rz上传刚才的jar包

2.3,启动hadoop

启动之前我们先复习下,我们的hadoop配置,这里小编不同于上一篇博文,稍作了修改:

core-site.xml:

<configuration>
  <property>

                <name>hadoop.tmp.dir</name>

                <value>/home/xiaoye2/hadoop-3.0.0/tmp</value>

        </property>

        <property>

                <name>fs.default.name</name>

                <value>hdfs://192.168.26.129:9000</value>

        </property>
</configuration>

这里是IP:9000是hdfs的地址和端口

hdfs-site.xml

<configuration>

        <property>

#
        <name>dfs.datanode.data.dir</name>

                <value>/home/xiaoye2/hadoop-3.0.0/hadoop/data</value>

        </property>

        <property>

                <name>dfs.namenode.name.dir</name>

                <value>/home/xiaoye2/hadoop-3.0.0/hadoop/name</value>

        </property>

        <property>

                <name>dfs.http.address</name>

               <value>0.0.0.0:50030</value>

       </property>

        <property>

这里就设置成0.0.0.0:50030,是浏览器上的hdfs的地址和端口

mapred-site.xml:

<configuration>

      <property>

                <name>mapred.job.tracker</name>

                <value>192.168.26.129:9001</value>

        </property>
</configuration>

mapred的ip和端口,不过目前还没有用到,小编也不清楚其用处

2.3配置主机名:

su root 切换成root用户

vim /etc/hosts

加入以下内容:

第四章:hadoop 启动wordcount实例,包括hadoop自带jar包和eclipsejar包。hdfs常用命令[通俗易懂]

也就是把你的ip地址加进去,并对应现在的主机名。

2.4,配置好之后:格式化namenode

进入到hadoop目录,小编这里是hadoop-3.0.0:

第四章:hadoop 启动wordcount实例,包括hadoop自带jar包和eclipsejar包。hdfs常用命令[通俗易懂]

./bin/hadoop namenode -format

再 ./sbin/start-all.sh 启动所有进程

jps查看进程是否全都开启,总共六个:

第四章:hadoop 启动wordcount实例,包括hadoop自带jar包和eclipsejar包。hdfs常用命令[通俗易懂]

2.5,再hadoop-3.0.0目录下创建一个文本aa.txt,并随便写的内容,过会我们就分析这个文本的单词出现频率

2.5.1 , 再hdfs上创建一个input目录:./bin/hadoop fs -mkdir hdfs://ubuntu:9000/input/

将aa.txt文件上传到hdfs的input目录下./bin/hadoop fs -put aa.txt hdfs://ubuntu:9000/input/

运行wordcount程序:./bin/hadoop jar /home/xiaoye2/classes/wc.jar test.WordCountJobSubmitter  /input

查看处理后的文件内容: ./bin/hadoop fs -cat hdfs://ubuntu:9000/output/part-r-00000

这样就大功告成了。

3遇到问题:

3.1:Host Details : local host is: “ubuntu/127.0.1.1”; destination host is: “ubuntu

这个问题困扰了我两天时间,搞到半夜2点钟都没解决。看报错原因是说本地主机与目标主机不一致。但是由于自学对这方面知识不懂,所以就就不断的试,终于通过以下方法解决了。首先修改/etc/hosts文件,为其加上虚拟机的ip 和对应的主机名,上面有介绍,可往上翻看。再者修改core-site.xml文件的localhost为虚拟机ip。同理mapred-site.xml也是。再修改hdfs的访问ip为0.0.0.最后重新启动hdfs。

3.2:要会看日志:比如说datanode或namenode没有起来,那么就要看hadoop目录下的logs对应的日志,比如namenode没有起来,实时查看namenode的日志:tail -f -n200 hadoop-xiaoye2-namenode-ubuntu.log  看报什么错再针对解决。

3.3,常用hdfs命令:当然实际使用中 要稍作修改,比如小编的查看hdfs的文件命令就是:

./bin/hadoop fs -ls hdfs://ubuntu:9000/input/

1、-help[cmd] 显示命令的帮助信息

./hdfs dfs -help ls
  • 1

2、-ls(r) 显示当前目录下的所有文件 -R层层循出文件夹

./hdfs dfs -ls /log/map
./hdfs dfs -ls -r /log/   (递归的)
  • 1
  • 2

3、-du(s) 显示目录中所有文件大小,或者当只指定一个文件时,显示此文件的大小

./hdfs dfs -du /user/hadoop/dir1 /user/hadoop/file1 hdfs://host:port/user/hadoop/dir1
  • 1

4、-count[-q] 显示当前目录下的所有文件大小 
5、-mv 移动多个文件目录到目标目录

./hdfs dfs -mv /user/hadoop/file1 /user/hadoop/file2
  • 1

6、-cp 复制多个文件到目标目录

./hdfs dfs -cp /user/hadoop/file1 /user/hadoop/file2 (将文件从源路径复制到目标路径。
这个命令允许有多个源路径,此时目标路径必须是一个目录。)
  • 1
  • 2

7、-rm(r) 删除文件(夹)

./hdfs dfs -rm -r /log/map1  (递归删除)
  • 1

8、-put 本地文件复制到hdfs

./hdfs dfs -put test.txt /log/map/
  • 1

9、-copyFromLocal 本地文件复制到hdfs

./hdfs dfs -copyFromLOcal /usr/data/text.txt /log/map1/   (将本地的text.txt 复制到hdfs的/log/map1/下)
  • 1

10、-moveFromLocal 本地文件移动到hdfs

./hdfs dfs -moveFromLocal /usr/data/text.txt /log/map1/   (将本地的text.txt移动到hdfs的/log/map1/下)
  • 1

11、-get[-ignoreCrc] 复制文件到本地,可以忽略crc校验

./hdfs dfs -get /log/map1/*  . (复制到本地当前目录下)
/hdfs dfs -get /log/map1/* /usr/data (将hdfs下的/log/map1/下的所有文件全部复制到本地的/usr/data/下 )
  • 1
  • 2

12、-getmerge[addnl] 将源目录中的所有文件排序合并到一个文件中,接受一个源目录和一个目标文件作为输入,并且将源目录中所有的文件连接成本地目标文件。addnl是可选的,用于指定在每个文件结尾添加一个换行符。

./hdfs dfs -getmerge /log/map1/* /usr/data(将hdfs上的/log/map1/下的所有文件合并下载到本地的/usr/data下)
  • 1

13、-cat 在终端显示文件内容

 ./hdfs dfs -cat /log/map1/part-00000  | head (读取hdfs上的/log/map1下的part-00000文件    head参数,代表前十行。)

 /hdfs dfs -tail /log/map1/part-00000 (查看文件的最后一千行)
  • 1
  • 2
  • 3

14、-text 在终端显示文件内容,将源文件输出为文本格式。允许的格式是zip和TextRecordInputStream 
15、-copyToLocal[-ignoreCrc] 复制文件到本地 
16、-moveToLocal 移动文件到本地 
17、-mkdir 创建文件夹 后跟-p 可以创建不存在的父路径

./hdfs dfs -mkdir -p /dir1/dir11/dir111  
  • 1

18、-touchz 创建一个空文件

19、-grep 从hdfs上过滤包含某个字符的行内容

./hdfs dfs -cat /log/testlog/* | grep 过滤字段

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 举报,一经查实,本站将立刻删除。

发布者:全栈程序员-用户IM,转载请注明出处:https://javaforall.cn/106185.html原文链接:https://javaforall.cn

【正版授权,激活自己账号】: Jetbrains全家桶Ide使用,1年售后保障,每天仅需1毛

【官方授权 正版激活】: 官方授权 正版激活 支持Jetbrains家族下所有IDE 使用个人JB账号...

(0)
blank

相关推荐

  • docker启动MySQL报错

    docker启动MySQL报错一.问题描述今天用docker拉取了MySQL镜像,但是启动的时候遇到了问题。error:databaseisuninitializedandpasswordoptionisnotspecifiedYouneedtospecifyoneofMYSQL_ROOT_PASSWORD,MYSQL_ALLOW_EMPTY_PASSWORDandMYSQL_RANDOM_ROOT_PASSWORD二.解决由于没有找到其他帖子上在图形化界面上操作的修改,因此我们选

  • 导航上显示某个地点已关闭什么意思_大众MIB(275)教程之导航使用「建议收藏」

    导航上显示某个地点已关闭什么意思_大众MIB(275)教程之导航使用「建议收藏」大众可以说近几年的发展非常快,仅车载收音机都更换了好几代了。从最初的单纯收音机到后来的6碟CD机RCD510,最初国内上市的导航RNS510,还有后来自带蓝牙的RNS315,再到PQ平台187A,当初抄的也是火的很几乎每天都能看到187A的帖子,直到出现了升级版的187B,这个自带carplay和百度canlife的PQ平台的机器一下将老款车型导航的改装推上了最巅峰,也把一款拆车机…

  • 深入理解JVM—JVM垃圾回收机制[通俗易懂]

    深入理解JVM—JVM垃圾回收机制[通俗易懂]垃圾回收是指不定时去堆内存中清理不可达对象。不可达的对象并不会马上就会直接回收,垃圾收集器在一个Java程序中的执行是自动的,不能强制执行,程序员唯一能做的就是通过调用System.gc方法来建议执行垃圾收集器,但其是否可以执行,什么时候执行却都是不可知的。这也是垃圾收集器的最主要的缺点。当然相对于它给程序员带来的巨大方便性而言,这个缺点是瑕不掩瑜的。先谈一下新生代与老年代根据垃圾回…

  • pycharm-package安装配置[通俗易懂]

    pycharm-package安装配置[通俗易懂]pycharm-package安装配置第一步:打开pycharm软件;第二步:选择菜单栏File→Settings;第三步:选择“Project:XXXXX”这一栏,然后选择“ProjectInterpreter”,点击右边的“+”号;第四步:选择底下的ManageRepositories;第五步:这里可以添加或更改任意下载源,由于默认下载源是国…

  • 没有理想,你和我还有什么区别呢![通俗易懂]

    阳光之中到处可见 奔忙的人们 被拥挤着 被一晃而飞的光阴 忽略过

  • 前端盲水印_前端代码review

    前端盲水印_前端代码review需求给图片加上看不到的水印,当通过其他的方式可以清楚的看到图片中暗藏的水印,以此方式追溯到泄密的人解决办法利用canvas实现图片和水印的绘制,具体过程如下:新建canvas,宽度和高度取要加水印的图片的宽度和高度 在该canvas上绘制要添加的水印文字,文字透明度设置要特别的低,但是当水印透明度小于等于0.003,不可恢复到水印。所以我们设置透明度要不得低于0.003 将该canvas转成img(为什么canvas要转成img?之前遇到canvas在移动端无法长按出现保存、转发等操作)

    2022年10月30日

发表回复

您的电子邮箱地址不会被公开。

关注全栈程序员社区公众号