hadoop家族的各个成员

hadoop家族的各个成员

大家好,又见面了,我是全栈君,祝每个程序员都可以多学几门语言。

这篇文章不提原理,讲讲hadoop及其周边项目的作用。

hadoop这个词已经流行好多年了,一提到大数据就会想到hadoop,那么hadoop的作用是什么呢?

官方定义:hadoop是一个开发和执行处理大规模数据的软件平台。核心词语是平台,也就是说我们有大量的数据,又有好几个电脑,我们知道应该把处理数据的任务分解到各个电脑上,可是不知道如何分配任务,如何回收结果,hadoop大概就帮助我们做了这件事。

1HDFS

我们首先应该考虑的是海量数据怎么保存,怎么管理。这就有了分布式文件系统,HDFS。

2Map-Reduce

数据保存后,我们如何处理这些数据呢,假设我处理的方法复杂,而不不过排序,查找这种操作怎么办?须要有一个可以提供编写代码的地方,让我们自己写出操作,它内部再进行分解,分配,回收数据等等。

3Hive

能编代码是好的,但编代码太麻烦,并且数据库人员是熟悉SQL语句的,能用SQL语句处理,就不用Map-Reduce了吧,所以出现了Hive。并且大数据不管怎样是离不开数据库,离不开表,Hive就能讲数据映射成数据表,然后再操作就方便了,它的缺点是速度较慢。

4HBase

既然Hive的速度较慢,那么有没有较快的数据库呢?HBase就是,他为查询而生的,查询的速度非常快。

5Sqoop

曾经不是有非常多有名的数据库像MySQL,Oracle,我数据都是存在这里面的,怎么导入到HDFS中呢?Sqoop提供了关系型数据库和HDFS之间的相互转换。

6Flume

在这么多电脑上工作,假设当中一台有点问题,或者上面哪个服务有点问题,如何知道哪坏了呢?Flume提供了一个高可靠的日志採集系统。

7Mahout

处理大数据非常多是用来进行数据挖掘,有那几种常见的机器学习算法,既然算法都固定了并且就那几种,那就开发个叫Mahout的东西实现各种算法,开发者就能更快捷的使用。

8Zookeeper

ZooKeeper的目标是封装好复杂易出错的关键服务,将简单易用的接口和性能高效、功能稳定的系统提供给用户。说白了就是动物园管理员,他是用来来管大象(Hadoop) 、 蜜蜂(Hive)的。

以上是Hadoop家族的主要成员,还有几个不经常使用的就不用介绍了,知道这些成员的作用后,对Hadoop总体能干什么就有了初步的认识,剩下的就是慢慢学习各个部分的原理和用法了。
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 举报,一经查实,本站将立刻删除。

发布者:全栈程序员-用户IM,转载请注明出处:https://javaforall.cn/118977.html原文链接:https://javaforall.cn

【正版授权,激活自己账号】: Jetbrains全家桶Ide使用,1年售后保障,每天仅需1毛

【官方授权 正版激活】: 官方授权 正版激活 支持Jetbrains家族下所有IDE 使用个人JB账号...

(0)


相关推荐

  • 大学最应该学习的 5 门课, 毕业后大厂 Offer 直接拿到手软!「建议收藏」

    大学最应该学习的 5 门课, 毕业后大厂 Offer 直接拿到手软!「建议收藏」时间如白驹过隙,我竟然已经是一名拥有13年编程经验的老油条了!有些自豪,因为自己从大一就开始学习的Java语言依然坚挺,几乎是编程语言中的霸主了;但也有些遗憾,大学的时候没有把这些计算机基础课程学好,有些甚至没有学,导致工作后有很长一段时间蛮吃力的,全靠近些年“废寝忘食”的补课,才有所好转。希望学弟学妹们,能从我这些经验中获得一些启发,少走一些弯路。1)计算机编程的基石——数据结构与算法2)计算机编程语言的母胎——C语言3)计算机组成原理4)计算机操作系统5)计算机网络一、数据结构

  • 图书管理系统的系统设计(图书管理系统任务书)

    图书管理系统设计与实现图书馆人员结构复杂,人员数量有限,涉及方面很广,如果还使用手工操作处理图书借阅问题,工作将非常繁琐,需要大量的人力、物理、财力,极大的浪费了资源,对于图书管理人员来说,图书馆管理包括图书信息管理、图书类别管理、借阅信息管理、管理员信息管理等等。而这些项目在过去靠手工操作,需要手工记录这些事情,不但麻烦,还经常出错,给广大用户带来很多不便,因此,开发这样一套图书馆管理系统软件。让管理员方便的管理图书及用户信息,方便用户查找图书。1、本课程设计的目的(1)掌握企业级应用系统的基本

  • mybatis返回值_存储过程获取查询结果

    mybatis返回值_存储过程获取查询结果com.jerry.mapper.TestMapper.javapackagecom.jerry.mapper;importjava.util.List;importjava.util.Map;publicinterfaceTestMapper{ /** *查寻单个结果直接返回Map<String,Object> *@paramid *…………..

  • 迭代法塔的问题,如果中国

    迭代法塔的问题,如果中国

  • Youtube最佳Red5 官方视频下载指南,字幕【亲测成功】

    Youtube最佳Red5 官方视频下载指南,字幕【亲测成功】

  • 大数据与云计算和物联网之间的关系是什么_大数据信息主要安全问题不包括

    大数据与云计算和物联网之间的关系是什么_大数据信息主要安全问题不包括大数据时代的到来,是全球知名咨询公司麦肯锡最早提出的,麦肯锡称:“数据,已经渗透到当今每一个行业和业务职能领域,成为重要的生产因素。人们对于海量数据的挖掘和运用,预示着新一波生产率增长和消费者盈余浪潮的到来。”《互联网进化论》一书中提出“互联网的未来功能和结构将于人类大脑高度相似,也将具备互联网虚拟感觉,虚拟运动,虚拟中枢,虚拟记忆神经系统”,并绘制…

发表回复

您的电子邮箱地址不会被公开。

关注全栈程序员社区公众号