大数据开发的工具有哪些?

  作为一个大数据开发人员,每天要与使用大量的大数据工具来完成日常的工作,那么目前主流的大数据开发工具有哪些呢?下面为大家介绍下主流的大数据开发工具。1.HadoopHadoop是一个由Apache基金会所开发的分布式系统基础架构。用户可以在不了解分布式底层细节的情况下,开发分布式程序。充分利用集群的威力进行高速运算和存储。Hadoop是一个能够对大量数据进行分布…

大家好,又见面了,我是你们的朋友全栈君。

 

 

作为一个大数据开发人员,每天要与使用大量的大数据工具来完成日常的工作,那么目前主流的大数据开发工具有哪些呢?

大数据开发的工具有哪些?

下面为大家介绍下主流的大数据开发工具。

1. Hadoop

Hadoop是一个由Apache基金会所开发的分布式系统基础架构。

用户可以在不了解分布式底层细节的情况下,开发分布式程序。充分利用集群的威力进行高速运算和存储。

Hadoop是一个能够对大量数据进行分布式处理的软件框架。 Hadoop 以一种可靠、高效、可伸缩的方式进行数据处理。

hadoop官网地址:http://hadoop.apache.org/

hadoop开发文档:http://hadoop.apache.org/docs/r1.0.4/cn/

hadoop入门教程:http://hadoop.apache.org/docs/r1.0.4/cn/quickstart.html

2. Ambari

Apache Ambari是一种基于Web的工具,支持Apache Hadoop集群的供应、管理和监控。Ambari已支持大多数Hadoop组件,包括HDFS、MapReduce、Hive、Pig、 Hbase、Zookeper、Sqoop和Hcatalog等。

Ambari官网地址:http://ambari.apache.org/

3. Avro

Avro([?vr?])是Hadoop的一个子项目,由Hadoop的创始人Doug Cutting(也是Lucene,Nutch等项目的创始人)牵头开发。Avro是一个数据序列化系统,设计用于支持大批量数据交换的应用。它的主要特点有:支持二进制序列化方式,可以便捷,快速地处理大量数据;动态语言友好,Avro提供的机制使动态语言可以方便地处理Avro数据。

Avro官网地址:http://avro.apache.org/

Avro英文文档:http://avro.apache.org/docs/current/

4. Cascading

是一个架构在Hadoop上的API,用来创建复杂和容错数据处理工作流。它抽象了集群拓扑结构和配置来快速开发复杂分布式的应用,而不用考虑背后的MapReduce。

Cascading官网地址:http://www.cascading.org/

5. Chukwa

chukwa 是一个开源的用于监控大型分布式系统的数据收集系统。这是构建在 hadoop 的 hdfs 和 map/reduce 框架之上的,继承了 hadoop 的可伸缩性和健壮性。Chukwa 还包含了一个强大和灵活的工具集,可用于展示、监控和分析已收集的数据。

Chukwa官网地址:http://chukwa.apache.org/

6. Flume

Flume是Cloudera提供的一个高可用的,高可靠的,分布式的海量日志采集、聚合和传输的系统,Flume支持在日志系统中定制各类数据发送方,用于收集数据;同时,Flume提供对数据进行简单处理,并写到各种数据接受方(可定制)的能力。

Flume官网地址:http://flume.apache.org/

Flume相关文档:http://flume.apache.org/FlumeDeveloperGuide.html

7. HBase

HBase – Hadoop Database,是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统,利用HBase技术可在廉价PC Server上搭建起大规模结构化存储集群。

HBase官网链接:https://hbase.apache.org/

HBase相关文档:http://hbase.apache.org/book.html

8. Hadoop分布式文件系统(HDFS)

HDFS是一个高度容错性的系统,适合部署在廉价的机器上。HDFS能提供高吞吐量的数据访问,非常适合大规模数据集上的应用。HDFS放宽了一部分POSIX约束,来实现流式读取文件系统数据的目的。HDFS在最开始是作为Apache Nutch搜索引擎项目的基础架构而开发的。HDFS是Apache Hadoop Core项目的一部分。

HDFS开发文档:http://hadoop.apache.org/docs/r1.0.4/cn/hdfs_design.html

9. Hive

hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供简单的sql查询功能,可以将sql语句转换为MapReduce任务进行运行。 其优点是学习成本低,可以通过类SQL语句快速实现简单的MapReduce统计,不必开发专门的MapReduce应用,十分适合数据仓库的统计分析。

Hive官网地址:https://hive.apache.org/

10. Hivemall

Hivemall结合了面向Hive的多种机器学习算法。它包括诸多高度扩展性算法,可用于数据分类、递归、推荐、k最近邻、异常检测和特征哈希。

支持的操作系统:与操作系统无关。

Hivemall官网链接:https://github.com/myui/hivemall

11. Mahout

Mahout 是 Apache Software Foundation(ASF) 旗下的一个开源项目,提供一些可扩展的机器学习领域经典算法的实现,旨在帮助开发人员更加方便快捷地创建智能应用程序。Mahout包含许多实现,包括聚类、分类、推荐过滤、频繁子项挖掘。此外,通过使用 Apache Hadoop 库,Mahout 可以有效地扩展到云中。

Mahout官网地址:http://mahout.apache.org/

12. MapReduce

MapReduce是一种编程模型,用于大规模数据集(大于1TB)的并行运算。概念”Map(映射)”和”Reduce(归约)”,是它们的主要思想,都是从函数式编程语言里借来的,还有从矢量编程语言里借来的特性。它极大地方便了编程人员在不会分布式并行编程的情况下,将自己的程序运行在分布式系统上。

MapReduce相关文档:http://hadoop.apache.org/docs/r1.2.1/mapred_tutorial.html

13. Oozie

Oozie是一种Java Web应用程序,它运行在Java servlet容器——即Tomcat——中,并使用数据库来存储以下内容:

● 工作流定义

● 当前运行的工作流实例,包括实例的状态和变量

Oozie官网地址:http://oozie.apache.org/

14. Pig

Pig是一种数据流语言和运行环境,用于检索非常大的数据集。为大型数据集的处理提供了一个更高层次的抽象。Pig包括两部分:一是用于描述数据流的语言,称为Pig Latin;二是用于运行Pig Latin程序的执行环境。

Pig官网地址:http://pig.apache.org/

15. Sqoop

Sqoop(发音:skup)是一款开源的工具,主要用于在Hadoop(Hive)与传统的数据库(mysql、postgresql…)间进行数据的传递,可以将一个关系型数据库(例如 : MySQL ,Oracle ,Postgres等)中的数据导进到Hadoop的HDFS中,也可以将HDFS的数据导进到关系型数据库中。

Sqoop官网地址:http://sqoop.apache.org/

Sqoop相关文档:http://sqoop.apache.org/docs/1.4.5/index.html

16. Spark

Spark 是一种与 Hadoop 相似的开源集群计算环境,但是两者之间还存在一些不同之处,这些有用的不同之处使 Spark 在某些工作负载方面表现得更加优越,换句话说,Spark 启用了内存分布数据集,除了能够提供交互式查询外,它还可以优化迭代工作负载。

Spark官网地址:http://spark.apache.org/

17. Tez

Tez建立在Apache Hadoop YARN的基础上,这是“一种应用程序框架,允许为任务构建一种复杂的有向无环图,以便处理数据。”它让Hive和Pig可以简化复杂的任务,而这些任务原本需要多个步骤才能完成。

支持的操作系统:Windows、Linux和OS X。

Tez官网链接:http://tez.apache.org

18. Zookeeper

ZooKeeper是一个分布式的,开放源码的分布式应用程序协调服务,是Google的Chubby一个开源的实现,是Hadoop和Hbase的重要组件。它是一个为分布式应用提供一致性服务的软件,提供的功能包括:配置维护、域名服务、分布式同步、组服务等。

Zookeeper官网:http://zookeeper.apache.org/

以上就是对大数据开发工具的介绍,想要了解更多的大数据信息,可以去光环大数据官网(hadoop.aura.cn)了解。

 

 

 

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 举报,一经查实,本站将立刻删除。

发布者:全栈程序员-用户IM,转载请注明出处:https://javaforall.cn/126602.html原文链接:https://javaforall.cn

【正版授权,激活自己账号】: Jetbrains全家桶Ide使用,1年售后保障,每天仅需1毛

【官方授权 正版激活】: 官方授权 正版激活 支持Jetbrains家族下所有IDE 使用个人JB账号...

(0)
blank

相关推荐

  • php Calender(日历)代码

    代码如下:1=2038)23{24$year=date('Y');25}26}else27{28if($year12)36{37$

    2021年12月20日
  • Android之include避免代码重复

    在做布局时,经常有些部分是重复的,比如title或者foot的地方,最简单的办法当然是直接复制过去,这里介绍include的用法,有过c++或者c经验的同学一看就明白了,就是把另一个布局包含进来.先看下实现的效果:里面上下各有两个文字布局,是用include包含进去的,直接看代码activity_main.xml:

  • Jenkins前端打包内存溢出问题

    Jenkins前端打包内存溢出问题

  • 【网页设计的12种颜色】「建议收藏」

    前不久,ColourLovers.com公布了一项调查结果。他们发…

  • Linux下的文本编辑器介绍「建议收藏」

    Linux下的文本编辑器介绍「建议收藏」关于文本编辑器文本编辑器有很多,比如图形模式的gedit、kwrite、OpenOffice……,文本模式下的编辑器有vi、vim(vi的增强版本)和nano……vi和vim是我们在Linux中最常用的编辑器。我们有必要介绍一下vi(vim)最简单的用法,以让Linux入门级用户在最短的时间内学会使用它。 nano工具和DOS操作系统下的edit操作相似,使用简单…

  • Spring Boot+Spring Security+JWT实现单点登录

    Spring Boot+Spring Security+JWT实现单点登录目录第一章常用术语1.1、SSO1.2、JWT1.3、RSA第二章认证思路2.1、分析集中式认证流程2.2、分析集中式认证流程第三章工程介绍3.1、介绍父工程3.2、导入数据库第四章通用模块4.1、导入依赖4.2、统一格式4.2.1、统一载荷对象4.2.2、统一返回结果4.3、常用工具4.3.1、Json工具类4.3.2、Jwt工具类4.3.3、Rsa工具类4.4、生成密钥第五章认证服务5.1、导入依赖5.2、编写配置文件5.3、编写属性类5.4、编写工具类5.5、编写实体类5.6、编写映射接口5

发表回复

您的电子邮箱地址不会被公开。

关注全栈程序员社区公众号