Java大数据学习01–大数据的本质及学习顺序介绍

Java大数据学习01–大数据的本质及学习顺序介绍随着互联网的使用人数越来越多,产生的数据也越来越多。根据数据我们可以分析出很多有用的信息。这也就是当前为什么大数据这么火的行为。学习大数据有很多种方式,但我们学习的载体是以目前最普遍,最流行的Java语言来进行学习。下面我们进入正题:1、首先是大数据的本质:大数据的本质无非两条:大数据的存储(Hadoop)和大数据的计算(Spark)存储:由于数据量巨大,把所有数据存在一个机器…

大家好,又见面了,我是你们的朋友全栈君。

随着互联网的使用人数越来越多,产生的数据也越来越多。根据数据我们可以分析出很多有用的信息。这也就是当前为什么大数据这么火的行为。

学习大数据有很多种方式,但我们学习的载体是以目前最普遍,最流行的Java语言来进行学习。

下面我们进入正题:

1、首先是大数据的本质:

大数据的本质无非两条:大数据的存储(Hadoop)和大数据的计算(Spark)

存储:由于数据量巨大,把所有数据存在一个机器中是不现实的,容量不够而且也不安全。所以必须要用分布式的文件系统来进行存储。

计算:使用分布式计算。

2、学习路线:

(1)Java基础和Linux基础
(2)Hadoop的学习:体系结构、原理、编程
    第一阶段:HDFS(分布式文件管理系统)、MapReduce(分布式运算编程框架)、Yarn(运算资源调度系统)、HBase(NoSQL数据库)
    第二阶段:数据分析引擎 —> Hive、Pig
              数据采集引擎 —> Sqoop(hadoop与传统数据库导入导出数据的接口:数据库中<==>HDFS)、Flume(日志收集工具:将大规模流数据导入HDFS)
    第三阶段:HUE:Web管理工具
              ZooKeeper:实现Hadoop的HA
              Oozie:工作流引擎
(3)Spark的学习
    第一个阶段:Scala编程语言
    第二个阶段:Spark Core—–> 基于内存,数据的计算
    第三个阶段:Spark SQL —–> 类似Oracle中的SQL语句
    第四个阶段:Spark Streaming —> 进行实时计算(流式计算):比如:自来水厂                
(4)Apache Storm:类似Spark Streaming —> 进行实时计算(流式计算):比如:自来水厂
     NoSQL:Redis基于内存的数据库

之后跟我一起来一点一滴认识和了解大数据的各种工具(Hadoop家族)

 

喜欢的朋友点个赞哦~~

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 举报,一经查实,本站将立刻删除。

发布者:全栈程序员-用户IM,转载请注明出处:https://javaforall.cn/140310.html原文链接:https://javaforall.cn

【正版授权,激活自己账号】: Jetbrains全家桶Ide使用,1年售后保障,每天仅需1毛

【官方授权 正版激活】: 官方授权 正版激活 支持Jetbrains家族下所有IDE 使用个人JB账号...

(0)


相关推荐

  • Android模拟器开发_安卓模拟器开发

    Android模拟器开发_安卓模拟器开发更多例子:https://code.google.com/p/playn/wiki/DemoLinksgameplay–http://gameplay3d.org/index.php旨在帮助独立游戏开发的生态系统,开源的跨平台的3D引擎支持BlackBerry10、PlayBook、AppleiOS5+、AndroidNDK2.3+、MicrosoftWindows7、AppleMacOSX、Linux完整着色系统,基于节点的场景图形系统,粒子系统,Fullfeatured

  • 数据结构中的elemtype、elem是什么

    数据结构中的elemtype、elem是什么ElemType是数据结构的书上为了说明问题而用的一个词。它是elementtype(“元素的类型”)的简化体。 因为数据结构是讨论抽象的数据结构和算法的,一种结构中元素的类型不一定是整型、字符型、浮点型或者用户自定义类型,为了不重复说明,使用过程中用“elemtype”代表所有可能的数据类型,简单明了的概括了整体。在算法中,除特别说明外,规定ElemType的默认是int型。elem是单词…

  • mac开发php集成环境「建议收藏」

    mac开发php集成环境「建议收藏」    我是一个使用mac开发的phper,虽然使用mac开发也就不到一年,但是mac上的一些技巧还是掌握的不错的,但实际开发中光有操作技巧是不行的,环境的效率也是很重要的,因为之前一直使用homestead 虚拟机,刚开始还没感觉它有多慢,但是后来感觉homestead真是太慢了,当然这可能也跟电脑的性能有关,我经常启动好几个虚拟机,在上面跑windows系统。…

  • ribbon自定义负载均衡策略,应用所有服务_dubbo的负载均衡策略

    ribbon自定义负载均衡策略,应用所有服务_dubbo的负载均衡策略Ribbon默认的负载均衡策略默认的有下面几种:我们也可以自定义负载均衡策略:修改springcloud-consumer-dept-80的主启动类:下面开始编写自定义配置类MySelfRule,但这个类不能乱放!官方文档给出警告:这个自定义的类不能放在@ComponentScan所扫描的当前包以及子包下,否则我们自定义的这个配置类就会被所有的Ribbon客户端所共享,也就是我们达…

    2022年10月13日
  • win10 Maven配置环境变量问题

    win10 Maven配置环境变量问题win10配置环境变量相比win7而言出现的问题要多点,不过基本的配置差不多:你可以选择配置JAVA_HOME,也可以选择不配置.但在path里面的位置就很有讲究.我这边是放在第二个.是因为我放在最后一个的时候cmd命令中mvn-v显示不是内部命令,证明没有配置好.不同电脑有不同的位置,可以从第一个开始放,依次往下尝试,就不会有问题.

  • varchar2 类型「建议收藏」

    varchar2 类型「建议收藏」1、varchar2在数据库表中的最大长度是4000bytesorcharacter,在oracleplsqlvarchar2最大支持长度为32767个字节SQL>declare 2       v_varvarchar2(32767); 3     begin 4       null; 5     end; 6     /

发表回复

您的电子邮箱地址不会被公开。

关注全栈程序员社区公众号