大家好,又见面了,我是你们的朋友全栈君。
随着互联网的使用人数越来越多,产生的数据也越来越多。根据数据我们可以分析出很多有用的信息。这也就是当前为什么大数据这么火的行为。
学习大数据有很多种方式,但我们学习的载体是以目前最普遍,最流行的Java语言来进行学习。
下面我们进入正题:
1、首先是大数据的本质:
大数据的本质无非两条:大数据的存储(Hadoop)和大数据的计算(Spark)
存储:由于数据量巨大,把所有数据存在一个机器中是不现实的,容量不够而且也不安全。所以必须要用分布式的文件系统来进行存储。
计算:使用分布式计算。
2、学习路线:
(1)Java基础和Linux基础
(2)Hadoop的学习:体系结构、原理、编程
第一阶段:HDFS(分布式文件管理系统)、MapReduce(分布式运算编程框架)、Yarn(运算资源调度系统)、HBase(NoSQL数据库)
第二阶段:数据分析引擎 —> Hive、Pig
数据采集引擎 —> Sqoop(hadoop与传统数据库导入导出数据的接口:数据库中<==>HDFS)、Flume(日志收集工具:将大规模流数据导入HDFS)
第三阶段:HUE:Web管理工具
ZooKeeper:实现Hadoop的HA
Oozie:工作流引擎
(3)Spark的学习
第一个阶段:Scala编程语言
第二个阶段:Spark Core—–> 基于内存,数据的计算
第三个阶段:Spark SQL —–> 类似Oracle中的SQL语句
第四个阶段:Spark Streaming —> 进行实时计算(流式计算):比如:自来水厂
(4)Apache Storm:类似Spark Streaming —> 进行实时计算(流式计算):比如:自来水厂
NoSQL:Redis基于内存的数据库
之后跟我一起来一点一滴认识和了解大数据的各种工具(Hadoop家族)
喜欢的朋友点个赞哦~~
发布者:全栈程序员-用户IM,转载请注明出处:https://javaforall.cn/140310.html原文链接:https://javaforall.cn
【正版授权,激活自己账号】: Jetbrains全家桶Ide使用,1年售后保障,每天仅需1毛
【官方授权 正版激活】: 官方授权 正版激活 支持Jetbrains家族下所有IDE 使用个人JB账号...