Java大数据学习01-大数据的本质及学习顺序介绍

Java大数据学习01–大数据的本质及学习顺序介绍

全栈程序员-用户IM • 2022年5月28日下午1:00 • 未分类

大家好，又见面了，我是你们的朋友全栈君。

随着互联网的使用人数越来越多，产生的数据也越来越多。根据数据我们可以分析出很多有用的信息。这也就是当前为什么大数据这么火的行为。

学习大数据有很多种方式，但我们学习的载体是以目前最普遍，最流行的Java语言来进行学习。

下面我们进入正题：

1、首先是大数据的本质：

大数据的本质无非两条：大数据的存储（Hadoop）和大数据的计算（Spark）

存储：由于数据量巨大，把所有数据存在一个机器中是不现实的，容量不够而且也不安全。所以必须要用分布式的文件系统来进行存储。

计算：使用分布式计算。

2、学习路线：

（1）Java基础和Linux基础
（2）Hadoop的学习：体系结构、原理、编程
   第一阶段：HDFS（分布式文件管理系统）、MapReduce（分布式运算编程框架）、Yarn（运算资源调度系统）、HBase（NoSQL数据库）
   第二阶段：数据分析引擎 —> Hive、Pig
              数据采集引擎 —> Sqoop（hadoop与传统数据库导入导出数据的接口：数据库中<==>HDFS）、Flume（日志收集工具：将大规模流数据导入HDFS）
   第三阶段：HUE：Web管理工具
              ZooKeeper：实现Hadoop的HA
              Oozie：工作流引擎
（3）Spark的学习
   第一个阶段：Scala编程语言
   第二个阶段：Spark Core—–> 基于内存，数据的计算
   第三个阶段：Spark SQL —–> 类似Oracle中的SQL语句
   第四个阶段：Spark Streaming —> 进行实时计算（流式计算）：比如：自来水厂
（4）Apache Storm：类似Spark Streaming —> 进行实时计算（流式计算）：比如：自来水厂
   NoSQL：Redis基于内存的数据库

之后跟我一起来一点一滴认识和了解大数据的各种工具（Hadoop家族）

喜欢的朋友点个赞哦~~

发布者：全栈程序员-用户IM，转载请注明出处：https://javaforall.cn/140310.html原文链接：https://javaforall.cn

【正版授权，激活自己账号】： Jetbrains全家桶Ide使用，1年售后保障，每天仅需1毛

【官方授权正版激活】： 官方授权正版激活支持Jetbrains家族下所有IDE 使用个人JB账号...

Java大数据学习01–大数据的本质及学习顺序介绍

相关推荐

Android模拟器开发_安卓模拟器开发

数据结构中的elemtype、elem是什么

mac开发php集成环境「建议收藏」

ribbon自定义负载均衡策略,应用所有服务_dubbo的负载均衡策略

win10 Maven配置环境变量问题

varchar2 类型「建议收藏」

发表回复