HADOOP生态圈以及各组成部分的简介

HADOOP生态圈以及各组成部分的简介HADOOP生态圈以及各组成部分的简介1各组件简介重点组件:HDFS:分布式文件系统MAPREDUCE:分布式运算程序开发框架HIVE:基于大数据技术(文件系统+运算框架)的SQL数据仓库工具HBASE:基于HADOOP的分布式海量数据库ZOOKEEPER:分布式协调服务基础组件Mahout:基于mapreduce/spark/flink等分布式运算框架的机器学习算法库Oozie…

大家好,又见面了,我是你们的朋友全栈君。

HADOOP生态圈以及各组成部分的简介

在这里插入图片描述

1各组件简介
重点组件:
HDFS:分布式文件系统
MAPREDUCE:分布式运算程序开发框架
HIVE:基于大数据技术(文件系统+运算框架)的SQL数据仓库工具

HBASE:基于HADOOP的分布式海量数据库
ZOOKEEPER:分布式协调服务基础组件
Mahout:基于mapreduce/spark/flink等分布式运算框架的机器学习算法库
Oozie:工作流调度框架(Azakaba)
Sqoop:数据导入导出工具
Flume:日志数据采集框架
2. 数据分析流程介绍

初步理解hadoop数据如何处理流程

一个应用广泛的数据分析系统:“web日志数据挖掘”
在这里插入图片描述
2.1 案例需求描述
“Web点击流日志”包含着网站运营很重要的信息,通过日志分析,我们可以知道网站的访问量,哪个网页访问人数最多,哪个网页最有价值,广告转化率、访客的来源信息,访客的终端信息等。
2.2 数据来源
本案例的数据主要由用户的点击行为记录
获取方式:在页面预埋一段js程序,为页面上想要监听的标签绑定事件,只要用户点击或移动到标签,即可触发ajax请求到后台servlet程序,用log4j记录下事件信息,从而在web服务器(nginx、tomcat等)上形成不断增长的日志文件。
2.3 数据流程解析
本案例跟典型的BI系统极其类似,整体流程如下:
在这里插入图片描述
但是,由于本案例的前提是处理海量数据,因而,流程中各环节所使用的技术则跟传统BI完全不同,后续课程都会一一讲解:

  1. 数据采集:定制开发采集程序,或使用开源框架FLUME
  2. 数据预处理:定制开发mapreduce程序运行于hadoop集群
  3. 数据仓库技术:基于hadoop之上的Hive
  4. 数据导出:基于hadoop的sqoop数据导入导出工具
  5. 数据可视化:定制开发web程序或使用kettle等产品
  6. 整个过程的流程调度:hadoop生态圈中的oozie工具或其他类似开源产品
    2.4 项目技术架构图在这里插入图片描述2.5 项目最终效果
    经过完整的数据处理流程后,会周期性输出各类统计指标的报表,在生产实践中,最终需要将这些报表数据以可视化的形式展现出来,本案例采用web程序来实现数据可视化
    效果如下所示:
    在这里插入图片描述
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 举报,一经查实,本站将立刻删除。

发布者:全栈程序员-用户IM,转载请注明出处:https://javaforall.cn/143628.html原文链接:https://javaforall.cn

【正版授权,激活自己账号】: Jetbrains全家桶Ide使用,1年售后保障,每天仅需1毛

【官方授权 正版激活】: 官方授权 正版激活 支持Jetbrains家族下所有IDE 使用个人JB账号...

(0)


相关推荐

  • unity和solidarity的区别_交互分配法对内分配

    unity和solidarity的区别_交互分配法对内分配Unity调用so文件中的方法,配合一个简单的实例,简单的介绍了Unity端是如何调用so文件的。该文是系列文章,前面两篇对so基本概述和如何在AndroidStudio中生成so文件做了一个介绍,想了解的可以去参考下!

  • 猴子摘香蕉_猴子香蕉游戏下载

    猴子摘香蕉_猴子香蕉游戏下载注意:不是严格按照一阶谓词逻辑写法,仅供参考题目:房内有一个猴子,一个箱子,天花板挂了一串香蕉,其位置如图所示。猴子为了拿到香蕉,它必须把箱子搬到香蕉下面,然后再爬到箱子上。请定义必要的谓词,列出问题的初始化状态(即下图所示状态),目标状态(猴子拿到了香蕉,站在箱子上,箱子位于位置b)步骤:1、定义描述环境状态的谓词AT(x,y)x在y处x={monke…

  • IDEA打包jar包详尽流程

    IDEA打包jar包详尽流程打包流程1.打开菜单栏File-ProjectStructure2.点击Artifacts3.点击”+”-JAR-Frommodulewithdepenencies4.后弹出如下界面,自此开始,各种问题就来了首先Module中,我SocketDemo的Module含有SocketDemo、SocketDe…

  • oracle修改数据库用户名密码,怎样修改oracle数据库的用户名密码[通俗易懂]

    oracle修改数据库用户名密码,怎样修改oracle数据库的用户名密码[通俗易懂]对于不经常使用数据库的同学们来说,忘记用户名密码是很常见的一件事。下面就让学习啦小编给大家说说怎样修改oracle数据库的用户名密码吧。修改oracle数据库用户名密码的方法进入cmd命令界面(快捷键是win+R)。修改管理员用户密码(一):在命令界面输入sqlplus“/assysdba”即可以管理员身份链接成功。修改管理员用户密码(二):在SQL命令界面输入alterusersyste…

  • httprunner(5)编写测试用例「建议收藏」

    httprunner(5)编写测试用例「建议收藏」编写测试用例HttpRunnerv3.x支持三种测试用例格式pytest,YAML和JSON。官方强烈建议以pytest格式而不是以前的YAML/JSON格式编写和维护测试用例格式关系如下图所示

  • Mac系统Unity3D中的快捷键

    Mac系统Unity3D中的快捷键command+N新建场景command+O打开场景command+S保存场景Shift+command+S场景另存为Shift+command+B编译设置command+B编译并运行command+zUndo撤销shift+command+zRedo撤销command+XCut剪切command

发表回复

您的电子邮箱地址不会被公开。

关注全栈程序员社区公众号