大数据简介

大数据简介目录1、大数据概述传统数据处理介绍2、什么是大数据?(BigData)3、传统数据与大数据的对比4、大数据的特点数据集主要特点 其他特征 传统数据与大数据处理服务器系统安装对比5、大数据生态系统新技术6、大数据技术为什么快?大数据技术快的原因1、大数据概述 传统数据处理介绍 数据来源:…

大家好,又见面了,我是你们的朋友全栈君。

目录

1、大数据概述

2、什么是大数据?(Big Data)

3、传统数据与大数据的对比

4、大数据的特点

5、大数据生态系统

6、大数据技术为什么快?


1、大数据概述

       数据来源:

         1、企业内部管理系统 ,如员工考勤(打卡)记录。

          2、客户管理系统(CRM)

       数据特征:

         1、数据增长速度比较缓慢,种类单一。

         2、数据量为GB级别,数据量较小。

      数据处理方式:

         1、数据保存在数据库中。处理时以处理器为中心,应用程序到数据库中检索数据再进行计算(移动数据到程序端)

      遇到的问题:

         1、数据量越来越大、数据处理的速度越来越慢。

         2、数据种类越来越多,出现很多数据库无法存储的数据,如音频、照片、视频等。

2、什么是大数据?(Big Data)

          是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。

         是指一种规模大到在获取、存储、管理、分析方面大大超出了传统数据库软件工具能力范围的数据集合,具有海量的数据规模、快速的数据流转、多样的数据类型和价值密度低四大特征。

         数据的存储单位

         最小的基本单位是bit

         1 Byte =8 bit

         1 KB = 1,024 Bytes = 8192 bit

          KB —>MB—> GB —> TB —>PB—> EB —>ZB—>YB —> BB —>NB—> DB  进率1024

大数据简介

3、传统数据与大数据的对比

大数据简介

4、大数据的特点

        数据集主要特点

                Volume(大量):  数据量巨大,从TB到PB级别。

                Velocity(高速):  数据量在持续增加(两位数的年增长率)。

                Variety(多样):   数据类型复杂,超过80%的数据是非结构化的。

                Value(低密度高价值):  低成本创造高价值。

        其他特征

                数据来自大量源,需要做相关性分析。

                需要实时或者准实时的流式采集,有些应用90%写vs.10%读。

                数据需要长时间存储,非热点数据也会被随机访问。 

                传统数据与大数据处理服务器系统安装对比

 传统数据下服务器系统安装

        在传统数据背景下,服务器系统安装中,系统硬盘、数据硬盘完全隔离。通常会将多块数据硬盘制作成LVM(逻辑卷),即将多块物理硬盘通过软件技术“拼接”在一起形成一个大的硬盘(逻辑上是一个硬盘)。

大数据简介

大数据下服务器系统安装

        在大数据背景下,服务器系统安装中,系统硬盘、数据硬盘完全隔离。数据硬盘必须独立挂载,每个硬盘挂载到系统的一个独立的目录下。

大数据简介

5、大数据生态系统

        大数据:历史数据量逐渐攀升、新型数据类型逐渐增多。是企业必然会遇到的问题

        新技术:传统方式与技术无法处理大量、种类繁多的数据,需要新的技术解决新的问题。

        技术人员:有了问题,有了解决问题的技术,需要大量懂技术的人解决问题。

        最佳实践:解决 问题的方法,途径有很多,寻找最好的解决方法。

        商业模式:有了最好的解决办法,同行业可以复用,不同行业可以借鉴,便形成了商业模式。

大数据简介

新技术

        HADOOP

                HDFS:       海量数据存储。

                YARN:       集群资源调度。

                MapReduce:    历史数据离线计算。

        Hive:海量数据仓库。  

                Hbase:海量数据快速查询数据库。

                Zookeeper:集群组件协调。

        Impala:是一个能查询存储在Hadoop的HDFS和HBase中的PB级数据的交互式查询引擎。

        Kudu:是一个既能够支持高吞吐批处理,又能够满足低延时随机读取的综合组件

                Sqoop:数据同步组件(关系型数据库与hadoop同步)。

                Flume :海量数据收集。

        Kafka:消息总线。

        Oozie:工作流协调。

        Azkaban: 工作流协调。

        Zeppelin: 数据可视化。

        Hue: 数据可视化。

        Flink:实时计算引擎。

        Kylin: 分布式分析引擎,提供Hadoop/Spark之上的SQL查询接口及多维分析。

        Elasticsearch: 是一个分布式多用户能力的全文搜索引擎。

        Logstash: 一个开源数据搜集引擎。

        Kibana: 一个开源的分析和可视化平台。

        SPARK   SparkCore:Spark 核心组件

        SparkSQL:高效数仓SQL引擎

        Spark Streaming: 实时计算引擎

        Structured: 实时计算引擎2.0

        Spark MLlib:机器学习引擎

        Spark GraphX:图计算引擎

6、大数据技术为什么快?

传统数据与大数据处理方式对比

大数据简介

纵向扩展:

        表示在需要处理更多负载时通过提高单个系统处理能力的方法来解决问题。最简单的情况就是为应用系统提供更为强大的硬件。例如如果数据库所在的服务器实例只有2G内存、低配CPU、小容量硬盘,进而导致了数据库不能高效地运行,那么我们就可以通过将该服务器的内存扩展至8G、更换大容量硬盘或者更换高性能服务器来解决这个问题

横向扩展

        是将服务分割为众多的子服务并在负载平衡等技术的帮助下在应用中添加新的服务实例

        例如如果数据库所在的服务器实例只有一台服务器,进而导致了数据库不能高效地运行,那么我们就可以通过增加服务器数量,将其构成一个集群来解决这个问题。

资源集中(计算与存储)

        集中式计算:数据计算几乎完全依赖于一台中、大型的中心计算机的处理能力。和它相连的终端(用户设备)具有各不相同的智能程度。实际上大多数终端完全不具有处理能力,仅仅作为一台输入输出设备使用。

        集中式存储:指建立一个庞大的数据库,把各种信息存入其中,各种功能模块围绕信息库的周围并对信息库进行录入、修改、查询、删除等操作的组织方式。

分布式(计算与存储)

        分布式计算:是一种计算方法,是将该应用分解成许多小的部分,分配给多台计算机进行处理。这样可以节约整体计算时间,大大提高计算效率。

        分布式存储:是一种数据存储技术,通过网络使用企业中的每台机器上的磁盘空间,并将这些分散的存储资源构成一个虚拟的存储设备,数据分散的存储在企业的各个角落,多台服务器。

大数据技术快的原因

         1、分布式存储

         2、分布式并行计算

         3、移动程序到数据端

         4、更前卫、更先进的实现思路

         5、更细分的业务场景

         6、更先进的硬件技术+更先进的软件技术

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 举报,一经查实,本站将立刻删除。

发布者:全栈程序员-用户IM,转载请注明出处:https://javaforall.cn/136197.html原文链接:https://javaforall.cn

【正版授权,激活自己账号】: Jetbrains全家桶Ide使用,1年售后保障,每天仅需1毛

【官方授权 正版激活】: 官方授权 正版激活 支持Jetbrains家族下所有IDE 使用个人JB账号...

(0)


相关推荐

  • js弹出确认取消对话框_jquery弹出确定取消框

    js弹出确认取消对话框_jquery弹出确定取消框一种:<ahref="javascript:if(confirm('确实要删除该内容吗?')){location='http://www.google.co

  • linux卸载javajdk_tomcat拒绝连接

    linux卸载javajdk_tomcat拒绝连接–卸载jdk–查看jdk安装包名称rpm-qa|grepjdk–卸载rpm-e`rpm-qa|grepjdk`(或rpm-e加上面rpm-qa|grepjdk显示的结果)–注释或删除环境变量vi/etc/profile#exportJAVA_HOME=/usr/java/jdk1.6.0_20#exportCLASSPATH=.;$…

  • GlassFish 总结

    GlassFish 总结##Glassfish简介Glassfish是一款Web应用服务器,和Tomcat一样,也是一款优秀的Servlet容器。##domin概念1、domain是Glassfish中,拥有独立端口的

  • 倒立摆及其应用//2021-2-23[通俗易懂]

    倒立摆及其应用//2021-2-23[通俗易懂]前言:以前搞电赛的时候搞过Pid平衡小车,倒立摆基本实现方法与平衡小车差不多,有一次刚院跑到实验室唠嗑,问你知不知道倒立摆的应用?我说不知道,他说航天火箭····,你们的这些常识太少了,落下这句话就走了,故为了解这些常识,有此小文。正文:一、倒立摆(invertedpendulum)1.概述倒立摆,InvertedPendulum,是典型的多变量、高阶次(有些还分几阶倒立摆【PID中涉及角度还有角速度这样来看多变量高阶层就不难理解了】),非线性、强耦合、自然不稳定系统。倒…

  • Android面试题总结【完整详细版本”一”】(含答案)

    Android面试题总结【完整详细版本”一”】(含答案)1、四大组件是什么?Activity【活动】:用于表现功能。 Service【服务】:后台运行服务,不提供界面呈现。 BroadcastReceiver【广播接收器】:用来接收广播。 ContentProvider【内容提供商】:支持在多个应用中存储和读取数据,相当于数据库。2、四个组件的生命周期?Activity生命周期图及Fragment生命周期图…

  • dsp定时器初始化程序C语言,C语言定时器实验

    dsp定时器初始化程序C语言,C语言定时器实验C语言定时器实验实验三C语言定时器实验一、实验目的1.进一步熟悉DSP的中断机制2.在掌握中断服务程序编写的基础上进一步熟悉定时器的运用3.进一步掌握如何编写DSP中断服务子程序二、实验设备1.具有USB接口的PC机一台2.USB仿真器一台3.ARM/DSP/FPGA实验箱一台三、实验原理本实验是在我们基本上掌握DSP中断机制的基础上,进一步学习如何在DSP内部实现定时器的正确操作以及定时器中…

发表回复

您的电子邮箱地址不会被公开。

关注全栈程序员社区公众号