大家好,又见面了,我是你们的朋友全栈君。
基于云计算与大数据应用开发的论述
作者: 虞XX
摘要: 云计算与大数据作为IT行业的顶尖技术,备受人们关注。在生活中大数据无处不在,社会上的各行各业都有着大数据留下的痕迹,可以说大数据很好的融入了我们的生活;因此,大数据对人类的社会生产和生活带来了重大而深远的影响;同时,大数据时代的来临,以及社会生产的需要,迫使我们需要及时了解关于大数据的基础、存储与管理、处理与分析以及相关应用。
关键词:云计算 大数据 大数据基础 大数据存储与管理 大数据处理与分析 大数据应用
正文:
前言:
大数据时代的来临,使全球的信息技术的发展产生了巨大的变革,且深深影响着全球人民;世界各国均高度重视大数据技术的研究和发展,企业也加大了对大数据研究的力度;大数据的影响力已经波及世界各个角落,所到之处,人们都感受到了来自于大数据独特的魅力
主体:
⑴大数据基础
2010年前后由云计算、大数据等技术的快速发展带来了第三次信息化浪潮,标志着大数据时代的来临;存储设备容量的不断增加、CPU处理能力的大幅提升、网络带宽的不断增加等信息科技领域的不断进步为大数据时代提供了技术支撑;而最终促进大数据时代来临的重要因素便是数据产生方式的变革。大数据也是慢慢发展而来的,它经历了萌芽期、成熟期和大规模应用期才达到了如今的规模;大数据之所以能得到社会的广泛认可,与它的数据量大、数据类型繁多、处理速度快以及价值密度低等显著特点有关;大数据发展的过程中,对科学研究、思维方式和社会发展都产生了重要而深远的影响;大数据的诸多特点使得它在各行各业中深受大家的喜爱,如今的大数据无处不在,各个领域都有广泛涉及。在了解大数据之后,人们会逐渐的对大数据的技术充满期待,发展到今日,大数据拥有了很多的技术,其中主要包括数据采集与预处理、数据存储和管理、数据处理与分析、数据安全和隐私保护等几个层面的内容;大数据也拥有自己的计算模式,如:批处理计算、流计算、图计算、查询分析计算等;一切与支撑大数据组织管理和价值发现相关的企业经济活动的集合都是大数据产业,其主要包含了IT基础设施层、数据源层、数据管理层、数据分析层、数据平台层和数据应用层;作为与大数据同样引起广泛关注的云计算与物联网,它们三者之间存在着怎样的关系呢?云计算实现了通过网络提供可伸缩的、廉价的分布式计算能力、用户只需要在具备网络接入条件的地方,就可以随时随地获得所需的各种IT资源;物联网是物物相连的互联网,它利用局部网络或互联网等通信技术把传感器、人员和物等通过新的方式连接在一起,形成人与物、物与物相连,实现信息化和远程控制;大数据、云计算、物联网三者相辅相成,同时又有各自的侧重点。
大数据处理架构Hadoop:Hadoop是一个开源的、可运行与大规模集群上的分布式计算平台,它实现了MapReduce计算模型和分布式文件系统HDFS等功能,在业内得到了广泛的应用,因此也成为了大数据的代名词;
⑵大数据存储与管理
分布式文件系统HDFS:HDFS(Hadoop Distributed File System)是针对谷歌开发的分布式文件系统GFS(Google file System)的开源的实现,它是Hadoop两大核心组成部分之一,提供了在廉价服务器集群中进行大规模分布式文件存储的能力;HDFS具有很好的容错能力,并且兼容廉价的硬件设备,因此可以以较低的成本利用现有机器实现大流量和大数据量的读写
分布式数据库Hbase:HBase是针对谷歌BigTable的开源实现,是一个高可靠、高性能、面向列、可伸缩的分布式数据库,主要用来存储非结构化和半结构化的松散数据。HBase可以支持超大规模数据存储,它可以通过水平扩展的方式,利用廉价的计算机集群处理超过10亿行数据和百万列元素组成的数据表
NoSQL数据库:NoSQL是对非关系型数据库的统称,它所采用的数据模型并非传统关系数据库的关系模型,而是类似键/值、列族、文档等非关系模型。NoSQL具有灵活的水平可扩展性,可以支持海量数据存储。并且支持MapReduce风格的编程,可以较好的应用于大数据时代的各种数据管理。
云数据库:云数据库是部署在云计算环境中的数据库,它是一种新兴的共享架构的方法,极大地增强了数据库的存储能力,消除了人员、硬件、软件的重复配置,让软、硬件升级更加容易,同时也虚化了许多后端功能。其具有高可扩展性、高可用性、采用多租形式和支持资源有效分发等特点。
⑶大数据处理与分析
MapReduce:MapReduce是一种并行编程模型,用于大规模数据集(大于1TB)的并行运算,它将复杂的、运行于大规模集群上的并行计算过程高度抽象到两个函数:即Map和Reduce。MapReduce的存在极大的方便了分布式编程工作,编程人员在不会分布式并行编程的情况下,也可以很容易将自己的程序运行在分布式系统上,完成海量数据集的计算。
Spark:Spark是一个可用于大规模数据处理的快速、通用引擎,其不仅具备Hadoop MapReduce的优点,且解决了Hadoop MapReduce的缺陷。Spark有着结构一体化、功能多元化的优势,具有运行速度快、容易使用、通用性强、运行模式多样等特点,因此Spark逐渐成为大数据邻域的热门大数据计算平台。
流计算:流计算平台实时获取来自不同数据源的海量数据,经过实时分析处理,获得有价值的信息,其观念是:数据的价值随着时间的流逝而降低,因此当事件出现时就应该立即处理,而不是缓存起来进行批量处理。流计算满足数据的需求需要有高性能、海量式、实时性、分布式、易用性、可靠性等特点
图计算:在大数据时代,许多大数据都是以大规模图或网络的形式呈现,因此产生了图计算框架,作为代表性作品的Pregel是一种基于BSP(Bulk Dynchronous Parallel)模型的并行图处理系统,为了解决大型图的分布式计算问题,Pregel搭建了一套可扩展的、有容错机制的平台,该平台提供了一套非常灵活的API,可以描述各种各样的图计算。
数据可视化:数据可视化是指将大型数据集中的数据以图像形式表示,并利用数据分析和开发工具发现其中未知信息的处理过程。数据可视化可以将枯燥的数据以简单的图表形式展现出来,可以让数据变得更加通俗易懂,有助于用户更加方便快捷的理解数据的深层次含义,有效参与复杂的数据分析过程,提升数据分析效率,改善数据分析效果。
⑷大数据的应用
大数据已经在社会生产和生活得到了广泛的应用,对人类社会的发展起着重要的推动作用。推荐系统是互联网邻域对大数据的具体使用,通过分析用户的历史数据来了解用户的需求和兴趣,从而将用户感兴趣的信息、物品等主动推荐给用户;流行病预测是生物医学邻域运用大数据的一个重要的应用,以搜索数据和地理位置信息为基础,分析不同时空尺度人口流动性,移动模式和参数,进一步结合医学、人口统计学、地理、气象和地域等多种信息,建立流行病时空传播模型,实时监控流行病,更好的预测和防范流行病。大数据在其他邻域也有广泛的应用,如:物流邻域中的智能物流,城市管理中的智能交通、环保监测、城市规划、安防邻域,金融行业中的风险分析,以及汽车行业、餐饮行业、电信行业、能源行业、安全邻域行业等。
总结:我们身处大数据时代,大数据已经触及世界每一个角落,并为我们带来诸多变化和方便。拥抱大数据,学习大数据,使用大数据是我们每个人的必然选择,我们每天都在不断生成各种数据,在我们贡献数据的同时,也从数据中获取价值。未来,是一个大数据的世界。
发布者:全栈程序员-用户IM,转载请注明出处:https://javaforall.cn/136363.html原文链接:https://javaforall.cn
【正版授权,激活自己账号】: Jetbrains全家桶Ide使用,1年售后保障,每天仅需1毛
【官方授权 正版激活】: 官方授权 正版激活 支持Jetbrains家族下所有IDE 使用个人JB账号...