大数据平台建设路径

大数据平台建设路径数字化转型这几年成为了集团公司或大型企业寻求业务突破的重要手段,而且各行各业都不乏成功案例,例如金融行业的建设银行、招商银行、平安保险等,还有一些生动的例子,例如百丽鞋业。而国外的经典案例就是亚马逊和特斯拉。集团客户动静都很大,首先要做咨询规划,必须跟上投入和管理配套,然后可以开始平台建设,最终开始应用,赋能各业务线和产品线。从技术的角度,一个完整的大数据平台通常会三期建设。先看下图:蓝色部分是第一期内容,绿色部分是第二期内容,橙色部分是第三期内容。第一步,先建设大数据基础平台。首要满足的是数据汇聚

大家好,又见面了,我是你们的朋友全栈君。

数字化转型这几年成为了集团公司或大型企业寻求业务突破的重要手段,而且各行各业都不乏成功案例,例如金融行业的建设银行、招商银行、平安保险等,还有一些生动的例子,例如百丽鞋业。而国外的经典案例就是亚马逊和特斯拉。

集团客户动静都很大,首先要做咨询规划,必须跟上投入和管理配套,然后可以开始平台建设,最终开始应用,赋能各业务线和产品线。

从技术的角度,一个完整的大数据平台通常会三期建设。先看下图:蓝色部分是第一期内容,绿色部分是第二期内容,橙色部分是第三期内容。
在这里插入图片描述

第一步,先建设大数据基础平台。首要满足的是数据汇聚、数据存储、数据计算三大块功能,也是最内核的功能。主要内容有数据仓库组建、数据抽取(ETL)、作业调度、数据服务、以及应对大规模节点和集群的监控运维管理功能等。当然还应包含用户、权限、数量统计等基础功能。根据目标数据量和SQL复杂度(例如多表JOIN)来规划采购内容,功能全、系统稳定、性能高、价格合理是技术产品选型的核心考量。这两年和长远看还要考虑国产化和信创。

第二步,基于大数据基础平台建设数据治理等功能。目标是把汇聚进来的海量数据,往往又是异构的数据经过预处理,再进一步进行数据治理和数据管理(二者区别参看CMMI的DMM)。主要内容有元数据管理、数据资产管理、数据质量管理、数据标准管理,以及数据全生命周期管理和必不可少的数据安全等。这里值得探讨的是,做平台的公司往往具备很强的抽象归纳能力,做的是下层的通用能力部分;但这部分内容往往还需要结合行业应用,有些行业侧的供应商也具备上层的行业侧定制化能力,并已经或初步形成了自己的产品。但若论通用能力设计和保障,特别是到十亿条(TB级别)以上数据量的分布式计算(JOIN等),还是需要硬核产品,这就自然而然来到了双方合作的契合点。

第三步,扩建大数据平台创新应用。主要内容是人工智能(包含机器学习和深度学习)、知识谱图(图数据库)、流计算和消息队列等。当然人工智能和图数据库本身也是硬核技术,也可以是平台,这要看所在公司的产品定位和赛道。而从数据智能这个角度看,数据仓库是底座,人工智能和知识图谱都算是一个应用,基于数据仓库优秀的算力,来挖掘数据间隐藏的数据关系,例如金融里的不带标签的反洗钱场景,公安行业的犯罪团伙多层关系网络挖掘。

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 举报,一经查实,本站将立刻删除。

发布者:全栈程序员-用户IM,转载请注明出处:https://javaforall.cn/131672.html原文链接:https://javaforall.cn

【正版授权,激活自己账号】: Jetbrains全家桶Ide使用,1年售后保障,每天仅需1毛

【官方授权 正版激活】: 官方授权 正版激活 支持Jetbrains家族下所有IDE 使用个人JB账号...

(0)


相关推荐

  • 增强的for语句可以方便地遍历数组_java遍历字符串

    增强的for语句可以方便地遍历数组_java遍历字符串增强for循环快捷键:iter+回车键。for增强for循环和普通for循环的区别普通for循环可以没有遍历的目标,增强for循环。缺点不能在这个增强循环里动态删除集合里面的内容,获取下标等。使用场景增强for循环主要就是为了方便遍历。…

  • 在Laravel中使用数据库事务以及捕获事务失败后的异常

    在Laravel中使用数据库事务以及捕获事务失败后的异常

  • MySQL修改表名和字段名大小写

    MySQL修改表名和字段名大小写mysql修改大小写问题

  • IP地址和子网划分例题详解

    IP地址和子网划分例题详解1、为什么要划分子网?IPv4地址如果只使用有类(A、B、C类)来划分,会造成大量的浪费或者不够用,为了解决这个问题,可以在有类网络的基础上,通过对IP地址的主机号进行再划分,把一部分划入网络号,就能划分各种类型大小的网络了。2、IPv4子网划分与聚合为了解决IPv4的不足,提高网络划分的灵活性,诞生了两种非常重要的技术,那就是VLSM(可变长子网掩码)和CIDR(无类别域间路由),把传统标准的IPv4有类网络演变成一个更为高效,更为实用的无类网络。关于VLSM和CIDR的介绍参考上篇子网掩码详解有

  • Node.js的安装及环境配置【超详细】

    Node.js的安装及环境配置【超详细】Step1:去官网下载安装包下载方式1:官网下载根据自己电脑系统及位数选择。注意:图中.msi和.zip格式区别:1、.msi是Windowsinstaller的数据包,实际上是一个数据库,提供安装,修改,卸载你所安装的程序。此外:它还包含有关安装过程本身的信息。例如:安装序列、目标文件夹路径、安装选项和控制安装过程的属性。2、.zip是一个压缩包,解压之后即可,不需要安装。…

  • 运营中心组织架构_微服务系统架构介绍

    运营中心组织架构_微服务系统架构介绍X:一个服务器不行就多来几个服务器Y:一个项目切成很多部分Z:将数据进行切分,使用不同的数据库SpringCloud配置注册中心:设置配置文件,首先改为yml文件开启后访问localhost:8761在Application里面就可以看到配置的注册中心了。但是在实际操作中,往往不用显示这个注册中心,所以在配置的时候加上一句话:再次开启,就没有了。…

发表回复

您的电子邮箱地址不会被公开。

关注全栈程序员社区公众号