2019是数据中台的元年,但是数据中台为啥突然火了?
数据中台被誉为大数据的下一站,由阿里兴起,核心思想是数据共享,并在 2018 年因为“腾讯数据中台论”再度成为了人们谈论的焦点。在 3 月 15 日 ThoughtWorks 技术雷达峰会上,关于数据中台的话题也获得了众多参会者的热烈关注。
数据中台的概念是最早由阿里巴巴首次提出,是为了应对像双十一这样的业务高峰、应对大规模数据的线性可扩展问题、应对复杂业务系统的解耦问题,而在技术、组织架构等方面采取的一些变革,其本质上还是一个平台,阿里称之为“共享服务平台(Shared Platform as Service,SPAS)”。SPAS采用的是基于面向服务的架构SOA理念的 “去中心化”的服务架构,所有的服务都是以“点对点”的方式进行交互。阿里之所以选择“去中心化”的分布式服务架构,主要是考虑到扩展性。
数据中台是指通过数据技术,对海量数据进行采集、计算、存储、加工,同时统一标准和口径。
数据中台把数据统一之后,会形成标准数据,再进行存储,形成大数据资产层,进而为客户提供高效服务。这些服务跟企业的业务有较强的关联性,是这个企业独有的且能复用的,它是企业业务和数据的沉淀,其不仅能降低重复建设、减少烟囱式协作的成本,也是差异化竞争优势所在。
数据中台建设的基础还是数据仓库和数据中心,并且在数仓模型的设计上也是一脉传承,之所以我们现在处处推崇数据中台建设及应用,一个是因为数据中台确实有过人之处,另一个是这套模型在阿里体现了巨大的应用价值。
数据中台跟之前大数据平台最大的区别,在于数据中台距离业务更近,能更快速地响应业务和应用开发的需求,可追溯,更精准。
数据中台最核心的是OneData体系。这个体系实质上是一个数据管理体系,包括全局数据仓库规划、数据规范定义、数据建模研发、数据连接萃取、数据运维监控、数据资产管理工具等。数据仓库是为企业所有级别的决策制定过程,提供所有类型数据支持的战略集合,出于分析性报告和决策支持目的而创建。
数据中台是一个数据集成平台,它不仅仅是为数据分析挖掘而建,它更重要的功能是作为各个业务的数据源,为业务系统提供数据和计算服务。数据中台的本质就是“数据仓库+数据服务中间件”。中台构建这种服务时是考虑到可复用性的,每个服务就像一块积木,可以随意组合,非常灵活,有些个性化的需求在前台解决,这样就避免了重复建设,既省时、省力,又省钱。
数据中台是建立在分布式计算平台和存储平台,理论上可以无限扩充平台的计算和存储能力。而多数的传统数仓工具都是建立的单机的基础上,一旦数据量变大,会受单机容量的限制。
数据中台构成
“数据中台”一般包含以下几个部分:
- 数据仓库:用来存储数据的,结构性数据、非结构性数据等,还有离线数据和实时数据等;
- 大数据中间件:包含了大数据计算服务、大数据研发套件、数据分析及展现工具;
- 数据资产管理:按照阿里的体系应该分为垂直数据、公共数据和萃取数据3层;
数据中台解决的问题可以总结为如下三点:
- 效率问题:为什么应用开发增加一个报表,就要十几天时间?为什么不能实时获得用户推荐清单?当业务人员对数据产生一点疑问的时候,需要花费很长的时间,结果发现是数据源的数据变了,最终影响上线时间。
- 协作问题:当业务应用开发的时候,虽然和别的项目需求大致差不多,但因为是别的项目组维护的,所以数据还是要自己再开发一遍。
- 能力问题:数据的处理和维护是一个相对独立的技术,需要相当专业的人来完成,但是很多时候,我们有一大把的应用开发人员,而数据开发人员很少。
这三类问题都会导致应用开发团队变慢。这就是中台的关键——让前台开发团队的开发速度不受后台数据开发的影响。
数据中台的出现,解决的是数据存储、连通和使用中所遇到的种种问题,如数据孤岛、数据治理、数据共享等等。
通过打通多源异构数据,统一治理、管理企业数据,数据中台可以让数据高效可用,为企业业务提供支持、为客户提供高效服务。
与传统数据库相比,数据中台还有一个重要的优点:提升人及其组织的生产效率。
数据中台最初诞生的初衷是解决组织膨胀所造成的效率下降问题。具体业务的开展需要技术、产品、市场等各个方面的支持,对于大型公司来说,这些基础支持工作会有很大程度上的重复。部门内部、部门间的协调颇为耗费精力,不仅信息无法共享,资源也会被浪费。
一个数据全面、技术能力过硬、可以统一调用的数据中台,能够为业务线提供统一支持,同时帮助企业精简业务团队配置,实现「扁平化」。管理效率和组织运作效率都可以得到提升,业务也更敏捷灵活。
Data API 是数据中台的核心,它是连接前台和后台的桥梁,通过 API 的方式提供数据服务,而不是直接把数据库给前台、让前台开发自行使用数据。
数据处理需求的演进历程
数据中台的核心理念在于“数据取之于业务,用之于业务”,即它相比于数据平台注重的是对业务的积累和沉淀,构建了从数据生产到消费,消费后产生的数据再回流到生产流程的闭环过程。
数据中台和数据仓库、数据平台的关键区别
概括地说,三者的关键区别有以下几方面:
- 数据中台是企业级的逻辑概念,体现企业 D2V(Data to Value)的能力,为业务提供服务的主要方式是数据 API;
- 数据仓库是一个相对具体的功能概念,是存储和管理一个或多个主题数据的集合,为业务提供服务的方式主要是分析报表;
- 数据平台是在大数据基础上出现的融合了结构化和非结构化数据的数据基础平台,为业务提供服务的方式主要是直接提供数据集;
- 数据中台距离业务更近,为业务提供速度更快的服务;
- 数据仓库是为了支持管理决策分析,而数据中台则是将数据服务化之后提供给业务系统,不仅限于分析型场景,也适用于交易型场景;
- 数据中台可以建立在数据仓库和数据平台之上,是加速企业从数据到业务价值的过程的中间层。
数据仓库具有历史性,其中存储的数据大多是结构化数据,这些数据并非企业全量数据,而是根据需求针对性抽取的,因此数据仓库对于业务的价值是各种各样的报表,但这些报表又无法实时产生。数据仓库报表虽然能够提供部分业务价值,但不能直接影响业务。
数据平台的出现是为了解决数据仓库不能处理非结构化数据和报表开发周期长的问题,所以先撇开业务需求、把企业所有的数据都抽取出来放到一起,成为一个大的数据集,其中有结构化数据、非结构化数据等。当业务方有需求的时候,再把他们需要的若干个小数据集单独提取出来,以数据集的形式提供给数据应用。
而数据中台是在数据仓库和数据平台的基础上,将数据生产为为一个个数据 API 服务,以更高效的方式提供给业务。
数据中台优势:
- 灵活,随意组合
- 避免重复建设
- 通用业务能力沉淀,前台减负
- 统一服务接口,提升运营效率
建设数据中台的挑战及应对策略
数据中台建设面临的挑战包括:
- 梳理业务场景:搞清楚数据中台如何对业务产生价值。
- 建设数据中台的优先级策略:需求可能大而全,但我们不能直接建大而全的数据中台,应该根据业务重要性来排需求的优先级。
- 数据治理问题:和业务独立开的数据治理少有成功的,大的数据标准要有(数据资产目录),通过数据资产目录将共有的纬度、共性的业务模型提炼出来,在此基础之上数据治理需要跟业务场景紧密结合。
数据中台团队和技术选型
数据中台团队通常需要包含以下角色:
- 业务专家团队:了解业务、梳理业务场景,确定数据资产与业务场景的一一对应关系,确定业务场景的优先级,为数据中台的建设提供依据。
- 数据工程团队:建设和维护数据中台,包括 ETL、数据采集,以及数据中台性能和稳定性保证,利用中台的工具采集、存储、加工、处理数据。
- 数据分析团队:分析数据价值、探索场景,生产更多的数据服务。
- 数据治理团队:梳理数据标准、构件数据安全和隐私规范,利用开源去中心化的数据治理工具(比如 atlas、wherehows)来围绕业务场景解决数据质量和安全问题。
- 智能算法团队:为数据分析、业务探索提供智能和算法工具。
数据中台的核心价值是什么
- 创新力—-帮助企业用数据思维激活行业沉淀,形成发展新动力。业务人员和技术人员需要从各自不同角度去发掘业务价值,并将业务价值转变为更接地气的用户角度的东西,易懂易用易理解,用户才会接受。
- 场景驱动—-外部环境及内部业务调整,快速适应不断变化的需求。场景驱动需要将被动变成主动,问题发生时,能够基于数据资产体系及服务体系的积累快速给出响应。
- 经验沉淀—-资产价值挖掘过程中,需将经验转换为数据资产体系的一部分。业务方通过对场景的理解,快速选择所需的数据能力验证数据价值,验证过程及结果数据,做为数据资产沉淀的重要部分,回馈到数据中台中,做为持续优化的关键能力。
从以上三点,我们可看出数据中台依托的是企业的内外部的业务需求驱动,自身创新挖掘以及根据业务场景进行驱动创新来赋能业务应用,这个过程是一个循环的过程,需要将这种过程资产形成经验积累下来,以此更好的打造数据中台的适应能力。
出处:https://zhuanlan.zhihu.com/p/88537265
发布者:全栈程序员-用户IM,转载请注明出处:https://javaforall.cn/119542.html原文链接:https://javaforall.cn
【正版授权,激活自己账号】: Jetbrains全家桶Ide使用,1年售后保障,每天仅需1毛
【官方授权 正版激活】: 官方授权 正版激活 支持Jetbrains家族下所有IDE 使用个人JB账号...