大数据平台的元数据管理

大数据平台的元数据管理【概念解释】1,大数据平台——是指服务于大数据计算或存储的平台,包括大数据的计算集群(hive、spark、flink、storm等等)和存储集群(如hadoop、hbase等等)。2,大数据平台涉及的元数据——由大数据作业的业务逻辑直接读写处理的业务数据,都不是元数据,除此之外的数据都是元数据。例如数据表的schema信息、任务之间的血缘关系、任务的权限映射关系、数据的业务属性、数据占用的磁…

大家好,又见面了,我是你们的朋友全栈君。

概念解释

1,大数据平台——是指服务于大数据计算或存储的平台,包括大数据的计算集群(hive、spark、flink、storm等等)和存储集群(如hadoop、hbase等等)。
2,大数据平台涉及的元数据——由大数据作业的业务逻辑直接读写处理的业务数据,都不是元数据,除此之外的数据都是元数据。例如数据表的schema信息、任务之间的血缘关系、任务的权限映射关系、数据的业务属性、数据占用的磁盘空间等等。

为什么要做元数据管理

1,管理元数据的好处——有助于用户更高效地分析数据,有助于系统和业务的优化,有助于数据的安全管控,有助于数据生命周期的管理,有助于任务问题的排查,有助于数据质量的保证。
2,怎样发挥元数据的价值——元数据信息通过服务的形式(例如REST接口)提供给上下游系统使用。

哪些数据纳入元数据管理

这个问题也就是元数据管理到底是管理什么。对大数据开发平台来说,常见的元数据包括以下6点:
1,数据表的结构schema信息
(1) SQL或者NoSQL中的表视图信息,例如MySQL中可以通过SHOW CREATE TABLE table_name来获取表结构;hive中可以用HQL的SHOW PARTITIONS table_name获取该表的分区信息
(2) 表结构的变迁记录,例如mysql中的某表增/减了一个什么字段、修改了什么字段等信息
2,数据占用的磁盘空间
(1) 记录表数据占用的空间的大小以及增长趋势
(2) 新增了几张表、删除了几张表、创建了多少个分区
3,数据的读写记录
(1) 记录修改表的是什么人,以及什么时候修改的
(2) 记录哪些数据已经长时间没有被读取或更新了
4,数据的权限归属
(1) 哪些人有权限查阅数据
(2) 哪些人有权限管理数据
5,数据的血缘关系
(1) 数据的上游和下游是哪里,也就是数据从哪来的、将会用到哪里去
(2) 收集数据的血缘关系的作用——如果某数据有问题,可检查它的上游数据以便定位问题;也有助于理清处理这些数据的任务之间是如何互相依赖的
6,数据的业务属性
(1) 数据表做什么用的
(2) 数据表中各个字段的业务含义、统计方式
(3) 具体数据的业务部门归属
(4) 每个数据表分别是由哪位开发者负责的
(5) 脚本逻辑的变迁记录、变迁原因

如何收集元数据

上述元数据信息大部分需要人工录入,但是最好是整合到业务开发流程中,让它们成为业务开发的必须环节。比如说,在修改任务脚本时或修改表格schema时强制开发者填写。

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 举报,一经查实,本站将立刻删除。

发布者:全栈程序员-用户IM,转载请注明出处:https://javaforall.cn/140328.html原文链接:https://javaforall.cn

【正版授权,激活自己账号】: Jetbrains全家桶Ide使用,1年售后保障,每天仅需1毛

【官方授权 正版激活】: 官方授权 正版激活 支持Jetbrains家族下所有IDE 使用个人JB账号...

(0)


相关推荐

  • phpstorm2021激活码_在线激活「建议收藏」

    (phpstorm2021激活码)好多小伙伴总是说激活码老是失效,太麻烦,关注/收藏全栈君太难教程,2021永久激活的方法等着你。IntelliJ2021最新激活注册码,破解教程可免费永久激活,亲测有效,下面是详细链接哦~https://javaforall.cn/100143.htmlS32PGH0SQB-eyJsaWNlbnNlSWQi…

  • 计算机组成原理核心知识点总结&面试笔试要点[通俗易懂]

    作为一名计算机专业的学生,计算机组成原理、计算机网络、操作系统这三门课程可以说是专业核心基础课,是至关重要的,其内容是一名合格的coder所必备的知识集;非科班出身的程序员要是想要有所提升,也需要认真学习这三门课程,可以快速形成计算机知识的结构体系,理解计算机底层原理,在工作实践中可以借鉴优秀的设计;而且很多互联网公司在笔试和面试中都会涉及到这三门课程的知识点,因此我通过视频学习对这三门课程就行…

  • vbnet怎么连接access数据库(VB·Net视频)

    在向大家详细介绍VB.NETAccess数据库连接之前,首先让大家了解下VB.NET的简介,然后全面介绍VB.NETAccess数据库连接。VisualBasic.NET是从VisualBasic语言演变而来vb.net教程的,是一种为高效地生成类型安全和面向对象的应用程序而设计的语言。VisualBasic允许开发人员开发面向Windows、Web和移动设备的程序。与所有面向Microsoft.NETFramework的语言一样,使用VisualBasic编写的程序

  • 建立友好城市有什么用_算法基础课acwing下载

    建立友好城市有什么用_算法基础课acwing下载原题连接Palmia国有一条横贯东西的大河,河有笔直的南北两岸,岸上各有位置各不相同的N个城市。北岸的每个城市有且仅有一个友好城市在南岸,而且不同城市的友好城市不相同。每对友好城市都向政府申请在河上开辟一条直线航道连接两个城市,但是由于河上雾太大,政府决定避免任意两条航道交叉,以避免事故。编程帮助政府做出一些批准和拒绝申请的决定,使得在保证任意两条航线不相交的情况下,被批准的申请尽量多。输入格式第1行,一个整数N,表示城市数。第2行到第n+1行,每行两个整数,中间用1个空格隔开,分别表示南岸和

  • 任正非公开信深度解读:两年怎样改变了华为?「建议收藏」

    任正非公开信深度解读:两年怎样改变了华为?「建议收藏」任正非公开信深度解读:两年怎样改变了华为?

  • React项目的国际化

     最近做的react项目需要支持国际化,网上查了一下,发现一款很好的插件“react-intl-universal”,由阿里巴巴团队开发,这款插件是原先的国际化插件“react-intl”的升级版,“react-intl”因为一些“致命”缺陷现已被其取代,npm官网有罗列原因,有兴趣的可以去了解一下。下面具体介绍一下这款插件的使用方法。1.安装npminstallreact-i…

发表回复

您的电子邮箱地址不会被公开。

关注全栈程序员社区公众号