hive建表并添加数据_hive和mysql的关系

全栈程序员-用户IM • 2022年10月31日下午8:46 • 未分类

大家好，又见面了，我是你们的朋友全栈君。如果您正在找激活码,请点击查看最新教程,关注关注公众号 “全栈程序员社区” 获取激活教程,可能之前旧版本教程已经失效.最新Idea2022.1教程亲测有效,一键激活。

Jetbrains全家桶1年46，售后保障稳定

在使用hive进行开发时，我们往往需要获得一个已存在hive表的建表语句(DDL),然而hive本身并没有提供这样一个工具。

要想还原建表DDL就必须从元数据入手，我们知道，hive的元数据并不存放在hdfs上，而是存放在传统的RDBMS中，典型的如mysql，derby等，这里我们以mysql为元数据库，结合0.4.2版本的hive为例进行研究。

连接上mysql后可以看到hive元数据对应的表约有20个，其中和表结构信息有关的有9张，其余的10多张或为空，或只有简单的几条记录，以下是部分主要表的简要说明。

表名

说明

关联键

TBLS

所有hive表的基本信息

TBL_ID,SD_ID

TABLE_PARAM

表级属性，如是否外部表，表注释等

TBL_ID

COLUMNS

Hive表字段信息(字段注释，字段名，字段类型，字段序号)

SD_ID

SDS

所有hive表、表分区所对应的hdfs数据目录和数据格式

SD_ID,SERDE_ID

SERDE_PARAM

序列化反序列化信息，如行分隔符、列分隔符、NULL的表示字符等

SERDE_ID

PARTITIONS

Hive表分区信息

PART_ID,SD_ID,TBL_ID

PARTITION_KEYS

Hive分区表分区键

TBL_ID

PARTITION_KEY_VALS

Hive表分区名(键值)

PART_ID

除了上面几张表外，还有两张表非常有趣:NUCLEUS_TABLES和SEQUENCE_TABLE

NUCLEUS_TABLES表中保存了元数据表和hive中class类的对应关系，如’org.apache.hadoop.hive.metastore.model.MTable’, ‘`TBLS`’，说明MTable类对应了元数据的TBLS表，不难想象当我们创建一张表时，hive一定会通过MTable的DAO模式向TBLS插入一条数据用来描述刚刚创建的hive表。NUCLEUS_TABLES表内现在共有17条这样的记录。

SEQUENCE_TABLE表保存了hive对象的下一个可用ID，如’org.apache.hadoop.hive.metastore.model.MTable’, 271786，则下一个新创建的hive表其TBL_ID就是271786，同时SEQUENCE_TABLE表中271786被更新为271791(这里每次都是+5而不是预料中的+1，有些奇怪)。同样，COLUMN，PARTITION等都有相应的记录。

从上面两张表的内容来看，hive表创建表的过程已经比较清楚了

解析用户提交hive语句，对其进行解析，分解为表、字段、分区等hive对象

根据解析到的信息构建对应的表、字段、分区等对象，从SEQUENCE_TABLE中获取构建对象的最新ID，与构建对象信息(名称，类型等)一同通过DAO方法写入到元数据表中去，成功后将SEQUENCE_TABLE中对应的最新ID+5。

实际上我们常见的RDBMS都是通过这种方法进行组织的，典型的如postgresql，其系统表中和hive元数据一样裸露了这些id信息(oid,cid等),而Oracle等商业化的系统则隐藏了这些具体的ID。

有了上面的信息，再想获得hive的建表语句已经是易如反掌了，这里提供一个已经开发好的脚本，使用shell开发，大家可以自由修改。注意:其中mysql连接信息请根据实际环境进行配置。

使用方法如下:

hivesql sql

hivesql synctab

如果需要多天分区DDL还可以这样用(前提是分区中含有日期信息，如pt=20100720):

hivesql sql s_table 20100702 — 除建表语句外，获得自20100702以来的分区DDL

hivesql sql s_table 20100702 20100725 — ………………………..自20100702-20100725的分区DDL

hivesql sql s_table 20100702 10 — ………………………..自20100702起10天的分区DDL

hivesql synctab和hivesql sql一样支持上述日期限定功能。

此外，还提供了两个附加的功能(也很有用呃)

hivesql loc — 根据关键字查找能够匹配到的hive表或对应的数据路径

hivesql hdfswc — 获取指定数据目录下所有数据的总行数，支持普通文本，TextFile和SequenceFile的压缩格式，类似于linux下的wc -l

分享到：

2011-03-22 15:35

1 楼

yugouai

2013-02-05

下载不了啊。。。

发布者：全栈程序员-用户IM，转载请注明出处：https://javaforall.cn/231313.html原文链接：https://javaforall.cn

【正版授权，激活自己账号】： Jetbrains全家桶Ide使用，1年售后保障，每天仅需1毛

【官方授权正版激活】： 官方授权正版激活支持Jetbrains家族下所有IDE 使用个人JB账号...

hive建表并添加数据_hive和mysql的关系

相关推荐

xman的思维导图快捷键_macz技巧分享：思维导图XMind快捷键汇总「建议收藏」

龙族h路明非和诺诺_龙族六

burp suite使用教程（抓包，截包，改包）

.NET软件工程师网络在线培训就业课程「建议收藏」

POE设计实战_python异步执行

word2vec训练中文词向量

发表回复