hive数据类型有哪些?[通俗易懂]

hive数据类型有哪些?[通俗易懂] 关系数据库里有表(table),分区,hive里也有这些东西,这些东西在hive技术里称为hive的数据模型。今天本文介绍hive的数据类型,数据模型以及文件存储格式。这些知识大家可以类比关系数据库的相关知识。  首先我要讲讲hive的数据类型。Hive支持两种数据类型,一类叫原子数据类型,一类叫复杂数据类型。  原子数据类型包括数值型、布尔型和字符串类型,具体如下表所示:基本数据类型类型…

大家好,又见面了,我是你们的朋友全栈君。如果您正在找激活码,请点击查看最新教程,关注关注公众号 “全栈程序员社区” 获取激活教程,可能之前旧版本教程已经失效.最新Idea2022.1教程亲测有效,一键激活。

Jetbrains全系列IDE使用 1年只要46元 售后保障 童叟无欺

 关系数据库里有表(table),分区,hive里也有这些东西,这些东西在hive技术里称为hive的数据模型。今天本文介绍hive的数据类型,数据模型以及文件存储格式。这些知识大家可以类比关系数据库的相关知识。

  首先我要讲讲hive的数据类型。

Hive支持两种数据类型,一类叫原子数据类型,一类叫复杂数据类型。

  原子数据类型包括数值型、布尔型和字符串类型,具体如下表所示:

基本数据类型

类型

描述

示例

TINYINT

1个字节(8位)有符号整数

1

SMALLINT

2字节(16位)有符号整数

1

INT

4字节(32位)有符号整数

1

BIGINT

8字节(64位)有符号整数

1

FLOAT

4字节(32位)单精度浮点数

1.0

DOUBLE

8字节(64位)双精度浮点数

1.0

BOOLEAN

true/false

true

STRING

字符串

‘xia’,”xia”

 

  由上表我们看到hive不支持日期类型,在hive里日期都是用字符串来表示的,而常用的日期格式转化操作则是通过自定义函数进行操作。

hive是用java开发的,hive里的基本数据类型和java的基本数据类型也是一一对应的,除了string类型。有符号的整数类型:TINYINTSMALLINTINTBIGINT分别等价于javabyteshortintlong原子类型,它们分别为1字节、2字节、4字节和8字节有符号整数。Hive的浮点数据类型FLOATDOUBLE,对应于java的基本类型floatdouble类型。而hiveBOOLEAN类型相当于java的基本数据类型boolean

  对于hiveString类型相当于数据库的varchar类型,该类型是一个可变的字符串,不过它不能声明其中最多能存储多少个字符,理论上它可以存储2GB的字符数。

Hive支持基本类型的转换,低字节的基本类型可以转化为高字节的类型,例如TINYINTSMALLINTINT可以转化为FLOAT,而所有的整数类型、FLOAT以及STRING类型可以转化为DOUBLE类型,这些转化可以从java语言的类型转化考虑,因为hive就是用java编写的。当然也支持高字节类型转化为低字节类型,这就需要使用hive的自定义函数CAST了。

  复杂数据类型包括数组(ARRAY)、映射(MAP)和结构体(STRUCT),具体如下表所示:

复杂数据类型

类型

描述

示例

ARRAY

一组有序字段。字段的类型必须相同

Array(1,2)

MAP

一组无序的键/值对。键的类型必须是原子的,值可以是任何类型,同一个映射的键的类型必须相同,值得类型也必须相同

Map(‘a’,1,’b’,2)

STRUCT

一组命名的字段。字段类型可以不同

Struct(‘a’,1,1,0)

 

下面我们看看hive使用复杂数据类型的实例,建表:

Create table complex(col1 ARRAY<INT>,

Col2 MAP<STRING,INT>,

Col3 STRUCT<a:STRING,b :INT,c:DOUBLE>);

查询语句:

Select col1[0],col2[‘b’],col3.c from complex;

  接下来我们来看看hive的数据模型,hive的数据模型包括:databasetablepartitionbucket。下面我将一一论述这四种数据模型。

1.Database:相当于关系数据库里的命名空间(namespace),它的作用是将用户和数据库的应用隔离到不同的数据库或模式中,该模型在hive 0.6.0之后的版本支持,hive提供了create databasedbnameuse dbname以及drop database dbname这样的语句。

2.表(table):hive的表逻辑上由存储的数据和描述表格中的数据形式的相关元数据组成。表存储的数据存放在分布式文件系统里,例如HDFS,元数据存储在关系数据库里,当我们创建一张hive的表,还没有为表加载数据的时候,该表在分布式文件系统,例如hdfs上就是一个文件夹(文件目录)。Hive里的表友两种类型一种叫托管表,这种表的数据文件存储在hive的数据仓库里,一种叫外部表,这种表的数据文件可以存放在hive数据仓库外部的分布式文件系统上,也可以放到hive数据仓库里(注意:hive的数据仓库也就是hdfs上的一个目录,这个目录是hive数据文件存储的默认路径,它可以在hive的配置文件里进行配置,最终也会存放到元数据库里)。

下面是创建托管表的实例语句:

 

Create table tuoguan_tbl (flied string);

Load data local inpath ‘home/hadoop/test.txt’ into table tuoguan_tbl;

外部表创建的实例:

Create external table external_tbl (flied string)

    Location  ‘/home/hadoop/external_table’;

Load data local inpath ‘home/hadoop/test.txt’ into table external_tbl;

  大家看到了创建外部表时候table之前要加关键字external,同时还要用location命令指定文件存储的路径,如果不使用locaction数据文件也会放置到hive的数据仓库里。

  这两种表在使用的区别主drop命令上,drophive删除表的命令,托管表执行drop命令的时候,会删除元数据和存储的数据,而外部表执行drop命令时候只删除元数据库里的数据,而不会删除存储的数据。另外我还要谈谈表的load命令,hive加载数据时候不会对元数据进行任何检查,只是简单的移动文件的位置,如果源文件格式不正确,也只有在做查询操作时候才能发现,那个时候错误格式的字段会以NULL来显示。

 3.分区(partitionhive里分区的概念是根据分区列的值对表的数据进行粗略划分的机制,在hive存储上就体现在表的主目录(hive的表实际显示就是一个文件夹)下的一个子目录,这个文件夹的名字就是我们定义的分区列的名字,没有实际操作经验的人可能会认为分区列是表的某个字段,其实不是这样,分区列不是表里的某个字段,而是独立的列,我们根据这个列存储表的里的数据文件。使用分区是为了加快数据分区的查询速度而设计的,我们在查询某个具体分区列里的数据时候没必要进行全表扫描。下面我就举一个分区使用的实例:

创建分区:

Create table logs(ts bigint,line string)

Partitioned by (dt string,country string);

 

加载数据:

Local data local inpath ‘/home/hadoop/par/file01.txt’ into table logs partition (dt=’2012-06-02’,country=’cn’);

 

hive数据仓库里实际存储的路径如下所示:

/user/hive/warehouse/logs/dt=2013-06-02/country=cn/file1.txt

/user/hive/warehouse/logs/dt=2013-06-02/country=cn/file2.txt

/user/hive/warehouse/logs/dt=2013-06-02/country=us/file3.txt

/user/hive/warehouse/logs/dt=2013-06-02/country=us/file4.txt

 

我们看到在表logs的目录下有了两层子目录dt=2013-06-02country=cn

查询操作:

Select ts,dt,line  from logs where country=’cn’,

这个时候我们的查询操作只会扫描file1.txtfile2.txt文件。

4.桶(bucket):上面的tablepartition都是目录级别的拆分数据,bucket则是对数据源数据文件本身来拆分数据。使用桶的表会将源数据文件按一定规律拆分成多个文件,要使用bucket,我们首先要打开hive对桶的控制,命令如下:

set hive.enforce.bucketing = true

示例:

建临时表student_tmp,并导入数据:

hive> desc student_tmp;        

OK

id      int

age     int

name    string

stat_date       string

Time taken: 0.106 seconds

hive> select * from student_tmp;

OK

1       20      zxm     20120801

2       21      ljz     20120801

3       19      cds     20120801

4       18      mac     20120801

5       22      android 20120801

6       23      symbian 20120801

7       25      wp      20120801

Time taken: 0.123 seconds

 

建student表:

hive>create table student(id INT, age INT, name STRING)

       >partitioned by(stat_date STRING)

       >clustered by(id) sorted by(age) into 2 buckets

       >row format delimited fields terminated by ',';

 

设置环境变量:

       >set hive.enforce.bucketing = true;

 

插入数据:

 

       >from student_tmp

       >insert overwrite table student partition(stat_date="20120802")

       >select id,age,name where stat_date="20120801" sort by age;

 

查看文件目录:

$ hadoop fs -ls /user/hive/warehouse/studentstat_date=20120802/

Found 2 items

-rw-r--r--   1 work supergroup         31 2012-07-31 19:52 /user/hive/warehouse/student/stat_date=20120802/000000_0

-rw-r--r--   1 work supergroup         39 2012-07-31 19:52 /user/hive/warehouse/student/stat_date=20120802/000001_0

  物理上,每个桶就是表(或分区)目录里的一个文件,桶文件是按指定字段值进行hash,然后除以桶的个数例如上面例子2,最后去结果余数,因为整数的hash值就是整数本身,上面例子里,字段hash后的值还是字段本身,所以2的余数只有两个01,所以我们看到产生文件的后缀是*0_0*1_0,文件里存储对应计算出来的元数据。

Hive的桶,我个人认为没有特别的场景或者是特别的查询,我们可以没有必要使用,也就是不用开启hive的桶的配置。因为桶运用的场景有限,一个是做map连接的运算,我在后面的文章里会讲到,一个就是取样操作了,下面还是引用风生水起博文里的例子:

查看sampling数据:

hive> select * from student tablesample(bucket 1 out of 2 on id);                                                                              

Total MapReduce jobs = 1

Launching Job 1 out of 1

.......

OK

4       18      mac     20120802

2       21      ljz     20120802

6       23      symbian 20120802

Time taken: 20.608 seconds

 

tablesample是抽样语句,语法:TABLESAMPLE(BUCKET x OUT OF y)

y必须是table总bucket数的倍数或者因子。hive根据y的大小,决定抽样的比例。例如,table总共分了64份,当y=32时,抽取 (64/32=)2个bucket的数据,当y=128时,抽取(64/128=)1/2个bucket的数据。x表示从哪个bucket开始抽取。例 如,table总bucket数为32,tablesample(bucket 3 out of 16),表示总共抽取(32/16=)2个bucket的数据,分别为第3个bucket和第(3+16=)19个bucket的数据。

 

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 举报,一经查实,本站将立刻删除。

发布者:全栈程序员-用户IM,转载请注明出处:https://javaforall.cn/191130.html原文链接:https://javaforall.cn

【正版授权,激活自己账号】: Jetbrains全家桶Ide使用,1年售后保障,每天仅需1毛

【官方授权 正版激活】: 官方授权 正版激活 支持Jetbrains家族下所有IDE 使用个人JB账号...

(0)


相关推荐

  • 关于Spring 的IoC和AOP的面试题,快看看你都能答上来哪些

    关于Spring 的IoC和AOP的面试题,快看看你都能答上来哪些? 博客首页:派大星⛳️ 欢迎关注 ❤️ 点赞 ? 收藏 ✏️ 留言? 本文由派大星原创编撰? 系列专栏:《迎战面试》? 本系列分享自己准备面试的过程和一些经典的面试题目录? SpringIOC? IOC是什么?? Ioc容器的初始化过程?? 基于注解的容器初始化? 依赖注入的相关注解?? 如何通过注解.

  • android之Fragment(官网资料翻译)[通俗易懂]

    Fragment要点Fragment作为Activity界面的一部分组成出现可以在一个Activity中同时出现多个Fragment,并且,一个Fragment亦可在多个Activity中使用。在Activity运行过程中,可以添加、移除或者替换Fragment(add()、remove()、replace())Fragment可以响应自己的输入事件,并且有自己的生命周

  • [套图]关于爱情_恋爱图

    [套图]关于爱情_恋爱图 .com  分享最最可爱的互联网 喜欢这套图,看起来很温和   ByEasy

  • php 手机号正则_正则验证手机号是否合法

    php 手机号正则_正则验证手机号是否合法随着时代的发展,手机号码也在不断扩展。当我在进行PHP网页开发的时候,直接采用在网上找的手机号的正则表达式验证,结果后来测试的时候发现:当我使用的手机号177开头的进行输入时,竟然显示请输入正确的手机号,后来一看正则表达式是没有设定17开头的号码,于是又进行了学习,最终,得到了最新手机号的正则表达式验证(如下代码),以供自己和大家日后学习使用。//$phone存放手机号,$phoneErr存放手机号的错误信息//首先判定手机号不为空,然后进行正则表达式的手机号验证if(!empty($phone))

  • linux centos安装wine qq,ubuntu安装wine QQ「建议收藏」

    linux centos安装wine qq,ubuntu安装wine QQ「建议收藏」题外话:在使用win7,8的时候,发现如果硬盘存有大量文件的时候,笔记本自带的渣渣机械硬盘读取会很慢。而win10在硬盘读取方面的优化,确实比前几个版本好。但是,随之出现的问题是,内存不够用。后来上手linux,才发现这才是真爱。装过ubuntu,centos。总结ubuntu更适合日常的使用。顺带说一句,16.04TLS,装入很多大型IDE和虚拟机的时候,4G也是有点抗不住。开始正题:首先,安装…

  • ftp上传工具如何下载和使用像详细教程

    ftp上传工具如何下载和使用像详细教程在学习网站搭建的过程中,我们必定会用到ftp上传工具,那么ftp工具是什么呢,我们该如何下载和使用呢?FTP(FileTransferProtocol),简称是文件传输的协议,我们可以用这个协议在互联网上做文件的双向传输,让我们用自己的计算机,可以链接到世界各地具有文件传输协议的ftp服务器进行连接,从而可以访问,传输下载大量的共享文件。同样我们可以从网站空间服务器中下载拷贝需要的文件到自己的…

发表回复

您的电子邮箱地址不会被公开。

关注全栈程序员社区公众号