SQL Server 2014聚集列存储索引

SQL Server 2014聚集列存储索引

大家好,又见面了,我是全栈君。

原文:
SQL Server 2014聚集列存储索引

 转发请注明引用和原文博客(http://www.cnblogs.com/wenBlog

简介

  之前已经写过两篇介绍列存储索引的文章,但是只有非聚集列存储索引,今天再来简单介绍一下聚集的列存储索引,也就是可更新列存储索引。在SQL Server 2012中首次引入了基于列存储数据格式的存储方式。叫做“列存储索引”。前一篇我已经比较了行存储索引与非聚集的列存储索引(http://www.cnblogs.com/wenBlog/p/5682024.html)。其中对于在小表的指定值或者小范围的查询来讲,尤其针对事务性的负载行存储是很合适的。但是对于分析性负载像数据仓库和BI,在查询中将会对大量数据进行全扫描,例如事实表,这时候列存储索引就是更好地选择。

列存储索引结构

  在列存储索引中,数据按照独立列组织到一起形成索引结构。每列都数据都位于被高度压缩的数据集中,叫做数据段。这个数据段只包含该列的值,对于大型表它分到多个数据段中,每个数据段中只含有100万行数据,这就叫做行组、数据段由一个或者多个数据页组成。数据将在内存和硬盘上以数据段的形式传输。

  这种索引提高了数据仓库的查询效率。这种通过压缩获得数据格式要比B-Tree结构的压缩率高7倍多。同时由于列存储索引使用了批处理模式执行,数据处理也是批处理的,较少了CPU的使用。列存储索引强化了检索数据的速度,与行存储不同的是不用查询所有列。因为这个原因,更少数据被读取到内存中,再到处理器缓存处理。相关的这些因素都会减少硬盘IO,提高整体查询的性能。

  在2014中列存储索引有以下限制:

                  最多支持1024列在你的索引中;

                  列存储索引不能被定义为唯一性索引;

                  不能创建视图;

                  不能包含稀疏列;

                  不能使用ALTER INDEX来修改索引,只能drop然后重新创建;

                  不能使用INCLUDE关键字。

                  不能排序列;

                  不能使用FILESTREAM属性。

                  当然还有一些数据类型不能包含在列存储索引中(binary , varbinary , ntext , text, , image, varchar(max) , nvarchar(max), uniqueidentifier, rowversion , sql_variant,精度大于18 的decimal,CLR 和xml等)   

 

另一方面,对于索引列900字节的限制也不适用与列存储索引。

在SQL Server2012 中,只能创建非聚集列存储索引,并且不能更新。为了更新你必须删除索引,然后进行插入、更新或者删除的操作后在重建索引。

在2014中列存储索引得到了不小的提升,比如消除了只读限制。增加了聚集列存储索引,列存储索引作为了表的存储方式,存储表的数据。

比较聚集和非聚集列存储索引

区别

聚集列存储索引

非聚集列存储索引

索引列 需要指定列上创建 所有列都包含在内
 存储  额外增加百分之10的空间作为索引  压缩十倍的数据量,如果表之前是页压缩,则可以压缩5倍左右
 更新  是  否
 排序  在创建之前进行排序  否

 

 

列存储索引的结构图:

SQL Server 2014聚集列存储索引

如图增量存储部分我们叫做deltastore,用于存储不够最小行组大小的数据。流程就是将行数据提取成列数据,然后进行压缩存储,多余的部分放到deltastore中。

聚集索引插入、删除和更新实现逻辑:

插入新行的时候,值被存储在deltastore中,直到达到最小rowgroup(行组)大小时,然后压缩并移动到列存储数据段中。

删除数据时,行将被删除从deltastore存储中,但是在列存储索引数据段中只是被标记为删除,除非重建后才会被真的删除。

更新的时候,在deltastore存储中行数据被删除,然后在列存储数据段中被标记为删除,新的列别插入到deltastore中。

最后当重建索引的时。SQLServer将会删除所有标记为删除的数据段,数据存储在deltastore中的将与数据段中的数据合并,然后进行压缩。

 

 

下面我们来展示下如何从列存储索引中获得性能:

 

我们首先创建一个事实表在数据库中脚本如下:

 1 USE SQLShackDemo
 2 
 3 GO
 4 --创建表
 5 CREATE TABLE [dbo].[FactFinance](
 6 
 7 [FinanceKey] [int] NOT NULL,
 8 
 9 [DateKey] [int] NOT NULL,
10 
11 [OrganizationKey] [int] NOT NULL,
12 
13 [DepartmentGroupKey] [int] NOT NULL,
14 
15 [ScenarioKey] [int] NOT NULL,
16 
17 [AccountKey] [int] NOT NULL,
18 
19 [Amount] [float] NOT NULL,
20 
21 [Date] [datetime] NULL
22 
23 ) ON [PRIMARY]
24 
25 GO
26 
27 --创建聚集索引:
28 
29 CREATE CLUSTERED INDEX [IX_FactFinance_FinanceKey_DateKey] ON [dbo].[FactFinance] ( [FinanceKey],[DateKey])
30  GO
31 
32 
33 --查询表:
34 
35 SELECT [FinanceKey]
36 
37 ,[DateKey]
38 
39 ,[OrganizationKey]
40 
41 ,[DepartmentGroupKey]
42 
43 FROM [FactFinance]

 

SQL Server 2014聚集列存储索引

 

让我们检查下聚集索引扫描操作符,Estimated I/O Cost(估计IO花销) 的值为0.183866,Estimated CPU Cost(估计CPU花销)为0.0435069,为了比较列索引的值,我们先记住:

SQL Server 2014聚集列存储索引

 

现在我们创建列存储索引在非聚集索引:

 

 

CREATE NONCLUSTERED COLUMNSTORE INDEX [IX_FactFinance_FinanceKey_DateKey_OrganizationKey_DepartmentGroupKey]

ON [FactFinance]

([FinanceKey],[DateKey],[OrganizationKey],[DepartmentGroupKey])

GO
SELECT [FinanceKey] ,[DateKey] ,[OrganizationKey] ,[DepartmentGroupKey] FROM [FactFinance]

 

 

SQL Server 2014聚集列存储索引

 

这个列存储索引扫描操作符如下所示:

SQL Server 2014聚集列存储索引

 

如上所示,Estimated I/O Cost从0.183866下降到0.0112731,这是因为SQL引擎只检索需要的列,节省了IO和内存资源。Estimated CPU的时间没有变化。

 

IO强化与之前相比是明显的,我们也可以比较两个查询,启用I/O statistics,检查IO的hits 表现如下:

 

SET STATISTICS IO ON 
GO
 SELECT [FinanceKey] ,[DateKey] ,[OrganizationKey] ,[DepartmentGroupKey] FROM [FactFinance] with (index (IX_FactFinance_FinanceKey_DateKey)) 
GO 
SELECT [FinanceKey] ,[DateKey] ,[OrganizationKey] ,[DepartmentGroupKey] FROM [FactFinance] with (index(IX_FactFinance_FinanceKey_DateKey_OrganizationKey_DepartmentGroupKey))

 

正如所示,比较执行计划,使用列存储索引的要比行索引的好四倍,那么期望一下处理大数据时的10倍性能:

 

SQL Server 2014聚集列存储索引

当比较逻辑读时你也能发现相似的结果。明显这个逻辑读也是四倍+关系。

SQL Server 2014聚集列存储索引

那么我们可以根据下图概括一下传统的行索引与列存储所以的一般性区别:

SQL Server 2014聚集列存储索引

列存储索引的创建

也能够使用SSMS创建索引: Indexes -> New Index ->Non-Clustered Columnstore Index 如下:

SQL Server 2014聚集列存储索引

 

与非聚集索引创建类似,选择列,然后这些列没有排序也不能使用Include选项:

SQL Server 2014聚集列存储索引

 

下图中我在SQL Server2014 企业版中,创建聚集索引:

SQL Server 2014聚集列存储索引

 

需要注意的是如果在表上已经有其他索引,尝试创建聚集列存储索引就会出现错误,正如我们之前说的,同一个表中不能或者其他索引:

SQL Server 2014聚集列存储索引

不用选择列,所有数据都包含在内了:

SQL Server 2014聚集列存储索引

几个好的应用场景:

如果你有大型的事实表并且存在查询问题的,或者SSAS存在其他性能问题的,列存储是一个不错的方案。一下两种情况是经过测试的比较好的应用场景:

  • 对于高频率响应的报表/仪表板,尤其分析当性能表现不佳的时候,会有很不错的性能。
  • 对于ETL的过程来讲,源数据的列存储索引将会极大提高性能,如果数据足够大甚至可以考虑临时创建列存储索引。然后执行ETL。

 

总结:

列存储索引是一个使用SQL Server性能优化的方案,通过减少IO消耗,尤其对数据仓库和BI查询都是由明显性能提升。它通过排序数据作为列存储,然后压缩,并使用批处理来处理数据。当然,必须要确保使用列存储索引的使用带来了好处,而不会引起其他性能问题才能使用。比如需要注意使用的硬件环境和数据,如果没有join、过滤、或者聚合导出巨大的数据量没有足够的内存则将被暂时放入硬盘进行switch off,从而引起查询性能下降。尽量在使用之前在测试环境中测试是否适合使用,同时还要关注其他环节是否受影响。

补充,在2016中增加的几个我认为不错新的feature:

基于聚集列存储索引的 B 树索引;

基于内存优化表的列存储索引;

CREATE TABLE 和 ALTER TABLE 中的列存储索引的压缩延迟选项;

单线程查询的批处理执行。

 

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 举报,一经查实,本站将立刻删除。

发布者:全栈程序员-用户IM,转载请注明出处:https://javaforall.cn/107737.html原文链接:https://javaforall.cn

【正版授权,激活自己账号】: Jetbrains全家桶Ide使用,1年售后保障,每天仅需1毛

【官方授权 正版激活】: 官方授权 正版激活 支持Jetbrains家族下所有IDE 使用个人JB账号...

(0)
blank

相关推荐

  • C语言发送email

    C语言发送email   应用:分布式评测系统中检测到连接断开后向管理员发送邮件。 一、认证方式  ESMTP(ExtensionSMTP)即认证的邮件传输方式,是邮件服务器系统为了限制非本系统的正式用户利用本系统散发垃圾邮件或其他不当行为而开设的一项安全认证服务。它与传统的SMTP方式相比,主要的不同有两点:  1)支持8-bitMIME格式的编码。  2)支持用户身份的验证。  多了一道用

  • Spring Cloud Eureka详解

    Spring Cloud Eureka详解SpringCloudEureka详解一Eureka服务治理体系1.1服务治理服务治理是微服务架构中最为核心和基础的模块,它主要用来实现各个微服务实例的自动化注册和发现。SpringCloudEureka是SpringCloudNetflix微服务套件中的一部分,它基于NetflixEureka做了二次封装。主要负责完成微服务架构中的服务治理功能。E…

  • linux 命令:ping、fping、gping、hping3、tracert、traceroute

    linux 命令:ping、fping、gping、hping3、tracert、traceroutehping3命令:http://man.linuxde.net/hping3TestingfirewallruleswithHping3-examples:http://0daysecurity.com/articles/hping3_examples.html攻防宝典:利用hping3和伪造IP地址执行DOS攻击:http://netsecurity.51cto.com/…

  • 伪装计算机主机,位置伪装大师电脑版

    伪装计算机主机,位置伪装大师电脑版《位置伪装大师电脑版》是一款免费的GPS位置变换软件,《位置伪装大师电脑版》能够进行GPS位置模拟,让你轻松变换自己的位置,变换位置随心所欲!官方介绍位置伪装大师v3.6新版来袭!变换位置,随心所欲!!全新的界面,全新的功能,全新的体验。更加简洁、更加人性化的操作流程。功能介绍-支持国外伪装,实现全球伪装-一键收藏地点,方便快捷-多种搜索模式,可以快速找到位置-支持经纬度定位,精确寻找位置…

  • win11频繁更新,关闭win11恶意软件删除工具补丁更新

    win11频繁更新,关闭win11恶意软件删除工具补丁更新win11补丁更新主要包含4部分:第一部分功能更新,涉及Windows功能bug、新增的功能等;第二部分质量更新,涉及安全风险的更新;第三部分驱动更新,涉及厂商等提交给微软的驱动,进行更新;第四部分其它更新,目前主要发现的是,恶意软件删除工具更新。恶意软件删除工具,如果有第三方安全软件的话,这个补丁意义不大,并且恶意的标准是微软自家定义的,就看你是否接受微软自带的杀毒软件,如果用可以更新,如果不用该补丁频率高,无必要。关闭“恶意软件删除更新”,只需要用dism++关闭,步骤如下:

  • mysql 慢查询日志分析[通俗易懂]

    mysql 慢查询日志分析[通俗易懂]1.查找mysqlmy.ini文件C:\ProgramData\MySQL\MySQLServer5.72.查看mysql慢查询日志位置showvariableslike’%slow_query_log%’;3.查看mysql慢查询时间showvariableslike’long_query_time’;4.修改mysql修改慢查询时间找到my.ini文件修改long_query_time设置值,重启服务mysql…

    2022年10月11日

发表回复

您的电子邮箱地址不会被公开。

关注全栈程序员社区公众号