大咖专栏手把手教你调校AWS PB级数据仓库

如何玩转PB级别的Redshift数据仓库？亚马逊AWS解决方案架构师郑进佳会手把手的教会您！...

大咖专栏

大咖专栏是亚马逊AWS官方微信新开设的栏目。本专栏主要刊登亚马逊AWS诸位大咖讲师亲自撰写的Blog，内容涉猎广泛，话题讨论前沿，且与实战紧密相连。我们非常欢迎小伙伴们在评论区留言，与大咖互动交流！

今天为大家撰文的大咖，是亚马逊AWS解决方案架构师——郑进佳老师。

郑进佳

亚马逊AWS解决方案架构师

目前在AWS中国主要负责客户解决方案和系统架构方面的工作。在加入AWS之前，在多家跨国公司有着超过7年的架构设计和项目管理的经验，对AWS云端高可用架构有着深刻的理解，以及对企业级应用如何迁移到云端的架构设计有实战方面的经验。

什么是一个好的数据仓库？

Redshift是AWS云计算中的一个完全托管的，PB级别规模的数据仓库服务。即使在数据量非常小的时候(比如几百个GB的数据)你就可以开始使用Redshift，Redshift集群可以随着你数据的增加而不断扩容，甚至达到PB级。云计算中数据仓库的优势非常明显，不需要license，不需要预先配置非常大的数据仓库集群，扩容简单，仅仅需要为你实际所使用的数据仓库付费。

Redshift作为一个企业级数据仓库完全支持SQL语法，无学习成本，支持很多种客户端连接，包括各种市场上的BI工具，报表以及数据分析工具。

Redshift的概览

Redshift通过支持大规模并行处理(MPP)，列式存储，对不同列数据使用不同数据压缩算法，关系型数据仓库(SQL)，灵活的扩容管理等众多优点，兼顾了数仓性能，同时也考虑学习成本及使用成本。

Redshift系统架构及要点

图1，Redshift系统架构图

主节点负责客户端与计算节点之间的所有通讯，编译代码并负责将编译好的代码分发给各个计算节点处理，负责分配数据到不同的计算节点，主节点对客户不可见的，无需客户管理主节点的压力，更重要的是主节点免费。

计算节点是具体的干活的，并处理好的任务送给主节点进行合并后返回给客户端应用程序。每个计算节点都有自己独立的CPU，内存以及直连存储。Redshift集群规模大小通常就是指计算节点的个数以及计算节点机器类型。

节点分片是指将计算节点被分成若干的分片，根据计算节点类型不同，每个节点包含的分片数量不同，通常1个vCPU对应一个分片，ds2的机型除外。每个分片都会分配独立的内存及存储资源，接受来自主节点分配的任务。分片跟另外一个重要概念Dist Key紧密相关，这里先提一下，接下来会具体介绍Dist Key。

排序键(Sort Key)是一个顺序键，即Redshift会根据这个键来将数据按顺序存储在硬盘上。Redshift的查询优化程序(只要理解有这么个东西存在就好，客户不需要任何维护，对客户也是透明的)也会根据这个排序来进行执行查询优化计划。这是Redshift性能调优的一个非常重要的参数。

分配键(Distribution Key)是控制加载到表的数据如何分布在各个计算节点的一个键，有好几种分布的风格，接下来会重点讲到，这是Redshift调优的非常重要的另外一个参数。

Redshift的几个常用最佳实践

选择最佳排序键

如果最近使用的数据查询频率最高，则指定时间戳列作为排序键的第一列；

如果您经常对某列进行范围筛选或相等性筛选，则指定该列作为排序键；

如果您频繁联接表，则指定联接列作为排序键和分配键；

熟悉Redshift的朋友可能知道可以指定多列作为排序键，而且排序键还有两种方式，组合式和交叉式。限于篇幅的原因，在接下来的调优测试中我们采用的是某一列作为排序键，如果有对其他排序键风格感兴趣的朋友，可以单独联系我们进行讨论。

选择最佳分配键

选择表分配方式的目的是通过在执行查询前将数据放在需要的位置来最大程度地减小重新分配步骤的影响，最好这个查询不需要二次移动数据。

分配键有三种风格，均匀分布(Even)，键分布(Key)，全分布(All)，默认是均匀分布。

根据共同列分配事实数据表和一个维度表；

事实数据表只能有一个分配键。任何通过其他键联接的表都不能与事实数据表并置。根据联接频率和联接行的大小选择一个要并置的维度。将维度表的主键和事实数据表对应的外键指定为 DISTKEY。

根据筛选的数据集的大小选择最大的维度；

只有用于联接的行需要分配，因此需要考虑筛选后的数据集的大小，而不是表的大小。

在筛选结果集中选择基数高的列；

例如，如果您在日期列上分配了一个销售表，您可能获得非常均匀的数据分配，除非您的大多数销售都是季节性的。但是，如果您通常使用范围受限谓词进行筛选以缩小日期期间的范围，则大多数筛选行将位于有限的一组切片上并且查询工作负载将偏斜。

将一些维度表改为使用 ALL 分配；

如果一个维度表不能与事实数据表或其他重要的联接表并置，您可以通过将整个表分配到所有节点来大大提高查询性能。使用 ALL 分配会使存储空间需求成倍增长，并且会增加加载时间和维护操作，所以在选择 ALL 分配前应权衡所有因素。

优化COPY，提高数据加载速度

当你将要数据加载到Redshift的某个表时，不要让单个输入文件过大，最好是将这些输入文件切成多份，具体数量最好是跟分片数量匹配，这样可以充分利用所有分片，配合分配键能达到最佳效果。

图2，COPY输入的最优方式