网站首页 > 教程文章正文

「妙手数评」初探云原生数仓:Snowflake

jxf315 2025-05-10 22:45:31 教程文章 70 ℃

Snowflake——简介

Snowflake 是为云构建的列存储 MPP 数据仓库解决方案，使用通常用户熟悉的相同 ANSI SQL。
Snowflake 的主要优势之一是存储和计算的分离，允许大量并发用户和进程无限期按需扩展。
企业架构发现 Snowflake 独特且具有前瞻性的 DW 解决方案专为云而设计，与 ONE VIEW 数据架构完美契合。

特征

安全和数据保护：通过提供多重身份验证 (MFA)、联邦身份验证和单点登录 (SSO) 和 OAuth 来提供增强的身份验证。客户端和服务器之间的所有通信都受到 y TLS 的保护。

标准和扩展 SQL 支持：Snowflake 数据仓库支持 SQL 的大多数 DDL 和 DML 命令。它还支持高级 DML、事务、横向视图、存储过程等。

连接性：Snowflake 数据仓库支持广泛的客户端连接器和驱动程序，例如 Python 连接器、Spark 连接器、Node.js 驱动程序、.NET 驱动程序等。

数据共享：您可以安全地与其他 Snowflake 帐户共享您的数据。

数据库复制和故障转移：支持跨不同区域的多个雪花账户复制和同步数据库

共享磁盘架构有一个存储层，所有集群节点都可以访问

更易于管理存储：数据库集群中的所有处理节点都可以直接访问所有数据，并且数据是一致的，因为对数据的所有修改都写入共享磁盘

受磁盘争用影响的性能

存储和计算是分散的

Shared-Nothing 架构具有分布式集群节点以及磁盘存储、它们自己的 CPU 和内存

数据可以跨这些集群节点进行分区和存储，因为每个集群节点都有自己的磁盘存储

性能随着存储和计算的增加而扩展

Snowflake架构——组件

云服务层：

协调跨雪花活动的服务集合

还运行在由来自云提供商的 Snowflake 提供的计算实例上

计算层：

Snowflake 使用“虚拟仓库”来运行查询。虚拟仓库是 MPP 计算集群，由多个节点组成，CPU 和内存由 Snowflake 在云上提供。

根据工作负载的不同，可以在 Snowflake 中创建多个虚拟仓库以满足各种要求

一般来说，虚拟仓库有自己独立的计算集群，不与其他虚拟仓库交互。

虚拟仓库优势：

可以随时启动或停止并在不影响正在运行的查询的情况下进行扩展

可以设置为自动暂停或自动恢复，以便仓库在特定的非活动时间段后暂停，然后在提交查询时恢复

也可以设置为自动缩放最小和最大集群大小

存储层：

将数据组织到多个内部优化和压缩的微分区中

使用列格式

Snowflake 与 Redshift — 性能比较

单并发：

小型查询：Redshift 执行速度提高 20%
中等查询：Snowflake 执行速度提高 500%
大型查询：Snowflake 执行速度提高 800%

多并发：

随着工作负载/并发性的增加，Snowflake的表现优于Redshift

Redshift 并发最大为 15 而Snowflake没有任何限制（需要检查）

可扩展性：

Redshift 性能不会随着并发性增加而扩展，而Snowflake性能线性增加

数据库特点：

Redshift 不支持半结构化数据类型，如 Array、Object 和 Variant。但是雪花可以。

Redshift Varchar 将数据类型限制为 65535 个字符。在 Snowflake 中，字符串限制为 16MB，默认值为最大字符串大小（因此没有性能开销）

迁移——redshift到snowflake

架构迁移：

将 Redshift 架构/表/视图转换为雪花架构。这将包括删除分布键、排序键等引用，并为大表添加雪花簇键

在 Snowflake 上执行模式创建脚本。

用户/角色迁移：

开发脚本以读取红移权限并为雪花创建适当的 GRANT 语句

在雪花上执行脚本

数据迁移：

使用自定义脚本将 Redshift 表数据卸载到 S3 存储桶，该脚本将循环遍历所有表。应遵循命名约定，如
cluster_name/schema_name/table_name/filename.partitionnumber

创建另一个脚本以将数据从 S3 加载到 Snowflake

用户迁移：

将端点从 Redshift 更改为 Snowflake URL。用户 ID 和密码将保持不变，但必须在连接字符串中添加 account_id。

如果查询符合 ANSI –SQL，则无需更改。维护一个在 Snowflake 和 Redshift 之间具有已知语法差异的牌组。

要运行任何查询，用户必须选择一个仓库和数据库。

ETL迁移：

将数据加载到 Redshift 的复制命令将需要针对某些 Snowflake 要求进行修改。

上一篇： MySql主从复制，从原理到实践（mysql怎么做主从复制）
下一篇：六款主流ETL工具介绍与对比（etl工具informatica）

网站首页 > 教程文章 正文

「妙手数评」初探云原生数仓:Snowflake

Snowflake——简介

猜你喜欢

网站首页 > 教程文章正文