云计算、AI、云原生、大数据等一站式技术学习平台

网站首页 > 教程文章 正文

「妙手数评」初探云原生数仓:Snowflake

jxf315 2025-05-10 22:45:31 教程文章 3 ℃

Snowflake——简介

  • Snowflake 是为云构建的列存储 MPP 数据仓库解决方案,使用通常用户熟悉的相同 ANSI SQL。
  • Snowflake 的主要优势之一是存储和计算的分离,允许大量并发用户和进程无限期按需扩展。
  • 企业架构发现 Snowflake 独特且具有前瞻性的 DW 解决方案专为云而设计,与 ONE VIEW 数据架构完美契合。

特征

安全和数据保护:通过提供多重身份验证 (MFA)、联邦身份验证和单点登录 (SSO) 和 OAuth 来提供增强的身份验证。客户端和服务器之间的所有通信都受到 y TLS 的保护。

标准和扩展 SQL 支持:Snowflake 数据仓库支持 SQL 的大多数 DDL 和 DML 命令。它还支持高级 DML、事务、横向视图、存储过程等。

连接性:Snowflake 数据仓库支持广泛的客户端连接器和驱动程序,例如 Python 连接器、Spark 连接器、Node.js 驱动程序、.NET 驱动程序等。

数据共享:您可以安全地与其他 Snowflake 帐户共享您的数据。

数据库复制和故障转移:支持跨不同区域的多个雪花账户复制和同步数据库


共享磁盘架构有一个存储层,所有集群节点都可以访问

更易于管理存储:数据库集群中的所有处理节点都可以直接访问所有数据,并且数据是一致的,因为对数据的所有修改都写入共享磁盘

受磁盘争用影响的性能


存储和计算是分散的

Shared-Nothing 架构具有分布式集群节点以及磁盘存储、它们自己的 CPU 和内存

数据可以跨这些集群节点进行分区和存储,因为每个集群节点都有自己的磁盘存储

性能随着存储和计算的增加而扩展


Snowflake架构——组件

云服务层

协调跨雪花活动的服务集合

还运行在由来自云提供商的 Snowflake 提供的计算实例上

计算层:

Snowflake 使用“虚拟仓库”来运行查询。虚拟仓库是 MPP 计算集群,由多个节点组成,CPU 和内存由 Snowflake 在云上提供。

根据工作负载的不同,可以在 Snowflake 中创建多个虚拟仓库以满足各种要求

一般来说,虚拟仓库有自己独立的计算集群,不与其他虚拟仓库交互。

虚拟仓库优势:

可以随时启动或停止并在不影响正在运行的查询的情况下进行扩展

可以设置为自动暂停或自动恢复,以便仓库在特定的非活动时间段后暂停,然后在提交查询时恢复

也可以设置为自动缩放最小和最大集群大小

存储层:

将数据组织到多个内部优化和压缩的微分区中

使用列格式

Snowflake 与 Redshift — 性能比较

单并发:

  • 小型查询:Redshift 执行速度提高 20%
  • 中等查询:Snowflake 执行速度提高 500%
  • 大型查询:Snowflake 执行速度提高 800%

多并发:

随着工作负载/并发性的增加,Snowflake的表现优于Redshift

Redshift 并发最大为 15 而Snowflake没有任何限制(需要检查)

可扩展性:

Redshift 性能不会随着并发性增加而扩展,而Snowflake性能线性增加

数据库特点:

Redshift 不支持半结构化数据类型,如 Array、Object 和 Variant。 但是雪花可以。

Redshift Varchar 将数据类型限制为 65535 个字符。 在 Snowflake 中,字符串限制为 16MB,默认值为最大字符串大小(因此没有性能开销)

迁移——redshift到snowflake

架构迁移:

将 Redshift 架构/表/视图转换为雪花架构。这将包括删除分布键、排序键等引用,并为大表添加雪花簇键

在 Snowflake 上执行模式创建脚本。

用户/角色迁移:

开发脚本以读取红移权限并为雪花创建适当的 GRANT 语句

在雪花上执行脚本

数据迁移:

使用自定义脚本将 Redshift 表数据卸载到 S3 存储桶,该脚本将循环遍历所有表。应遵循命名约定,如
cluster_name/schema_name/table_name/filename.partitionnumber

创建另一个脚本以将数据从 S3 加载到 Snowflake

用户迁移:

将端点从 Redshift 更改为 Snowflake URL。用户 ID 和密码将保持不变,但必须在连接字符串中添加 account_id。

如果查询符合 ANSI –SQL,则无需更改。维护一个在 Snowflake 和 Redshift 之间具有已知语法差异的牌组。

要运行任何查询,用户必须选择一个仓库和数据库。

ETL迁移:

将数据加载到 Redshift 的复制命令将需要针对某些 Snowflake 要求进行修改。

Tags:

最近发表
标签列表