网站首页 > 教程文章 正文
Snowflake——简介
- Snowflake 是为云构建的列存储 MPP 数据仓库解决方案,使用通常用户熟悉的相同 ANSI SQL。
- Snowflake 的主要优势之一是存储和计算的分离,允许大量并发用户和进程无限期按需扩展。
- 企业架构发现 Snowflake 独特且具有前瞻性的 DW 解决方案专为云而设计,与 ONE VIEW 数据架构完美契合。
特征
安全和数据保护:通过提供多重身份验证 (MFA)、联邦身份验证和单点登录 (SSO) 和 OAuth 来提供增强的身份验证。客户端和服务器之间的所有通信都受到 y TLS 的保护。
标准和扩展 SQL 支持:Snowflake 数据仓库支持 SQL 的大多数 DDL 和 DML 命令。它还支持高级 DML、事务、横向视图、存储过程等。
连接性:Snowflake 数据仓库支持广泛的客户端连接器和驱动程序,例如 Python 连接器、Spark 连接器、Node.js 驱动程序、.NET 驱动程序等。
数据共享:您可以安全地与其他 Snowflake 帐户共享您的数据。
数据库复制和故障转移:支持跨不同区域的多个雪花账户复制和同步数据库
共享磁盘架构有一个存储层,所有集群节点都可以访问
更易于管理存储:数据库集群中的所有处理节点都可以直接访问所有数据,并且数据是一致的,因为对数据的所有修改都写入共享磁盘
受磁盘争用影响的性能
存储和计算是分散的
Shared-Nothing 架构具有分布式集群节点以及磁盘存储、它们自己的 CPU 和内存
数据可以跨这些集群节点进行分区和存储,因为每个集群节点都有自己的磁盘存储
性能随着存储和计算的增加而扩展
Snowflake架构——组件
云服务层:
协调跨雪花活动的服务集合
还运行在由来自云提供商的 Snowflake 提供的计算实例上
计算层:
Snowflake 使用“虚拟仓库”来运行查询。虚拟仓库是 MPP 计算集群,由多个节点组成,CPU 和内存由 Snowflake 在云上提供。
根据工作负载的不同,可以在 Snowflake 中创建多个虚拟仓库以满足各种要求
一般来说,虚拟仓库有自己独立的计算集群,不与其他虚拟仓库交互。
虚拟仓库优势:
可以随时启动或停止并在不影响正在运行的查询的情况下进行扩展
可以设置为自动暂停或自动恢复,以便仓库在特定的非活动时间段后暂停,然后在提交查询时恢复
也可以设置为自动缩放最小和最大集群大小
存储层:
将数据组织到多个内部优化和压缩的微分区中
使用列格式
Snowflake 与 Redshift — 性能比较
单并发:
- 小型查询:Redshift 执行速度提高 20%
- 中等查询:Snowflake 执行速度提高 500%
- 大型查询:Snowflake 执行速度提高 800%
多并发:
随着工作负载/并发性的增加,Snowflake的表现优于Redshift
Redshift 并发最大为 15 而Snowflake没有任何限制(需要检查)
可扩展性:
Redshift 性能不会随着并发性增加而扩展,而Snowflake性能线性增加
数据库特点:
Redshift 不支持半结构化数据类型,如 Array、Object 和 Variant。 但是雪花可以。
Redshift Varchar 将数据类型限制为 65535 个字符。 在 Snowflake 中,字符串限制为 16MB,默认值为最大字符串大小(因此没有性能开销)
迁移——redshift到snowflake
架构迁移:
将 Redshift 架构/表/视图转换为雪花架构。这将包括删除分布键、排序键等引用,并为大表添加雪花簇键
在 Snowflake 上执行模式创建脚本。
用户/角色迁移:
开发脚本以读取红移权限并为雪花创建适当的 GRANT 语句
在雪花上执行脚本
数据迁移:
使用自定义脚本将 Redshift 表数据卸载到 S3 存储桶,该脚本将循环遍历所有表。应遵循命名约定,如
cluster_name/schema_name/table_name/filename.partitionnumber
创建另一个脚本以将数据从 S3 加载到 Snowflake
用户迁移:
将端点从 Redshift 更改为 Snowflake URL。用户 ID 和密码将保持不变,但必须在连接字符串中添加 account_id。
如果查询符合 ANSI –SQL,则无需更改。维护一个在 Snowflake 和 Redshift 之间具有已知语法差异的牌组。
要运行任何查询,用户必须选择一个仓库和数据库。
ETL迁移:
将数据加载到 Redshift 的复制命令将需要针对某些 Snowflake 要求进行修改。
猜你喜欢
- 2025-05-10 金仓数据库日志大揭秘:WalMiner工具实战全解析
- 2025-05-10 十年之重修MySQL原理(十年之重修mysql原理是什么)
- 2025-05-10 值得收藏的Oracle数据库性能优化(oraclesql性能优化)
- 2025-05-10 MySQL锁机制:从表锁到MVCC,一场数据库的“锁”事大戏
- 2025-05-10 MySQL日志篇(mysql日志详解)
- 2025-05-10 十个你必须会的mysql面试题(mysql面试题经典)
- 2025-05-10 利用Oracle触发器实现不同数据库之间的数据同步
- 2025-05-10 Spring 云微服务的组件测试(spring cloud微服务组件)
- 2025-05-10 GaussDB关键技术原理|高可用:逻辑复制
- 2025-05-10 一文了解MySQL Binlog(一文了解太空安全有多重要)
- 最近发表
-
- 绝区零:公测必看!300菲林兑换码、萌新补给一览!切勿踩坑!
- 事半功倍 轻松制作可交互移动原型
- LOL英雄联盟美服注册教材 教你玩转美服
- 「正点原子Linux连载」第五十八章Linux INPUT子系统实验(一)
- 如何轻松薅Cursor羊毛:用免手机号邮箱快速注册
- C/C++基础语法复习(一):C++与C语言的区别,主要有这些
- 永久免费的高配容器Clawcloud,超爽体验!
- Spaceship低价注册域名 | 每年5元不到 | XYZ域名 | 托管cloudflare
- 云杉网络DeepFlow基于Free5GC的方案示例
- alma8飞速搭建zabbix6、微信报警、windows、linux、交换机监控
- 标签列表
-
- location.href (44)
- document.ready (36)
- git checkout -b (34)
- 跃点数 (35)
- 阿里云镜像地址 (33)
- qt qmessagebox (36)
- md5 sha1 (32)
- mybatis plus page (35)
- semaphore 使用详解 (32)
- update from 语句 (32)
- vue @scroll (38)
- 堆栈区别 (33)
- 在线子域名爆破 (32)
- 什么是容器 (33)
- sha1 md5 (33)
- navicat导出数据 (34)
- 阿里云acp考试 (33)
- 阿里云 nacos (34)
- redhat官网下载镜像 (36)
- srs服务器 (33)
- pico开发者 (33)
- https的端口号 (34)
- vscode更改主题 (35)
- 阿里云资源池 (34)
- os.path.join (33)