网站首页 > 教程文章 正文
潮新闻客户端 记者 张云山
9月20日,2024云栖大会现场,阿里云全面展示了全新升级后的AIInfra系列产品及能力。通过全栈优化,阿里云打造出一套稳定和高效的AI基础设施,连续训练有效时长大于99%,模型算力利用率提升20%以上。
阿里云基础设施全面升级
“AI创新需要新形态的云基础设施。”阿里云副总裁、弹性计算及存储产品线负责人吴结生表示,阿里云整合底层的计算、存储、网络等资源,实现了统一调度和软硬一体优化,以满足模型训练和推理的爆发式AI算力需求。 基于全新的CIPU2.0,阿里云新推出磐久AI服务器,实现单机16卡、显存1.5T以上,支持SolarRDMA互联。磐久AI服务器采用超钛金电源实现97%以上的高能效,并可通过AI算法预测GPU故障,准确率达92%,保障AI算力的性能和稳定性。 在存储方面,阿里云并行文件存储CPFS实现端到端全链路性能提升,单客户端吞吐达25GB/s,高性能数据流动达到100GB/s,为AI智算提供指数级扩展存储能力。 为AI设计的高性能网络架构HPN7.0,性能和稳定性也再次提升,其中,集合通信性能提升1倍以上,模型端到端训练性能提升10%以上。 通过底层计算、存储、网络等基础设施的升级,阿里云灵骏集群可提供超大规模、超强性能的智能算力,万卡规模性能线性度超过96%,并行存储吞20TB/s,万卡规模下网络带宽利用率超过99%,可支持单集群十万卡级别AI算力规模。 面向AI业务,阿里云计算产品也大幅演进更新。本次云栖大会上,容器服务ACK面向AI实现重磅升级,大模型应用冷启动延迟降低85%,并可提供15000个超大规模节点支持。同时,容器计算服务ACS即将推出GPU容器算力。
“转载请注明出处”
- 上一篇: 阿里云容器服务差异化 SLO 混部技术实践
- 下一篇: 公有云直接提供Pod
猜你喜欢
- 2025-01-04 选对方法,K8s 多集群管理没那么难
- 2025-01-04 微服务用户为什么要用云原生网关
- 2025-01-04 「网络传输」一文搞懂 TCP挥手过程及原理
- 2025-01-04 网络威胁狩猎 五、云中狩猎(1)
- 2025-01-04 那些你不知道的 TCP 冷门知识
- 2025-01-04 阿里云自建k8s存储插件csi安装使用
- 2025-01-04 公有云直接提供Pod
- 2025-01-04 阿里云容器服务差异化 SLO 混部技术实践
- 2025-01-04 ACK One 多集群网关:实现高效容灾方案
- 2025-01-04 阿里云 ACK One 新特性:多集群网关,帮您快速构建同城容灾系统
- 最近发表
-
- 一个可以用来练手的C++开源编译器!
- Linux开发工具使用指南(linux软件开发工具)
- Linux下Makefile文件的模式规则和自动化变量
- 程序员的副业秘籍!一款可以快速搭建各类系统的后台管理系统
- postgresql自定义函数实现,通过contrib模块进行扩展
- Linux GCC编译及Makefile使用(gcc makefile编写)
- wordpress独立站上线两周没收录?原来是robots.txt搞的鬼…
- make sure用法解析(make sure sth)
- 每天一个 Python 库:Django全能Web框架,一站式后台开发
- Makefile实践(makefile经典教程)
- 标签列表
-
- location.href (44)
- document.ready (36)
- git checkout -b (34)
- 跃点数 (35)
- 阿里云镜像地址 (33)
- qt qmessagebox (36)
- mybatis plus page (35)
- vue @scroll (38)
- 堆栈区别 (33)
- 什么是容器 (33)
- sha1 md5 (33)
- navicat导出数据 (34)
- 阿里云acp考试 (33)
- 阿里云 nacos (34)
- redhat官网下载镜像 (36)
- srs服务器 (33)
- pico开发者 (33)
- https的端口号 (34)
- vscode更改主题 (35)
- 阿里云资源池 (34)
- os.path.join (33)
- redis aof rdb 区别 (33)
- 302跳转 (33)
- http method (35)
- js array splice (33)