阿里云存储大跨越:AI时代的高效存储秘钥!

在近期盛大的“回顾·向新:AI浪潮下的数据存储进化”年度盛会中,阿里云再次引发热议,深度剖析了过去一年在AI存储领域的非凡成就,提出了其独特的AI应用与高可用底层架构的双轨战略。此次,阿里云推出的CPFS智算版存储方案,特别为模型训练而量身定制,带来了全链路性能的显著提升,提供了足足20TB级别的吞吐量以及高达3亿IOPS的极限性能,成为AI时代下大模型训练任务的首选存储方案。

随着大型模型训练对计算资源的需求攀升,尤其当计算需求达到10万GPU级别时,存储系统的性能与稳定性更显自如。借助CPFS这一高性能文件存储解决方案,阿里云为GPU环境下的训练效率带来了巨大的提升,使得性能表现如同风驰电掣。

更令人振奋的是,CPFS通过400Gb/s网卡及RDMA技术实现在单客户端的吞吐量飞跃,达到惊人的25GB/s,轻松支持更大规模、更频繁的Checkpoint数据读写。得益于其具有的burstI/O稳定有效吞吐与低延时,CPFS在单机上的可线性扩展的分布式读缓存能力高达15GB/s,完美适配100GB/s的高带宽与OSS的数据流动。在LLM训练过程中,CPFS的全链路性能显著加码,使得AI应用发展如虎添翼。

另外,阿里云的对象存储OSS同样在AI领域的能力上实现了华丽转变,现已有超过2万个数据湖以OSS为依托,其中以AI数据湖占据主要份额。今年,OSS推出了性能爆表的OSS Connector for AI/ML,较传统的数据加载方式在25.6万张图片时提升了14倍的性能。而OSSFS在1.9.1.3版本中,针对推理模型文件的加载进行了优化,让9.3GB大文件的加载速度提升了3.6倍,100,000个文件的列出性能提升至6倍。

在服务端,OSS通过新增资源池QoS能力,支持多个Bucket共享池化,优化资源利用率,同时其加速器的产能大幅提升,起步容量减少99%,吞吐密度增幅达到50%,最大性能更是突破至100GBps,实现了性能的2.5倍提升。

在安全性方面,CPFS强化了数据保护与安全保障,通过CloudBackup解决方案有效应对AZ故障、数据误删及勒索病毒等风险。新功能日志审计确保安全访问追溯,提供目录级配额简化数据管理,实现安全挂载与IO鉴权,完美覆盖端到端的数据隔离。借助AccessPoint,数据访问权限管理变得轻而易举。

为了满足企业多样化的云上资源管理需求,阿里云存储更是一系列数据灾备解决方案蓄势待发,包括企业灾备管理服务数据灾备中心BDRC、SAAS灾备服务云备份和丰富的IAAS层灾备能力,为构建高可用架构的企业全力助航。在AI时代大潮下,阿里云的存储方案如同一把利剑,助力各行各业进军智能化。此外,在基础大模型领域,CPFS不仅为月暗提供了数Tbps的吞吐量与毫秒级的读写延时,更是满足了模型checkpoint、多模态数据集和训练日志场景下对极限性能的挑剔要求,显著提升了模型训练的效率。在小鹏汽车的智算模型训练中,配合“扶摇”智算集群的优化,阿里云存储助力自动驾驶的训练效率提升了170倍,存储吞吐效率则攀升40倍,极大加快了技术研发步伐。而对拥有3.2亿月活跃用户的小红书来说,阿里云OSS所提供的超20Tbps的吞吐能力,保障了用户生成内容的处理速度,同时通过多存储类型的组合方案实现了成本与性能的完美平衡。返回搜狐,查看更多

平台声明:该文观点仅代表作者本人,搜狐号系信息发布平台,搜狐仅提供信息存储空间服务。
作者声明:本文包含人工智能生成内容
阅读 ()
我来说两句
0人参与, 0条评论
登录并发表