更新时间:2024-12-06 gmt 08:00

面向ai场景使用obs sfs turbo的存储加速方案概述-九游平台

应用场景

近年来,ai快速发展并应用到很多领域中,ai新产品掀起一波又一波热潮,ai应用场景越来越多,有自动驾驶、大模型、aigc、科学ai等不同行业。ai人工智能的实现需要大量的基础设施资源,包括高性能算力,高速存储和网络带宽等基础设施,即“大算力、大存力、大运力”的ai基础大设施底座,让算力发展不要偏斜。

从过去的经典ai,到今天人人谈论的大模型,自动驾驶,我们看到ai模型的参数及ai算力规模呈现出指数级的爆发增长,对存储基础设施也带来全新的挑战。

  1. 高吞吐的数据访问挑战:随着企业使用 gpu/npu 越来越多,底层存储的 io 已经跟不上计算能力,企业希望存储系统能提供高吞吐的数据访问能力,充分发挥 gpu/npu 的计算性能,包括训练数据的读取,以及为了容错做的检查点(以下简称checkpoint)保存和加载。训练数据的读取要尽量读得快,减少计算对 i/o 的等待,而 checkpoint主要要求高吞吐、减少训练中断的时间。
  2. 文件接口方式的数据共享访问:由于 ai 架构需要使用到大规模的计算集群(gpu/npu服务器),集群中的服务器访问的数据来自一个统一的数据源,即一个共享的存储空间。这种共享访问的数据有诸多好处,它可以保证不同服务器上访问数据的一致性,减少不同服务器上分别保留数据带来的数据冗余等。另外以 ai 生态中非常流行的开源深度学习框架pytorch为例,pytorch默认会通过文件接口访问数据,ai算法开发人员也习惯使用文件接口,因此文件接口是最友好的共享存储访问方式。

如果您想了解更多本方案相关信息,或在方案使用过程中存在疑问,可通过渠道,寻求专业人员支持。

方案架构

针对ai训练场景中面临的问题,华为云提供了基于对象存储服务obs 高性能文件服务sfs turbo的ai云存储九游平台的解决方案,如所示,华为云高性能文件服务sfs turbo hpc型支持和obs数据联动,您可以通过sfs turbo hpc型文件系统来加速对obs对象存储中的数据访问,并将生成的结果数据异步持久化到obs对象存储中长期低成本保存。

图1 基于obs sfs turbo的华为云ai云存储九游平台的解决方案

方案优势

华为云ai云存储九游平台的解决方案的主要优势如下所示。

表1 华为云ai云存储九游平台的解决方案的主要优势

序号

主要优势

详细描述

1

存算分离,资源利用率高

gpu/npu算力和sfs turbo存储解耦,各自按需扩容,资源利用率提升。

2

sfs turbo高性能,加速训练过程

  • 训练数据集高速读取,避免gpu/npu因存储i/o等待产生空闲,提升gpu/npu利用率。
  • 大模型tb级checkpoint文件秒级保存和加载,减少训练任务中断时间。

3

数据导入导出异步化,不占用训练任务时长,无需部署外部迁移工具

  • 训练任务开始前将数据从obs导入到sfs turbo,训练过程中写入到sfs turbo的checkpoint数据异步导出到obs,均不占用训练任务时长。
  • sfs turbo和obs存储服务之间数据直接导入导出,无需部署外部数据拷贝机器及工具。

4

冷热数据自动流动,降低存储成本

  • sfs turbo支持自定义数据淘汰策略,冷数据自动分级到obs,释放高性能存储空间用于接收新的热数据。
  • 访问冷数据时sfs turbo从obs自动加载数据提升访问性能。

5

多ai开发平台、生态兼容

pytorch、mindspore等主流ai应用框架,kubernetes容器引擎、算法开发场景通过文件语义访问共享数据,无需适配开发。

如果您想了解更多本方案相关信息,或在方案使用过程中存在疑问,可通过渠道,寻求专业人员支持。

相关文档

网站地图