优刻得×上科大联合研发:UPFS开启AI存储性能新阶段

发布时间:2026-05-17浏览次数:10

在AI大模型训练、自动驾驶及EDA等高性能场景中,“GPU闲置”是企业最大的成本浪费。当存储系统无法以足够速度将数据传递给GPU时,即便算力充足,也难以持续高效运行。如何高效地“把数据送到GPU”,正成为影响整体性能的关键因素。
在这一过程中,文件系统承担着连接存储与计算的核心角色。优刻得自研的并行文件系统UPFS,正是面向AI与高性能计算场景打造的数据底座,用于实现海量数据的高并发访问与快速分发,保障GPU持续获得稳定的数据供给。
围绕这一关键技术环节优刻得与上海科技大学开展深度产学研合作,共同推进 UPFS 产品的重要升级。本次升级引入了 Linux 内核前沿特性 FUSE URING,对数据访问路径进行了重构,使产品整体性能得到显著提升。该技术工作由优刻得存储团队与上海科技大学王春东课题组合作完成,贾磊、朱莉等同学为核心参与人员。
图片

从“通用能力”到“性能瓶颈”

在现有体系中,FUSE(用户态文件系统)因其通用性与灵活性,被广泛应用于各类云与AI场景。但随着AI负载规模不断提升,其架构限制逐渐显现:

  • 单通道机制带来的资源竞争问题
  • 并发能力受限,难以充分利用多核资源
  • 高负载场景下延迟与吞吐表现受影响

在小文件密集访问等典型AI训练场景中,这些问题会被进一步放大,导致GPU等待数据的情况出现。

产学研协同:从问题定位到架构优化

针对FUSE性能瓶颈,优刻得联合上海科技大学开展专项研究,分阶段推进底层优化工作,双方聚焦FUSE性能瓶颈痛点,联合立项两大研究课题,目前项目均已顺利结题,落地形成实质性技术成果。

图片

阶段一:性能剖析

对FUSE元数据I/O处理链路进行分段分析,定位影响时延与扩展性的关键路径,并交付基于bpftrace的性能分析工具,为后续优化提供数据支撑。

阶段二:性能优化

在系统分析基础上,结合业界多种优化思路(如Fuse over io_uring等),设计并实现多队列并行、批处理机制、零拷贝与用户态直通等优化方案,形成可工程化落地的整体架构。

核心升级:构建面向AI的高效数据通路

基于上述研究成果,UPFS完成对FUSE访问路径的重构,引入io_uring机制,实现关键能力:

  • 多核并行处理:为不同CPU核心建立独立处理队列,减少资源竞争,提升整体并发能力。

  • 更高效的数据传输路径:通过优化系统调用与数据传递方式,降低上下文切换开销,并支持零拷贝能力,使数据传输更加直接高效。

在实际测试中,UPFS升级版本相较传统FUSE模式取得明显提升:

  • 4K小IO性能提升3倍以上
  • 大IO吞吐提升约170%
  • 不同IO规模下均表现出更稳定的带宽能力
图片
图片

性能提升的直接结果是——GPU等待时间显著降低,整体算力利用率得到有效提升。

面向AI场景的存储能力升级

UPFS的此次升级,不仅是单点性能优化,更是面向AI场景的数据基础设施能力提升:


  • 全场景覆盖:无论是公有云、私有云还是混合云,架构统一
  • 算力协同优化:专为AI算力定制,支持RDMA直通,确保数据高速流入GPU
  • 信创兼容:支持主流国产芯片与操作系统,助力企业构建自主可控的AI底座

通过对存储访问路径的持续优化,UPFS正在帮助企业减少“数据等待”,释放算力价值。优刻得将持续推进AI原生存储技术演进,进一步提升数据与算力的协同效率,为高性能计算场景提供更加稳定、高效的基础设施支撑。

这一技术突破的背后,不仅是优刻得在高性能存储领域的持续深耕,更体现了校企协同创新的独特价值。通过与上海科技大学的深度合作,双方实现了从理论研究到工程落地的高效转化,加速前沿技术在产业场景中的实际应用。