
进入2025年,AI大模型正以前所未有的速度涌入现实世界。参数规模从千亿迈向万亿,数据类型从文本拓展至图像、音频、视频乃至多模态融合;而训练、微调、部署场景则从科技公司拓展至金融、医疗、制造等传统行业。大模型不再是科研范式,而已成为工业级能力的核心竞争力。
但就在“模型越来越大、场景越来越多”的同时,支撑它成长的数据存储系统,正在经历极限考验。
为此,数据猿采访了西部数据、极道科技、华瑞指数云、京东云的相关专家,
试图搞清楚下面几个问题:
大模型商用化,到底对数据存储提出了哪些新要求?
当前主流架构,为何越来越“力不从心”?
下一代“AI原生存储体系”,应该具备哪些关键能力?
大模型规模化商用
对数据存储提出了哪些“新要求”?
数据存储作为一种数智化的基础设施,是为上层数字化、智能化服务的。当需求变了,数据存储也需要随需应变。那么,我们来看第一个问题,大模型的商用,到底对数据存储提出了哪些新需求。通过我们大量采访和探讨,发现有下面几个方面值得关注:
1. 极致的吞吐性能与并发能力要求,从“跑得快”到“拉得动”
AI大模型的训练和推理,已经成为数据系统吞吐和并发能力的终极挑战。
在训练阶段,多个GPU节点以每秒几十GB的速度从存储系统读取数据、进行计算、再写入checkpoint。这一过程中,任何一处IO延迟,都会造成GPU算力的浪费。西部数据团队在训练大规模图像模型时发现,GPU利用率低并非算力不足,而是IO系统响应不及时,数据加载延迟拖慢整体训练节奏。
极道科技也提到,模型参数量级增长(如从亿级到万亿级)导致训练数据量指数上升。这种情况下,数据存储需支持弹性扩展。同时,存储系统和计算系统需要紧密协同,以避免数据传输成为性能瓶颈。
而在推理阶段,场景更加复杂。京东云指出,在为千亿级大模型提供推理服务时,读写需求常在“数十GB/s,甚至上百GB/s”量级,存储系统一旦响应不及时,不仅影响用户体验,还可能直接触发服务中断。
2. 多模态、非结构化数据的组织与索引复杂度飙升
大模型的输入已不再局限于文本,而是扩展到图像、音频、视频、代码等多模态、多粒度的非结构化数据。这类数据不仅体量庞大,而且格式复杂、访问模式各异,传统的数据湖方案难以胜任。
华瑞指数云在其AI数据平台WADP的实践中强调,AI存储并不等同于并行文件系统,AI存储与为HPC而诞生的并行文件系统只是性能需求相似,其他的需求相差非常之大。为AI训练提供数据支撑,不仅需要支持对象、块、文件、KV等多种协议,还要能同时管理结构化与非结构化数据,实现统一的“语义检索+数据流转”能力,否则将导致AI Pipeline中的数据孤岛、重复拷贝、大量运维成本。
此外,元数据管理的挑战也在加剧:如何记录每一个数据文件的版本、来源、清洗状态?如何实现“可复现”的数据快照?这些都是传统存储系统未曾考虑的问题。
3. 数据版本控制与可追溯性要求
随着模型的迭代速度加快,数据版本控制的需求变得刚性。每一次微调、每一次A/B测试,甚至每一轮prompt库更新,都需要基于明确可回溯的数据版本来训练,以确保实验的可复现性与结果的可验证性。
4. 冷热数据自动分层与智能调度需求更强
AI训练过程中,只有少数数据是真正的“热数据”——比如embedding缓存、当前轮的训练样本、生成日志等,其余大量数据属于低频访问甚至归档数据。如果不进行分层处理,就会造成高性能存储资源被低价值数据占据。
5. 存储系统的安全性、合规性、可控性要求更高
随着AI落地金融、医疗、政务等领域,数据安全和合规要求变得更加严格。数据访问权限、加密存储、审计日志、跨地域合规存储等需求,逐步从“加分项”变为“必选项”。
尤其在国产化背景下,京东云强调:未来的AI基础设施必须具备“国产化适配能力”与“自主可控存储能力”,否则可能在合规方面面临问题。
此外,华瑞指数云也强调,企业级AI应用需要将生产数据与AI数据融合统一管理,因此,数据的合规性不仅限于存储阶段,而是贯穿于整个数据流转与使用周期。
当前行业的真实困境:
系统撑不住,运维管不了
在AI大模型的落地过程中,越来越多企业意识到一个现实问题:真正拖慢模型训练和推理效率的,除了算力不够,很多情况还源于数据存储不给力。
1. GPU在等IO,算力在“空转”
在京东云分享的案例中,某头部券商在训练千亿参数大模型时,GPU利用率长期低于30%。经过排查后发现,造成资源浪费的关键原因是数据带宽不足,特别是海量小文件并发读取带来的元数据瓶颈,严重制约了训练效率。
此外,京东云还提到,某车企在自动驾驶模型迭代中也面临类似挑战,因训练过程中数据加载延迟过高,导致单次训练周期延长40%,产品上线计划被迫推迟。
西部数据也在材料中指出,AI模型训练中的GPU算力,频繁因存储系统响应不及时而“空转”,尤其是在处理图像类任务时,高频的数据调取造成存储系统拥堵,GPU陷入等待状态。
2. 对象存储“水土不服”,在高并发场景下暴露短板
多个企业反馈尝试将对象存储应用于AI训练场景时,发现其一致性机制和高并发读写能力难以胜任训练任务的数据密集访问需求。
西部数据团队表示,对象存储虽在归档和分析场景表现良好,但在大模型训练过程中,由于缺乏高效的元数据访问路径,系统在面对多节点同时请求时,性能出现明显瓶颈。
华瑞指数云指出,AI全流程的数据链条如果由多种存储方案拼接而成,会导致数据在不同的存储系统间频繁搬运、格式不统一,数据不实时不一致,严重增加数据流通的摩擦和维护成本。因此他们更倾向于构建统一的AI智能数据平台,支持全流程数据读写和跨协议访问。
3. 热数据冷处理,手动策略“调不赢”
在应对冷/热数据分层方面,西部数据采用了“基于数据热度和时间窗口”的策略,将热数据放入高性能存储(如SSD或内存),冷数据则迁移到HDD。但他们也指出,这种策略高度依赖对业务场景的精确理解与手动调配,一旦判断失误,可能导致热点数据被冷处理,影响训练效率。
4. Kubernetes 环境存储协同难,调度复杂易出错
在AI任务Kubernetes化后,企业普遍反馈K8s原生对存储的支持能力不足:PVC资源无法灵活扩缩容、数据卷挂载复杂,存储与计算调度耦合在一起,导致任务之间容易出现资源冲突或调度混乱。华瑞指数云在其AI数据平台产品WADP中,专门优化了对于Kubernetes平台的原生支持,支持通过CSI接口给任意POD自动挂载高性能块存储卷或者共享文件目录,其自动挂载的块存储卷可以达到超越本地SSD盘的IOPS和带宽,并且具有完备的多节点并行访问和极速的高可用切换能力,可以实现计算与存储的完全解耦和独立调度,满足AI Pipeline各环节多样化的数据存储与访问需求。
5. 存储系统“无感”,数据全生命周期管理盲区显现
华瑞指数云在访谈中明确指出,目前大多数存储系统无法实时感知AI任务行为与数据状态变化,导致数据分层、权限控制、访问审计等工作全靠人工运维,风险大、成本高。他们强调,AI时代的存储系统必须具备“对数据流动路径的全局感知能力”,包括数据的产生、流转、使用、归档、回收全过程,以支持真正意义上的“智能存储治理”。
随着AI应用走向多模态、高并发、强实时的复杂化方向,越来越多企业达成共识:“我们不是没有存储,而是没有为AI而生的存储。”
底层系统的不匹配,已经成为制约AI能力释放的关键瓶颈。下一阶段的重点,除了“增加多少GPU”,还要构建真正面向AI场景优化的新型数据存储底座。
AI原生存储体系的雏形是什么样的
在过去的几年里,企业对“数据存储”的期望主要停留在容量、稳定性和成本控制。但在AI大模型的推动下,存储不再是冷冰冰的仓库,而开始成为整个AI基础设施中的“神经中枢”。
我们在对多家技术领先企业的访谈中注意到,一个全新的方向正逐步浮现:为AI而生的“原生存储架构”,正在技术和产品层面同步展开。那AI原生存储有哪些值得关注的方向呢?
1. 从“被动响应”到“智能调度”,AI平台自研调度引擎成为主流趋势
例如,极道科技构建的统一计算系统Achelous,是当前存算协同探索的重要案例之一。它能够感知训练任务的IO特征,并将计算调度信息反向传递给存储系统,实现“按需加载、智能预取、动态分层”的数据调度机制。
此外,极道科技的数据感知引擎可以实时追踪元数据变化,自动识别数据特征并进行动态数据集重组,使得数据查询时间降至秒级,提升了数据访问的速度和准确性,特别是在训练大规模图像模型或多模态任务时,效果尤其明显。
这类做法,突破了传统存储系统“只接受请求,不了解场景”的设计局限,让存储系统从执行者变为主动参与者,与AI调度平台协同形成“闭环式资源调度”。
2. 数据版本控制系统进入训练链路,LakeFS、Delta Lake 逐渐兴起
为了解决“数据不可复现”、“实验难调试”的问题,不少企业开始在训练数据环节引入类似“Git for data”的思维。
极道科技提到,他们尝试将数据版本控制系统与训练调度系统打通,为每一次训练创建快照式数据集副本,同时保留原始数据追踪能力,以便进行回滚、对比与A/B实验。
这与LakeFS、Delta Lake等开源系统所强调的“数据快照+版本控制+可审计”体系理念高度一致,也印证了AI模型训练将进入“版本驱动”新阶段。
3. AI场景下的“新三层”架构:分布式存储+缓存+元数据系统
传统存储架构,比如NAS存储,在面对AI训练的读写压力时已难以支撑。多个企业开始转向更适应并发读写和多模态数据访问的分布式架构:
底层采用弹性扩展的分布式文件存储或对象存储,提供大容量、高可用;
中间层引入高速缓存机制(如GPU本地缓存、RDMA直通等)缓解延迟;
顶层搭建支持语义索引与任务感知的分布式元数据管理系统,提升非结构化数据的组织和检索效率。
京东云“云海AI存储”是一个典型例子。其架构融合自研引擎与RDMA网络,实现4K随机写IOPS千万级、延迟低于100微秒,支持K8s并发环境下的AI推理和训练,同时还能做到1.1x副本的低冗余存储,有效平衡性能与成本。
4. “数据即服务”理念升温:从存储系统到数据平台化治理
在AI系统中,存储早已不只是“放数据”的地方,而是要提供“按需供给、全程可控”的服务能力。华瑞指数云强调,他们通过自研平台WADP,实现了存储层对AI数据全生命周期的统一管理,包括生产库、原始数据、训练数据、模型中间结果、KV Cache持久化、RAG知识库等。
这种“数据即服务”的理念,不再是简单的数据访问,而是贯穿采集、处理、标注、训练、推理、归档等所有流程,打造面向AI的“数据供应链”系统。
5. 云厂商全面推出AI专用存储产品
随着AI成为公有云的新战场,各大云厂商也在加速推出面向AI场景的专用产品:
京东云“云海AI存储”通过高度国产化+高性能设计,已支持超百家金融、零售、汽车客户落地大模型项目;
多家企业提及,未来对象存储将深度融合AI任务引擎,成为Lakehouse架构核心底座,不仅支持非结构化数据,还要接入向量检索、语义标引等功能;
随着训练、推理数据规模持续增长,KV Cache持久化、Embedding全局共享等新型AI存储形态也在探索落地。
下一代的AI原生存储系统,必须是感知型、协同型、平台型的:它不仅要处理数据,更要理解任务、预测行为、支撑协同——最终成为AI系统的一部分,而非其外部依赖。
在AI狂飙突进的时代,所有人都在谈算力、谈大模型、谈智能涌现。但真正决定一个企业能不能把AI落到业务上,除了关注买了多少GPU,还是能不能“把数据喂进去、喂得起、喂得好”。
这一切的底座,是数据存储。但今天的行业普遍低估了它的价值。
在我们与多家头部企业的交流中,越来越多架构负责人正在重构存储认知:存储系统不是服务算力的后台,而是决定AI训练能不能跑、推理能不能扩、数据能不能控的关键组件。
未来,判断一个企业AI能力的强弱,不再只看模型有多大、参数有多少,还要看:你是不是有一套能实时理解AI任务、自动调度数据资源、全面控制数据生命周期的原生存储系统;你是不是能做到数据不动模型动,推理集群即取即用;你是不是能用存储的体系化能力,替代掉工程师那堆手工迁移、脚本补丁、灰色调度的“临时方案”。
AI的火箭早已升空,但大多数企业还没把“地基”打好。这是一个行业级的错配:我们在用为“表单系统”设计的存储,喂“世界级认知系统”的胃口。
AI不是等存储准备好了才走,它只会把没跟上的架构,统统甩在后面。
谁先把数据存储从“被动配角”变为“主动核心”,谁就真正掌握了AI时代的落地主动权。