
在数字化转型加速的今天,金融、通信、能源、医疗等关键行业对存储系统提出了更严苛的要求:金融高频交易需微秒级响应,医疗影像数据管理需PB级容量承载,AI大模型训练需千万级IOPS支撑···
这些关键负载场景急需性能与可靠性“双保险”的自主可控解决方案。最近国产存储技术迎来突破性进展——曙光存储集中式全闪FlashNexus以全球顶尖性能与自主可控技术,为关键行业提供标杆级解决方案。
2025年2月25日,国际存储性能委员会(SPC)公布了SPC-1 V3基准测试结果,搭载最新一代国产处理器的曙光存储FlashNexus以32控架构、超3000万IOPS性能及0.202ms时延登顶全球榜首。这一成绩不仅是性能参数的突破,更标志着国产存储在核心场景应用能力的全面提升。
作为存储界“奥林匹克”的SPC-1测试,其严苛的断电恢复、压力突变等验证流程,印证了FlashNexus在OLTP、数据库等关键业务中的稳定性。该存储设备每千IOPS成本仅155.01美元的质价比优势,更打破了“高性能必高成本”的行业桎梏,使国产技术成为全球数字基建的“黑土地”。这一突破不仅彰显中国存储在高端领域的硬实力,而且通过存算协同创新为各行业数字化转型注入新动能。
3月20日,数据猿专访了曙光存储副总裁郭照斌。15年来,郭照斌一直从事存储系统设计和研发,并屡建奇功。2022年,所研发的曙光分布式存储ParaStor系统率先登顶最权威的世界级存储排行榜IO500,将存储系统性能世界纪录提高了146%。2025年2月,郭照斌带领团队完成曙光存储FlashNexus SPC-1测试,再破世界纪录,测试成绩全球第一。
AI大模型时代数据
存储要从”底层支撑“升级为”加速引擎“
随着生成式AI的崛起,企业数据存储需求发生了显著的变化,给传统存储模式带来了不可回避的挑战。
在工作负载特性上,传统存储采用双态IT模式,即稳态业务数据量与变化相对稳定,对响应及时性要求高,如马拉松运动员,适配集中式存储;敏态业务规模变化大,对系统扩展性要求高,像短跑运动员,则由分布式存储或云存储来支撑。
进入到AI时代,AI业务模型涵盖训练与推理阶段,训练类似于敏态业务,数据量需求大,但对单笔数据延时要求相对不高;而推理阶段数据量较小,却对时延和IOPS要求极高。在一套存储系统中同时满足稳态的高速响应与敏态的高扩展、高并发带宽需求,极大地增加了存储系统设计的难度。
从性能量化角度来看,在生成式AI爆发前,计算与存储资源性能相对过剩,企业缺乏追求极致性能的动力。AI时代到来后,算力率先不足,大量GPU投入到AI训练;当GPU集群规模达到一定程度时,存力就成为一大瓶颈。存储性能的微小提升,都能显著提高生成式AI的投资回报比,存储需求从相对稳定转向追求极致性能表现。
目前,在大模型训练与推理环节,数据存储面临的挑战主要集中在速度和可靠性两大关键方面。
在大模型训练与推理的速度层面,存储系统的核心目标是通过缩短数据访问耗时并降低延迟,为CPU/GPU腾出更多运算时间,避免因存储瓶颈导致算力资源闲置。由于存储协议遵循固定标准,其性能提升需依赖硬件加速(如全闪存架构)与软件优化(如多级缓存机制)的双重路径:通过在存储环节引入多级缓存机制如内存级缓存与NVMe SSD缓存结合等,可显著降低文件序列化、小文件查询及向量数据库访问的延迟;采用分布式并行写入技术,使千亿参数模型的Checkpoint耗时从分钟级缩短至秒级。
以千亿参数模型为例,其单次Checkpoint过程涉及PB级数据写入,若存储带宽不足(如仅1GB/s),完成10TB Checkpoint需耗时约1000秒,导致GPU资源闲置1000秒;而采用TB级带宽时,仅需几秒即可完成,极大地提升训练速度。
这种性能跃升使存储系统从"基础支撑"升级为"关键引擎",为AI训练提供毫秒级响应能力,支撑万卡集群的EB级数据处理需求。
在可靠性方面,大模型训练不能容忍中途出现故障。若历经长时间(如一个月)的训练,因存储故障导致训练中断,那么损失将是巨大的。在大模型训练过程中,通常会按一定时间周期(如每天或每月)生成 Checkpoint 作为训练副本,也对存储的可靠性提出了间接要求,即存储不仅要快,还得稳定可靠,确保训练数据安全无虞。
曙光存储全自研FlashNexus
勇破AI推理加速难题
面对这些严苛的挑战,曙光存储系统积极革新,以破解AI推理加速难题。郭照斌介绍说,曙光存储先后两次突破存储世界记录,标志着国产存储在核心场景应用能力的全面提升。
2022年11月16日,曙光分布式存储系统ParaStor在IO500存储性能评测中夺冠,将世界纪录提高146%。这一成绩验证了其在数据读写性能和复杂应用支撑上的世界领先水平,展示了曙光在分布式存储领域的强大竞争力。
这次登顶SPC-1的曙光存储FlashNexus则是一款完全自主研发的端到端集中式全闪产品,旨在应对AGI时代海量数据带来的性能和容量爆发式增长的挑战。
在存储领域,SPC-1标准堪称“存储界的奥林匹克”,权威性与含金量极高。SPC作为全球首个建立存储行业性能标准的全球性组织,其制定的SPC-1主要衡量存储系统在随机IO业务模型或负载下的吞吐量及IOPS表现,通过模拟数据库、OLTP等企业关键业务场景,叠加八种业务至存储隔离的三块区域,对存储的随机读写性能及处理复杂业务请求的响应能力要求严苛。


曙光此次参与SPC-1测试的产品FlashNexus,属于百控级亿级IOPS产品系列中的子型号。此次测试采用32控规模,搭配400块盘,并非该型号产品扩展极限(最大可扩展至128控)。在32控下,FlashNexus跑出超3000万IOPS的成绩,且每个控制器平均性能不到100万;若扩展至百控级,性能输出可达亿级IOPS。

FlashNexus产品实测超3000万IOPS和0.202毫秒时延,在榜单前十名中排名第一,代表了FlashNexus存储在数据库、交易系统、计费系统等应用中,相比其他存储具有更快的响应速度。同时,FlashNexus 通过高性能、智能化管理和高可靠性,为AI推理提供了强大的加速支持,满足AI推理对低延迟的严格要求,确保AI推理过程的连续性和数据安全性,提升了整体系统的效率和响应速度。
郭照斌介绍说,曙光存储FlashNexus系列产品具备三大显著特点:
充分运用自主处理器与介质,同时强调“盘、框、控”高效协同,提供“迅若闪电”的极致性能。采用智能硬盘框,利用其自身计算能力分担部分原本CPU的工作,使控制器CPU专注IO调度;与主流SSD厂商深度联动,将SSD盘内“智能多流”“盘内垃圾回收”等特性与存储软件融合,精准调度盘内行为,发挥介质最大性能优势。

构建“部件级”到“系统级”再到“方案级”多维度可靠性设计架构,提供“安如磐石”的高可靠保障。部件级,独创RAID QC“四盘校验”技术,存储池可同时应对四块盘故障,保障数据与应用安全,且写入流程采用随机写入数据化、满条带镜像写,降低大容量SSD时代RAID写惩罚(Write Penalty)。方案级提供联网关AA对称双活、异地复制方案,支持跨存储集群保障数据可靠性,业务系统可跨城市部署,就近访问存储系统,减少时延,还能实现两地三中心或四中心多级容灾。
利用AI技术,提供“智若洞见”的智能内核驱动。内置AI驱动性能调度引擎,实时感知系统负载与用户预设业务优先级,动态分配硬件资源,关键业务近乎独占性能通道,非关键业务智能限流,提升资源利用率;嵌入AI异常检测引擎,毫秒级定位系统故障、风险,精确预测性能波动与硬件老化,叠加数据保护与容灾架构,实现全链路自愈,大幅降低系统故障恢复时间。
另外,曙光存储FlashNexus在SPC - 1测试中突破3000万IOPS和0.202毫秒时延,这一斐然成绩背后是其多项关键技术的突破。
郭照斌介绍道,曙光存储自研了应用于集中式全闪存储的“超级隧道”的关键技术。该技术围绕每个CPU核配备独占资源,构建起从网卡到CPU再到硬盘“一杆子插到底”的“超级隧道”,可以避免资源操作冲突,去除“加锁机制”,再配合精准的调度规则和精确的AI预测系统,推动了集中式全闪存储高效稳定运行。
在国产存储技术发展过程中,曙光存储在NUMA技术上取得了显著突破。传统服务器(如英特尔的服务器)常配置单CPU,性能虽强但成本高,曙光则采用多NUMA或多CPU方式提升性能。
为了解决多NUMA或多CPU方式带来的CPU之间或NUMA之间访问代价大的问题,曙光存储推出了“微控模型”以精准适配硬件特性。在硬件层面,CPU、内存、硬盘等资源采用“分组作业”,彼此独立运行互不干扰,从而实现性能翻倍提升。例如,对于网卡和盘的配置,若只有一个网卡,曙光存储可借助虚拟化技术让每个NUMA都感觉拥有自己的独立网卡;若有多个网卡则进行分组处理,保证各NUMA域能在高性能模式下获取最近的硬件资源。
在软件逻辑层面,曙光存储从微控视角对数据进行切分,不同逻辑空间关联的硬件资源相互隔离,就像构建了多条垂直“隧道”。IO数据从网络进入后,经CPU处理、内存访问再到硬盘,整个过程都在同一“隧道”内完成,实现数据就近访问,大大提升了性能。并且,在后端采用多路径技术,待数据逻辑请求进入时就确定归属的微控制器和对应的“隧道”,确保数据能始终快速传输直至持久化落盘。这种设计让系统具备线性可扩展性,CPU数量增加时各CPU间耦合性低,打破了以往依赖单一高性能CPU来提升性能的局限,有效地降低了成本。
曙光存储还引入了RDMA、NVMe等技术,相比传统TCP、iSCSI协议更加精简,能够减少协议带来的性能损耗,让数据更直接地到达硬件。在高性能模式下,传统CPU依赖中断的方式存在多种弊端,如中断开销干扰正常业务运行,频繁的上下文切换也会极大增加系统开销,严重影响性能提升。曙光存储采用“QP + 轮询”机制,关闭中断,主动查询事件,进一步简化协议实现纯用户态操作,缩短数据路径,提高性能与可靠性。这一技术应用对硬件设计也产生积极影响,使硬件设计更为简单,最终实现硬件、协议和执行流程的全面优化,显著提高了系统可靠性与性能。
曙光存储独有的XIO技术(XNIO/XDIO)在FlashNexus的优异性能中也发挥了重要作用。该技术融合了无锁轮询与RTC处理,实现数据传输“一键直达”。
在任务处理方面,XIO技术的协程切换速度极快,仅需0.0000002秒(200纳秒),能够轻松应对百万级高并发需求,确保任务瞬间切换无卡顿。
在数据传输上,XIO技术省去很多中间步骤,与传统传输方式相比,传输效率提升10倍。而且在数据传输过程中可以同步进行问题排查且不影响性能,为系统稳定高效运行提供了有力保障。
正是这些技术协同作用,共同推动FlashNexus突破3000万IOPS,在SPC - 1测试中勇夺全球性能第一。
前瞻布局
锚定数据存储未来新航道
郭照斌表示,在AI大模型时代,数据存储技术可能会发生颠覆性的变化,主要体现在以下三个方面:
首先,数据存储会朝着绿色节能方向发展。随着超算中心的不断发展以及数据量呈爆炸式增长,特别是大模型训练在音频、视频等领域兴起,存储规模也在不断扩大,功耗问题日益凸显。未来采用低功耗存储介质和技术,如蓝光存储、SCM(存储级内存)等,以减少能源消耗和碳排放。而绿色节能符合国家“双碳”要求,必然会成为数据存储技术的一个重要发展趋势。
其次,大容量、低功耗存储介质亟待创新。目前硬盘的容量存在一定限制,难以满足日益增长的数据存储需求。在未来,发展更大容量、更低功耗的存储介质,如大容量SSD(如122TB及以上)、QLC SSD等,以提高存储密度和能效比。
最后,存储与应用融合将更为紧密。随着开源模式或者大模型的兴起,数据存储需要与应用实现更好的契合和更深度的融合。例如,存储厂商需要打破标准存储协议的限制,提供满足应用需求的非标准接口,像针对文件的阶段性删除等特殊功能提供专门的接口,以满足特定应用需求,也是存储行业发展需要努力的方向。
未来高端存储技术将在松耦合的多控制器架构、存储虚拟化、高性能、加强数据安全性、提高用户使用体验和管理效率的智能化等方面发展。
郭照斌指出,在国内存储领域,硬件核心部件容易被国外“卡脖子”。以前,诸如HDD硬盘这类关键部件,国内没有生产能力,只能从国外进口。不过,随着国内产业不断发展,现在闪存盘以及相关的颗粒、工艺等国内已经能够生产,这意味着国内存储领域的硬件国产化水平有了一定提升。
在当下“AI大模型话语权争夺战”的时代背景下,中国存储若要争夺国际话语权,可从以下多方面发力:
一是夯实产业基础。存储系统集CPU、网卡、硬盘等众多部件于一身,中国现已构建起完备且丰富的生产链条,各部件的技术能力也不断提升。以闪存盘领域为例,国内不仅能够提供优质产品,还掌握了颗粒生产及相关工艺技术,为打造高性能存储产品筑牢了根基。接下来,持续强化各部件的研发与制造实力,确保产业链的自主可控和强大竞争力,是至关重要的基础工作。
二是强化技术创新。存储行业存在纯自研和基于开源组件两条发展阵营。以分布式存储领域为例,像曙光、华为等采用纯自研流派的厂商,通过逐行编写代码,经过长时间的精心打磨与积累,其产品具有较高的稳定性和性能;而像浪潮、新华三等基于开源组件快速推出产品的阵营,虽然能够迅速切入市场,不过在稳定性和可靠性方面存在一定差距。
在AI大模型时代,面对复杂数据处理带来的对存储性能和稳定性的超高要求,坚持纯自研无疑有助于推出契合市场需求的高端产品,助力中国存储在国际竞争中崭露头角。
另一方面,聚焦根技术,促使企业加大研发投入,深入探究底层技术逻辑,掌握核心技术,构筑自主知识产权体系。唯有如此,才能为提升中国存储的国际话语权提供坚实有力的技术支撑。
第三,优化市场竞争策略。当下国内存储市场竞争存在一些乱象,部分企业通过低价竞争抢夺市场份额。这种方式虽能短期内会打开市场,但往往却牺牲了产品质量和服务交付水平,最终会损害整个行业的利益。中国存储企业理应摒弃单纯的价格竞争模式,转向以技术、性能、服务和专业性为核心的竞争路径,以此提升产品的附加值和品牌形象。
最后,软件层面的人才对于存储技术的发展起着决定性作用。中国在软件人才培养方面虽已取得一定的成果,但仍需持续发力。一方面,高校和职业院校应及时更新相关专业设置,紧密贴合行业发展需求,培育适应时代的专业人才;另一方面,企业要营造良好的发展环境,制定具有吸引力的激励机制,吸引国内外优秀人才投身中国存储产业,为中国存储产业的技术创新和产品研发注入源源不断的活力 。
此外,郭照斌还介绍了曙光存储在集中式全闪存储领域的未来发展布局。曙光存储一直致力于实现硬件与硬件的深度融合,通过减少软件在数据访问环节的参与,进一步优化存储性能。例如,在发展历程中,曙光存储逐渐过渡到如今的软硬结合模式,并且未来还期望达成硬件之间的数据交互速度,如同消息在交换机上的快速传递一般,使存储性能提升至20微秒以内。
曙光存储秉持开放合作的态度,构建开放的存储生态体系,发展软件定义存储(SDS)、容器化存储编排等技术,支持多协议的数据互通和共享,提升存储资源的利用率和管理效率,推动存储产业的协同发展。在硬件组件选型上,曙光存储热忱欢迎国内生态合作伙伴共同参与,同时欢迎与合作伙伴在网络芯片、PCI交换芯片等多个领域展开合作,携手打造深度耦合的存储产品形态。