算力是伪命题，数据才是真瓶颈？-数据猿的专栏

算力是伪命题，数据才是真瓶颈？

2026-05-29 13:45:51栏目：默认栏目 IP属地：IP未知

“给AI一本好书，胜过十本烂书。

2026年，一个令人不安的阴影笼罩着AI圈。

过去几个月，从硅谷到中关村，关于“Scaling Law是否已死”的讨论越来越多。曾经屡试不爽的“更大即更强”逻辑，似乎正在遭遇前所未有的挑战。人们开始质疑，大模型的“暴力美学”，是不是已经撞上了天花板？

与此同时，另一条暗线却在悄然生长：谷歌的Gemini Nano、苹果的设备端模型、以及国内面壁智能的MiniCPM系列——这些参数量只有1B到3B的“小参数模型”，正在以令人惊讶的表现，搅动着整个市场。

为什么连大模型都跑不动了，小参数模型反而在逆袭？

答案或许不在模型大小，而在一个被长期忽视的底层要素——数据。

就在这个节骨眼上，面壁智能做了一件让行业侧目的事：把自己的核心训练数据，开源了。

它可能是中国AI公司对“数据如何制造智能”这件事，最彻底的一次公开。

大模型正在被什么“卡脖子”？

要说清楚这次开源的意义，得先搞明白一个底层问题：大模型到底被什么卡住了？

过去两年，行业的共识是“算力决定一切”。谁买的GPU多，谁就能训出更强的模型。但现在，这个逻辑正在松动。

算力扩张的边际效益递减

一个残酷的事实正在浮出水面：参数翻倍，性能的提升幅度正在急剧收窄。

GPT-3到GPT-4的提升是惊人的，但从GPT-4到GPT-5，进步似乎不再那么“性感”了。这不是OpenAI一家的问题，而是整个大模型行业的“暴力美学”正在逼近它的物理和经济天花板。

你往炉子里加再多的柴，火焰也不会无限变高。这个道理，在大模型身上同样适用。

高质量数据加速枯竭

比算力更让人焦虑的，是数据。

研究机构预测：公开可用的高质量文本数据将在未来几年内基本耗尽。这不是危言耸听——互联网看似无穷无尽，但真正干净、准确、有逻辑、可训练的内容，远没有想象中那么多。

更糟糕的是，“垃圾进，垃圾出”，是大模型训练的残酷法则。喂给模型低质量的网络杂烩，它就会产出幻觉、偏见和毫无逻辑的胡言乱语。

在这个行业里，“量”不等于“质”，已经被越来越多的实践所验证。

端侧落地对“模型+高质量数据”提出苛刻要求。

还有一个被很多人忽略的现实，大模型根本跑不到终端设备上。

手机、PC、汽车——这些才是AI商业化的真正主战场。但它们的算力和功耗，注定了无法部署千亿、万亿参数的大模型。

于是出现了一个悖论：用户想要的是“足够聪明”的智能体验，但终端能承载的只有小参数模型。怎么办？

答案只有一个：给这些小参数模型喂“精粮”。用最高质量的数据，让1B参数的模型打出接近10B的效果。

这正是面壁智能一直在做的事。

面壁智能的“数据炼金术”
开源两大L3数据集意味着什么？

在AI行业，谈论“数据重要性”的公司很多，但真正把数据治理系统化、工程化、并且开源出来的，面壁智能是走在前面的那一个。

当大多数玩家还在比拼算力储备时，面壁智能已经意识到：模型架构趋同的时代，数据质量才是真正的分水岭。

为了解决数据的问题，面壁智能在今年2月，开源了一套叫做UltraData的数据分级治理体系。而本次发布并开源的两个L3数据集——Ultra‑FineWeb‑L3和UltraData‑SFT‑2605，正是在这套体系基础上产出的最新成果。

要理解这套体系为什么重要，得先理解一个被长期忽略的事实：不同训练阶段，对数据的需求是完全不同的。

预训练阶段，模型需要的是广泛的知识覆盖，这时候“量”很重要。但到了退火（即在预训练后期使用高质量数据对模型进行精细化调整，通常发生在学习率衰减阶段）和微调阶段，模型需要的是高密度的逻辑、推理和能力强化——这时候，“质”远比“量”重要。

传统的“一刀切”数据处理方式，满足不了这种差异化需求。

面壁智能的UltraData数据体系，正是为了解决这个问题而生。

核心理念：L0-L4，告别“大锅饭”式数据处理

他们把数据分成了五个等级，每一级对应不同的处理标准和应用场景：

·L0（原始数据）：从互联网扒下来的“原矿”，含大量杂质，不直接用于训练

·L1（过滤数据）：经过基础清洗、去重后的“粗矿”，格式规范但质量参差不齐

·L2（精筛数据）：通过模型打分筛选出的“精矿”，信息密度高、领域明确

·L3（合成增强数据）：经过改写、合成、人工标注的“高纯度燃料”——这是本次开源的核心

·L4（编排数据）：可直接用于RAG等应用的成品数据

数据分级治理体系示意图

这套体系的核心理念其实很朴素——不是所有数据都配得上“训练”二字，更不是所有数据都该在同一口锅里乱炖。

但这套体系真正厉害的地方，除了分级本身，还有它背后的方法论。

面壁智能的L0-L4不是一套固定的“菜谱”，而是一套模型驱动的动态评估机制。什么意思？就是在模型训练过程中，根据模型反馈实时调整数据的质量标准和配比策略。模型会“告诉”你，什么样的数据对它更有价值。

这意味着，这套体系是活的、会进化的——它不是一个静态的数据集，而是一套可持续优化的数据工程流水线。

而且，面壁智能已经用实验证明了这套方法的有效性：模型性能随着数据质量从L1向L3的逐级提升而持续增强。他们在英文网页、中文网页、数学、代码四个领域上进行了系统性实验，结果一致指向同一个结论——数据质量，是模型能力的决定性变量。

理论说完了，那这套方法论在实际中能产出什么样的成果？面壁智能开源的两个L3数据集，足以说明问题

开源行动：两大L3数据集，把“秘方”公之于众

这次，面壁智能开源的两个高质量数据集，相当于给业界打了一个样。

第一个数据集：Ultra‑FineWeb‑L3

这是全球最大开源规模的中文预训练合成数据，总量达到600B Tokens——其中中文200B+，英文400B+。

600B Tokens是什么概念？相当于几十万本《红楼梦》的体量。

但规模并不是它最值得关注的地方，真正有价值的是这个数据集的生成方式。

传统的数据集构建，基本上是“爬虫扒下来→简单清洗→打包发布”的三部曲。这种方式得到的数据，仍有三个问题：信号单一（主要是陈述性叙述）、风格集中（缺少教材、百科等多样格式）、知识稀释（有价值的信息被冗余内容淹没）。

这种L2级别的网页数据，模型只能“读懂”，但不一定“好学”。就像给一个学生一堆杂乱的参考资料，他翻完了，但未必能真正掌握其中的知识脉络。

面壁智能的做法完全不同。

他们把L2级别的网页数据，也就是已经经过基础筛选、具备一定质量的网页文本，通过QA生成、多风格改写等技术手段，进一步加工成了L3级别的“高可学习性”数据。比如，通过QA生成把陈述性的网页文档，转化成“原文+多组问答对”的结构化样本；通过多风格改写把同一来源的网页内容，改写成多种表达风格——百科风格、教材风格、博客风格、摘要风格——同时总结和重组核心知识点。

这个过程，本质上是在做一件事：把“可读”的网页，变成模型“好学”的教材。

同样的文本内容，经过L3级别的重构，模型从中能学到的信息密度完全不是一个量级。实验数据印证了这一点：在100B Token的训练预算下，使用Ultra-FineWeb-L3的模型，训练后期平均得分持续领先其他数据集。这也正是MiniCPM5-1B把它用在退火阶段的原因。

第二个数据集：UltraData‑SFT‑2605

如果说预训练是让模型博览群书，那SFT（监督微调）就是给它一本附带详细解题步骤的习题集。

面壁智能这次开源的SFT数据集，有几个值得说道的地方：

·千万级别：最终产出的数据集，样本量超过1500万，规模超大多数开源SFT数据集，并且覆盖数学、代码、知识、中文通用、指令遵循、多语言数学、多语言知识等七大核心领域。

·含推理链：不只是问题和答案，还包括完整的“思考过程”。

·深思考/非思考全覆盖：这个数据集既有需要多步推理的复杂问题，也有快速应答的简单样本。这相当于同时训练模型的“深度思考”能力和“快速反应”能力。

这正是MiniCPM5-1B能够以1B参数逼近大模型推理能力的核心秘密——训练它的“习题集”质量足够高、思路足够清晰、覆盖足够全面。

面壁智能这次开源，还有一个值得特别强调的特点——全流程透明化。他们不仅公开了最终的数据集，还公开了从query筛选、answer质量校验，到单一数据验证的完整治理流程。

而且，这些数据与主流评测集做了严格去重——这意味着，任何使用这些数据训练的模型，其评测成绩都不会因为“数据污染”而虚高。

行业内关于“数据污染”、“评测刷榜”的争议从来就没停过，面壁智能的做法，这在行业内卷评测刷榜的当下，是一种难得的诚实和自信。

好了，数据集开源了，治理方法也公开了。那这套东西到底能给行业带来什么价值？

下一个十年的胜负手
谁更懂数据，谁就能赢得市场

开源模型权重在业界其实比较普遍了，但开源训练数据则并不多见。

这是一种更高维度的开放，而这种开放也将在行业当中泛起“涟漪”，它的影响，既包括端侧设备这种应用层，也包括整个AI开源生态的格局。

对端侧智能的“加速效应”

L3级数据的最大受益者，是端侧设备。

高质量、高密度的训练数据，可以直接转化为更低的算力需求和内存占用。

端侧厂商——无论是做手机的、做PC的、还是做汽车的——如果想要复现MiniCPM5-1B级别的能力，现在可以直接使用UltraData。他们不需要重复投入巨额成本做网页合成、数据清洗和SFT数据构建。

这相当于面壁智能替整个行业踩了一遍坑，然后把“通关攻略”免费发给了所有人。

高质量数据意味着更少的训练token即可达到同样效果，这对手机、PC、汽车这些算力受限的场景来说，意义重大，比如：

·手机本地就能处理百页文档、进行深度推理，无需联网上传

·PC端的代码补全和数据分析能力，可能达到接近云端大模型的水平

·车载助手真正能理解复杂的语音指令，而不是只会做关键词匹配

可以说，UltraData这类数据集的开放，可能是端侧智能从“能用”到“好用”的关键催化剂。

开源生态的“第二层”革命

过去两年，开源社区的主战场在“模型权重”。深度求索开源DeepSeek、Meta开源Llama，阿里开源Qwen——这些无疑推动了整个行业的民主化。

但面壁智能这次的开源，指向了另一个维度——数据层。

如果说开源模型是给社区“鱼”，那开源数据则是教社区“如何养鱼、如何钓鱼”。当一个高性能模型背后的训练数据被公开，整个社区的研究和复现能力将可能得到显著提升。

这可能会引领一种新的协作模式：不只是共享模型，更共享“制造模型的方法论”。

当你把一个高性能模型背后“数据是如何被治理、筛选、合成与验证的”全过程公开，社区就不再只是被动地使用模型，而是可以真正参与到“如何制造智能”的讨论和优化中来——这相当于公开了“可口可乐的配方”。

写在最后

每一次技术的重大更迭，本质上都是一场关于“稀缺资源”的重新定义。

算力时代，赢家是买得起最多GPU的人。但算力可以堆，芯片可以造，供应链可以重建——它是商品，不是壁垒。

但数据不同。

高质量、可训练、有逻辑的数据，是人类过去几十年在互联网上留下的有限痕迹，它是不可再生的。而AI用短短三四年，就把其中最精华的部分“榨”干了。

当表层富矿耗尽，剩下的只有深埋地下的贫矿。谁能在贫矿中提炼出更高的纯度，谁就能定义下一个时代。

面壁智能的UltraData体系，就是一套“精炼工艺”。L0到L4，从矿石到高纯度燃料——他们把数据当作需要深度加工的原材料，而不是可以直接扔进炉子的柴火。

更耐人寻味的是，他们把这套工艺开源了。

历史上，每一次关键技术的开源，都是一次权力的转移。Linux开源，微软的垄断被撬开；安卓开源，移动互联网的入口不再属于任何一家公司。

当一家公司选择开源自己的“数据秘方”，它在做的是同一件事：重新定义行业的起跑线。

而面壁智能之所以能做这件事，不是偶然。

脱胎于清华NLP实验室的这支团队，亲历了中国大模型从无到有的全过程。早在2020年12月，其团队就发布了国内首个中文大模型CPM-1，并成为后来中国奠基性大模型“悟道”系列的首发主力阵容。

面壁智能，与DeepSeek并称“国内最会做架构改进的两家公司”。但跟DeepSeek不同，面壁智能的战场在端侧：在功耗、散热、访存带宽的严苛约束下追求极致效率。从自研训练框架到量化技术，从端侧推理引擎到开源数据，面壁智能可能是国内少数具备端侧AI全栈能力的公司。其提出的密度定律登上了《 Nature 》子刊封面，端侧多模态成果登上了《 Nature 》子刊，成为国内大模型公司获得的顶级学术认可。而端侧智能，对数据质量有着更高的要求。

当高质量数据成为稀缺资源，数据治理能力则将成为另一个竞争壁垒。

谁能从有限的数据中榨取出更高的训练价值？谁能建立更高效的数据分级和合成流水线？谁能用更低成本让模型变得更聪明？

这些问题，将定义下一代AI公司的胜负。

数据科学，正在从AI产业的“辅助角色”走向“舞台中央”。那些愿意把“秘方”公之于众、带着整个行业一起向前的人，可能正站在下一个时代的起点。

大模型正在被什么“卡脖子”？

面壁智能的“数据炼金术”开源两大L3数据集意味着什么？

下一个十年的胜负手谁更懂数据，谁就能赢得市场

写在最后

面壁智能的“数据炼金术”
开源两大L3数据集意味着什么？

下一个十年的胜负手
谁更懂数据，谁就能赢得市场