“给AI一本好书,胜过十本烂书。
2026年,一个令人不安的阴影笼罩着AI圈。
过去几个月,从硅谷到中关村,关于“Scaling Law是否已死”的讨论越来越多。曾经屡试不爽的“更大即更强”逻辑,似乎正在遭遇前所未有的挑战。人们开始质疑,大模型的“暴力美学”,是不是已经撞上了天花板?
与此同时,另一条暗线却在悄然生长:谷歌的Gemini Nano、苹果的设备端模型、以及国内面壁智能的MiniCPM系列——这些参数量只有1B到3B的“小参数模型”,正在以令人惊讶的表现,搅动着整个市场。
为什么连大模型都跑不动了,小参数模型反而在逆袭?
答案或许不在模型大小,而在一个被长期忽视的底层要素——数据。
就在这个节骨眼上,面壁智能做了一件让行业侧目的事:把自己的核心训练数据,开源了。
它可能是中国AI公司对“数据如何制造智能”这件事,最彻底的一次公开。
大模型正在被什么“卡脖子”?
要说清楚这次开源的意义,得先搞明白一个底层问题:大模型到底被什么卡住了?
过去两年,行业的共识是“算力决定一切”。谁买的GPU多,谁就能训出更强的模型。但现在,这个逻辑正在松动。
算力扩张的边际效益递减
一个残酷的事实正在浮出水面:参数翻倍,性能的提升幅度正在急剧收窄。
GPT-3到GPT-4的提升是惊人的,但从GPT-4到GPT-5,进步似乎不再那么“性感”了。这不是OpenAI一家的问题,而是整个大模型行业的“暴力美学”正在逼近它的物理和经济天花板。
你往炉子里加再多的柴,火焰也不会无限变高。这个道理,在大模型身上同样适用。
高质量数据加速枯竭
比算力更让人焦虑的,是数据。
研究机构预测:公开可用的高质量文本数据将在未来几年内基本耗尽。这不是危言耸听——互联网看似无穷无尽,但真正干净、准确、有逻辑、可训练的内容,远没有想象中那么多。
更糟糕的是,“垃圾进,垃圾出”,是大模型训练的残酷法则。喂给模型低质量的网络杂烩,它就会产出幻觉、偏见和毫无逻辑的胡言乱语。
在这个行业里,“量”不等于“质”,已经被越来越多的实践所验证。
端侧落地对“模型+高质量数据”提出苛刻要求。
还有一个被很多人忽略的现实,大模型根本跑不到终端设备上。
手机、PC、汽车——这些才是AI商业化的真正主战场。但它们的算力和功耗,注定了无法部署千亿、万亿参数的大模型。
于是出现了一个悖论:用户想要的是“足够聪明”的智能体验,但终端能承载的只有小参数模型。怎么办?
答案只有一个:给这些小参数模型喂“精粮”。用最高质量的数据,让1B参数的模型打出接近10B的效果。
这正是面壁智能一直在做的事。
面壁智能的“数据炼金术”
开源两大L3数据集意味着什么?
在AI行业,谈论“数据重要性”的公司很多,但真正把数据治理系统化、工程化、并且开源出来的,面壁智能是走在前面的那一个。
当大多数玩家还在比拼算力储备时,面壁智能已经意识到:模型架构趋同的时代,数据质量才是真正的分水岭。
为了解决数据的问题,面壁智能在今年2月,开源了一套叫做UltraData的数据分级治理体系。而本次发布并开源的两个L3数据集——Ultra‑FineWeb‑L3和UltraData‑SFT‑2605,正是在这套体系基础上产出的最新成果。
要理解这套体系为什么重要,得先理解一个被长期忽略的事实:不同训练阶段,对数据的需求是完全不同的。
预训练阶段,模型需要的是广泛的知识覆盖,这时候“量”很重要。但到了退火(即在预训练后期使用高质量数据对模型进行精细化调整,通常发生在学习率衰减阶段)和微调阶段,模型需要的是高密度的逻辑、推理和能力强化——这时候,“质”远比“量”重要。
传统的“一刀切”数据处理方式,满足不了这种差异化需求。
面壁智能的UltraData数据体系,正是为了解决这个问题而生。
核心理念:L0-L4,告别“大锅饭”式数据处理
他们把数据分成了五个等级,每一级对应不同的处理标准和应用场景:
·L0(原始数据):从互联网扒下来的“原矿”,含大量杂质,不直接用于训练
·L1(过滤数据):经过基础清洗、去重后的“粗矿”,格式规范但质量参差不齐
·L2(精筛数据):通过模型打分筛选出的“精矿”,信息密度高、领域明确
·L3(合成增强数据):经过改写、合成、人工标注的“高纯度燃料”——这是本次开源的核心
·L4(编排数据):可直接用于RAG等应用的成品数据
数据分级治理体系示意图
这套体系的核心理念其实很朴素——不是所有数据都配得上“训练”二字,更不是所有数据都该在同一口锅里乱炖。
但这套体系真正厉害的地方,除了分级本身,还有它背后的方法论。
面壁智能的L0-L4不是一套固定的“菜谱”,而是一套模型驱动的动态评估机制。什么意思?就是在模型训练过程中,根据模型反馈实时调整数据的质量标准和配比策略。模型会“告诉”你,什么样的数据对它更有价值。
这意味着,这套体系是活的、会进化的——它不是一个静态的数据集,而是一套可持续优化的数据工程流水线。
而且,面壁智能已经用实验证明了这套方法的有效性:模型性能随着数据质量从L1向L3的逐级提升而持续增强。他们在英文网页、中文网页、数学、代码四个领域上进行了系统性实验,结果一致指向同一个结论——数据质量,是模型能力的决定性变量。
理论说完了,那这套方法论在实际中能产出什么样的成果?面壁智能开源的两个L3数据集,足以说明问题
开源行动:两大L3数据集,把“秘方”公之于众
这次,面壁智能开源的两个高质量数据集,相当于给业界打了一个样。
第一个数据集:Ultra‑FineWeb‑L3
这是全球最大开源规模的中文预训练合成数据,总量达到600B Tokens——其中中文200B+,英文400B+。
600B Tokens是什么概念?相当于几十万本《红楼梦》的体量。
但规模并不是它最值得关注的地方,真正有价值的是这个数据集的生成方式。
传统的数据集构建,基本上是“爬虫扒下来→简单清洗→打包发布”的三部曲。这种方式得到的数据,仍有三个问题:信号单一(主要是陈述性叙述)、风格集中(缺少教材、百科等多样格式)、知识稀释(有价值的信息被冗余内容淹没)。
这种L2级别的网页数据,模型只能“读懂”,但不一定“好学”。就像给一个学生一堆杂乱的参考资料,他翻完了,但未必能真正掌握其中的知识脉络。
面壁智能的做法完全不同。
他们把L2级别的网页数据,也就是已经经过基础筛选、具备一定质量的网页文本,通过QA生成、多风格改写等技术手段,进一步加工成了L3级别的“高可学习性”数据。比如,通过QA生成把陈述性的网页文档,转化成“原文+多组问答对”的结构化样本;通过多风格改写把同一来源的网页内容,改写成多种表达风格——百科风格、教材风格、博客风格、摘要风格——同时总结和重组核心知识点。
这个过程,本质上是在做一件事:把“可读”的网页,变成模型“好学”的教材。
同样的文本内容,经过L3级别的重构,模型从中能学到的信息密度完全不是一个量级。实验数据印证了这一点:在100B Token的训练预算下,使用Ultra-FineWeb-L3的模型,训练后期平均得分持续领先其他数据集。这也正是MiniCPM5-1B把它用在退火阶段的原因。
第二个数据集:UltraData‑SFT‑2605
如果说预训练是让模型博览群书,那SFT(监督微调)就是给它一本附带详细解题步骤的习题集。
面壁智能这次开源的SFT数据集,有几个值得说道的地方:
·千万级别:最终产出的数据集,样本量超过1500万,规模超大多数开源SFT数据集,并且覆盖数学、代码、知识、中文通用、指令遵循、多语言数学、多语言知识等七大核心领域。
·含推理链:不只是问题和答案,还包括完整的“思考过程”。
·深思考/非思考全覆盖:这个数据集既有需要多步推理的复杂问题,也有快速应答的简单样本。这相当于同时训练模型的“深度思考”能力和“快速反应”能力。
这正是MiniCPM5-1B能够以1B参数逼近大模型推理能力的核心秘密——训练它的“习题集”质量足够高、思路足够清晰、覆盖足够全面。
面壁智能这次开源,还有一个值得特别强调的特点——全流程透明化。他们不仅公开了最终的数据集,还公开了从query筛选、answer质量校验,到单一数据验证的完整治理流程。
而且,这些数据与主流评测集做了严格去重——这意味着,任何使用这些数据训练的模型,其评测成绩都不会因为“数据污染”而虚高。
行业内关于“数据污染”、“评测刷榜”的争议从来就没停过,面壁智能的做法,这在行业内卷评测刷榜的当下,是一种难得的诚实和自信。
好了,数据集开源了,治理方法也公开了。那这套东西到底能给行业带来什么价值?
下一个十年的胜负手
谁更懂数据,谁就能赢得市场
开源模型权重在业界其实比较普遍了,但开源训练数据则并不多见。
这是一种更高维度的开放,而这种开放也将在行业当中泛起“涟漪”,它的影响,既包括端侧设备这种应用层,也包括整个AI开源生态的格局。
对端侧智能的“加速效应”
L3级数据的最大受益者,是端侧设备。
高质量、高密度的训练数据,可以直接转化为更低的算力需求和内存占用。
端侧厂商——无论是做手机的、做PC的、还是做汽车的——如果想要复现MiniCPM5-1B级别的能力,现在可以直接使用UltraData。他们不需要重复投入巨额成本做网页合成、数据清洗和SFT数据构建。
这相当于面壁智能替整个行业踩了一遍坑,然后把“通关攻略”免费发给了所有人。
高质量数据意味着更少的训练token即可达到同样效果,这对手机、PC、汽车这些算力受限的场景来说,意义重大,比如:
·手机本地就能处理百页文档、进行深度推理,无需联网上传
·PC端的代码补全和数据分析能力,可能达到接近云端大模型的水平
·车载助手真正能理解复杂的语音指令,而不是只会做关键词匹配
可以说,UltraData这类数据集的开放,可能是端侧智能从“能用”到“好用”的关键催化剂。
开源生态的“第二层”革命
过去两年,开源社区的主战场在“模型权重”。深度求索开源DeepSeek、Meta开源Llama,阿里开源Qwen——这些无疑推动了整个行业的民主化。
但面壁智能这次的开源,指向了另一个维度——数据层。
如果说开源模型是给社区“鱼”,那开源数据则是教社区“如何养鱼、如何钓鱼”。当一个高性能模型背后的训练数据被公开,整个社区的研究和复现能力将可能得到显著提升。
这可能会引领一种新的协作模式:不只是共享模型,更共享“制造模型的方法论”。
当你把一个高性能模型背后“数据是如何被治理、筛选、合成与验证的”全过程公开,社区就不再只是被动地使用模型,而是可以真正参与到“如何制造智能”的讨论和优化中来——这相当于公开了“可口可乐的配方”。
写在最后
每一次技术的重大更迭,本质上都是一场关于“稀缺资源”的重新定义。
算力时代,赢家是买得起最多GPU的人。但算力可以堆,芯片可以造,供应链可以重建——它是商品,不是壁垒。
但数据不同。
高质量、可训练、有逻辑的数据,是人类过去几十年在互联网上留下的有限痕迹,它是不可再生的。而AI用短短三四年,就把其中最精华的部分“榨”干了。
当表层富矿耗尽,剩下的只有深埋地下的贫矿。谁能在贫矿中提炼出更高的纯度,谁就能定义下一个时代。
面壁智能的UltraData体系,就是一套“精炼工艺”。L0到L4,从矿石到高纯度燃料——他们把数据当作需要深度加工的原材料,而不是可以直接扔进炉子的柴火。
更耐人寻味的是,他们把这套工艺开源了。
历史上,每一次关键技术的开源,都是一次权力的转移。Linux开源,微软的垄断被撬开;安卓开源,移动互联网的入口不再属于任何一家公司。
当一家公司选择开源自己的“数据秘方”,它在做的是同一件事:重新定义行业的起跑线。
而面壁智能之所以能做这件事,不是偶然。
脱胎于清华NLP实验室的这支团队,亲历了中国大模型从无到有的全过程。早在2020年12月,其团队就发布了国内首个中文大模型CPM-1,并成为后来中国奠基性大模型“悟道”系列的首发主力阵容。
面壁智能,与DeepSeek并称“国内最会做架构改进的两家公司”。但跟DeepSeek不同,面壁智能的战场在端侧:在功耗、散热、访存带宽的严苛约束下追求极致效率。从自研训练框架到量化技术,从端侧推理引擎到开源数据,面壁智能可能是国内少数具备端侧AI全栈能力的公司。其提出的密度定律登上了《 Nature 》子刊封面,端侧多模态成果登上了《 Nature 》子刊,成为国内大模型公司获得的顶级学术认可。而端侧智能,对数据质量有着更高的要求。
当高质量数据成为稀缺资源,数据治理能力则将成为另一个竞争壁垒。
谁能从有限的数据中榨取出更高的训练价值?谁能建立更高效的数据分级和合成流水线?谁能用更低成本让模型变得更聪明?
这些问题,将定义下一代AI公司的胜负。
数据科学,正在从AI产业的“辅助角色”走向“舞台中央”。那些愿意把“秘方”公之于众、带着整个行业一起向前的人,可能正站在下一个时代的起点。
红包分享
钱包管理

