Apache郭炜：数智新元，向内打破——开源星星火，燎原新科技-数据猿的专栏

Apache郭炜：数智新元，向内打破——开源星星火，燎原新科技

2021-12-01 10:08:20栏目：2019大型年终主题策划 IP属地：IP未知

在2021年，全球大数据技术最突出的特点就是开源科技。与开源相关的 GitLab 和 Confluent上市后分别市值200亿美元和300亿美元。在国内PingCap，StreamNative，TDEngine，ShardingEX等开源科技公司都获得了大量的融资。全球最成功的科技公司都拥有自己开源软件，开源已经成为下一代软件的开发方式。

开源，下一代软件的开发方式

过去开发软件，无论是瀑布管理还是敏捷管理，整体都是由需求者提出需求、架构师设计、开发人员开发，测试人员测试，最终再提给原来用户人员进行验证，整体上还是一个线性工作流。而开源，创造了一个社区，让“developers are in the driver's seat"。需求人员既可以提出需求，也可以从需求池当中取得自己可以开发的功能进行开发、或者测试进行验证。开源社区建立了一个可以跨越团队、公司、甚至国家的组织，在共同的一个使命和价值观的引导下，创造全人类最先进的技术产品。

所以我认为，如果说互联网是把全世界变成平的，那么开源，把全球的科技变成了平的。

开源就像技术界的互联网升级

我把开源和互联网进行了比较，它们之间非常类似，有3大共同特点：

第一，开源和互联网一样，赢者通吃：在开源界，一个赛道里面只会有1~2家顶级的开源科技公司占领几乎所有的市场；而其他的同赛道的开源软件将望尘莫及。这是因为一个优秀的开源软件它会产生巨大的用户群，形成规模效应。同时它会赢得开发者，特别是顶尖开发者的热爱。反过头来，这些开发者还会加入到开源项目里去贡献更强的一些功能。这就形成了顶级开源软件不停的自加强的增长飞轮。而将第3名第4名远远的落在了后面，无法追赶。所以，一个开源赛道里只有第一第二，没有第三第四。

第二，开源和互联网一样，都是从免费到付费：开源软件大多数都是拥有一个庞大的用户群，其中部分用户会越用越深，超过自身开发能力维持和扩展的时候势必会采买商业级别的软件或者服务，来确保原先开源软件的正常运行。同时由于云的崛起，让开源软件更方便的可以为商业用户直接提供服务，从而保证这些软件的商业增长。这开源和互联网一样，先普及更多的企业用户群，再找到其中适合自己产品模式完成自己的商业闭环。

第三，开源和互联网一样，中国和海外有不同的使用和打法。这是因为在中国有众多的开发者和非常庞大的大数据资源造成用户的场景也非常众多。国内的市场又足够大，以至于不重视中国市场的海外的开源软件，在中国都会有类似的竞手出现。反过头来利用中国众多的开发者优势和众多的场景优势诞生的开源软件进行海外扩张的人也需要适配海外的软件使用场景。这就像互联网公司一样，越偏向应用层的软件，越要针对不同国家和地区进行适配。

以5年为周期的开源技术迭代

而云原生的技术也促进了新一代开源软件的崛起。在下图里我们能看到，每隔5年就会有一个崛起的新兴的开源生态来替代过去流行的开源生态。比较典型的是2010年诞生的Spark大为流行，几乎替代了2006年发布的Hadoop。这是因为每5年就会有新的技术潮流出现，如果你的开源社区没有足够开放，坚持不停自我迭代那么5年后可能就会被更新的技术所取代。

而开源的商业公司价值有如下的公式可以来计算。开源商业公司价值等于开源技术，乘以开源社区再乘以商业转化价值。这意味着开源商业公司应该拥有顶尖的开源技术同时，还需要有完备的开源社区：开源社区内包括大量前沿的使用者，也包括优秀顶尖的开源代码贡献者。将他们有机的整合在一起，才是个有效的开源社区。同时开源商业公司还需要有优秀的商业转换价值和商业产品布局。这几者相乘才可以成为一个优秀的开源公司的商业价值：技术优秀，社区为零，整体价值也是为零；技术社区都很优秀，商业转换价值为零，整体价值依然为零。所以整体来讲，开源，商业价值离不开这三方面的整体转换：

2022年的大数据技术趋势预测

2022年将会是全球开源爆发的一年，像 Databricks, Snyk, Grafana, Kong, and Vercel 这些公司都即将进入Pre-IPO和上市阶段。同时，中国也会涌现出大量的开源科技类型的大数据公司。预计在2025年中国的数据将增至48.6ZB，占全球的27.8%，成为全球最大的数据拥有量国家之一。

因此，在我看来在未来的几年，在中国会有大量的开源大数据技术出现，以下几个趋势值得大家关注：

第一，新一代的场景计算引擎：随着数据量的增大，使用场景的深入，普适性的数据计算引擎将会被细分。根据不同场景会出现各种各样不同的数据引擎，例如，用于流计算的数据库引擎、用于即席数据分析的数据引擎，用于物联网的数据引擎等等。这是因为在巨大数据量面前，想追求极致的性能和全部的适应性，必须在某些技术方案上进行取舍，从而达到引擎针对某些场景引擎的最大化支持。在足够细分的赛道情况下要和其他引擎有数量级别的差异。在数据暴增的情况下，过去的通用性引擎已经无法满足业务需求，场景性的计算引擎将会崛起。

第二，数据融合类技术崛起，包括DataMesh、DataFabric、DataOps等技术。它们将解决各类新兴数据引擎，以及数据湖和数据仓库之间差异化的矛盾。湖仓一体不是采用一个新的计算引擎替代所有老的数据引擎和存储，而是采用新的技术，将大量现有公司投入的数据仓库资产和大数据平台、数据服务云有效的结合起来。不是打破，而是融合，有效的将数据仓库，BI和科学计算平台、数据湖、新兴计算引擎统一融合是未来数据技术的趋势。

第三，数据业务回归传统逻辑。经过几年来大数据技术的发展，大数据及其相关的技术已经进入成熟期，就像过去早期数据仓库刚刚出现的时候，数据从原始积累阶段进入数据梳理和数据分析使用阶段。在这个阶段业务逻辑将回归，技术领先型领袖话语权降低，业务经验型领袖话语权将提高。传统的业务逻辑（业务模型）将重回市场，用新兴的技术梳理好传统的业务模型，从而更好的为企业内部提供更快的决策，更准确的数据分析以及更有效的数据驱动和数据运营。

中国将是2022年的大数据开源技术璀璨的明星

我认为在这三大趋势下，中国的数据开源项目将是2022年最耀眼的明星。因为中国的数据量也是全球顶尖的，同时拥有大量优质的开发者，而中国的开发者和使用者往往都非常的勤奋。相对于美国硅谷对新技术的尝试，中国反而对于新技术的融入程度会更快、普及速度会更高。举一个例子ClickHouse在中国的普及速度，现在已经由早期的earlier Adopter，开始进入中国的传统企业、政府、银行等机构使用。而同样发展的美国社区，还是在新兴的中型企业和一些尝鲜者之中进行普及，并没有像中国如此快速的推广和接受程度。这是和中国拥有大量数据和大量的勤奋的开发者、使用者有必然关系的。

GGV的管理合伙人Glenn Solomon提到，全球应该有1万亿市值的开源公司，而现在还只是刚刚起步。而在中国国家十四五规划当中也重点提到了开源科技创新，这样可以有效的组织社会资源协同，共同创新。

开源星星火，燎原新科技，我坚信开源技术引领下，中国的大数据行业会在未来几年蓬勃发展，成为全球引领创新科技的主要力量。中国也势必在2022年整体全球开源的热潮当中是一颗璀璨的明星。

关于郭炜：

Apache Foundation Member, Apache Dolphin Scheduler PMC，ClickHouse 华人社区创始人，中国开源社区最佳33人，中国2021年开源杰出人物，中国软件行业协会智能应用服务分会副主任委员，全球中小企业创业联合会副会长，TGO鲲鹏会前北京分会会长，虎啸十年杰出数字技术人物。

郭炜先生毕业于北京大学，曾任易观CTO，联想研究院大数据总监，万达电商数据部总经理，先后在中金、IBM、Teradata任大数据方重要职位，对大数据前沿研究做出卓越贡献。