随着人工智能、云计算、大数据的发展,商业业态和服务模式不断呈现多样化。在技术的加持下,企业级服务朝着更加智能、自动化方向发展,为企业管理、业务运营及发展带去更多可能。Kyligence 自成立以来,一直专注在数据服务与管理方向,目前已经服务金融、零售、制造等全球头部客户。
在服务市场过程中,我们一直在思考,人类已经处于数据爆炸的时代,企业面对“海量数据”,如何筛选数据、如何管理众多数据源、如何管理优质数据成为难题。更进一步讲,市场究竟需要怎样的大数据服务,服务商又该如何满足客户多场景需求?
企业正在面临一场“数据困境”
过去二十年里,人类一直处在一个数据爆炸的时代。企业的传统业务数据如订单、仓储的增量已经相对平缓,取而代之的是人类数据(例如社交媒体、照片、行为画像等数据)和机器数据(日志、IoT 设备等)大量被采集和保存,它们的量级远远超过传统业务数据。
随着海量数据高速增长、数据特征越来越多样、数据源越来越繁杂以及技术间的整合和平台间的集成带来的难度,以及随着人工智能和云计算的发展,让数据管理的平台发生了变化。
先让我们来回顾下数据管理平台的历史。
大家知道数据仓库(Data Warehouse)的早期概念数据集市(Data Marts)在 70 年代由 AC尼尔森提出。1988 年 Bill Inmon 发表了名为《业务信息系统架构》的论文,从而正式介绍了数据仓库的概念和建设方法论。随后在 1996 年,Ralph Kimball 发表“数据仓库工具箱”介绍了维度建模。在数仓理论发展至今的 30 年间,越来越多企业选用数据仓库架构作为数据平台建设的标准和核心,分层构建多维数据模型和业务模型层。下游通过 ETL 工具对接各类数据源进行数据整合,上游数据应用进行数据消费提供分析决策。
不过,随着互联网等数字经济的蓬勃发展,数据量呈现爆发式增长,非结构化数据、半结构化数据不断涌现,数据更新也更加频繁,数据仓库难以支持这些场景的需求,即大数据著名 4V 问题:volume, variety, velocity, veracity。此外,还存在无法与数仓外的数据协同的问题,尤其是目前多云、多数据源等现实,使得“数据仓库”重新形成了“数据孤岛”,让业务人员很难获得全局数据视图。
接下来就是数据湖(Data lake),这一技术概念在 2015 年由 Pentaho 公司的创始人兼首席技术官詹姆斯·狄克逊(James Dixon)提出。数据湖以离线批处理为主,能够灵活处理和分析结构化和非结构化数据,并快速得到结果,以缓解数仓的尴尬。但数据湖缺少数据管理能力,以及对数据质量的保障。对于数据管理团队来说,尽管管理了很大的数据量,但真正哪些数据是最有价值的,却始终不得而知。
正如 Gartner 在 2020 年的 Market Guide for Query Accelerators 报告中所描述的,数据仓库期望有数据湖的可扩展性,而数据湖则希望有数据仓库的企业级分析和管理能力。
再看湖仓一体,这个概念最早起源于 Databricks 提出的 Lakehouse:它是一种开放的架构,结合了数据湖和数据仓库特点,直接在数据湖的低成本存储上,实现与数据仓库中类似的数据结构和数据管理功能。
不过,无论是传统的数据仓库,还是近几年热门的数据湖、湖仓一体等,虽然都解决了一部分问题,但也有不少弊端显露。而且,随着时代大背景发生了一些变化,行业前提和假设与之前有了不同:
从专家到平民分析师:被使用的数据才是资产,不被使用的数据则是负债。过去,使用数据和解释数据是少数专家的权力。要充分发挥数据的价值,必须有越来越多的普通人来使用数据。这意味着“数据分析师”的人数将成百倍的增加,所以数据系统如何降低使用门槛,如何应对成百倍上升的工作负载,将成为极大的挑战;
数据从汇聚到注定分散:随着世界各国严控数据安全,欧洲有 GDPR,中美有各自的数据安全法,对跨国企业来说,建立一个集中型的数据湖已经不可能。此外,出于行业数据管控的目的,亦或防止被存储厂商锁定,多云、混合云部署在国内也成为趋势。因此,对于数据孤岛的整合思路将由汇聚(Collect)渐渐转向联接(Connect)。
从“已知”到“未知”:要想领跑数字化转型,企业仅重复已知的数据应用场景已经不够了,更需要的是一种数据创新的能力,探索未知的数据关联,发现未知的业务规律,开创未知的数据应用场景。
那么,下一代普通人也能用的数据仓库,应该是什么样的呢?
我们称之为智能数据云(Intelligent Data Cloud),它让使用数据像使用水、使用电一样方便,人人都能随取随用,自助使用。
从技术角度来看,智能数据云是之前数据仓库、数据湖、湖仓一体等技术体系的继承和延续,既有数据湖低成本的存储可扩展性,也有数据仓库的强化数据结构和数据管理能力。同时,在此之上,智能数据云提供更高一层的业务数据对象管理能力,并从业务对数据的读写需求出发,使用 AI 增强的方式自动化和简化技术层面的人工数据操作和数据管理。向外,智能数据云提供普通人可用的数据服务;向内,智能数据云以业务为导向自动化数据的操作和管理。
智能数据云打破数据孤岛,把collect 变成connect
下面让我们从实际场景中看看企业面临的现状究竟都有哪些
这是一家零售行业的企业架构:可以看到,每一个部门都有自己所需要用到的系统,但由于企业业务发展的历史原因,企业内部信息系统多为烟囱式建设,数据无法互通,相对封闭,无法从整体视角为客户业务决策带去更加全面的有效决策,从而影响业务发展效果。
例如在一个营销数据的小闭环里,从客群的选择开始,企业通常会通过CRM系统筛选,然后指定营销执行的方案,规划到市场的营销系统,然后执行营销以后,回到收回结果,再次路径销售系统。那么通过分析这一系列动作,形成一些洞察,又开始下一轮的客群圈选和促销。在这样的一个小循环里面,它其实已经打通了几个数据烟囱了,从CRM系统到营销系统,到销售分析的一个系统。
另外,往更细节的方向来看,大家想一想:如果我在生产部门,供应链部门,市场部门,可能都有用户的个人隐私信息,电话号码,地址等等。那我就需要到每一条烟囱的系统里面去逐个讲对外的数据服务,询问这样的使用方式会不会有问题。所以,在这样的场景下,横向的数据口径的对齐显得尤为重要。
我认为考察企业数字化运营的水平,其实就是考察敏捷性。上述案例中,仅是一个营销场景的小闭环就已经对企业数据管理进行了一种考验。再来一个例子,如果你是一位KFC的门店经理,直接打开一个Mysql数据库,是完全看不懂的,因为需要专业的数据库知识。通过使用Kyligence产品,门店经理可以看到业务模型,哪些是他关心的?哪些是标签?指标是什么?这个平台打开了普通业务员使用数据的窗口。在这个窗口基础上,业务员可以做很多创新,比如制定更佳的促销方案、评估更合适的代言人等。
目前,企业已经进入了精细化运营阶段,也就是说不仅有线上,线下的数据基础。此外,在整个数字化的系统里面,由于大数据技术的提升,我们也已经能够精确地管理到每一个消费者。所以,技术的突破带来了这个能力。
技术的发展会随着时代不断迭代和进化,数据服务也是如此。未来人类使用数据的习惯一定会被创新性技术和服务模式所改变。所以,我们要帮客户 Connect 所有数据源,用一个数据平台搞定各种分析场景,平台能够自动识别最有价值的数据,希望用最简单的方式去让业务人员使用数据,去赋能数字化转型。随着越来越多的客户将业务部署在云平台,我们的“智能数据云“也满足了多云环境的部署。目前,我们已经支持微软云 Azure、亚马逊云 AWS、华为云等公有云平台,并且正在积极部署私有云服务。
作者个人简介
李扬,Kyligence 联合创始人兼 CTO,Apache Kylin 联合创建者及项目管理委员会成员,主创团队架构师与技术负责人,专注于大数据分析、并行计算、数据索引、关系代数、近似算法等技术。曾任 eBay 全球分析基础架构部大数据资深架构师、IBM InfoSphere BigInsights 的技术负责人、摩根士丹利副总裁。