前好耶&西班牙电信大数据专家赵乾坤:万物皆为数,传统数据库概念誓待突破
2018-04-08 09:50:25
  • 0
  • 0
  • 0

前好耶&西班牙电信大数据专家赵乾坤:万物皆为数,传统数据库概念誓待突破

图丨赵乾坤

赵乾坤博士为壹看板创始人兼CEO,数据挖掘专家,先后毕业于华中科技大学、新加坡南洋理工大学,并于美国宾夕法尼亚大学完成搜索引擎相关的博士后研究。其相关的研究和应用在国际知名学术会议(WWW,KDD,AAAI,CIKM 等)上发表了 20 余篇论文和讲座,2 项国际的专利技术。

曾任好耶广告北京首席架构师、西班牙电信大数据科学家、AOLChina 发起人,后创立脉博网与37degree。有深厚的数据挖掘技术背景和十余年的互联网行业经验,是大数据在传统企业和互联网广告应用设计师和实践者。

商业智能是一套完整的解决方案,用来将企业中现有的数据进行有效的整合,快速准确的提供报表并提出决策依据,帮助企业做出明智的业务经营决策。在当今大数据、人工智能等技术爆发的时代,我们又应该怎么解读适应时代发展的商业智能呢?

万物皆为数

随着大数据落地的不断深入,越来越多的企业意识到数据的价值。然而众人统一的认知,或者是大部分商业智能从业者的认知,都局限在结构化数据的逻辑。也就是说他们认为所有的数据最终都是可以存储到数据库的,或者说都是经过采集,清洗,整合后的高质量数据。

事实上目前数据的定义已经完全超越了数据库的存储逻辑,不管是关系型还是最新的NoSQL或者Graph database,目前存储在数据库之外的数据量是远远超过存储在数据库内的数据。

在商业智能分析中,数据源有网页,pdf,图片,音频,视频等等都具有很重要的价值。比如在新零售的场景下,我们对于线下商品展示和商品包装等相关数据的分析需求日益增加。 商品的销量与他摆放的位置,以及商品包装的颜色等有何相关性?如何分析?我们是需要提前将所有相关的信息都采集下来然后清洗并结构化存储以备分析吗?

采集和存储是必须的,但是靠传统商业智能清洗和结构化那些数据,还是比较困难。随着技术的发展,我们可以通过成熟的相关分析工具加自定义脚本的方式来灵活分析上面提到的问题,甚至对基于图片中色彩模式,物体相似度等的检索和分析都有第三方支持。

话说回来,新时代的商业智能,对于万物皆为数该如何理解呢?数据已经不是传统的数字或者数据库的逻辑,数据已经是所有物品必须添加的一个新维度或者属性。同时商业智能分析要突破传统数据仓库和数据库的思路,在商业逻辑之下提出各种开脑洞的数据需求和分析需求。

数据架构之供应链思维

商业智能中数据架构至关重要,它是所有商业分析的基础。所谓数据架构就是如何存储和管理你的数据,在哪里存储,以及为什么要使用这种管理逻辑。人们通常会直接把这个问题局限在传统数据库中的数据建模(关系和数据结构的设计)上,但是数据架构的核心任务是设计一套数据的供应链逻辑,让数据在整个生产、采集整合、分发,消费等环节具备高效的逻辑,这往往不止是一个数据建模的问题。

并且数据架构也需要解决不同商业场景下对数据分析、数据科学相关数据处理的支持设计。所以数据架构更重要的是梳理和设计出来一套完整的逻辑,在这个抽象层面之下才是具体的存储和管理,有了目标之后就更容易做出好的数据架构。

说到商业智能数据架构不得不说一下传统的数据仓库。本质上数据仓库解决的是数据湖的问题,将不同地方的数据整合在一起并实现关联是数据分析的基础。一般数据仓库项目的周期都会比较长,短则半年数月,长则几年。这个也容易理解,数据仓库搭建过程中对于数据的打通,清洗,关联,建模等都不是一项短时间能完成的任务,这个与数据仓库项目的整体目标有关。如果希望搭建一套完整的满足各种业务分析需求的,还依赖于现有业务逻辑和数据生产的复杂系统。

现实情况是不同的数据源甚至是数据维度或者片段对于商业分析的价值是不一样的。而在这个过程中,对于不同数据预判的缺失导致在整个ETL中的投入过大。后来有了hadoop之后,大家还是一个数据中心的思路,什么数据都往hadoop里面写,后续要用再来找。这样也会出现一些问题,比如在数据流的场景下,你会发现很多流式数据很难持续存储到数据库中,因为数据采集和数据查询本身就是两种不同的场景和阶段。

整体来说数据架构的设计包含四个不同的维度,数据的生产,采集整合,分发,和消费。梳理清楚他们之间的逻辑,以实现通畅的数据供应链的目标。其中任何一部分都可以灵活支持各种方式,例如数据的分发,类比线下零售体系,我们会有不同的分发体系来支持不同的渠道,比如中心仓和地方仓,电商仓和渠道仓等逻辑。所以新时代的数据架构可以是一个多条线并行的架构,不一定是一个完全中心化的数据仓库的设计逻辑。

商业智能和数据科学

传统商业智能的核心目标是数据的复用性,通过星型结构和范式模型的抽象来支持各种数据的存储、查询和报表业务。本质上商业智能解决了数据访问和一部分数据探索的目的,然而他们能支持的问题变化不大所以对应的报表设计相对固定。但是在数据科学中很难有这种不变的数据结构或者计算模型来支持各种不同的算法,即使是算法本身也在不断地演进的过程中。

在商业智能系统的设计过程中通过基础的数据结构来描述所有的事物,然而并不关心背后的业务逻辑,往往是通过通用的描述模型来实现的。比如我们并不知道某商品的销售总额到底代表什么意义,但是针对这个度量我们支持求和、平均等等一系列的操作。传统数据仓库的设计主要是基于需求背后的统一计算模型和逻辑而抽象出来的。

数据科学相关的分析问题却很难用统一的抽象结构和计算模型来描述。简单来说你需要做更多的统计学计算,比如一些相关系数的计算,从向量到矩阵的基本运算等。不止是这些计算的复杂度和资源消耗发生了巨大变化,同时不同的算法背后能被抽象出来的标准计算模型也非常有限。这也就是为什么曾经有大量的数据科学家做特征工程的工作,也就是基于不同的算法和对业务的理解来做特征抽取的工作,然后基于特征抽取来做各种算法的对比试验。特征工程本质就是从抽象的存储到抽象的计算模型的一个过渡。

从本质上来说数据科学的数据架构和传统商业智能的架构设计的逻辑可以类似。随着数据仓库和商业智能的发展,很多方法和框架已经非常成熟,所以现在企业在选择商业智能和数据科学的时候还有一条中间的道路就是:将数据仓库(商业智能)作为数据科学的一个数据可访问性的中间件,然后再基于商业智能和数据科学来设计出不同的数据存储抽象和数据模型抽象来支持各自的数据架构。

注:本文由壹看板&赵乾坤投稿数据猿发布

 
最新文章
相关阅读