大数据时代,几乎每一个企业都对数据分析平台趋之若鹜,尤其是在今年疫情爆发之后,更多的企业主意识到了数据所具有的的极大商业价值,以及其作为支撑企业信息智能化的无形资产。
通常来说,企业内部的运营和业务系统每天会积累下大量历史数据,一些企业最多是对一些零散的数据进行浅层次的分析,真正的海量数据其实并没有得到真正有效的分析利用。
同时,随着系统的不断增加和积累,沉淀在系统深处的数据也更加难以提取和整合,后期的报表展示和可视化分析也就成了空壳应用。
所以数据分析平台的建设就十分必要了,一方面它可以汇通企业的各个业务系统,从源头打通数据资源,另一方面也可以实现从数据提取、集成到数据清洗、加工、可视化的一站式分析,帮助企业真正从数据中提取价值,提高企业的经营能力。
通俗一点说,数据分析平台就是将公司所有的数据进行进行收集整理,包括系统数据、业务数据等等,在统一的数据框架下实现对数据的挖掘和分析,最后通过可视化的手段进行数据展示。
因为数据分析平台涉及的组件众多、功能复杂,如何将其有机的结合起来是其建设过程中最关键的核心。我们不妨以某集团的数据分析平台为例,来看一下具体的数据分析平台架构是什么样的:
在搭建数据分析平台之前,要先明确业务需求场景以及用户的需求,通过大数据分析平台,想要得到哪些有价值的信息,需要接入的数据有哪些,明确基于场景业务需求的数据平台要具备的基本的功能,以上图为例从下至上可分为四个层次:
数据采集层:底层就是各种数据源,主要是对企业底层数据的采集和解析,将零散的数据整合起来,包括企业的核心业务数据、用户数据、日志数据、集团数据等等,通常有传统的ETL离线采集和实时采集两种方式
数据储存和处理层:有了数据底层的数据,然后根据需求和场景的不同进行数据预处理,储存到一个合适的持久化储存层中,比如说OLAP、机器学习、数据库等等
数据分析层:这里就要用到BI分析系统,比如FineBI,如果是传统的数据挖掘还有SPSS,这一层主要是对数据进行加工,然后进行深层次的分析和挖掘。
数据应用层:根据业务需求不同划分出不同类别的应用,主要是对最终的数据进行展示和可视化,如上图的数据报表、仪表板、数字大屏、及时查询等等。
总结来说,企业对数据、效率要求的逐步提高,也给大数据提供了展现能力的平台,企业构建大数据平台,归根到底是构建企业的数据资产运营中心,发挥数据的价值,支撑企业的发展。
在企业在进行数据分析平台建设之前,经常会有一个疑问:企业数据系统每天都在正常跑数据,业务系统也都正常稳定,那我们还需要数据分析平台吗?
答案是当然需要,在实际的企业数据管理中,业务系统往往不是单一的,而是多源的。业务人员看似每天都在用业务数据,但实际上彼此的数据都是相互割裂、不打通的,如果想要实现数据分析,就要从多系统中取数,然后手动整合分析,这个显然是不能靠人力就能做到的。
这就叫做数据孤岛,这个问题的难点在于需要跨数据源进行分析,不同数据源之间的对接很难打通;其次,企业的数据一定是海量的,有的还需要二次加工,如果没有数据分析平台的支撑很难实现。
另外从企业业务系统的角度看,我们如果把数据分析的工作直接单独放在业务系统上,一来系统的性能支撑不了这么耗费资源的事情,系统压力会很大,二来随着数据的积累,单独的业务系统很难承受大数据量的处理,所以重新构建一个大数据处理平台就是必须的了。
所以,一个数据分析平台的出现,不仅可以承担数据分析的压力,同样可以对业务数据进行整合,也会不同程度的提高数据处理的性能,基于数据平台实现更丰富的功能需求。
数据分析平台的建设流程基本上可以从数据分析流程来理解,比如数据采集、数据整合、数据加工、数据可视化等等,一般的大数据平台都会包括这些流程,叫做一站式大数据平台。
这里要注意一点,很多企业通常把基础数据平台建设错以为是一站式数据平台,二者最大的区别就在于架构上有没有实现业务探索式分析。
一站式数据平台架构有很多类型,现在比较流行的是自助式分析,也就是主动式的企业数据分析平台,让业务人员直接参与数据分析,借助于BI平台充分探索分析数据,并能将庞大的任务分解为小任务处理。
下面就以FineBI为例,简单梳理一下自助式数据分析平台的具体建设流程:
1、数据采集
企业数据从产生到应用依次经过了数据产生、数据存储与处理、数据应用三个阶段,由业务系统产生的数据经过ETL加载到数据仓库,并在数据仓库中进一步加工处理后进入BI工具,最后通过BI工具实现数据分析与可视化展示。
要想顶层应用良好,那么底层的数据建设就相当重要,所以自助式数据分析平台建设的第一步就是要搭建数据仓库。如上图所示,一般来说,数仓在技术上采用三层架构设计:ODS、DW、DM。
•ODS全称是Operational Data Store,即操作数据存储。它是最接近数据源中数据的一层,数据源中的数据,经过抽取、洗净、传输,也就说传说中的ETL之后,装入本层。本层的数据,总体上大多是按照源头业务系统的分类方式而分类的。
•DW全称是Data Warehouse,即数据仓库,是数据仓库的主体。在这里,从ODS层中获得的数据按照主题建立各种数据模型。
•DM全称为Date Market,即数据集市或宽表,也可称为或DWS。DM层为面向最终应用的主题层,一般依据前端报表/业务包需求进行设计,对DW层明细数据进行多表关联,用于提供后续的业务查询,其主要作用是提升报表查询性能。
在经过ETL清洗后的数据就是我们建立BI系统所需要的数据,这时候就需要通过FineBI连接企业的数据仓库。
其次,FineBI中是通过业务包的形式进行数据存储,IT人员基于业务需求将数据进行分类管理,通过设立表间的关联关系和多路径设置来进行数据整合。
这样就得到了企业业务系统的底层数据,但是这些来自不同系统的数据指标基本是混乱的、没有意义的,所以下一步就要对数据进行加工。
2、数据加工
我们整合过的数据往往也是异构数据源中的数据,因此要先对关系数据进行初步的处理,比如说指标的筛选等等,将处理后的表存到业务包中作为数据分析的基础,这就叫做自助数据集。
而FineBI实现自助分析的方法也是通过自助数据集的方式,它就相当于一个数据容器,IT将清洗好的数据放入数据集中,如果业务觉得基础数据不满意,或者是需要进行跨表联用,就可以自主建立数据集,自己进行数据的加工处理。
IT人员创建了数据连接和业务包以后,为业务人员构建BI基础的数据模型,分析用户配置好关联关系,分配好权限和设置好数据更新的频率,提供一层可供业务理解的基础模型。然后业务再在数据集中对这些数据进行进一步的加工处理,比如筛选数据、过滤数据、数据分组汇总、数据行列转行等等,经过加工后的数据就是业务进行分析的最终数据了。
4、数据分析和展示
得到了清洗后的数据,业务就可以进行自助式分析了。FineBI 的可视化探索分析,是面向分析用户,让他们能够以最直观快速 的方式,了解自己的数据,发现数据问题的模块。业务人员只需要进行简单的拖拽操作,选择自己需要分析的字段,几秒内就可以看到自己的数据。
在这一步我们还可以对可视化组件进行OLAP分析操作,比如FineBI如果想要实现国家地图与省份地图的切换,就可以使用钻取功能,将某个特定分组数据按第二维度继续细化的方式。
类似的还有组件放大、组件复原、查看组件过滤条件、组件维度切换、组件跳转、联动设置、组件悬浮、组件标题、组件导出Excel、组件复用等。
总的来说,无论是大数据平台的流程,还是业务分析平台的建设,必须要注意保证平台的性能:大数据分析平台的性能一定要保证高效,在数据量激增的情况下可以支撑海量数据分析。
最后,在大数据时代,企业的数据分析平台架构必然向着分布式、可扩展及多元化发展,这样才能通过对数据流程的梳理,去推动公司梳理整个业务体系。