数据分析目的有两种:陈述与探索
人类大脑对视觉信息的处理优于对文本的处理,因此,用眼睛看的数据是更清晰有效地传达与沟通信息的一种方式,核心是有效地传递信息。那么使用图表、图形和设计元素把数据进行可视化,可以帮你更容易的解释数据模式、趋势、统计规律和数据相关性,而这些“信息背后的信息”在其他呈现方式下可能难以被发现。
依据需要传达的性质和目的,我们将数据可视化划分为陈述型和探索型。前者一般是在正式场合向他人传达信息,比如你想利用手中的大量数据,报告每季度销售情况;后者是当我们想知道为什么最近销售表现不佳,于是,探索是因为季节性波动或者是促销力度不够?
实际上,以探索为目标的可视化又可分为两种,第一种是上文例子中提到的利用数据,用图表来证实或否定你的假设;第二种是如果对销售业绩下滑的原因毫无头绪,提不出任何假设呢?就要仔细分析数据,寻找其中的规律、趋势和异常。
例如,对比销售业绩和销售员负责区域面积,有何不同?不同地区的季节性波动有何异同?天气对销售造成哪些影响?这种开放性探索能带来新发现。开放性数据可视化探索,将有助于解答宏观的战略问题,如收入为何下降、效率如何提升、客户与公司应如何互动等。
探索型数据可视化
探索型数据可视化分为两类:一是假设检验,一是从数据中寻找规律、趋势和异常。前者的目标很明确,后者则相对发散。数据体量越大、复杂度越高、未知因素越多,探索工作的开放性就越高。
1.假设检验
在这类数据可视化探索中,你要回答下面两个问题中的一个:我设想的情况是否属实?如何用不同方式传达这一信息?
在进行求证时,数据范围相对可控,所使用图表类型较为常规;当然,若想以新颖方式呈现信息,也可尝试较少见的图表。求证型图表一般不用于正式场合;你要先自己找到正式展示所需的图表。因此,你的时间不应花在设计上,而应快速尝试不同模板,找到最好的数据视觉化方案。
2.开放性探索
更多时候,针对数据的开放性探索是数据科学家和商业智能分析师的领地,不过新出现的工具让所有人都可以参与进来。由于缺少明确目标,开放探索型图表包含的数据范围较广,个别情况下可能会容纳多组数据,或建立自动更新数据的动态系统,也可用于统计建模。开放性探索很值得尝试,因为它经常带来独一无二的洞见。
陈述型数据可视化
我们日常工作中接触最多的是陈述型数据可视化,主要涉及常用图表,一般可在展示中直接使用。这些简单图表包括线状图、柱状图、饼状图和散点图等。这里的可视化需要做到“简洁”。一幅图表应该用有限几个变量,清晰传达一个信息。比如目标很明确,为听众确认并介绍背景信息。
此类图表常用于正式展示,对清晰度和逻辑性要求也很高。正式展示通常时间有限,如果图表设计不理想,介绍人就必须停下来解释,而图表中的信息本应一目了然。这并不是说陈述性图表不应引发讨论,但讨论应针对图表传达的理念,而非图表本身。接下来数猎哥按照构成分析、对比分析、分布分析、关系分析,4个方面,为大家介绍几种常见的数据可视化图表。
常见可视化图表之一:构成分析
1.饼图/环形图
饼图经常表示一组数据的占比,需要数值维度。如图,各扇形面积代表各类型装修材料销售额的大小,整体为装修材料总销售额。右侧环形图为饼图的变种,中心区域可展示数据或者文本信息。
饼图也是有缺陷的,例如30%和35%在饼图上凭肉眼是难以分辨出区别的。当类别过多,也不适宜在饼图上表达。因此在使用饼图时我们需要顺时针降序排列,同时维度取值在10个以内。
2.玫瑰图
玫瑰图是饼图的变种,用来对比不同类别的数值大小,在数值相差不大的时候使用。如图,广东省、江苏省、山东省的GDP数额差别不是太大,如果只是使用常规饼图,难以对比三者的大小,使用玫瑰图则很显然广东省数值>江苏省>山东省
3.旭日图
旭日图也是饼图的变种,表现整体在各个维度上的构成,以及维度与维度之间的从属关系。如图,可以清楚看到整体的销售额在三大类产品的分布,而每类产品的各品牌销售额区别也可以直接对比,同时也可以看到每类产品的品牌分布。
4.仪表盘
模仿汽车仪表盘,采用绝对值与相对值结合的方式,展现某个指标的完成情况,在项目进度,计划完成度较常见。只适合展现数据的累计情况,不适用于数据的分布特征等,同时一般超过100%后不太好表现。
5.矩形树图
当我们想表达过多类型的数据时,可以使用矩形树图,它展现同一层级的不同分类的占比情况,还可以同一个分类下子级的占比情况,每个矩形代表一个聚合类,颜色的深浅和面积的大小代表这个聚合类的大小。如图,比如电子商务、产品销售等涉及大量商品品类的分析等。
局限是不适合展现不同层级的数据,比如组织架构图,每个分类不适合放在一起看占比情况。且当以面积表示大小,当数值相近时人眼难以辨别,当然可通过填充数值弥补。
6.瀑布图
采用绝对值与相对值结合的方式,展示各成分构成情况,更多的用于核心指标的分解,适合展示数据累积变化过程,局限是各类数据差别太大则难以比较。
如图核心指标为净利润,可以看到核心指标由收入和成本计算得出,而收入方面营业收入占据主要,支出方面营业成本占据主要。我们可以提升营业收入或降低营业成本来提升公司净利润。
常见可视化图表之二:对比分析
1.柱状图/多指标柱状图
柱状图是一种应用得很广泛的图形,它表征分类型变量与数值型变量的关系,常用于多个维度的比较和变化。柱形图至少需要一个数值型维度,通常文本维度/时间维度通常作为X轴,数值型维度作为Y轴。
一般需要排序,如果分类型变量是有序的,按照它本身的顺序排列即可,如果分类型变量无序,那么则根据数值型变量的大小进行排序,使柱状图的高度单调变化。如左图,各类型装修材料的销售数量对比,右图为各类型装修材料的销售额及销售成本对比。
2.条形图/多指标条形图
类似柱状图,只不过两根轴对调了一下。因为有大量空白位置标示每个类别的名称,所以适用于类别名称过长的情况,但分类过多则无法展示数据特点。
3.象形图
以形象化的图片数量代表维度数值的大下,多用于具体实物的对比。如图,其中将办公用品、技术产品和家居产品用形象化图形来代表其维度,让观众者很容易了解到这组数据的维度表示。
4.堆积柱图/堆积条图
用来比较同类别各变量和不同类别变量总和差异。需要注意的是堆积柱内各项间具有相同性质的维度划分,最好不要是不同的度量。如图,柱与柱之间表示各区域订单数量对比,华南订单数量可以看到是由三个产品订单数量组成。可同时对比三个类别产品在各区域订单数量。
5.折线图
折线图是用来观察数据的趋势,主要展示数据随时间或有序类别的波动情况的趋势变化。对比时使用,常见时间维度对比。如果是无序类别则无法展示数据特点。
6.面积图
用面积展示数值大小,展示数量随时间变化的趋势。多用于时间维度的对比,其中堆积面积图中堆积部分需要是具有相同性质的维度划分。
7.雷达图
雷达图将多个分类的数据量映射到坐标轴上,对比某项目不同属性的特点,适用于了解同类别的不同属性的综合情况,以及比较不同类别的相同属性差异。它在商务、财务领域应用较大,常见于经营状况,财务健康程度。比如对企业财务进行分析,划分出六大类:销售、市场、研发、客服、技术、管理。通过雷达图绘制出预算和实际开销的维度对比,会很清晰。另外在游戏中也应用广泛,如图游戏人物的各项数值对比。
这里需要注意雷达图的数据必须进行标准化处理,同时指标是正向且可以比较的,也就是指标代表越好,且当指标差异较大时,需要进行标准化,消除单位影响。另外雷达图是静态数据,不可能有时间维度,同时能表达的静态数据信息有限,线条不宜超过5条,指标不宜超过8个。
8.对比条图
两个项目在各个维度的对比时使用。如图展示了广东省、江苏省、山东省和浙江省在2015年与2016年的GDP对比,可以看到四省对比,广东省GDP较高,而2015年与2016年GDP对比,则2016年增长明显。
9.子弹图
对比条形图的变种,多用于对比实际与目标之间的差距。如图表现的是各乐行装修材料的销售额完成度,且均存在深度灰色以内,表现不理想。
10.双轴图
以左右两个Y轴的形式,展示同一维度下不同指标的情况。两个坐标轴的图表类型选择需要区分开。
11.帕累托图
双轴图变种,用来分析原因,确定产生问题的主要原因。如图可以看到,特殊节日和行业旺季是此次数据异常的最重要原因,两项占比达到了56%,可加强此阶段的促销,帮助销量增长。
12.漏斗图
漏斗图是流程转化分析,适用于关键业务环节数据比较,将各环节串联起来构成漏斗,量化流程内环节,追踪各环节转化率。转化是漏斗图主要表达的信息。例如在网站的用户行为分析中,如图,反映了报告浏览人数中,有5%的用户下载了此报告。在实际工作中,各种业务流程均可构建漏斗。
13.词云
词云主要展现文本信息,对出现频率较高的“关键词”予以视觉上的突出,常用于对比文本出现频次。如用户画像标签,搜索关键词频次、新闻关键词频次。如图为各类型装修材料的搜索次数,可以看到国产强化的搜索次数较高,可加大此类关键词的搜索营销。
常见可视化图表之三:分布
1.散点图/气泡图/四象限图
散点图在报表中不常用到,但是数据分析中比较常见。散点图通过坐标轴来揭示数据间的关系,发掘变量与变量之间的关联,当存在大量数据点,结果更精准,比如回归分析。当数据量小的时候会比较混乱。气泡图是散点图的变种,它使用气泡代替散点图的数值点,面积大小代表数值大小。
如图使用销售额和利润来定位不同类别产品,位于右上角的产品为销售额高、利润也高的明星产品;左下角的销售额、利润都不高的产品,为滞销品。
2.地图
一切和空间属性有关的分析都可以用到地理图。比如各地区销量,或者某商业区域店铺密集度等。一般用颜色深浅或气泡大小来展示区域范围的数值大小。比如人口密度、各地区销量,或者某商业区域店铺密集度等。
3.箱线图
箱线图(Boxplot)也称箱须图(Box-whisker Plot),它是用一组数据中的最小值、第一四分位数、中位数、第三四分位数和最大值来反映数据分布的中心位置和散布范围,可以粗略地看出数据是否具有对称性。通过将多组数据的箱线图画在同一坐标上,则可以清晰地显示各组数据的分布差异,为发现问题、改进流程提供线索。假如你是一位互联网电商分析师,你想知道某商品每天的卖出情况:该商品被用户最多购买了几个,大部分用户购买了几个,用户最少购买了几个。箱线图就能很清晰的表示出上面的几个指标以及变化。
另外企业产品质量管理、人事测评、探索性数据分析等统计分析活动也经常会被应用到,如图,可以发现,华北地区出现超出范围的异常值,可通过结合业务场景分析异常原因。
4.热力图
热力图可以用于对比两个维度的数值大小,用颜色深浅代表数值的大小。热力图在网页分析、业务数据分析等其他领域也有较为广泛的应用。如图展示了不同区域在不同时间的订单数量。
常见可视化图表之四:关系分析
1.桑基图
桑基图是一种特定类型的流程图,图中延伸的分支宽度对应数据流量的大小,它常表示信息的变化和流动状态。常用于能源、材料成分、金融等数据的可视化分析,还有网站用户行为路径的分析。如图,可以看到用户在登录后的行为,以及下一步行为。
2.关系树图
表现各个维度之间的关系,多用于组织架构分析,如图可以表现不同类型产品的组合方式。
3.关系图
表现各个维度之间的关系,及各关系间的关系强弱。比如社交关系链、品牌传播、或者某种信息的流动。如图展示不同类型产品的销售额贡献情况,如办公产品的销售额由哪些产品贡献。
小结
数据可视化是借助图形化手段,更清晰有效地传达与沟通信息的一种方式,在传达信息这个目的之下,我们就要正确地进行选择,首先需要依据数据类型和目的选择正确的图表类型。
当我们做数据可视化时,可以先对现有的数据进行分析,得出自己的初步结论,明确要表达的信息和主题(即,你通过图表要说明什么问题)。然后根据这个目的在现有的或你知道的图表信息库中选择能够满足你目标的图表类型。最后开始动手制作图表,并对图表进行美化、检查,直至最后图表完成。
-END-
爱数据福利大放送
今天,小编也为大家准备了数据分析可视化的学习资料,特意挑选了20个热门行业数据分析可视化报告(包含金融/电影/疫情/企业管理/餐饮/零售......),以及1份数据可视化图表选择指南(比较/联系/分布/构成,高效完成你的数据可视化展示)。
回复【119】即可领取
(20套行业数据分析可视化报告)
(数据可视化图表选择指南)
想要获取更多精彩的内容和个性化的功能吗?
快来点击菜单栏,开启新的体验吧!