Skip navigation

Beijing

3 Posts authored by: yupeng wu

从2019年开始,我每月都会组织Tableau的培训课程,以此督促自己加速学习的进程,也让更多人获得成长的进步。近期按照培训的需要,重写部分Tableau学习教程,从入门到高级,循序渐进。本文仅作为框架供后来者参考入门,更多内容参考相关的博客文章。

 

一,了解产品和环境指南

作为敏捷BI的代表,Tableau提供快速、简单的可视化分析,并通过Server为企业搭建自助化分析平台。Tableau也在不断的扩展自己的产品线,从数据清理到数据管控,不断增强企业部署和可视化分析的能力。

1、了解产品组合

目前Tableau的产品线从前端的数据准备、数据可视化分析到后端的数据自助分析平台,形成了完整的敏捷BI产品线。我们按照以下的产品流向,理解各个Tableau产品的功能。

Picture1.png

  • Tableau Prep帮助您快速、自信的转换和组织数据以供分析,借助Tableau Prep直观、简洁且协调的界面,一目了然地查看所有数据;以可视化的方式合并、组织并快速清理来自多个数据源的数据。Prep的数据流让数据清理从科学家的工作,变成了所有人都轻松可以操作的工具。
  • Tableau Desktop通过拖拽式分析实现数据的可视化,无需复杂的代码,轻松制作折线图、条形图、散点图等数据可视化;交互式仪表板和高级分析工具帮你发现隐藏在数据背后的见解。
  • Tableau Server可以帮助企业实现受管控的大规模自助化分析平台,整合所有的企业数据和数据资产,实现有效数据管控和数据驱动业务成长的双重任务。
  • Tableau支持丰富的访问端口,全面支持浏览器端、手机端、平板等各种设备;新版本重新设计了 iOS 和 Android 版 Tableau Mobile,提供强大的搜索功能、经过改进的“收藏夹”体验,以及交互式脱机预览,只需动动手指即可享用。另外,Tableau支持多种API接口访问。

2、为什么要用可视化?

Screen Shot 2019-02-27 at 7.48.23 AM

在数据大爆炸的时代,可视化成为越来越重要的数据语言,这符合“人对视觉更加敏感”的本性,或者我们可以用卡尼曼《思考,快与慢》的观点来解释:人天生都是快思考的动物,可视化帮助我们提高了分析的效率。几百年前就已经有了很多精彩的可视化图表,如今计算机让一切变得容易,Tableau让业务部门的大数据可视化变得容易。v2-3ed28e26599ac7898d86a91f5089b814_r.jpg

在可视化的各种元素中,位置优先,其次是颜色、形状和图形,这些可视化的方式有助于我们发现数据中的异常值和趋势。

二、了解Tableau核心概念

Tableau简单的背后有自己的框架体系,这里涉及到几个重要的概念:字段类型与特征、数据类型、详细级别、聚合方式和操作顺序。尤其是后面三个概念,要在不断的练习和犯错的过程中增加理解和认识。

1、字段类型

所有的字段都会默认分为维度和度量。简单的说,维度代表分类,度量代表数量(数字类型)。从分析的角度,我们可以把维度分为更细的两类:分类字段和次序字段,后者其实是带有顺序的次序字段。这个分类的主要目的是为了理解字段属性:连续和离散——这是数据库中非常重要的概念,不同的属性代表不同的相关关系,因此会出现不同的可视化形式。Screen Shot 2019-02-27 at 8.02.13 AM.png

  • 每个字段都具有连续或者离散的属性,比如“门店名称”是离散的维度字段,相互之间没有先后关系;而“顾客评价”(比如优秀、满意、良好、不满意)则是具有连续属性的维度字段,因为字段的属性有明显的高下、先后关系。最明显的次序字段是各种日期。
  • 相比之下,度量基本都是连续的数字,比如字段“销售数量”、“消费金额”。
  • Tableau用两个颜色来代表字段的这个属性:绿色代表连续,蓝色代表离散,这种可视化的方式简单明了。
  • 根据分析的需要,我们可以转化字段的维度、度量类型和字段的连续、离散属性,这样就会引起可视化图形的相应变化。一般而言,维度用来做坐标轴,度量表现内容;连续用来生成折线图等查看波动趋势,而离散生成条形图等查看对比关系。

2、数据类型

Tableau支持丰富的数据类型,主要有:数字(整数)、数字(小数)、字符串、日期、日期和时间、布尔值,以及地理位置。不同的数据类型对应不同的聚合方式,比如字符串主要对应计数,而数字则会首先对应求和聚合。准确的数据类型,是后期可视化和聚合处理的基础。我们可以看一下官方的类型及标记。

图标数据类型
文本(字符串)值
日期值
日期和时间值
数字值
布尔值(仅限关系数据源)
地理值(用于地图)
群集组(与在数据中查找群集结合使用)

3、详细级别和数据聚合

大数据软件,会对数据默认执行聚合,因此我们需要提前了解什么是聚合、不同字段对应的聚合类型,以及各种聚合的应用场景。而理解聚合的应用场景,需要我们了解数据背后的详细级别(level of detail),这是词语我们会在后面的高级操作,特别是LOD表达式过程中经常提到。

  • 行级别与聚合级别

使用Excel工作时,我们面对的往往是具体的一行一行的数据,诸如 A2/A1的计算,也是行级别的计算;但是当数据量成千上百万,我们更关心的是主题的聚合,比如说每家分行每天的存款金额,而不在乎每一单笔的存款详情,这就需要在分行详细级别做聚合计算,比如sum([deposit]),或者计算平均单笔金额 sum([deposit])/countd([order ID])。面对大数据的海量数据,我们必须清晰自己在哪个数据层面做分析,是什么详细级别的聚合问题,只有对业务的类型有清晰的理解,才能作出恰当的可视化效果。我的思考方式是假想一座冰山,把各种字段放在冰山之中,然后在不同的层次,代表不同的问题。

Screen Shot 2019-02-27 at 8.45.28 AM

  • 维度的聚合方式
    • 维度的数据类型以字符串、日期、地理位置为主;
    • 可以采用“最小值”“最大值”“计数”“计数(不重复)”的形式聚合视图中的维度。当聚合维度时,将创建一个新的临时度量列,使维度实际具有度量的特征。
  • 度量的聚合方式
    • 向视图中添加度量时,Tableau 会自动对它的值进行聚合。常见的聚合包括总和、平均值和中值,还有计数、方差、标准差等多个聚合方式。
    • 在Tableau中更改聚合方式非常简单,只需要右键重新选择“度量”聚合方式即可自动完成。

4、操作顺序

Tableau中有很多的操作,比如维度筛选器、顶部筛选器,在一个视图中,Tableau需要明确它们的执行前后顺序,这是学习Tableau的必备知识。我们经常遇到可视化的结果和预期结果不同的情况,大部分是没有了解和掌握这个操作顺序。数据分析的数据操作是不断叠加的,就像是PS中的图层,比如数据提取筛选器最先执行,就相当于PS的底层,数据视图层面的上下文筛选器相当于第二层,它在底层的基础上进一步筛选。其他类似,一步步递进。我在官方指南(英文)基础上做了一个导图,按照优先顺序排序,此图应该牢记在心。

三、新建数据源和数据准备

在数据源界面,完成必要的数据整理,对于后期提高效率,非常重要。没有数据整理,就没有数据的高效分析。《哈佛商业评论》曾经发表一篇文章说,数据分析师在用80%的时间做整理,只用20%的时间在做分析。不过随着像Prep这样的敏捷ETL工具的兴起,这个问题正在慢慢地好转。屏幕快照 2018-08-24 下午3.03.43去年我写Tableau 的系列博客时,prep还没推出,当时确实被各种数据整理的工作弄的特别沮丧。现在回头,很多的文章都要重新改写,因为Tableau  Prep为我们提供了更方便快捷的道路!大爱Prep!自从有了prep,Tableau可以自豪地说,我们可以让数据分析师用20%的时间去做整理,而不是80%!多么振奋人心的消息。对于简单的数据清理而言,Tableau Desktop就能很好的胜任,主要涉及到以下功能:

1、数据文件或数据库连接

Tableau 支持丰富的本地文件连接和各种在线数据源连接,可以满足各个行业的复杂数据库需求。对于大家常用的本地文件,Tableau 还推出了智能的“数据解释器”,轻松方便地解决文件中标题错误、合并单元格等问题。 可以参考 【Tableau】从Excel杀手到Tableau入门:数据解释器引路

2、数据连接、数据并集

  • 默认连接本地或在线文件后,Tableau可以把当前数据源中的多个表建立数据连接,并自动添加关连字段。
  • 对于多个相同结构的文件,Tableau可以轻松创建并集,不管是静态并集还是动态通配符并集,都轻松简单。详细可以见博客:「Tableau」使用通配符,跨工作表建立数据连接

3、 跨数据源连接

  • 经常我们要把多个数据源的不同sheet连接起来,这个需要连接多个数据源;
  • 和后面高级课程中的“数据混合”不同,这里的数据连接会横向扩展整个数据表,适用于数据详细级别一致的情况下;而“数据混合”适用于临时关系和数据详细级别不同的情况。
  • 使用数据混合的情况:
    • 数据需要清理(即重命名列、更改列数据类型、创建组、使用计算等)
    • 联接导致重复数据(联接后数据重复是位于不同详细级别的数据的症状)
    • 只需要少量数据。(联接由数据库进行处理,会消耗大量的数据库性能,如果要合并的数据较少,使用数据混合会提高性能。)

1-2

4、提取数据(数据筛选的优先级)

  • 数据提取不是必备的,但是当数据很多时,建议使用数据提取,加快操作;
  • 数据提前时可以添加筛选器,比如不提取单据状态为“未完成”的单据,就会在以后所有的数据中都避免了未完成的单据。数据提取阶段的筛选器,在全局中优先级最高。

5、数据准备(修改字段格式,隐藏不必要字段等)

在连接数据文件后,可以在数据连接层面做很多的数据清理工作,比如重命名、隐藏、拆分、修改字段格式等等。很多初学者会现用现改,我后来觉得应该早处理。

四、数据可视化

数据连接后的主要操作是生成可视化,在这里我们需要根据可视化的需要对字段进行二次处理,比如 组、分层结构、集、参数,以及各种添加辅助的计算字段。

1、必要的数据准备

创建组、集、参数、分层结构等,可以帮助我们增强数据分析的交互性。这几个功能都可以在维度功能区右键完成,不过要特别注意组和集的区别。

  • 创建组会生成一个新的维度字段,它把部分数据合并为一个数据结果显示,这是一个静态的结果,背后可以假设为case when函数;我们往往用组来纠正错误数据,比如把“中行”和“中国银行”统一为“中国银行”显示;组不能用于计算字段。
  • 集分为静态集和动态集,集独立于维度字段,结果是一个布尔值判断(在集内还是集外);动态集可以和参数结合,增强视图的互动性;我们常用集来做top显示,比如“每月业绩最好的前10家分行”;集可以参与计算字段。
  • 分层结构可以帮助大家在可视化层面实现数据的上钻和下钻,增强数据的互动性,特别适合于地理位置的分层和商品的多级分层,比如国家/省份/城市,大类/中类/子类/商品名称。

 

2、Tableau可视化图形

Tableau内置了很多的可视化图形,常见的图形有条形图、数形图、地图、折线图、直方图等等。除了直方图需要手动添加一个数据桶(bin),其他的类型都可以通过选择和拖拽一步完成。Screen Shot 2019-02-25 at 9.06.15 AM

Tableau目前有几种常见的快速生成可视化图形的方法:

  • 智能推荐方法

最简单的可视化生成方式就是选择多个字段后,点击“智能显示”的推荐图形,系统推荐的最优图形会用红色边框突出显示。快速生成可视化 方法.jpg

  • 完全拖拽生成可视化

更多的情形下,我们会根据分析的步骤,一步步地拖拽字段到功能区,结合标记中地颜色、大小和形状来完成更加复杂地可视化结果。

  • 自然语言(Server)

在最新推出地2019.1版本的Server中,Tableau推出了自然语言查询功能,仅需要提出问题,server就可以自动给出可视化图形。不过这个功能对中文的支持,暂时应该不会太理想。

3、如何选择可视化图形

如何选择常见的可视化图形,麦肯锡的这本书给了我最好的指引。选择图形的过程,其实就是分析问题的过程,我们要分析加入我在哪个详细级别做聚合,我加入可视化的维度和度量字段的相互关系是什么。下面图片中列举了五种代表性的关系:成分、项目、时间序列、频率分布和相关性。成分代表总分结构,低于三个可以用饼图,超过五个建议用树形图;项目代表的是对比关系,首选条形图,可以明显地体现排序;带有连续时间的维度或度量,用柱形图代表对比,用折线图反映趋势;维度的分布用直方图和折线图,它们反映的是聚合的分布,而两个度量的相关关系,则用散点图——散点图是一个特殊的分布,是高颗粒度的直观分布。Screen Shot 2019-02-11 at 10.24.24 AM

五、【高阶】熟悉Tableau的计算

计算是大数据分析的核心之一,计算构成了可视化的逻辑。随着业务分析的深入,我们需要使用多种计算方式完成复杂的分析任务,这就要求我们不仅仅明白多种计算的语法和技巧,更重要的是了解如何作出最好的选择。表计算在这篇博客中(【tableau】TC-如何选择Tableau计算类型?),我们介绍了如何选择计算,这是需要在实践中掌握的技术。1、基本计算——最常见而丰富的计算2、表计算——反应最快、优先选择的计算3、LOD详细级别表达式——解决复杂问题的必备工具迄今可能是最好的非官方LOD中文解读,大概就在这里了,全系列六篇文章。

 

六、合理使仪表板与故事

1、工作簿和仪表板告诉大家是什么

2、故事告诉大家为什么

 

七、如何使用Tableau Prep

你的仪表板访问性能很慢怎么办?每次打开文件加载数据五分钟怎么办?分析时数据文件中有大量的数据冗余怎么办?——Prep帮你解决很多的性能问题。我们会有单独的系列文章介绍这个主题。

【Tableau】Prep新升级,表哥表姐的超级福音

 

长篇大段,写到这里,希望帮助更多 的人理解和使用Tableau,我也会随着自己的培训逐步完善相关的材料。

Feb 25, 2019  update
Michael Wu

三个月前,我不经意间看到了一个数据分析的软件Tableau,凭着对数据的敏感,觉得是值得挖一挖的金矿,于是开始从尝试到执著。接下来的十天时间,白天做公司的业务数据分析,晚上读书和看官方帮助;再后来的两个月,平日工作在身,闲暇之余持续学习,两个月时间,自己在大数据分析上的进步让自己甚为满意。

 

这一切,由Tableau所赐。

 

何为Tableau

 

网上有人称之为“大数据时代的梵高”,虽有盛誉之嫌,也算实至名归。

 

诞生于2003年的Tableau,基于斯坦福独有的专利数据技术 VizQL,这个专利技术创新性地把拖动等操作转化为查询语言,然后通过图形化表达出来,就是我们看到的漂亮的、无与伦比的、可以五彩斑斓夺人眼球的可视化了。一篇文章说国内的数据分析平台研究了十几年,正在奋起直追,在技术这个领域,空有勤奋断然是不好使的啊。

 

Tableau——帮助用户理解自己的数据。

它的口号也会让你动心——“所有人都能学会的业务分析工具”。如果你熟练表格的数据透视图,学习这个软件,就像从数据的三楼坐电梯直达十二楼,从此在非专业的行业里,可以一骑飘尘了。当然,要到圈子里混,R语言,python,以及DW等等,最好揣好了再出门。

 

不过有一句话,已经能激励我们了:

Gartner说:“2020年,平民数据科学家的数量其增长速度将比数据科学家的数量快五倍。”

我的学习过程 三阶段

 

作为公司数据的外行,我的学习充满了坎坷,起初的好奇,后来的苦涩和坚持,最后的欢喜,都是路上的别样感受。

 

第一阶段

 

第一阶段基本是摸索和尝试,Tableau赢得了我的好奇心,在可视化上的易用性、数据提取和分析的速度上深得吾心。

 

Day1 下载并注册试用版,看着界面就像表格的透视图嘛,导入一个规范的表格,拖拖拽拽,拽拽拖拖,嗯,还不错……

Day1 看看京东上有没有教程,搜到一本《人人都是数据分析师–Tabaleau应用实战》,下单,第二天到货。打开快速浏览,“入门篇”,一分钟翻完;数据连接,两分钟看看重点;初级可视化分析,和表格差不多,快快看过。开始练习软件……

Day2 这个软件好像不像是“所有人都能学会”呢,为什么拖来拖去和结果结果不一样? 好奇怪,维度、度量、标记,页面、分析、筛选…… 一点点练习。用公司的数据,分析半年经营分析,切换各种“智能显示”,很不错。

Day3 遇到进一步的瓶颈了,分析半年度的员工薪酬、半年度的品类业绩、单品类的会员消费流水…… 找不到环比,不知道如何使用标记,日期总是跳来跳去……

Day5 下班不带电脑,晚上重新翻书,从第一章开始,觉得新鲜的、有用的地方做标签,用一页纸做“初级可视化”的笔记,明白条形图、直方图、柱状图、折线图、气泡图、饼图、压力图、标靶图、甘特图的使用场景,如何通过维度、度量、标记+行、列、筛选加工而成;

Day6 花一整天的时间,练习高级数据操作——分层、参数、集、组、参考线,并且在实践中练习。

屏幕快照 2017-07-28 20.34.03.png

Day7~9 用一套数据反复练习,不断变换,有困难立刻上官方帮助网站查询,,虽然图标是英文版软件展示,但是对我毫无压力;凡是要重点学习的,一律保存到OneNote笔记中。

Day10~花了两天,还没弄清楚 「详细级别表达式」是个什么鬼,因为涉及到数组{ },还有充满误导性的 冒号……

 

 

第二阶段——学习 LOD

 

我起初低估了LOD的难度,本以为两天可以,结果两个周才基本拿下。也许对于非理科生而言,这真是最大的拦路虎。

连续几个迟迟不能领会LOD的意思,于是我用了最笨拙也是有效的办法,创建八行五列测试数据,反复地验证、试错,同时不断地寻找各种资料学习,于是有了后来的几篇博客。

 

&1& 【数据分析】Tableau详细级别表达式_进阶必备

  • 在此文中,从何为“表达式”入手,我对比了“行级别表达式”、“视图级别表达式”、“表范围 详细级别表达式”和“ 超越视图级别的详细级别表达式”。
  • 行级别表达式(Row Level Expressions)相当于Excel的公式,针对单行数据执行操作运算,比如基于销售清单计算单品毛利率,利润率= [Profit] / [Sales]
  • 视图级别表达式(View Level Expression)是可视级别字段的操作计算,这些计算多半包含聚合运算,比如基于销售清单计算门店的平均利润率,利润率=sum([profit])/sum([sales])
  • 详细级别表达式( LOD=Level of Detail Expression)
  • 表范围详细级别表达式,是LOD的简化版,它省略了维度;对比并理解{ Min(Profit) }和 Min(Profit) 的不同;
  • LOD,通过实际的联系,我发现了自己的误区,fixed维度,就是锁定维度的所有数值。
  • 总结一句话,实践出真知啊。
  • 博客附图 行级别表达式.jpg

&2&【数据分析】Tableau详细级别表达式_续

  • 在本文中,我说明了LOD与维度、度量的关系,三种LOD表达式在Tableau操作中的位置,以及LOD的语法。

 

&3& Tableau|LOD详细级别表达式终极实操

  • 此文我汇总了主要的官方LOD引文,作为总结;
  • 梳理了LOD需求的推荐方法,引用了官方的三个案例,通过清晰地表达“焦点”和“背景环境”梳理需求;值得好好学习的方法。
  • 汇总官方的LOD相关的博客资源,特别推荐LOD详细表达式。

&4& 【数据分析】Tableau_30天修炼技巧

  • 在学习Tableau路上的分享,突出了对业务理解的重要性,总结了Tableau的几个学习重点。

 

第三阶段——去教别人

     在教别人的过程中,获得成长,这是我进步的好方法。我在学习过程中,帮助公司大数据部门的同事认识Tableau的好处,指导学习,分享自己掌握的各种资料,并解答他们的问题。

     不要吝啬分享,就会获得更多。

     当然,因为LOD的出乎意料的苦难,我迟迟没有学习地图和R语言,其实也是没有到合适的时机吧。下一步,我要放慢速度,在练习中分享,就像已经分享的两篇可视化的文章。

 

 

说说跨界学习的体会

 

我大学政治学本科和教育学硕士毕业的,呃 ?不是理科生? 真不是。

可惜我高中数学就好,好到老师都不管我就考全班第一。

言归正传,很多知名人物都说,自己每隔几年都会读一个崭新领域的书,如此才会跟上这个世界的变化,同时可以跨领域地应用人类的智慧;李笑来老师分享自己如何“实现财富自由”,他说自己每个领域都不是最强的,但是多个领域的集成优势让自己最终把握商机和抓住机会。

 

我从今年开始全力向实用性知识转移,比如销售心理学、定价、数据分析、财务和金融等等,数据分析是迄今最为应用性的知识了,十天时间,其实也是困难重重,总结一二,以勉自己。

 

  • 切不可盲目,过分自信是成功的绊脚石。虽说整体的印象和“试用性”的探索很重要,但是没个新行业都有我们不知道的基础知识,太基础了,容易忽视,确实这个行业的基石。金融学的基础知识P=C/r,一旦明白了,好多事情就会豁然开朗,但是如果自以为简单而绕行,就步入了荆棘之路。所以克里斯坦森建议说,遇到困难,他能给出的建议就是,「回到原理」。
  • 应用性的知识没有「我以为」,只有you can, or you can’t.  文科的研究生可以把“论历史是一门科学”写成洋洋洒洒几万字,我当年也单凭分析两个词组academic power and academic authority 就发表一篇CSSCI。但是应用没有“我以为”,我觉得我晚上看明白了,第二天还是做不出来书里的样子,那就是还没学好。谦虚的对待技术,因为它会立马回给你颜色。
  • 永远相信,有更高效的方式,可以做好眼下的工作。对于离不开表格的人而言,Excel是冲锋枪,但是一旦迈过这个阶段,你会发现,数据可视化就是战斗机群啊。你见过冲锋枪敌得过飞机的吗? 这已经不仅仅是效率的问题了。

     集中精力,攻克难关;不急不躁,按耐成性。

 

 

 

 

实践出真知,坚持生智慧。

 

 

2017年7月28日 第一版

2017年10月18日 第二版

转载自己的博客

【数据分析】Tableau_30天修炼技巧

 

自己做零售也有不短时间了,不久前偶遇Tableau,初恋即是热爱;认真学习到现在一个月时间有余,我已经能做出基本的可视化报表。分享自己的一点体会,希望能帮助更多Tableau爱好者。

一、

学习Tableau 30天,总结自己在零售数据分析过程中的几点感想,

1、了解业务,建立充满洞察的数据模型,比拥有大数据更重要

作为十年的零售企业,多年的数据模型止步不前,个人认为,一方面是工具理性不够透彻,比如止步在Excel阶段,而不能使用Pivot,甚至Tableau之类的大型BI工具去分析,从而无法建立基于大数据的逻辑;另一方面,也是最重要的,信息和数据的员工不了解业务,因此不能深入地理解业务的需求建立数据模型,只能止步在“业务需要什么,我给什么”的阶段。

那我们就只能依赖于业务部门提出详细的需求吗?此路往往异常艰难。业务部门的分析框架,多半局限在自己的视野之中,而且出于利益的考虑,往往还会选择性地筛选数据、分析数据、展示数据,数据的有效性层层递减。

因此,一个优秀的数据分析师,首先是业务专家。在这一方面数据分析师要向会计师学习,会计师有国际通用的分析框架,业务却往往是每个公司都有自己千疮百孔的业务分析框架。精于业务的数据分析师需要了解业务,跳出业务部门的局限性,从公司的高度,参考行业的通用分析方法和框架,建立公正透明、重点突出、相互支撑的分析框架,进而借助BI工具建立数据模型,并在不断地分享中修改和升级。同时,有效地指导业务部门负责人使用数据模型的可视化图表,在他们看来可能魔幻、充满变化的可视化中寻找业务的问题和解决线索,实现数据洞察的价值。

我想,这才是数据分析师的修炼。对数据的洞察,比拥有数据更重要。

数据分析.jpg

2、循序渐进,不断推倒重来

对于初学者,要有耐心不断地修改自己的作品,甚至推倒重来。以我学习LOD的经验,第一次的成功多半充满侥幸,第二次第三次的自然输出才是成功;而伴随不断的学习,只有推倒重来,才能从根本上精简自己的数据模型,而不是在脆弱的学习成果上打补丁。

比如,有一天发现通过data blending,可以把门店基础数据(静态数据)和业务数据(定期更新)分开,而不用在数据源中反复链接。这就需要我从头开始搭建整个框架,而不是通过“替换数据源”开始另一个噩梦(我亲尝了这个滋味,最后还是从头来过容易)。

3、多看官方教程

虽然我买了几本Tableau的书,也确实有点好处,我依然认为最好的学习资料都在官方网站的学习和社区中。如果Tableau中文帮助有歧义,我就去找英文的help文档,总能找到你想要的东西。

4、一颗对数据敏感的心。

如果没有看过代码,如果大学C语言都讨厌,如果看到一堆数据就头晕,恐怕此生与数据分析无缘了。

数据分析需要统计学、概率论的知识,更需要一颗对数据敏感的心。知识是可以积累的,对数据的感觉却是在业务的真实环境中锻炼的。

 

二、

说完学习的总结,我想简单介绍一下自己学习Tableau的主要步骤。

  1. 试用软件,乱点一通,导入一点数据尝尝鲜;嗯~有点滋味;
  2. 买书,看了一本《人人都是数据分析师–Tabaleau应用实战》,间歇性拿着公司百万行数据练手;
  3. 整理公司的半年业务数据,开始分析之路,可视化展现慢慢有了雏形,遇到LOD(详细级别表达式)卡住……
  4. 用一个星期多的时间,反复钻研LOD,不惜做一个十行的数据表做练习,在练习中发现各种语法的计算差异,增进理解;所有的学习笔记,一律记录在onenote中,不断更新;
  5. 借助自己的业务理解,按商品品类、门店运营、会员分析、员工分析等板块,逐个建立分析的维度和模型;V1.0,V1.1……不断的分享给公司业务部门,提出修改意见;
  6. 学习官方指南,了解之前有意绕开的部分功能,比如data blending,修改或重建数据模型,加快分析效率;
  7. 指导信息部门员工学习Tableau,联系Tableau销售经理咨询价格,还发给美女经理一张分析图求教,索要Tableau营销ppt,给董事长推荐Tableau分析工具……

最兴奋的时间是前面一周,每天都在练习,后来一段时间开会耽误了学习,加上LOD反复搞不懂大费周章有点心会气冷,效率慢了一些。坚持学习,30天,Tableau就会有回报,相信自己! 三、我说一下自己学习Tableau的几点偏实战的总结吧,数据分析大拿请自觉绕行,初学者还可以参考。

数据整理

1、Tableau挑剔数据,需要提前整理好数据表

Tableau自身对于数据复杂整理的能力毕竟有限,而且规范的数据格式可以避免后期大量的麻烦。如果公司在使用各种信息系统,大多数系统中直接导出来的数据都是格式化的,比如ERP,KIS,稍加修改甚至无需修改就可以使用;而对于人资每月制作的工资表,财务每月出的门店利润表,就需要适当整理,特别是把不同月份的整合到一起,增加“日期”的维度,把标题从首列改到首行等。当数据来自不同部门时,还需要对比数据差异,建议已主系统中的销售数据作为基准数据,然后整合财务部门经过调整的毛利和利润数据。虽然这本不该数据分析师的工作范围之内,但是数据甄别越早,所有的部门都会避免后期的麻烦,毕竟是利人利己、未雨绸缪的好事情。

数据分析的镇山石

2.hiearchy、Set 和group分类神器

我曾经在第一篇的博文中列举了分层、组、集、参数、计算字段的对比,(迎战大数据,自从有了你,从而「如虎添翼」)这是数据整理和分析的基础。

set分组Hiearchy分层

3、天杀的LOD必杀技——Fixed、Include、Exclude

我在LOD上花了最长的时间,至今依然有不解的地方需要继续钻研。不过,在LOD上花费再多的时间,也是值得的,因为它会实现你之前想要但是难以做到的可视化展示。我用**我的思维方式,诠释一下理工男的高级成就。深挖数据的可视化展示,有宽度和深度两个方向,前者比如从国家到省市,从省市到乡镇;后者比如从商品品类结构到单个品类的会员分析,从单品类的会员分析到品类中商品的会员平均订单购买数量。你会发现,宽度是在一个维度(dimension)上度量(measure)的展开,而深度则是在不同维度上的展开。

向视图中添加维度来增加标记数量的过程称为设置详细级别。……某些情况下,向视图中添加度量可能会增加视图中标记的数量。但这与更改视图的详细级别不同。The process of adding dimensions to the view to increase the number of marks is known as setting the level of detail. ……In some cases, adding a measure to the view can increase the number of marks in the view. But this is not the same as changing the view's level of detail.

因此,设置详细级别表达式,需要的增加数据的深度,而不是广度。增加维度,是更改详细级别的充分但不必要条件。——更改详细级别,意味着要增加维度;但是增加维度,并不必然会更改详细级别。这也是详细级别表达式LOD的初衷,因为数据宽度的扩宽或者收窄,可以通过拖拽我们想要的度量(measure)字段来实现,但是要在一个可视化视图中,引入可视化视图中没有的字段,就不是拖拽所能完成。——写到这里我自己有点豁然开朗了……God bless me.于是引入了三个LOD表达式:Fixed, include, Exclude看英文的意思就知道,fixed可以指定级别维度,而include和exclude相对,前者在现有视图的基础上以较低的详细级别运算,后者以较高的详细级别运算。[gallery ids="1480,1481,1482" type="slideshow"]

避免数据冗余和数据混乱

4、使用Extract filters在数据提取阶段排除异常数据

这可以视为是一劳永逸,不留后患的筛选,我起初是绕行的,后来当遇到百万行的数据时,特意查询了筛选的顺序(Tableau's Order of Operations),这才发现这就是不可忽视的筛选工具。在Tableau 的操作顺序中,提取数据筛选是级别最高的,在遇到百万行数据时,提取阶段过滤掉异常数据,就可以避免后期反复的筛选导致的性能下降,还有内心的不安。[caption id="attachment_1293" align="alignnone" width="818"]筛选器和操作顺序

筛选器和操作顺序[/caption][caption id="attachment_1533" align="alignnone" width="466"]

数据提取

数据提取,删除门店卡和无效会员[/caption]

5、Data Blending数据混合,避免反复导入同一个数据表

刚开始学习时,我会把门店参数表和很多个数据表建立链接,我觉得这样很酷。但等有了百万行的数据时,这样就不酷而是麻烦了,而且一定有多个数据源共用一个数据表的简单方法才对。于是遇到了 Data Blending,使用数据混合,可以避免反复使用参数表或基本表与数据表“链接”,减少数据冗余。

如果您需要分析不同数据库中的数据,但在多连接数据源中不支持这些数据库,或者您需要分析的表处于不同的详细级别,请使用数据混合。利用数据混合,可以在一个工作表上合并多个数据源中的数据。

好啦,今天分享到这里吧。又是一个下午,算是对自己过去近一个的交代啦。作为初学者的自己,还需要多多练习,希望找到志同道合的朋友一起进步。(我的微信 yupengwu,请注明Tableau)

第一版  2017年8月19日 V1.1
修改版  2017年8月21日 V1.2