数据分析师的第一项任务
如果你加入到了一家初创公司,作为这个公司里的第一个数据分析师,你应该做的第一项任务是什么呢?你可能想说搜集数据,毕竟连数据都没有就无从做分析,但当你开始搜集数据的时候,你会发现,数据应该搜集哪些范围?需要搜集哪些指标来指向对应的业务?具体的搜集方案如何确定?对搜集到的数据进行怎样的计算处理?……
一系列的问题就会冒出来,这些问题虽然在当下你比较容易立即给出个判断,但当一个判断接着另一个判断不断进行时,你就会发现这些判断前后不一致,甚至会出现各种矛盾。比如,你在统计新增用户时按照完成注册的用户数进行计算(一个注册用户对应一个用户ID),因为你觉得这样做便于业务人员理解,而你统计活跃用户的时候却选择了用户使用的设备数(一个用户ID可能对应多个设备),因为前端打点回传设备号要比回传用户ID容易的多,等到你将这两个数据指标组合起来用的时候却发现口径完全不一致,根本无法对照使用。
为了解决上述的问题,数据分析师应该先建立起一套数据分析指标体系,它是对公司所有业务所对应的数据指标的集中定义和关系梳理,相当于在做所有工作前,把该约定的约定清楚,该统一的统一好,形成一套普遍适用的标准。具体它将解决如下问题:
作为衡量公司各项业务的各数据指标的定义是什么?
各数据指标之间的关系是什么?
毋庸置疑,建立一套完善的数据分析指标体系将会让你今后有定义可寻,有标准可依,同时也会为接下来数据分析工作的开展指明方向!
建立前的准备
你可能已经跃跃欲试了,但别忙,在正式开始建立数据分析指标体系之前,你需要了解清楚以下两方面情况:
业务方面:业务对数据的重要性不言而喻,我不用多做强调,但很多经验尚浅的分析师却总是对业务缺乏系统性了解,你可以尝试通过以下两条问题线快速了解业务(根据公司具体情况问题可相应调整):
业务逻辑线(横向):
【产品服务】公司提供哪些产品或服务(业务条线)?产品或服务特点是怎样的?定价多少?
【目标受众】公司提供的产品或服务所针对的目标受众是谁?大致的规模体量是怎样的?大致的特征是怎样的(年龄、性别、地域、学历、财富程度或购买力……)?
【服务过程】公司的产品和服务如何满足目标受众的需求?具体过程是怎样的?
【盈利模式】在满足目标受众的需求的情况下,公司如何实现盈利?
【获客渠道】公司如何影响并获取新的用户?有没有固定的获客渠道?
【用户生命周期管理】公司与用户之间是否存在长期关系(长期持续的服务或二次购买)?公司如何维护与客户的长期关系?
【组织架构】公司的各职能部门有哪些?以及对应的职能范围如何?
【职能部门细查】公司经常开展的运营活动有哪些?其中的哪些被认为效果较好?(可根据不同职能部门的职能情况提问,该处仅针对运营部门提问举例)
【行业竞争】公司所处于哪个行业或领域?该行业目前所处的阶段大致是怎样的?公司在行业中所处的位置如何?公司与行业内其他竞争者的差异在哪?行业内有无比较明显的发展趋势或业内热点?
【目标战略】公司短期的业务目标是什么?长期的业务战略是什么?
业务历史线(纵向):
【历史沿革】公司是什么时候成立的?经历过哪些重大事件?
【产品变化】公司成立之初提供过哪些产品或服务?与现有产品或服务是否一致?中间经历过哪些变化?变化的原因是怎样的?
【受众变化】公司成立之初的目标受众是怎样的?到现在是否还留存?其特征属性与现有目标受众是否一致?目标受众的规模经历过怎样的变化(尤其关注用户快速上升或下降的时期)?
【盈利模式变化】公司的盈利模式是否发生过调整或变化?原因是什么?
技术实现方面:需要从技术层面了解数据的来源、采集、生产等方面的情况,综合评估各种数据采集的方式和难易程度,具体包含如下:
【业务节点】公司现有的业务流程中有哪些包含哪些环节,其中是否存在数据流关键节点(比如统计销售数据时结算平台就是关键节点),这些节点在技术层面是否已经建立起了对应的数据库或至少在财务业务处有手工记录表。
【数据仓库】公司是否有可用于统计分析的数据仓库,数据仓库内现有的数据表都有哪些?里面涉及的字段含义是什么?是否有对应的数据字段或字段注释?
【数据系统】公司是否已经自建或购买过相关的数据统计系统?抑或是下游业务后台的数据统计模块?里面的数据指标都有哪些?如何定义的?数据采集机制是如何实现的?过往的数据表现是怎样的,是否发生过统计错误?错误原因是什么?
【用户记录】公司是否已经在开展针对目标受众的数据搜集工作,包括用户的非敏感性基础信息,用户的行为日志等?
【客服记录】公司是否有客服相关的岗位或部门,是否有比较系统完善的客服记录?
【财务记录】公司现有的财务分析是大致怎样的程度(完全依赖手工表还是系统自动化),是否有完备的财务记录?财务记录周期是怎样的?
【第三方研究】是否有第三方数据研究机构在此之前对公司进行过数据研究,是否有对应的报告?
从定义第一个指标到梳理指标关系
在对业务方面和技术方面有了足够的了解之后,我们正式开始编制数据分析指标体系。正如你前期做的功课一样,我们对每一个数据指标的定义也是从业务侧的业务含义和技术侧的采集计算口径两方面进行的,以我们常用的注册用户数这个指标的定义为例:
注册用户数
业务含义指的是完成注册流程后的用户数量。
采集计算口径:每位用户在完成注册后,系统会为其分配一个唯一不变的用户ID,这些ID被记录在APP后端数据库的一张用户表里,计算这张表里用户ID的数量即为用户数量。
这样的定义方式注定让数据指标天然嵌入到两种关系当中,一种是业务从属关系,一种是技术实现方面的指标派生与计算关系,依靠这两种关系,我们不仅能顺藤摸瓜的系统性找到其他各个指标,而且在整个梳理的过程中,你会发现你最终所要寻找的数据分析指标体系其实就是这些指标连同他们之间的关系所构建出的关系体系本身。那么下面就让我们来看一下这两种关系:
指标派生与计算关系
指标可以大致分为三种,根指标、派生指标和二次计算指标。根指标是那种最底层的指标,它具有不可再分性,比如注册用户数,而派生指标,是在根指标的基础上加上了一些限定修饰词,从而划定出了具体的范围或范畴,比如日活跃用户数,二次计算指标是两个或两个以上根指标或派生指标之间通过计算得出的指标,一般为各种比率或平均值数据。
我们可以先梳理清楚根指标,再梳理派生指标,最后梳理各种二次计算指标,以下是根据一个APP的指标从属和计算关系的示例:
图中有3个大的数据指标分类(蓝色框),每个分类下红色下划线为根指标,蓝色为派生指标,黄色为二次计算指标,#因思维导图的限制,二次计算指标可能从属于两个或多个派生指标,只将其强行归入其中的一个做展示。
指标业务从属关系
指标派生与计算关系一般只有一个,除非数据搜集层面等有比较大的迭代,否则一般不会有太大变化,而业务从属关系则不同,根据我们需要实现的业务目标任务,可能会梳理出多个业务从属关系,而且因为业务总是在不断变化发展的,所以业务从属关系也会跟随着业务的发展而不断变化,因此这种关系需要定期维护,不断更新。
我建议分析师梳理清楚的第一个业务从属关系是基于对公司整体的业务数据监测体系,一方面它覆盖面广,几乎涵盖了公司业务的全局,另一方面它偏向宏观,不需要纠结过多的细枝末节,实现难度小,较易于启动和落地。以下是一个APP的日数据监测体系示例:
不落地,无体系
至此,我们已经梳理清楚了一个公司内涉及到的各个指标的业务含义和采集计算口径,以及指标之间的派生与计算关系和业务从属关系,那么数据分析指标体系是不是就这样建立完成了?不是的,其实你只完成了最简单的第一步,接下来才是真正的关键——落地:
你需要按照你梳理出来的业务从属关系开展接下来的数据工作,包括建立数据监测体系、建立产品和运营的评估体系、建立各业务条线的数据评价体系等等。
在进行这些工作当中,你需要严格按照之前定义好的数据指标业务含义和采集计算口径去执行,保持指标定义的统一一致。
当然在这个过程中,你可能也会发现之前数据分析指标体系的不合理的地方,这时你需要及时修正,并同步修改涉及到的其他领域。
在数据监测等环境下,你可能会遇到数据错误的问题,这些问题可能是因为数仓调度出错、计算逻辑错误等,这时,你需要用数据指标的派生与计算关系迅速找到数据出错的源头,尽快进行修正。
你需要不断的给业务人员宣贯你的数据分析指标体系,让他们充分理解并认同他们对应的数据评价标准和方法,在这个过程中,他们可能也会根据实际业务情况向你提出反馈,根据反馈的具体情况,你可能也需要对数据分析指标体系进行修正。
你需要不断的给技术人员宣贯你的数据分析指标体系,让他们充分理解指标的定义和关系,并将这些作为标准和依据指导到具体的数据采集(技术环节)、数仓建设、BI系统建设中去。
以上,是建设一套数据分析指标体系的大致经验总结,相信你已经发现了,在整个过程中,我在不断的“两头跑”,一头业务侧,一头技术侧,其实这就是数据分析师的定位,他是会写代码的业务人员,也是具备深入理解业务的技术人员,而数据分析的工作就是用数据将业务和技术连接起来,让他们彼此相互理解,协调统一。
文源:知乎 壹卓很多面
BI 可视化
原创文章,作者:kepupublish,如若转载,请注明出处:https://blog.ytso.com/tech/bigdata/173344.html