分享

身为数据分析师,要学会保护自己鸭~

 争子俱乐部 2021-03-30
这是POINT小数点的第 438 篇文章

点点写在前面:

这篇文章来自用户画像pointer 明河的分享。往期他分享过关于数据分析我们应该有一个理性的认识,既不能忽视数据分析在当今企业中发挥的作用,也不能认为数据分析万能。今天这篇文章我们来聊聊,数据分析师如何在面对大量需求时保护自己。



文章来自公众号:人生初夏。


前言
在数据分析师的职业生涯中,有两件事情是逃脱不了的,一个是需求,一个是报表。
然而这两件事消耗了大量的工作时间,却都不直接体现价值,很少有数据人员会喜欢这两项工作。
今天这篇说的是数据分析师如何在面对大量需求时保护自己。

如果有一句话可以作为所有数据工作者共同的座右铭,我希望是:
战战兢兢,如临深渊,如履薄冰。


 1 
大事大约,小事小心

十多年前,看《铁齿铜牙纪晓岚》,里面有一个场景,纪晓岚向和珅请教掌管军机处的心得,和珅自承,多年心得只有一条:大事大约,小事小心。

“朝廷大事呀,都有固定的模式处理,比如说,哪儿有灾荒就派钱粮救灾,哪儿有造反就派兵平叛,都有前例可援呀,反而不必大伤脑筋,大约照办就没错了。”
“那小事小心呢?”
“这种小事呀,没有前例可援,抓不准皇上的心事,很可能就要倒大霉了。”

即使是当时年纪还轻,不谙世事的我,也能隐隐感受到这其中无数辛酸血泪凝结出的人生智慧。

在做了近两年的数据分析之后,我得说天下道理都是相通的。

大事大约,说的是大事一般都有明确的规范存在,只要流程完备,循规蹈矩一点,总不会出什么大问题。

例如搭建一张大型报表,做一个专题分析,完成一项自动化处理,这些事情前人早已有丰富的经验积累。就算自身不太熟悉,严格的流程之中也有很多机会可以暴露问题,试错几次,返工几次,也就差不多了。

此外人们对做大事的人总是会给予更多的时间、资源和容忍,即使做得不好,也通常不会过分苛责。

问题在于小事。

日常工作里,我最怕遇到的就是那种临时的、优先级很高、时间又很紧,而且从来没有做过的需求这些需求往往不会很困难,可它的危险之处不在于自身的难度,而在于绝对不能犯错。

不要觉得事情很小所以不重要,事实上这类紧急数据需求大多有着直接而明确的目的性往往是决策者有了一个想法,需要用数据来验证。在这个时间点上,一个数字可能比一整张报表重要得多。

这种事情出错了,可能就会误导一个决策,最终要是效果不好,你猜猜复盘的时候背锅的会是谁呢?

而你甚至都无法反驳,因为这确实不是很复杂的工作,小事由于不涉及能力,犯下的错往往会被归结成态度问题。

人很难对没有接触过的东西考虑得细致周密,可偏偏数据分析真的是很精细的工作,写SQL少一个条件,前期处理缺一个字段,还有被Excel的各种feature(bug)坑到,都是再常见不过的事情。

这可不是我编的,2016年Genome Biology的一篇论文显示20%的遗传学论文包含了Excel导致的基因名称转换错误,因为Excel会自动把1-2这类的文本转换成类似1月2日的日期格式。

我曾经为定位一个编码的匹配问题花去了30分钟,最后发现原因是发数据的同事用Excel直接打开了CSV文件,然后Excel自动截断了这个十六位编码的最后一位…

在数据发送前出的错都可以内部解决,而发出去的数据,哪怕是及时改正了,也会给人留下一种反复无常的不靠谱之感,这对数据人员来说是很致命的。

未雨绸缪总好过亡羊补牢,这有赖于分析人员对数据环境的熟悉、大量试错后的经验以及注意力的集中程度。

下面说几个规避错误的方式:
1.1 规范化

常言道,十句“我会做”不如一句“我做过”,避免不熟悉的任务最好的方法就是让自己对它熟悉起来。

这不是一个能够速成的方法,它需要我们足够耐心和细致,把各类数据的主要获取和应用场景进行探索和整合,形成一个能够覆盖绝大部分场景的方法论体系,便于随时取用。

比如某些有大量线下门店的行业,地图可视化是一个很常见的需求。

我们如果能够在平时了解地图可视化有哪些常用的工具、系统中的哪张表有门店的坐标、这些坐标属于哪类标准,是否能直接被工具使用,如果不能的话应该用何种方式进行转换,并保存好省市县区等的常用基本地理文件,那在领导突然想看地图的时候就不会手忙脚乱。

否则短时间内要解决这些问题,是不太容易的,更有可能由于对坐标体系的不了解而导致地图出现偏移。

这类由简入繁、再由繁至简的过程其实涉及到一个更深入的话题,即数据分析的工程思维,这块内容比较大,我们有时间再聊。

当然,再如何全面的体系也不可能支持得了所有的应用场景,我们要做的是尽量全面,并且不断把新的临时需求纳入其中,避免重复造轮子。


1.2 专注

冷静给人条理,激情给人动力,二者的平衡则是极致的专注。

人脑不是什么多核CPU,人不可能同时处理多件事情。在多件事情中的切换则有大量的效率损失。

在做重要的事情的时候关掉其他能够扰乱注意力的东西是一个很好的习惯,坚持一段时间做一件事情,以一种严谨高效的状态解决问题,这对大脑和工作效率都是有益的。


1.3 保持良好的工作习惯

数据工作有很多值得一以贯之的好习惯,例如对文件做分类整理、不要修改原始数据、备份每个步骤的文件并做好记录、给表格、变量和字段规范的命名、注意时刻保存工作进度等。

这些都是比较基本的认知,通常有经验的数据工作者在做重要的事情时也都会有意识地遵守。

但我要说的是,面对并不十分复杂的小事,更要注意保持良好的工作习惯。

我在做一项陌生工作的时候,以前总喜欢把大量的中间操作用一些临时的、不标准的形式做完,以求快速得到结果。每一个步骤既没有分割,也没有记录,表格中充斥着大量的列1列2和临时计算,具体的细节则留在脑海中。

我倒不是不知道习惯的重要性,而是以为一个如此简单的一次性需求,似乎不需要那么严格的操作。

然而人总是会高估自己,这么做很糟糕的一种情况就是做到后面发现有问题,要到前面修改的时候却忘掉了之前每一步的具体操作,只能一边心态崩溃,一边尽力地想。

人的工作记忆只能保存4个临时对象,超过之后任何一个新增的任务都是对大脑的沉重负担。

而用规范的方法做事,则会让先前的步骤化为一个个标准的组块,可以被快速理解和调用

所以如果没有把握一气呵成,那我的建议是按部就班地完成步骤,很多时候慢就是快,一时的侥幸不如长期的坚持。


1.4 做好验证

为了保证准确性,我们还需要做好验证。

我个人常用的验证方法有三种,这里简单介绍一下。

第一个是在每做完一步的时候简单看一下目前数据的特征,看是否与常识相违背,避免做到最后才发现一开始就犯了低级错误

第二个是交叉验证,就是如果不是很复杂的工作,可以考虑用两种方法分别计算,如果最终的结果一致,那大概率就不会有错

第三个是抽样验证,在结果中选取几个互不关联的点,从原始数据开始手工计算结果,如果全部正确则能在一定程度上说明结果的准确性


说了这么多,可能很多人会觉得我危言耸听而且絮絮叨叨,实际的危险性并没有那么夸张。

确实每个人心态不同,或许我这种概率主义者更容易看到糟糕的一面,但是数据分析工作直接关联到决策,背锅的事情非常常见,既然今天聊的是保护自己,那我首先讲的就是这种我最在意的危险。



 2 
了解数据分析的上下游关系

关于数据分析师的成长有一个老生常谈的问题:天天都在当取数机器,感受不到自己的进步。

这里我给的建议是:不要需求方要你做什么你就做什么,而是要参与到整个分析流程中,了解需求从何而来,向何处去。

这不单单是个人成长的事情,同时也能帮助减少无效需求,并避免被人甩锅。

数据分析要结合业务,这应该是大家都明白的事情。

可是把数据和分析割裂开来,却是一件危险的事情。

一个普遍存在的问题是,远离数据的人对数据总是不够了解的,并且他们往往缺乏一些基本的数据素养,所以他们提出的需求有时并不完全贴合实际。可偏偏越是不懂数据的人,越是觉得自己可懂分析了。

所以数据人员在接触各类需求的时候,不要一味地埋头苦干,而是可以多问几个为什么,仔细思考其中的合理性,尝试从源头开始解决问题。

比如这个需求实际想要针对的是什么问题,或是想要验证一个什么想法?是基于何种现象得出的猜想?期望会看到一个什么样的结果?后续是否还有一些相关联的需求?

然后我们就会知道,一个需求从来不是孤立存在的,有时我们会发现一些需求的提出是基于对先前数据的错误解读,那我们可以反过来纠正他们的想法;有时我们可以发现现有思路的潜在问题,提出更合适的指标或是模型设计;还有些时候我们也可以在了解需求方想法的同时,为之后可能的深入分析提前做一些准备……

否则,如果做到一半发现问题再去修改,那其中的劳心伤神之处可就是另一个层次了。

说一个我亲身经历的工作中的例子。

我曾经负责过某个项目的数据支持,令我遗憾的是我并没有参与到决策中去,所以在一次项目会议之后,我才看到了一份让我血压升高的各区域考核方案。

方案是这么设计的:用五个指标对各区域分别排名,指标值在90%以上的并列第一,然后对五个排名加权平均,升序得到综合排名,用于决定各区域负责人的绩效。

各位读者可以先想一想,这份方案存在着什么问题?


首先是用排名当分数的固有问题,可能一个区域达成值80%第四名,一个区域达成值50%第五名,一个区域达成值49%第六名,排名抹平了实际值的差异,让指标失去了量化的优越性。

如果是单独的一个指标排名那不算什么,但是五个指标排名后还要加权,必然存在的情况是会有一些大的差异被人为减小,而微小的差异则被放大了。
然后是一个由并列第一衍生的问题:这个排名是使用rank(),还是使用dense_rank()?

如果用的是跳跃排序rank(),主要的问题就在于跳跃的节点。比如某个指标第八名达成值90.1%,第九名达成值89.9%,那么前八名并列第一,第九名还是第九名。0.2%的差别,排名多了八位。我着实担心出现这种情况,因为我自问如果我就是第九名那个区域的负责人,我第一个要找他麻烦的就是出数据的那个人。

如果用的是密集排序dense_rank(),问题会更加严重,比如一共有15个区域,第一个指标有13个并列第一,那么排名的最大值是3,第二个指标有2个并列第一,那么排名的最大值就是14。

很显然,一个区域在第二个指标上落后的影响比第一个指标的落后严重得多,这意味着五个指标在一开始就不是平权的,加权平均的结果自然也和我们想要的相去甚远。

我于是向项目负责人详细论述了这个问题,并提出可以考虑改用归一化打分之类的方式考核业绩。

然后我得到了夸奖,但是方案并没有变化。

这个结果有点悲伤,不过我认为这些依然是必要的提醒。从职业道德上说,这算是尽到了数据分析人员的风险预警的责任,从保护自己的角度上说,有这么一段记录在,至少可以避免日后被人甩锅。



 3 
成本意识

经济学中有个概念叫外部性,它说的是如果决策的成本或收益不完全由决策者承担,那么就难以让整体的效率达到最优的状态。
正如当说话要承担后果的时候,大家就都会理性思考了,我一向认为,如果每个需求者都能清楚地意识到需求背后的代价,那他们或许会更加慎重地考虑自己的需求。

数据工作从来都是有成本的,不过需求方往往意识不到这一点,如果每个人的个性化需求都要满足的话,那数据人员也不用下班了。

这里介绍几种在成本上下功夫的手段。


3.1 排期

排期使数据分析师自身工作与需求的矛盾转为需求和需求间的矛盾。

这个很好理解,我们要做的是对需求完成的时间进行评估,然后按照优先级和时间做一下排序,合理分配时间。

我一般建议报的时间尽可能延长一些,侯世达定律告诉我们,做事所花费的时间总是比你预期的要长,即使你的预期中考虑了侯世达定律。

不过要求更多的时间不意味着拖延,我们做事还是要尽可能高效,这既是为整体的效率考虑,也是为了达到超出预期的效果。



3.2 规范申请流程

需求的成本有一大块在于交流。有时需求方没能清楚地描述他们想要什么,这就需要数据人员在处理需求的时候反复沟通确认。
规范化的申请流程有助于解决这类问题。
让每一个需求都按照一个正规流程进行提交,写清楚需求方、用途、需求时间、交付形式、字段定义、需求频率等基本信息,能够大大减少后期沟通的时间。
同时需求的留痕也让后面一旦出现纠纷,能够有一份明确的原始材料可以参考,避免被需求方说没有按照他们的想法完成需求。

3.3 增加需求方的成本

外部性的常规解决方法就是把成本加回到决策的人身上。

我不是说要做无意义的内耗,我的意思是很多需求的重要程度和它的成本是不相匹配的

有时可能业务人员只是一时的突发奇想,在并没有考虑成熟的情况下就提了一个成本很高的需求,对这种情况我们需要让他自己先想清楚。
例如可以让他说明如何解读交付结果,给出明确的管理举措,设立一个目标和达成期限等。

这也有助于提高业务人员的工作质量,因为人通常不会珍惜那些易于获得的东西,但当切实付出了成本,他们就会重视起来。

3.4 频繁的需求用报表解决

如果一个需求是长期的,并且已经相对成熟,有着固定的模板,那么我建议纳入报表体系中。

固定报表和临时需求有着不同的适用范围,报表做的事情是覆盖那些最核心、最常用,而且不轻易更改的数据需求。

因为存在着相对固定这么一个约束,报表有很多可以优化的手段。从我自己的经历看,大部分报表都可以做到一键完成从标准的原始数据到最终呈现的过程。

效率和灵活性是一对矛盾,我们知道越多的约束,我们就可以进行越多针对性的优化,这是一个很普遍的思路。

3.5 做好数据基础建设

总有一些东西需要一点长期主义精神,数据的基础建设就是其中之一。

数据清洗时几个关键节点的打通、已有资源的整合利用、部门数据架构的优化、指标体系的梳理、流程标准的确立、数据技能的传播推广……这些都是短期内没有成效,但需要坚持去做的事情。它们就像是地基,每抬升一分,就会带动整体的效率提高一分。

数据基建的一个尴尬的时间点在于可能眼看再有一小段时间的努力,就能完成一项重要优化,从而使得原本非常复杂的需求大大简化,但就在这个时候突然出现了时间紧迫的“非常复杂的需求”。

我称这种状态为又要人在原地挖井,又要人去河边挑水。

这种情况就需要我们与需求方的综合协商,明确各方的成本。如果确实是火烧眉毛的紧急事项,那请以实际需求为重;但如果是可以稍作延期,或者说之后还有很多类似的需求也比较急迫的,可以考虑先完成优化,再解决需求,以达到整体效率的最优。




 4 
不要世故,不要计较

写这篇文章的一大风险在于,可能会让读者觉得我是一个精于世故的职场老油条,而不是一个风华正茂的热血青年。

如果是这样那就背离了我的本意,我确实说了一些保护自己的方式,但这些方式都是为了在提高整体效率的同时避免自己受伤害,并不是要让我们变得世故和计较。

如果把这些手段当作目的,以恶意揣测他人,执著于计较眼前的时间和利益,那就会忽视更长远与重要的东西。

持续进步的自身能力、和谐融洽的同事关系、承认自身错误的客观态度……这些才是帮助我们成为更好的人的因素。

保护自己的本质是预防和控制潜在的问题,把数据分析师当作整体的一部分来计算效率,而不是提倡偷懒和甩锅。

不懂得保护自己的人未必不能成功,但失去勇气和担当的人肯定不能成功。

与诸君共勉。

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多