分享

“养数据”:用Excel表格管理数据的基本原则

 whoyzz 2018-09-15


数据匠人
17小时前
关注

数据透视表的源数据,通常有如下要求:

  1. 数据源的首行,由字段标签,或描述每列信息的标题组成。
  2. 每列代表独一无二的数据类别。
  3. 每行代表一条独一无二的记录。
  4. 数据源中的列名称,不会重复作为数据项。数据项用于筛选或查询标准,如月名称,日期,年,位置,雇员等。

在对Excel中的基础数据进行管理时,通常需要遵循八项基本原则

原则一:统一性原则

  1. 统一数据格式(同列同格式)
  2. 统一数据类型(同列同类型)
  3. 统一数据排序。

例如,某家公司总是希望将星期日排在“星期列”第一位(而非将“星期一”至于第一位),或者,将7月份作为财年的第一个月份。我们可以在Excel表格中进行适当的设置,来满足需求。

4. 统一编码规则。

有些时候,我们希望对产品,或者地理位置等进行编码,这时的编码并非随意的流水码,这就需要我们设置一致的编码规则,并且能对产品ID或地理位置编码进行扩展。

统一原则的好处是带来了非常高的数据加工效率,可以多次、重复利用数据,也就是规模经济。

原则二:职责分离原则

  1. 数据的结构和数据的内容分析。
  2. 数据的展现形式与数据本身分离。

前者可能是货币或百分比,后者可能是个小数。

3. 数据的排序次序与数据本身分离。

前者通常是阿拉伯数字,后者可能是文本类型。

分离原则的好处是带来了非常强的灵活性和个性化。

例如,对于数据本身0.932765,我们可以首先统一地将其格式设置为93.27%,这样生成的每份数据透视表就可自动展示为93.27%的格式,在此基础上如果需要个性化,我们可以使用单元格格式,调整为93%。

原则三:唯一识别原则

同一对象,名称相同。

列有列名、表有表名。每行记录,对应一个唯一标识符(ID)。在关联多个表格的时候,通常会用作表格间的共用匹配列,也称为“键”。(关键字段)

数据总是不断地流动的,要防止冗余记录和冲突,最好的办法是对名称和ID进行规范。

原则四:可扩展性原则

在分析的过程中,我们总希望新增一个“维度”来进行细分、溯源,查明真相。新的维度可以匹配扩展。

原则五:复用原则

不要重复发明轮子,也就是常说的奥卡姆剃刀原则“如无必要,无增实体”。如果用一份基础数据能够生成所需的5份报表,就不要创造多份基础数据。数据的价值不仅来自于分析数据,而且来自于不增加成本的情况下,对数据的重复使用。这就要求我们在分析数据的同时,做好数据管理工作,将数据整合到一起。

原则六:分治原则

分治法是解决复杂问题的最佳方面,能够驭繁为简,提升各个组件的复用。

在创建复杂的公式时,采用“分治法”尤为有用。也就是我们常说的,在处理数据问题的时候。人和机器的最佳分工是:人负责将复杂的问题简单化(分治),而机器负责将简单的问题自动化(重复)。

原则七:组合原则

组合原则主要是为了发挥 “1+1大于2”的效果。

组合分为两种方法来组合多个数据源的数据:合并和追加。

  1. 同构数据,字段相同,但记录不同,应当将不同的记录,通过”追加“,组合到一起。
  2. 异构数据,字段不同,但共用匹配列,应当通过”匹配列”创建关系形成数据模型,或者“合并“为表格。

原则八:简单抽象原则

简单原则是处理数据时最重要的原则。

简单的本质在于抽象。在开展数据分析时,我们经常用对比、细分、溯源、趋势等概括数据分析方法。其实所有纷繁复杂的数据问题,都可以归结为两块:维度和度量。

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多