今天小编又挖到了他的一篇技术稿 图2是一个使用hadoop构建的完整现代数仓,展现了从数据接入、数据处理到数据展示的整体逻辑架构。 左边表示数据的ETL过程:实时数据一般通过Kafka等MQ进入平台;现有系统的存量数据、第三方数据及非/半结构化数据通过文件传输方式进入平台;增量数据通过Sqoop、Kettle等ETL工具T+1进入平台,此外星环开发的TDA组件能够帮助这部分数据做到T+0的准实时同步。所有数据最后汇总到右边的数据仓库。 关于数据仓库内部的数据处理我们有专题分享,这里不再赘述。 数据仓库之上有五种类型的平台分别支撑不同类型的应用。 3.1 数据请求逻辑 4. 如果已经有供数系统,则需要业务部门的领导在系统内进行权限审批,审批通过才能获得数据。 在整个数据请求过程中,业务部门和科技部门权力多有交叉,数据层和系统层界限模糊不清,简单的数据请求却需要复杂的处理逻辑。 3.1.2. 改进后逻辑 3. 通过则业务人员可以自助查询数据。 整套流程都在统一建设的自助分析平台之上,不再涉及科技部门和系统层面。业务部门只需要提数据需求,权限审批由专门的信息管理部门统一管理。信息管理部门根据平台是否有这份数据、业务人员是否有权限获取这份数据进行审批。如果审批通过了,业务人员就可以自助查询;如果拒绝,则直接结束。 3.2. 权限控制 首先,平台需要4A认证。所谓的4A就是Account、Authentication、Authorization和Audit。 如同传统的关系型数据库,Inceptor有基于角色的访问控制(RBAC)。数据库的建表查表权限、数据表的增删改查权限都可以赋权给角色或个人。角色是一类特殊的权限集合,每种权限可以先赋予角色,再将角色赋予个人用户,形成类似分组的权限管控。 平台中有多种类型的数据,有些是客户关系,有些是交易明细。这些表放在不同的库的不同表中,从主题级别将不同的访问权限赋予不同的用户,如CRM信息赋予营销人员、交易数据赋予财务人员。 在大数据场景下,有非常多的宽表,一张表中的信息量非常大,可能有几十甚至上百个字段。如交易信息中,既有客户身份证、手机号等敏感信息,也有交易额、数据源等非敏感信息。数据分析师只允许访问非敏感信息,而管理员允许访问敏感信息。该场景下需要让不同用户访问同一张表的不同字段。在传统的关系型数据库中,往往通过建视图的方式控制列级权限,但是如果权限分类一多,就会生成非常多的视图难以管理。针对该场景,星环开发了列级权限,可以在原表上赋予不同用户不同字段的访问权限,方便管理。 3.3. 资源隔离 如果没有计算资源隔离,一个用户在分析平台上提交了一个SQL任务,把计算资源占光,会影响其他用户的正常使用。 因此需要限定每个用户的计算资源。用户提交任务时可以申请专有的资源池供自己使用。物理集群根据当前是否有空闲的CPU和内存等计算资源、当前用户是否有独享资源的权限决定是否为其分配专有资源。如果没有分配,当前用户只能使用共享资源进行作业,根据作业优先级分配到队列里,进行作业调度。一个虚拟集群里可以有多个队列。 3.3.2. 存储资源隔离 一个平台的存储空间是有限的,如果用户无限放入文件,平台很快就不堪重负。所以这里涉及到存储资源的隔离。 C用户分配的空间比较小,达到上限了,这时候就不允许上传数据了。 一般的Hadoop解决方案中,大数据平台只能调用存储于HDFS和HBase之上的数据。然而有一些数据不适合从外部转存到HDFS或HBase中,如频繁改动的维度表,每次关联之前都要从生产库中将维度表完整的抽取过来再做关联。 4.1. 整体逻辑架构 图9是星环常用的日志处理技术的完整逻辑框架。 数据源可以是各种应用系统的日志,或网站的访问信息。 5. 处理完的信息可以直接录入持久化存储层,如Inceptor、Hyperbase、ElasticSearch等。 ![]() 在传统的预警方案中,某个系统的预警线一般是一条水平线,但实际上机器的性能是会波动的,有忙时性能和闲时性能的区别。如果以固定的阈值作为监控指标缺少指导意义,因为忙时指标总是偏高,闲时指标总是偏低,无法判断出性能异常。 ![]() 硬件规划是另一类日志分析的应用场景。对于传统的应用,硬件大多是需要时增加即可,早一点晚一点成本区别不大。但是在大数据场景下,数据快速增长,硬件规模也很大,早采购可能导致硬件限制成本上升,晚采购可能导致存储空间不足数据溢出,或是计算性能不足无法及时处理数据。 ![]() 目前,关系型数据库和Hadoop之间一般通过Sqoop增量抽取或数据文件传输等方式同步。但是这种方案有一些问题。首先,调度比较复杂。其次,时间延迟比较大,现在一般只能做到T+1。 星环开发了一个准实时的同步工具TDA(Transwarp Data Alive): 4. HDFS上有调度监控程序,将日志信息在Inceptor上重演一遍,完成从关系型数据库到Hadoop的同步。 ![]() 图13. 准实时同步技术实现T+0 ODS 最后附上大神的皂片供大家膜拜~ |
|
来自: yujunnujuy > 《银行》