上周部门做了一个培训,利用阿里云产品实现了数据从采集,到存储,开发及报表展示的全过程,实现了流计算和实时计算两个过程。在此做个学习记录。 涉及产品ECS云服务器、DataHub、ADS、OTS、RDS,quickBI。 1.流计算源数据:由python脚本和shell脚本模拟产生。 1.1数据产生ECS是一款阿里云的云服务器。 1.2数据存储在流计算页面,将datahub作为数据源,分别将ADS,OTS,RDS作为目标数据源。在导入之前,需要先在ADS,OTS,RDS建表结构。 REPLACE into table goods_sale select buyer_id, from_unixtime(create_time,'yyyyMMdd'), good_cate , brand, trans_num , trans_amount, click_cnt, addcart_cnt, collect_cnt from buy_new;
这个语句是自己写的,目的是将datahub的数据写入到ads等数据库中。 1.3报表展示在阿里云的quickBI中,可以用ads,rds等中的数据作为数据源,做报表展示。此时数据源是实时更新的,就可以在页面展示中做到实时刷新 ,这里支持5s刷一次。 2.离线计算2.1 业务数据同步到MaxCompute(即原来的odps)这里由于没有业务数据,就将之前在RDS中的数据作为业务数据。
2.2报表展示在阿里云的quickBI中,用ads中的数据作为数据源,做报表展示。 选择不同数据库RDS:面向事务。存不了太大数据。类似mysql。OLTP |
|