香港正版挂牌 马会资料 香港正版挂牌之全篇 今期开什么码 马报开奖结果 香港马会 香港挂牌之全篇

阿里数据仓库实践分享

  以阿里金融在后台大数据中的运行过程为例,我们会从关系数据库中把用户相关的所有数据全部导入到MaxCompute中,然后记录用户的一些操作日志,比如登录过哪些网站、浏览过哪些商品,有怎样的喜好。还有一些其它数据,可能是从其它系统过来的。我们把这些数据做一个汇总分析,最终把这些数据导出到业务系统中,也有一个统计服务。这样当用户来进行征信贷款的时候,我们很快就可以定位到这个用户是否符合征信要求,并迅速进行审批。

  当我们接到一个需求,首先会进行需求分析,然后做工作流设计,比如这个任务是什么时候跑的、依赖于哪些业务。工作流设计完成后进行数据采集和数据同步。接下去就是数据开发,我们提供了WEB-IDE,支持SQL、MR、SHELL和 PYTHON等。然后我们提供了冒烟测试的场景,测试完成后发布到线上,让它每天定时进行自动调度,并进行数据质量。以上步骤都完成后,就能把我们的数据环流到业务系统库,或者用QuickBI、DataV这些工具进行页面展现。

  如图所示,MaxCompute是图上的心脏,所有运行的任务都在MaxCompute里面。调度是数据架构的大脑。眼睛是数据,目前在数据架构平台上它还是一个近视眼,还没有正式推出。数据集成就像两只手,不停地从其它地方搬运数据。底层的开发和运维中心就像两条腿,整个数据架构平台走得更远。而数据质量就像是一个人体健康中心,也就是数据质量的。

  数据仓库,是为企业所有级别的决策制定过程,提供所有类型数据支持的战略集合。它是单个数据存储,出于分析性报告和决策支持目的而创建。为需要业务智能的企业,提供指导业务流程改进、时间、成本、质量以及控制。

  如上图所示,假设有D和E两个任务,它们依赖于B和A。任务D的运行时间是1.5小时,E是2小时。我们必须确保B每天在4点之前把B的任务运行完成,一般正常运行时间是2小时。那就要A每天任务完成的时间不晚于2点。如果A的运行时间是10分钟,到1点的时候发现A的任务失败了,这时就能计算出A还剩下多少余量,我们可以进行人工监督排查。在1:50之前人工介入,从而任务D和E能在6点前准时产出。