阿里云服务器ECS    
弹性可伸缩的计算服务,助您降低 IT 成本,提升运维效率,使您更专注于核心业务创新 [咨询更多]
阿里云存储OSS
简单易用、多重冗余、数据备份高可靠、多层次安全防护安全性更强、低成本 [咨询更多]
阿里云数据库RDS
稳定可靠、可弹性伸缩、更拥有容灾、备份、恢复、监控、迁移等方面的全套解决方案 [咨询更多]
阿里云安全产品
DDoS高防IP、web应用防火墙、安骑士、sll证书、态势感知众多阿里云安全产品热销中 [咨询更多]
阿里云折扣优惠    
云服务器ECS、数据库、负载均衡等产品新购、续费、升级联系客服获取更多专属折扣 [咨询更多]
阿里云数据湖解决方案
2020-8-18    点击量:
  阿里云数据湖解决方案   阿里云上数据类产品众多,因为本人目前在数据BU,所以本节方案将关注在如何使用数据库BU的产品来构建数据湖,其他云上产品会略有涉及。阿里云的基于数据库产品的数据湖解决方案更加聚焦,主打数据湖分析和联邦分析两个场景。阿里云数据湖解决方案如图所示。
  阿里云数据湖解决方案
  
  整个方案依然采用OSS作为数据湖的集中存储。在数据源的支持上,目前也支持所有的阿里云数据库,包括OLTP、OLAP和NoSQL等各类数据库。核心关键点如下:
  
  1) 数据接入与搬迁。在建湖过程中,DLA的Formation组件具备元数据发现和一键建湖的能力,在本文写作之时,目前“一键建湖”还只支持全量建湖,但是基于binlog的增量建湖已经在开发中了,预计近期上线。增量建湖能力会极大的增加数据湖中数据的实时性,并将对源端业务数据库的压力降到最下。这里需要注意的是,DLA Formation是一个内部组件,对外并没有暴露。
  
  2) 数据资源目录。DLA提供Meta data catalog组件对于数据湖中的数据资产进行统一的管理,无论数据是在“湖中”还是在“湖外”。Meta data catalog也是联邦分析的统一元数据入口。
  
  3) 在内置计算引擎上,DLA提供了SQL计算引擎和Spark计算引擎两种。无论是SQL还是Spark引擎,都和Meta data catalog深度集成,能方便的获取元数据信息。基于Spark的能力,DLA解决方案支持批处理、流计算和机器学习等计算模式。
  
  4) 在外围生态上,除了支持各类异构数据源做数据接入与汇聚之外,在对外访问能力上,DLA与云原生数据仓库(原ADB)深度整合。一方面,DLA处理的结果可之际推送至ADB中,满足实时、交互式、ad hoc复杂查询;另一方面,ADB里的数据也可以借助外表功能,很方便的进行数据回流至OSS中。基于DLA,阿里云上各类异构数据源可以完全被打通,数据自由流动。
  
  5) 在数据集成和开发上,阿里云的数据湖解决方案提供两种选择:一种是采用dataworks完成;另一种是采用DMS来完成。无论是选择哪种,都能对外提供可视化的流程编排、任务调度、任务管理能力。在数据生命周期管理上,dataworks的数据地图能力相对更加成熟。
  
  6) 在数据管理和数据安全上,DMS提供了强大的能力。DMS的数据管理粒度分为“库-表-列-行”,完善的支持企业级的数据安全管控需求。除了权限管理之外,DMS更精细的地方是把原来基于数据库的devops理念扩展到了数据湖,使得数据湖的运维、开发更加精细化。
  
  进一步细化整个数据湖方案的数据应用架构,如下图所示。
  阿里云数据湖数据应用架构
  
  自左向右从数据的流向来看,数据生产者产生各类数据(云下/云上/其他云),利用各类工具,上传至各类通用/标准数据源,包括OSS/HDFS/DB等。针对各类数据源,DLA通过数据发现、数据接入、数据迁移等能力,完整建湖操作。对于“入湖”的数据,DLA提供基于SQL和Spark的数据处理能力,并可以基于Dataworks/DMS,对外提供可视化的数据集成和数据开发能力;在对外应用服务能力上,DLA提供标准化的JDBC接口,可以直接对接各类报表工具、大屏展示功能等。阿里云的DLA的特色在于背靠整个阿里云数据库生态,包括OLTP、OLAP、NoSQL等各类数据库,对外提供基于SQL的数据处理能力,对于传统企业基于数据库的开发技术栈而言,转型成本相对较低,学习曲线比较平缓。
  
  阿里云的DLA解决方案的另一个特色在于“基于云原生的湖仓一体化”。传统的企业级数据仓库在大数据时代的今天,在各类报表应用上依然是无法替代的;但是数仓无法满足大数据时代的数据分析处理的灵活性需求;因此,我们推荐数据仓库应该作为数据湖的上层应用存在:即数据湖是原始业务数据在一个企业/组织中唯一官方数据存储地;数据湖根据各类业务应用需求,将原始数据进行加工处理,形成可再次利用的中间结果;当中间结果的数据模式(Schema)相对固定后,DLA可以将中间结果推送至数据仓库,供企业/组织开展基于数仓的业务应用。阿里云在提供DLA的同时,还提供了云原生数仓(原ADB),DLA和云原生数仓在以下两点上深度融合。
  
  1) 使用同源的SQL解析引擎。DLA的SQL与ADB的SQL语法上完全兼容,这意味着开发者使用一套技术栈即能同时开发数据湖应用和数仓应用。
  
  2) 都内置了对于OSS的访问支持。OSS直接作为DLA的原生存储存在;对于ADB而言,可以通过外部表的能力,很方便的访问OSS上的结构化数据。借助外部表,数据可以自由的在DLA和ADB之间流转,做到真正的湖仓一体。
  
  DLA+ADB的组合真正做到了云原生的湖仓一体(关于什么是云原生,不在本文的讨论范畴)。本质上,DLA可以看成一个能力扩展的数据仓库贴源层。与传统数仓相比,该贴源层:(1)可以保存各类结构化、半结构化和非结构化数据;(2)可以对接各类异构数据源;(3)具备元数据发现、管理、同步等能力;(4)内置的SQL/Spark计算引擎具备更强的数据处理能力,满足多样化的数据处理需求;(5)具备全量数据的全生命周期管理能力。基于DLA+ADB的湖仓一体化方案,将同时覆盖“大数据平台+数据仓库”的处理能力。
  处理能力

  DLA还有一个重要能力是构建了一个“四通八达”的数据流动体系,并以数据库的体验对外提供能力,无论数据在云上还是云下,无论数据在组织内部还是外部;借助数据湖,各个系统之间的数据不再存在壁垒,可以自由的流进流出;更重要的是,这种流动是受监管的,数据湖完整的记录了数据的流动情况。

  ActionTrail日志清洗
  
  DLA提供ActionTrail日志自动清洗解决方案,可以将ActionTrail投递到OSS的日志文件转换为DLA中可以直接查询的数据表,同时自动对数据进行分区和压缩,方便您分析和审计对云产品的操作。
  
  日志分析痛点
  
  操作审计ActionTrail是阿里云提供的云账号资源操作记录的查询和投递服务,可用于安全分析、资源变更追踪以及合规性审计等场景。您可以通过ActionTrail控制台,查看各个云产品的操作日志。对于30天以内的日志,ActionTrail支持投递到日志服务SLS进行分析;对于30天以外的数据可以投递到OSS上,但直接分析OSS中的数据有以下痛点。
  
  日志数据格式复杂,不利于直接分析。
  
  ActionTrail中保存的是JSON格式的数据,一行内有多条数据,数据以一个Array的形式保存,例如[{"eventId":"event0"...},{"eventId":"event1"...}]。
  
  理论上可以分析上述格式的JSON数据,但非常不便,需要先把每行数据拆分成多条记录,然后再对拆分后的记录进行分析。
  
  小文件多,分析数据耗时且占用大量系统资源。
  
  当您通过账号(阿里云账号和RAM子账号)频繁操作云产品时,每天产生的操作日志文件数非常多。以操作DLA的帐号为例,该账号下每天会产生几千个数据文件,一个月的文件数将达到几十万个,大量的数据文件对大数据分析非常不便,分析数据耗时,且需要足够大的集群资源才能进行大数据分析。
  
  前提条件
  
  使用ActionTrail日志清洗之前,您需要按照以下步骤做好准备工作。
  
  注意:使用ActionTrail日志清洗功能时,要求ActionTrail、OSS、DLA所属Region相同,否则无法使用该功能。
  
  ActionTrail
  
  在ActionTrail中创建跟踪,请参见创建跟踪。
  
  OSS
  
  开通OSS服务,请参见开通OSS服务。
  
  创建Bucket,请参见创建Bucket。
  
  新建文件夹,请参见新建文件夹。
  
  根据业务需求,判断是否需要新建文件夹,将ActionTrail投递过来的数据存储在新建文件夹中。
  
  DLA
  
  开通DLA服务,请参见 开通DLA服务。
  
  初始化DLA数据库主账号密码,请参见 初始化DLA数据库主账号密码。
  
  步骤一:创建Schema
  
  登录Data Lake Analytics管理控制台。
  
  在页面左上角,选择DLA所在地域。
  
  单击左侧导航栏的数据湖构建 > 数据入湖,在数据入湖页面单击ActionTrail日志清洗中的进入向导。
  
  在ActionTrail日志清洗页面,根据页面提示进行参数配置。

  根据页面提示进行参数配置
完成上述参数配置后单击创建
  完成上述参数配置后单击创建,创建Schema。
  
  Schema创建成功后,ActionTrail投递到OSS中的日志数据并未同步到DLA中,即DLA中没有创建OSS日志文件对应的表,您需要通过单击立即同步来创建表同步表数据。
  
  步骤二:同步数据
  
  创建Schema后,单击立即同步同步数据,也可以在任何需要的时候通过以下步骤同步数据。
  
  登录Data Lake Analytics管理控制台。
  
  在页面左上角,选择集群所在地域。
  
  单击左侧导航栏的数据湖构建 > 元数据管理。
  
  在元数据管理页面,单击目标数据源右侧的详细信息。
  
  在元数据管理页面,单击配置页签。
  单击立即同步启动数据同步任务
  单击立即同步启动数据同步任务。
  
  在配置页签下,单击更新更新Schema配置。
  
  单击表页签,查看数据同步情况。
  日志数据进行分析
  数据同步到DLA以后,您就可以在DLA中使用标准SQL语法对ActionTrail日志数据进行分析。

联系客服免费领取更多阿里云产品新购、续费升级折扣,叠加官网活动折上折更优惠