阿里云服务器ECS    
弹性可伸缩的计算服务,助您降低 IT 成本,提升运维效率,使您更专注于核心业务创新 [咨询更多]
阿里云存储OSS
简单易用、多重冗余、数据备份高可靠、多层次安全防护安全性更强、低成本 [咨询更多]
阿里云数据库RDS
稳定可靠、可弹性伸缩、更拥有容灾、备份、恢复、监控、迁移等方面的全套解决方案 [咨询更多]
阿里云安全产品
DDoS高防IP、web应用防火墙、安骑士、sll证书、态势感知众多阿里云安全产品热销中 [咨询更多]
阿里云折扣优惠    
云服务器ECS、数据库、负载均衡等产品新购、续费、升级联系客服获取更多专属折扣 [咨询更多]
大数据解决了什么问题
2020-6-19    点击量:
    大数据解决了什么问题?其实答案很简单:分布式存储和分布式计算。所以,学习大数据最好的方式就是搭建一套开源的Hadoop集群,在上面操作HDFS、hive、spark、HBase等各种组件。

    搭建的过程和Oracle安装过程非常类似,我们首先可以通过虚拟机模拟3-5个节点(服务器),在服务器上进行安装。

大数据解决了什么问题

    安装过程不再一一赘述,给大家一个实践场景:
    1、实践场景
    需求描述:从mysql数据库把两张表导入到hadoop,然后通过hive进行计算,结果数据同步回mysql数据库。
    可能遇到的问题:同步工具的选择,数据加载方式,转化方式,如何把整个流程串联起来,怎么启动这个流程。
    (1)同步工具的选择
    待选的同步工具有Sqoop和DataX,Sqoop还是Hadoop开源的工具,DataX是阿里开源的工具,各有各的优势,建议都可以学习了解。
    (2)数据加载方式
    hive的底层是HDFS,简单说就是个文件,hive只是映射过去,通过类SQL语言实现计算。你可以直接通过hive接口(三种方式)建内部表。Sqoop和DataX都支持直接同步到hive中。
    (3)转化方式
    这是模拟过程,hive不支持存储、不支持update,所以可以进行两张表数据聚合(leftjoin、groupby等)后数据插入到另一张表中,再把数据同步回mysql。
    (4)流程如何串起来
    建议可以通过Linux的shell脚本进行串联,数据同步-数据转化-数据导出。
    (5)如何启动流程
    所有任务封装到sh脚本里,可以利用Linux的crontab进行定时调度。
    2、划下重点
    为了更好应对大数据面试,最好能系统地学习一下HDFS、MapReduce、Hive、Spark、HBase、Yarn、Kafka、Zookeeper等一系列的大数据组件。
    大数据面试中经常会问到的问题有哪些?
    问题常常会包括HiveSQL技巧和调优:
    Hive技巧:内部表和外部表、分区、分桶、窗口函数、UDF(UDAF、UDTF)、行转列、列转行等。
    优化问题:数据热点(数据倾斜问题)、参数优化、业务分表、sql优化。因为Hive底层是MapReduce操作HDFS,所以要了解Map和Reduce阶段在做什么?数据倾斜问题是数据分布不均导致的,和MapReduce原理息息相关,了解了MapReduce,你就会优化Hive了。
    Spark计算引擎和Hive底层不一样,Spark学习你会遇到DAG图,RDD、内存、Scala语言等知识,一样地学习优化思路和技巧。
    HBase是个列族数据库,通过Key-value方式进行数据存储,学习方式同上。
    Yarn是资源管理器,CPU、内存资源都是它来管理的,平台架构师要深入学习,数仓架构师可以稍作了解。
    Kafka是消息队列,主要用于数据通道,进行数据缓冲和技术解耦使用。
    Zookeeper是管理所有大数据组件的,因为hadoop生态圈组件都是动物名字命名的,所以Zookeeper就是动物管理员,依此进行命名的。
联系客服免费领取更多阿里云产品新购、续费升级折扣,叠加官网活动折上折更优惠