做有温度的教育!
全国统一咨询热线:400-803-9399
北京
校区
新闻资讯> 求职攻略> 大数据面试题

大数据面试题

时间:2018-08-15
浏览:1897
发布:甲骨文华育兴业
赞:553

简单说一下hadoop和spark的shuffle过程

  hadoop:map端保存分片数据,通过网络收集到reduce端

  spark:spark的shuffle是在DAGSchedular划分Stage的时候产生的,TaskSchedule要分发Stage到各个worker的executor

  减少shuffle可以提高性能


  Hive中存放是什么?

  表。

  存的是和hdfs的映射关系,hive是逻辑上的数据仓库,实际操作的都是hdfs上的文件,HQL就是用sql语法来写的mr程序。


  Hive与关系型数据库的关系?

  没有关系,hive是数据仓库,不能和数据库一样进行实时的CURD操作。

  是一次写入多次读取的操作,可以看成是ETL工具。


  Flume工作机制是什么?

  核心概念是agent,里面包括source、chanel和sink三个组件。

  source运行在日志收集节点进行日志采集,之后临时存储在chanel中,sink负责将chanel中的数据发送到目的地。

  只有成功发送之后chanel中的数据才会被删除。

  首先书写flume配置文件,定义agent、source、chanel和sink然后将其组装,执行flume-ng命令。


  Sqoop工作原理是什么?

  hadoop生态圈上的数据传输工具。

  可以将关系型数据库的数据导入非结构化的hdfs、hive或者bbase中,也可以将hdfs中的数据导出到关系型数据库或者文本文件中。

  使用的是mr程序来执行任务,使用jdbc和关系型数据库进行交互。

  import原理:通过指定的分隔符进行数据切分,将分片传入各个map中,在map任务中在每行数据进行写入处理没有reduce。

  export原理:根据要操作的表名生成一个java类,并读取其元数据信息和分隔符对非结构化的数据进行匹配,多个map作业同时执行写入关系型数据库


人生从业之路的第一步,从甲骨文华育兴业开始,

背后付出的辛苦与努力只有自己知道,而这也只是职业生涯的开始。

勤恳努力的人终会得到最好的回报,有些努力需要时间来回答

你吃的苦终会铺成你想要的路!

甲骨文华育兴业,为你的IT之路开启梦想之门!


【版权与免责声明】如发现内容存在版权问题,烦请提供相关信息联系我们,我们将及时沟通与处理。本站内容除非来源注明甲骨文华育兴业,否则均为网友转载,涉及言论、版权与本站无关。


【AI大数据】2019年AI数据5大趋势 ps使用 大数据 冲刺Java架构师年薪50W

友情链接: 甲骨文华育兴业太原校区 甲骨文华育兴业济南校区 甲骨文华育兴业北京校区 甲骨文华育兴业长春校区 魔据教育

Copyright ©2016-2019. All Rights Reserved. 京ICP备17018991号-4

网站地图