Skip to content

Latest commit

 

History

History
22 lines (17 loc) · 1.04 KB

File metadata and controls

22 lines (17 loc) · 1.04 KB

bigdata

大数据

spark

  • 问:介绍下RDD?

    • spark的基础的数据抽象,特点是只读,分布存储,可并行操作。
    • 容错性高:rdd有依赖性,可以通过血缘关系,从新计算丢失的分区数据,不必全部重算。
    • 位置优先原则:移动数据不如移动计算。spark调度任务尽可能江计算任务分配到数据存储位置。
  • 问:说几个常用的算子,哪些操作会shuffle?

    • map,filter
    • 引起shuffle的操作:groupByKey,reduceByKey,repartition,join,cogroup
  • 问:宽窄依赖介绍一下?

    • 窄依赖,父RDD被一个子RDD依赖,算子比如:map,filter
    • 宽依赖,父RDD被多个子RDD依赖,算子比如:groupByKey,reduceByKey
  • 问:介绍下spark得累加器和广播变量

    • 累加器:用于累计计数场景
    • 闭包:分布式计算,会将外部变量复制,副本序列化分发到各个节点,阶段计算使用的是副本。
    • 广播变量:在节点间高效共享数据,避免复制传输多份数据。