Spark and Scala Sheng QIAN 2015-06-17. The Berkeley Data Analytics Stack.

Spark and Scala Sheng QIAN 2015-06-17

The Berkeley Data Analytics Stack

The Goal of Spark

Compare between Spark and Hadoop

Spark supports … Scala (Best) Python(2.7.*) Java (…)

All based on RDD (Resilient Distributed Dataset) A list of partitions A function for computing each split A list of dependencies on other RDDs Optionally, a Partitioner for key-value RDDs (e.g. to say that the RDD is hash-partitioned Optionally, a list of preferred locations to compute each split on (e.g. block locations for an HDFS file)

The process 1. File System(HDFS/HBase)/Collections  RDD 2. Transformation (Delay execution) * Faster than MR due to this 3. Action (execution)

Transformations and actions

Fault tolerance Every RDD records RDDs it depends on

Cluster Overview

Task Schedule

DAG Scheduler 基于Stage构建DAG，决定每个任务的最佳位置记录哪个RDD或者Stage输出被物化将taskset传给底层调度器TaskScheduler 重新提交shuffle输出丢失的stage

Task Scheduler 提交taskset(组task)到集群运  并汇报结果出现shuffle输出lost要报告fetch failed错误碰到straggle任务需要放到别的节点上重试为每个TaskSet维护个TaskSetManager(追踪本地性及错误信息)

Job Schedule

Job Optimization

Why Scala Base on JVM FP + OO

Scala - Grammar On Evernote

Thank you

Spark and Scala Sheng QIAN 2015-06-17. The Berkeley Data Analytics Stack.

Similar presentations

Presentation on theme: "Spark and Scala Sheng QIAN 2015-06-17. The Berkeley Data Analytics Stack."— Presentation transcript:

Similar presentations

About project

Feedback

Log in

Auth with social network:

Spark and Scala Sheng QIAN 2015-06-17. The Berkeley Data Analytics Stack.

Similar presentations

Presentation on theme: "Spark and Scala Sheng QIAN 2015-06-17. The Berkeley Data Analytics Stack."— Presentation transcript:

Similar presentations

About project

Feedback