Beijing Institute of Technology October 2015

Slides:

Advertisements

Similar presentations

水汽输送蒸发总结自然界的水循环：自然界中的水是我们先来说说水的现状: 地球上水的总储量为亿立方公里，其中淡水只占 0.9%; 而对人类生活最密切的湖泊, 河流和浅层地下的淡水仅占淡水总储量的 0.02% 。但是，我们要知道的是——对人类生活最密切的湖泊,河流和浅层地下的淡水仅占淡水总储.

Advertisements

首页首页上一页下一页本讲内容投影法概述三视图形成及其投影规律平面立体三视图、尺寸标注本讲内容复习： P25~P31 、 P84~P85 作业： P7, P8, P14[2-32(2) A3 (1:1)]

纺纱学. 2 绪论基本要求：了解纺纱系统的类别重点掌握：棉纺系统的工艺流程 3 一、纺纱原理与设备纺纱：用物理或机械的方法将纺织纤维纺成纱线的过程。纺纱原理：初加工、原料的选配、开松除杂、混和、梳理、精梳、并合、牵伸、加捻、卷绕等。纺纱方法：传统纺纱方法、新型纺纱方法。纺纱设备：开清棉联合机、梳棉机、精梳机、

一、统计范围注册地在湖里区的具有房地产开发资质的房地产开发企业无论目前是否有开发项目无论开发的项目是在湖里区还是在其他区没有开发项目的企业需要报送年报和月报中的资金表（空表）。新成立的项目公司，要先入库，再报报表。

在近年的高考地理试题中，考查地球上两点间最短航线的方向问题经常出现，由于很多学生对这类问题没有从本质上搞清楚，又缺乏空间想象能力，只是机械地背一些结论，造成解这类题目时经常出错。地球上两点间的最短航线方向问题.

概率统计（ ZYH ）节目录 3.1 二维随机变量的概率分布 3.2 边缘分布 3.4 随机变量的独立性第三章随机向量及其分布 3.3 条件分布.

数控机床结构及维修主编：于万成王桂莲副主编：李昊人民邮电出版社北京 ◎ 了解数控系统的组成和常见数控系统的特点 ◎ 熟悉常见数控系统的参数设置 ◎ 掌握数控系统的常见故障诊断及维修方法调试与维修数控机床的数控系统.

第四章犯罪概念与犯罪构成. 第一节犯罪概念一、犯罪概念的类型  （一）犯罪的形式概念  （二）犯罪的实质概念  （三）犯罪的混合概念.

石化的 IT 大挑战洛阳石化工程公司. 石化公司简介中国石化集团洛阳石油化工工程公司，是国内能源化工领域集技术专利商与工程承包商于一体的高科技企业。拥有中国综合设计甲级资质，为国家首批业务涵盖 21 个行业的工程咨询企业之一，拥有工程总承包、工程设计、工程监理、工程咨询和环境影响评价等甲.

HistCite 结果分析示例罗昭锋. By:SC 可能原因：文献年度过窄，少有相互引用.

Advanced Software Engineering PROJECT. 1. MapReduce Join (2 人 )  Focused on performance analysis on different implementation of join processors in MapReduce.

计算机在分析化学的应用 ( 简介 ) 陈辉宏. 一. 概述信息时代的来临, 各门学科的研究方法都有了新的发展. 计算机的介入, 为分析化学的进展提供了一种更方便的研究方法.

第 4 章抽象解释内容概述以一种独立于编程语言的方式，介绍抽象解释的一些本质概念 – 将 “ 程序分析对语言语义是正确的 ” 这个概念公式化 – 用 “ 加宽和收缩技术 ” 来获得最小不动点的较好的近似，并使所需计算步数得到限制 – 用 “ 伽罗瓦连接和伽罗瓦插入 ” 来把代价较大的属性空间用代价较小的属性空间来代替.

吉林大学远程教育课件主讲人 : 杨凤杰学时： 64 ( 第六十二讲 ) 离散数学. 最后，我们构造能识别 A 的 Kleene 闭包 A* 的自动机 M A* =(S A* ， I ， f A* ， s A* ， F A* ) ，令 S A* 包括所有的 S A 的状态以及一个附加的状态 s.

分析化学与无机化学中溶液 pH 值计算的异同比较谢永生  分析化学是大学化学系的一门基础课，课时较少，其内容主要是无机物的化学分析。分析化学是以无机化学作为基础的，我们都是在已掌握一定的无机化学知识后才学习分析化学。所以在分析化学的学习中会重复许多无机化学内容，造成学习没有兴.

1 为了更好的揭示随机现象的规律性并利用数学工具描述其规律, 有必要引入随机变量来描述随机试验的不同结果例电话总机某段时间内接到的电话次数, 可用一个变量 X 来描述例检测一件产品可能出现的两个结果, 也可以用一个变量来描述第五章随机变量及其分布函数.

吉林大学远程教育课件主讲人 : 杨凤杰学时： 64 ( 第三十八讲 ) 离散数学. 第八章格与布尔代数 §8.1 引言在第一章中我们介绍了关于集合的理论。如果将 ρ （ S ）看做是集合 S 的所有子集组成的集合，于是， ρ （ S ）中两个集合的并集 A ∪ B ，两个集合的交集.

吉林大学远程教育课件主讲人 : 杨凤杰学时： 64 ( 第四十八讲 ) 离散数学. 例设 S 是一个非空集合， ρ （ s ）是 S 的幂集合。不难证明 :(ρ(S),∩, ∪,ˉ, ,S) 是一个布尔代数。其中： A∩B 表示 A ， B 的交集； A ∪ B 表示 A ，

第二部分行政法律关系主体第一节行政主体一、行政主体（一）行政主体的概念 cc （二）行政主体资格含义及构成要件 CASE1CASE1\CASE2CASE2 （三）行政主体的职权和职责 1 、行政职权的概念及内容 2 、行政职权的特点 3 、行政职责.

协同工作环境研究中心协同共享助力科研. 主要内容  认识协同及协同软件  协同科研软件 duckling 介绍.

线性代数习题课吉林大学术洪亮第一讲行列式前面我们已经学习了关于行列式的概念和一些基本理论，其主要内容可概括为：

第 4 章过程与变量的作用范围. 4.1 Visual Basic 的代码模块 Visual Basic 的应用程序是由过程组成的，过程代码存放在模块中。 Visual Basic 提供了三类模块，它们是窗体模块、标准模块和类模块。窗体模块窗体模块是大多数 Visual Basic.

数学系 University of Science and Technology of China DEPARTMENT OF MATHEMATICS 第 3 章曲线拟合的最小二乘法给出一组离散点，确定一个函数逼近原函数，插值是这样的一种手段。在实际中，数据不可避免的会有误差，插值函数会将这些误差也包括在内。

吉林大学远程教育课件主讲人 : 杨凤杰学时： 64 ( 第三十九讲 ) 离散数学. 例设 S 是一个集合， ρ （ S ）是 S 的幂集合，集合的交（ ∩ ），并（∪）是 ρ （ S ）上的两个代数运算，于是，（ ρ （ S ）， ∩ ，∪）是一个格。而由例知.

实验三：用双线性变换法设计 IIR 数字滤波器一、实验目的 1 熟悉用双线性变换法设计 IIR 数字滤波器的原理与方法。 2 掌握数字滤波器的计算机仿真方法。 3 通过观察对实际心电图信号的滤波作用，获得数字滤波的感性知识。

OS 进程调度模拟演示制作人：钱晶高上上. OS 进程调度模拟－实验原理静态优先级原理在这种方式下，系统一旦把处理机分配给就绪队列中的优先权最高的进程后，该进程便一直执行下去，直至完成。或因为发生某事件使该进程放弃处理机，系统方可再将处理机分配给另一优先级最高的进程。这些事件包括有优先级更高的进程进入，或是因为某些原因.

流态化概述一、固体流态化：颗粒物料与流动的流体接触，使颗粒物料呈类似于流体的状态。二、流态化技术的应用：流化催化裂化、吸附、干燥、冷凝等。三、流态化技术的优点：连续化操作；温度均匀，易调节和维持；气、固间传质、传热速率高等。四、本章基本内容： 1. 流态化基本概念 2. 流体力学特性 3.

非均相物系的分离沉降速度球形颗粒的：一、自由沉降二、沉降速度的计算三、直径计算 1. 试差法 2. 摩擦数群法四、非球形颗粒的自由沉降 1. 当量直径 de ：与颗粒体积相等的圆球直径 V P — 颗粒的实际体积 2. 球形度  s ： S—— 与颗粒实际体积相等的球形表面积.

UML 对象设计与编程主讲 : 董兰芳副教授 Dept. of Computer Science,USTC

数学系 University of Science and Technology of China DEPARTMENT OF MATHEMATICS 第 5 章解线性方程组的直接法实际中，存在大量的解线性方程组的问题。很多数值方法到最后也会涉及到线性方程组的求解问题：如样条插值的 M 和.

主讲教师：陈殿友总课时： 124 第十一讲极限的运算法则. 第一章二、极限的四则运算法则三、复合函数的极限运算法则一、无穷小运算法则机动目录上页下页返回结束 §5 极限运算法则.

在发明中学习线性代数概念的引入李尚志中国科学技术大学. 随风潜入夜 : 知识的引入之一、线性方程组的解法加减消去法  方程的线性组合  原方程组的解是新方程的解是否有 “ 增根 ” ？  互为线性组合 : 等价变形  初等变换  高斯消去法.

第一节相图基本知识 1 三元相图的主要特点（1）是立体图形，主要由曲面构成；（2）可发生四相平衡转变；（3）一、二、三相区为一空间。

吉林大学远程教育课件主讲人 : 杨凤杰学时： 64 ( 第五十三讲 ) 离散数学. 定义设 G= （ V ， T ， S ， P ）是一个语法结构，由 G 产生的语言（或者说 G 的语言）是由初始状态 S 演绎出来的所有终止符的集合，记为 L （ G ） ={w  T *

Relevance Theory Lecture 12. Relevance Theory 交际研究的对象是交际的概念、内容、性质、功能、方法和交际行为、交际参加者之间的关系等的认识和阐述。 20 世纪 70 年代末以来， Sperber & Wilson 把认知与交际结合起来，于 1986.

Report for Case 5 VoIP Will Bring “ Dramatic Transformation ” Liang Qinyan, Li Yang, Zhou Xuhui, Lin Guoqiang Group 2 MIS-B Xi ’ An

编译原理总结. 基本概念  编译器、解释器  编译过程、各过程的功能  编译器在程序执行过程中的作用  编译器的实现途径.

Department of Mathematics 第二章解析函数第一节解析函数的概念与 C-R 条件第二节初等解析函数第三节初等多值函数.

首页首页上一页下一页本讲内容本讲内容视图，剖视图（Ⅰ）复习： P107 ~ P115 作业： P48(6-2,6-4), P49( 去 6-6) P50, P51(6-13), P52 P50, P51(6-13), P52 P53 (6-18,6-20) P53 (6-18,6-20)

《 UML 分析与设计》交互概述图授课人：唐一韬. 知识图谱知识图谱知识图谱知识图谱.

ATLAS computing status in IHEP Erming Pei, CC-IHEP Yangzhou, May 15’ th 2009.

？小数乘整数制作人：吴运粮复习１．下面乘积得多少？８ × ３＝８ × ３用加法表示什么意思？３个８相加 24.

1 物体转动惯量的测量南昌大学理学院

第四章计算机数控（ CNC ）系统  本章重点：  1 计算机数控系统构成及其结构特点  2 运动轨迹插补原理  3 刀具补偿.

§10.2 对偶空间一、对偶空间与对偶基二、对偶空间的有关结果三、例题讲析.

企业产品标准信息公共服务平台操作介绍目录一、系统架构介绍二、企业产品标准自我声明填报系统三、企业产品标准公示系统.

表单自定义 “ 表单自定义 ” 功能是用于制作表单的工具，用数飞 OA 提供的表单自定义功能能够快速制作出内容丰富、格式规范、美观的表单。

力的合成力的合成一、力的合成二、力的平行四边形上一页下一页目录退出. 一、力的合成 O. O. 1. 合力与分力我们常常用一个力来代替几个力。如果这个力单独作用在物体上的效果与原来几个力共同作用在物体上的效果完全一样，那么，这一个力就叫做那几个力的合力，而那几个力就是这个力的分力。

第五章上机使用 Dreamweaver 制作网页. 相关回顾如何使用 Dreamweaver 创建网页？如何使用 Dreamweaver 在页面添加表格、表单、框架集？如何使用 Dreamweaver 创建站点？

“ 图书馆资源与服务利用 ” 专题讲座第 9 讲 JSTOR 数据库与 Kluwer Online 数据库的使用.

逻辑设计基础 1 第 7 章多级与（或）非门电路逻辑设计基础多级门电路.

“ 百链 ” 云图书馆. 什么是百链云图书馆？1 百链云图书馆的实际效果？2 百链云图书馆的实现原理？3 百链云图书馆的价值？44 图书馆要做什么？55 提纲.

异核编辑谱生物大分子波谱学原理吴季辉一般异核编辑谱由同核 NOESY 或 TOCSY 同 HSQC 或 HMQC 串接成，提供的信息类似同核谱，但是谱峰在与 1 H 核相关的 13 C 或 15 N 核的化学位移上展开以解决同核谱重叠的问题。其中异核编辑的 NOESY 谱是最后结构计算所需的.

一、城市化的含义二、世界城市化的进程三、发达国家与发展中国家城市化 1. 城市化向城市地区集聚地区转变为城市地区人口乡村 2. 城市化的主要标志 : 城市人口增加城市人口在总人口中的比重上升城市用地规模扩大 3. 城市化的其他表现城市化的含义.

新奥能源综合运营调度模式研究及信息化实现 2016年1月31日 2016年1月31日 2016年1月31日李伟李伟.

Applications on Spark Prof. Harold Liu Beijing Institute of Technology December 2015.

八. 真核生物的转录㈠特点 ① 转录单元为单顺反子（ single cistron ），每个蛋白质基因都有自身的启动子，从而造成在功能上相关而又独立的基因之间具有更复杂的调控系统。 ② RNA 聚合酶的高度分工，由 3 种不同的酶催化转录不同的 RNA 。 ③ 需要基本转录因子与转录调控因子的参与，这.

1. 利用图形化开发环境 LabVIEW 对 Xilinx Spartan3E 进行编程汤敏 NI 高校市场部.

如何开展新学期 “ 导学课 ”. 如何组织导学课遇到问题联系谁导学课基本内容 123 目录.

张勤人大报刊复印资料专题全文数据库简介简介《人大报刊资料全文数据库》是中国人民大学书报资料中心与北京博利群电子信息有限公司联合开发研制的大型数据库光盘。它涵盖面广、信息量大、分类科学、筛选严谨、结构合理，是国内最具权威的社会科学、人.

人有悲欢离合，月有阴晴圆缺。月有阴晴圆缺。华师大版七年级数学第二册海口市第十中学数学组吴锐.

3D 仿真机房建模哈尔滨工业大学指导教师：吴勃英、张达治蒋灿、杜科材、魏世银机房尺寸介绍.

1 第三章数列数列的概念考点搜索 ●数列的概念 ●数列通项公式的求解方法 ●用函数的观点理解数列高考猜想以递推数列、新情境下的数列为载体, 重点考查数列的通项及性质, 是近年来高考的热点, 也是考题难点之所在.

中食安食品安全科技服务有限公司多维彩码技术介绍多维彩码技术介绍. ■ 目录 1. 多维彩码 2. 多维彩码追溯系统 4. 多彩追溯 APP5. 中食安业务模式中食安食品安全科技服务有限公司 2 3. 中食安平台.

§9. 恒定电流场第一章静电场恒定电流场. 电流强度  电流：电荷的定向移动  正负电荷反方向运动产生的电磁效应相同 ( 霍尔效应特例 ) 规定正电荷流动的方向为正方向  电流方向：正方向、反方向  电流强度 ( 电流 ) A 安培标量单位时间通过某一截面的电荷.

目录上页下页返回结束二、无界函数反常积分的审敛法 * 第五节反常积分无穷限的反常积分无界函数的反常积分一、无穷限反常积分的审敛法反常积分的审敛法  函数第五章第五章.

本章讨论有限自由度结构系统，在给定载荷和初始条件激励下的系统动力响应计算方法。第六章

§7.2 估计量的评价标准上一节我们看到，对于总体 X 的同一个未知参数，由于采用的估计方法不同，可能会产生多个不同的估计量．这就提出一个问题，当总体的一个参数存在不同的估计量时，究竟采用哪一个好呢？或者说怎样评价一个估计量的统计性能呢？下面给出几个常用的评价准则．一．无偏性.

SME.USTB Human Factors 人机工程学 By Wei Dong Department of Industry Design, SME, USTB.

Beijing Institute of Technology December 2015

Presentation transcript:

Beijing Institute of Technology October 2015 Applications on Spark Prof. Harold Liu Beijing Institute of Technology October 2015

Who Are Using Spark These Days? 2 https://spark-summit.org/

From the figure above, over 1,000 companies have taken Spark platform into productions, including famous traditional manufacturers like TOYOTA and O2O company like Uber and airbnb. It indicates that the Spark user field has been expanded, not only in the Internet based industry, but also to traditional industries. Lots of big data framework distributors, including the former Hadoop distributors like Hortonworks and Cloudera, are beginning to take Spark into deployment, which will have a bigger impact in its spread. 3

Open Source Spark Community 由图看出 Spark 社区从 2010 年到 2014 年开源贡献者的数量不断增加，在这些代码贡献者中出现很多中国公司和开发者的身影。例如目前世界上最大的 Spark集群在腾讯，拥有高达 8000 个节点；最大的单任务处理数据量达到 1PB，这项记录是由阿里巴巴公司和 databricks 公司共同持有。 The figure shows that the number of contributors has increased rapidly from 2010 to 2014. Among these contributors, lots of Chinese organizations and developers show their enthusiasm on Spark. Now, the biggest Spark cluster of over 8,000 nodes is in Tencent and the highest amount of processed data per job is 1PB, recorded by Alibaba and Databricks. 4

Architecture of Spark Spark 的体系结构不同于Hadoop的MapReduce和HDFS， Spark主要包括Spark Core和在Spark Core基础之上建立的应用框架Spark SQL、 Spark Streaming、 MLlib 和GraphX。他们分别应对交互式查询，流计算，机器学习和图计算，下面讲述的Spark企业应用，将主要就这几个方向的实际应用展开。 5

Entertainment: Tecent Company Background: The biggest social service provider in China. Data Background: By the end of 2015, the active QQ users per month have exceeded 8,000 million. The active Wechat user per month have exceeded 6,000 million. They will bring over 200TB data every day. Business Requirement: Over 90% data need to be processed online. 6

Tencent Distributed Data Warehouse TDW collects all product level data and provides data storage and analysis services. TDW supports PB-level data storage and computing. It has two parts: one is off-line M/R and the other is online computing by Storm. 7

Hadoop V.S Spark on M/R MapReduce 200 Map+100 Reduce 120 693872 Spark Running Mode Compute Resource Running Time（min） Cost（Slot*s） MapReduce 200 Map+100 Reduce 120 693872 Spark 200 Executor 33 396000 400 Executor 21 504000 Spark works much faster than Hadoop. The running time is only a quarter of that of Hadoop. Compute efficiency can be faster when adding more executors. Overall, when facing data mining problems, traditional Hadoop M/R framework has serious performance problem, while the Spark can deal with the problem based on its iterative and in-memory computing. 这张图是Hadoop执行mapreduce算法与Spark执行统一MapReduce算法的运行性能比较图。可以看出，基于内存计算的Spark的运行时间明显小于MapReduce，时间仅仅是hadoop的四分之一左右，当增加Spark的Executor(执行器)，运算能更快。总之，数据挖掘业务大多具有复杂的处理逻辑，传统的MapReduce类计算框架在应对此类数据处理任务时存在着严重的性能问题。针对这些任务需求，利用Spark的迭代计算和内存计算优势，将会大幅降低运行时间和计算成本。 8

E-commerce：Taobao Company Background The biggest C2C e-commerce company in China and the Spark pioneer user (since 2012) Data Background Up to 2014, Taobao has over 5,000 million registered members and 1,200 million active members. Taobao has over 90 billion turnovers on November 11, 2014. Its various businesses bring TB-lever data every day. Business Requirement In the past few years, Taobao has been using Yun Ti based on Hadoop. But Hadoop will encounter lots of problems in iterative computing. So Spark comes to its view. 9 9

Spark in Taobao The figure shows the history of using Spark in Taobao. 10 nodes cluster Yarn version:0.23.7 200 nodes Yarn cluster The figure shows the history of using Spark in Taobao. Taobao has been using Spark when Spark is very young (2012). 10

Spark Development Process in Taobao Before putting the job into production servers, the job will be tested on test servers. And the code will be merged to local repository or push to the open source community. 11

Recommender System in Taobao The recommender system combines Spark, Spark MLlib and Spark Streaming frameworks. It can perform both offline and online analysis that covers most parts of business requests in Taobao. 12

Test of K-Means Algorithm From the memory aspect, increasing worker’s memory will cut the running time. And increase worker numbers will have better performance. 13

Telecom: Telefonica Company Background Telefonica is a Spanish telecommunication company who provides comprehensive services including mobile phone, internet, data and wired television services. Data Background Telefonica is the biggest multi-national enterprise in Spain who provides customer services for over 40 countries. Its various businesses bring huge data. Business Requirement As the volume of data is increasing rapidly, network security problem comes to its sight, such as DDoS attack, SQL injection attack, account theft etc. Using big data analysis technology to prevent Cyber crime has become urgent to the company. 14 14

Why Spark? Spark provides full stack applications (i.e., SQL, Streaming, MLlib, GraphX) Easy to use spark to analyze historical data and streaming data. Support various applications and data sources in order to deal with complex application scenarios Leverage the SQL language to use the power of Spark The number of components in Spark is much fewer than that of Hadoop 15

Components of Spark and Hadoop From the figure above, the number of components in Spark is about half of that in Hadoop. Then, using Spark can potentially have much less errors because of less components. 16

Spark Production Architecture in Telefonica Data collection: Kafka Data pre-processing: Storm Batch processing: Cassandra+Spark It use distributed message queue system called “Kafka” to collect data from various sources. Then, data will be consumed by Storm for pre-processing. Finally, data will be processed by Spark or saved in Cassandra. 17

Retail: Euclid Company Background Data Background Business Requirement Euclid Analysis is a geo-data analysis company who provides solutions to customers based on offline positional information. Data Background Euclid mainly relies on WiFi devices to collect data from the physical world. Business Requirement Euclid’s main job is to support location based analysis services for customers. Through collecting customer behavior data, it tries to know customer’s behavior and shopping feature, and suggestion future behaviors. 18 18

Retail Customer Features Through the data collected from WiFi devices, customers can be divided into three parts: frequent customers, pass-by customers and quick-leave customers. Some of them like to buy products, some spend a lot of time in store and some like to travel around in a zone.

Analysis Procedure with Spark First, mobile data are collected by WiFi devices through the pinged signals, which include device MAC address, magnitude of signal and other information. Then, these data will be sent to cloud and processed on Spark cluster. Finally, customers will know the analysis result on web.

Other Area: PubMatic Company Background Data Background PubMatic is an advertisement company It developed the first real-time advertisement analysis system in the world marketing field. Data Background PubMatic has 6 geo-data data centers with 6 PB data to manage. Every day it will post 12 billion ads and deal with 1,000 billion bids. Now 22TB data are produced by its system. Business Requirement Because of its owned complex and various ad data, PubMatic needs to process the data in real-time. 21

System Architecture in PubMatic As we can see from the figure above, various streaming data (flows) are fed into memory which will be process by Spark. Finally, the data will be saved in HDFS and Amazon S3.

Spark v.s. Hive on Query Performance When the data volume is 192GB, it will cost 550 seconds on Spark while Hive needs 850s to deal with the same problem. As the data volume is increasing, the running time of Spark is 40% less then Hive on average.

Effect of Using Spark in PubMatic Spark supports both offline and online data processing. It has active community support and be compatible with Hadoop ecosystem. Through the use of Spark Streaming, Spark SQL and Spark Mllib technologies together, PubMatic can provide real-time ads service and business analysis report to customers in a faster speed than ever before.