Hive 实战 数据平台及产品部 少杰. Agenda 简介 Hive QL Hive 扩展 SQL vs HQL.

Slides:



Advertisements
Similar presentations
Introduction to Apache HIVE
Advertisements

纺纱学. 2 绪 论 基本要求:了解纺纱系统的类别 重点掌握:棉纺系统的工艺流程 3 一、纺纱原理与设备 纺纱:用物理或机械的方法将纺织纤维纺成纱 线的过程。 纺纱原理:初加工、原料的选配、开松除杂、 混和、梳理、精梳、并合、牵伸、加捻、卷绕等。 纺纱方法:传统纺纱方法、新型纺纱方法。 纺纱设备:开清棉联合机、梳棉机、精梳机、
概率统计( ZYH ) 节目录 3.1 二维随机变量的概率分布 3.2 边缘分布 3.4 随机变量的独立性 第三章 随机向量及其分布 3.3 条件分布.
Software Engineering 2007/2008 Chapter 2 Modeling the Process and Life Cycle.
球面网格及其应用 李杰权 北京师范大学数学科学学院
Newsboy 模型简介 系统工程 裴英超.
实验:验证牛顿第二定律. 1 、实验目的:探究 a 与 F 、 m 的定量关系 2 、实验原理:控制变量法 A 、 m 一定时,探究 a 随 F 的变化关系 B 、 F 一定时, 探究 a 随 m 的变化关系.
一、拟合优度检验 二、变量的显著性检验 三、参数的置信区间
计算机 在分析化学的应用 ( 简介 ) 陈辉宏. 一. 概述 信息时代的来临, 各门学科的研究方法都 有了新的发展. 计算机的介入, 为分析化学的进展提供了 一种更方便的研究方法.
编译程序 构造原理和实现技术 授课教师:吕江花. 第一章 编译程序概述 主要内容: 几个基本概念 编译器的工作过程概述 编译器各个阶段的功能描述 编译程序的实现途径.
两极异步电动机示意图 (图中气隙磁场形象地 用 N 、 S 来表示) 定子接三相电源上,绕组中流过三相对称电流,气 隙中建立基波旋转磁动势,产生基波旋转磁场,转速 为同步速 : 三相异步电动机的简单工作原理 电动机运行时的基本电磁过程: 这个同步速的气隙磁场切割 转子绕组,产生感应电动势并在 转子绕组中产生相应的电流;
地理信息系统概述. 数据和信息 (Data & Information) 数据 原始事实 如:员工姓名, 数据可以有数值、图形、声音、视觉数据等 信息 以一定规则组织在一起的事实的集合。
1 为了更好的揭示随机现象的规律性并 利用数学工具描述其规律, 有必要引入随 机变量来描述随机试验的不同结果 例 电话总机某段时间内接到的电话次数, 可用一个变量 X 来描述 例 检测一件产品可能出现的两个结果, 也可以用一个变量来描述 第五章 随机变量及其分布函数.
Harris Spring 2005 讲座一 “ERP 与企业流程再造 ” 东南大学 自控系 赵霁教授 电话: 一 ERP 是什么? 二企业为什么要引入 ERP 系统? 三企业管理软件的发展与 ERP 的创新之处 四 ERP 与流程再造的关系。 五 企业流程再造规划分析。
第十一章 曲线回归 第一节 曲线的类型与特点 第二节 曲线方程的配置 第三节 多项式回归.
兰州理工大学 1 第九章 CAD/CAM 系统集成 9.1 概述 9.2 3C 内部集成存在的问题和解决的办法 9.3 CAD/CAM 集成方法 9.4 3C/PDM 集成方法 9.5CIM 与 CIMS.
数 学 系 University of Science and Technology of China DEPARTMENT OF MATHEMATICS 第 3 章 曲线拟合的最小二乘法 给出一组离散点,确定一个函数逼近原函数,插值是这样的一种手段。 在实际中,数据不可避免的会有误差,插值函数会将这些误差也包括在内。
数据库与智能网络研究室. © htttp://dbin.jlu.edu.cn 数据库系统原理复习大纲.
第二章 贝叶斯决策理论 3学时.
流态化 概述 一、固体流态化:颗粒物料与流动的流体接触,使颗粒物料呈类 似于流体的状态。 二、流态化技术的应用:流化催化裂化、吸附、干燥、冷凝等。 三、流态化技术的优点:连续化操作;温度均匀,易调节和维持; 气、固间传质、传热速率高等。 四、本章基本内容: 1. 流态化基本概念 2. 流体力学特性 3.
主讲教师:陈殿友 总课时: 124 第十一讲 极限的运算法则. 第一章 二、 极限的四则运算法则 三、 复合函数的极限运算法则 一 、无穷小运算法则 机动 目录 上页 下页 返回 结束 §5 极限运算法则.
第5章 键盘与鼠标接口 5.1 键盘概述 5.2 键盘的工作原理 5.3 PC扩展键盘接口 5.4 键盘中断与键盘I/O 5.5 鼠标接口.
换热器换热器 反应器反应器. 间壁 热流体 冷流体 热流体 套管换热器 外壳 管板 封头封头 挡板 ( 折流板 ) 封头 列管式换热器列管式换热器 管壳式换热器管壳式换热器.
第 3 章 控制流分析 内容概述 – 定义一个函数式编程语言,变量可以指称函数 – 以 dynamic dispatch problem 为例(作为参数的 函数被调用时,究竟执行的是哪个函数) – 规范该控制流分析问题,定义什么是可接受的控 制流分析 – 定义可接受分析在语义模型上的可靠性 – 讨论分析算法.
“ 木桶水量取决于最短的那块木板 ” — 数据库设计、优化与大批量数据处理 张志翔 中国科学技术大学 - 瑞士弗里堡大学 信息物理联合实验室
2010 上海世博会场内人流模拟分析 Research of Visitors’ Flow in the World Expo 2010 Shanghai based on Internet Survey De Wang, Li Ma Department of Urban Planning, Tongji.
编译原理总结. 基本概念  编译器 、解释器  编译过程 、各过程的功能  编译器在程序执行过程中的作用  编译器的实现途径.
信息科学部 “ 十一五 ” 计划期间 优先资助领域 信息科学部 秦玉文 2006 年 2 月 24 日.
 符号表  标识符的作用: 声明部分:定义了各种对象及对应的属性和 使用规则。 程序体:对所定义的对象进行各种操作。 $ididname IdnameAttributeIR  必要性 Token : 新表-符号表(种类、类型等信息):
Department of Mathematics 第二章 解析函数 第一节 解析函数的概念 与 C-R 条件 第二节 初等解析函数 第三节 初等多值函数.
晒课系统功能介绍 抚顺市教师进修学院电教部. 一、系统整体功能介绍 二、教师如何晒课 三、教研员如何协助 四、管理员的权限 五、时间安排及注意问题.
Hive : A Petabyte Scale Data Warehouse Using Hadoop
电子商务实务 项目四 B2B 交易 目标 1 、了解 B2B 交易的基本流程 2 、熟练掌握平台 B2B 交易相关操作 3 、掌握电子商务技能鉴定培训平台交易大厅相关操作 4 、了解 B2B 的方式及其特点 5 、了解 B2B 平台的类型及其特点 6 、熟悉目前典型的 B2B 第三方支付平台及特点.
适用场景 应用背景 1 、企业使用电商平台作为前 台销售门户, NC 作为后台管 理软件; 2 、后台从商城平台自动定时 下载,快速导入到 NC 形成销 售订单,并按 ERP 业务规则 进行校验及触发后续流程; 3 、提高订单传递的及时性、 准确性、规范性,减少工作量, 降低出错率;
1. 2 建设适合高校资产日常管理的、网络化、协同资产动态管理系统平台, 满足高校不同应用层次资产业务管理需求 强化资产从 “ 入口 ” 到 “ 出口 ” 过程监管,实现资产重要指标监控预警。 实现资产与财务、资产与预算、资产与决算的有效对接、信息共享。 满足主管部门及教育部、财政部门资产监管及数据统计需要;
Hive – A Warehousing Solution Over a MapReduce Framework Bingbing Liu
A NoSQL Database - Hive Dania Abed Rabbou.
Hive – SQL on top of Hadoop
新一代移动物联系统 MC MOBILE CONTROL 开启办公物联网时代 Product Promotion.
草原承包经营管理系统 额尔德木图 服务网站: 服务 QQ 群: 电话: QQ : 单位:内蒙古师范大学 内蒙古自治区遥感与地理 信息系统重点实验室.
1 物体转动惯量的测量 南昌大学理学院
第四章 计算机数控( CNC )系统  本章重点:  1 计算机数控系统构成及其结构特点  2 运动轨迹插补原理  3 刀具补偿.
Java 水晶报表. 目录 水晶报表开发 (CrystalReports 2008) Java 水晶报表 (JBuilder 2005) 报表项目布署 (WebSphere v6.1)
§10.2 对偶空间 一、对偶空间与对偶基 二、对偶空间的有关结果 三、例题讲析.
材料入库用友 U8 、 T6 集成审 批流程方案 迈锐思 C2 集成套件案例 (适合所有用友和致远客户)
表单自定义 “ 表单自定义 ” 功能是用于制作表单的 工具,用数飞 OA 提供的表单自定义 功能能够快速制作出内容丰富、格 式规范、美观的表单。
OSPF. OSPF 协议概述 链路状态信息 RTA RTC RTD RTB 链路状态数据库 每台路由器会将当前正确的链路状态信息向一定 的范围内的所有主机发送 它支持区域的概念,同一区域内的路由器最终都 可以拥有对此区域相同的拓扑描述 每台路由器接收到此信息之后,根据最短路径算 法计算最优的下一跳.
力的合成 力的合成 一、力的合成 二、力的平行四边形 上一页下一页 目 录 退 出. 一、力的合成 O. O. 1. 合力与分力 我们常常用 一个力来代替几个力。如果这个 力单独作用在物体上的效果与原 来几个力共同作用在物体上的效 果完全一样,那么,这一个力就 叫做那几个力的合力,而那几个 力就是这个力的分力。
演示场景. 类图 配置 HibernateApplicationContext.xml hibernate.cfg.xml 创建数据库 – ooad/ooad 关于 Library/Project 模板.
个体 精子 卵细胞 父亲 受精卵 母亲 人类生活史 问题:人类产生配子(精、卵 细胞)是不是有丝分裂?
逻辑设计基础 1 第 7 章 多级与(或)非门电路 逻辑设计基础 多级门电路.
“ 百链 ” 云图书馆. 什么是百链云图书馆?1 百链云图书馆的实际效果?2 百链云图书馆的实现原理?3 百链云图书馆的价值?44 图书馆要做什么?55 提 纲.
教育部 财政部 “ 网络教育数字化学习资源中心建设 ” 项目 单从凯 2011 年 3 月 13 日 典型应用示范工作方案.
Quantum IEC 课程 4 : 目的: 学完此课程后,您将掌握以下内容: – 掌握 Quantum I/O 模块各种分站性能 – 定义远程 I/O 术语,列出其相关特性 – 利用现有 800 和 200 系列 I/O 模块与 Quantum 远程 I/O 的 I/O 兼容 – 定义分布 I/O.
曹辉 2013 年 9 月 北京市商业学校 数字化资源中心介绍. 一、信息化发展史 通信领域信息化发展史.
新奥能源综合运营调度模式 研究及信息化实现 2016年1月31日 2016年1月31日 2016年1月31日 李 伟李 伟.
八. 真核生物的转录 ㈠ 特点 ① 转录单元为单顺反子( single cistron ),每 个蛋白质基因都有自身的启动子,从而造成在功能 上相关而又独立的基因之间具有更复杂的调控系统。 ② RNA 聚合酶的高度分工,由 3 种不同的酶催化转 录不同的 RNA 。 ③ 需要基本转录因子与转录调控因子的参与,这.
1. 利用图形化开发环境 LabVIEW 对 Xilinx Spartan3E 进行编程 汤敏 NI 高校市场部.
U niversity of S cience and T echnology of C hina VxWorks 及其应用开发 陈香兰 年 7 月.
张勤 人大报刊复印资料 专题全文数据库 简 介简 介 《人大报刊资料全文数据库》是中国人民大 学书报资料中心与北京博利群电子信息有限 公司联合开发研制的大型数据库光盘。它涵 盖面广、信息量大、分类科学、筛选严谨、 结构合理,是国内最具权威的社会科学、人.
3D 仿真机房建模 哈尔滨工业大学 指导教师:吴勃英、张达治 蒋灿、杜科材、魏世银 机房尺寸介绍.
欢 迎 使 用 《工程流体力学》 多媒体授课系统 燕 山 大 学 《工程流体力学》课程组. 第九章 缝隙流动 概述 9.1 两固定平板间的层流流动 9.2 具有相对运动的两平行平板 间的缝隙流动 9.3 环形缝隙中的层流流动.
中食安食品安全科技服务有限公司 多维彩码技术介绍多维彩码技术介绍. ■ 目录 1. 多维彩码 2. 多维彩码追溯系统 4. 多彩追溯 APP5. 中食安业务模式 中食安食品安全科技服务有限公司 2 3. 中食安平台.
参展主要内容 以信息科技支撑现代农业为主题,包括精准农业、数字农业、农 业物联网、农业遥感、信息服务 5 部分内容,重点展示科研院所、大 专院校等单位的科研成果及应用示例。精准农业重点展示面向设施、 果园、大田生产管理过程中的关键技术及智能装备,以精准施肥、施 药、灌溉大型机具实物展示为主,同时将搭建微型温室(约.
CREATE DATABASE database_name [ON [PRIMARY] [( [ NAME = logical_file_name,] [ FILENAME = ‘ os_file_name’] [, SIZE = size] [, MAXSIZE = {max_size|UNLIMITED}]
Apache Hive CMSC 491 Hadoop-Based Distributed Computing Spring 2016 Adam Shook.
你知道多细胞动物 和人的生长发育是 从什么细胞开始的 吗 ? 受精卵 分化 肌肉细胞 上皮细胞 人体的各种细胞图.
SCI 数据库检索练习参考 本练习完全依照 SCI 数据库实际检索过程而 实现。 本练习完全依照 SCI 数据库实际检索过程而 实现。 练习中,选择了可以举一反三的题目,读 者可以根据题目进行另外的检索练习,如: 可将 “ 与 ” 运算检索改为 “ 或 ” 、 “ 非 ” 运算检索 等等。 练习中,选择了可以举一反三的题目,读.
§7.2 估计量的评价标准 上一节我们看到,对于总体 X 的同一个 未知参数,由于采用的估计方法不同,可 能会产生多个不同的估计量.这就提出一 个问题,当总体的一个参数存在不同的估 计量时,究竟采用哪一个好呢?或者说怎 样评价一个估计量的统计性能呢?下面给 出几个常用的评价准则. 一.无偏性.
Hive Mr. Sriram
Presentation transcript:

Hive 实战 数据平台及产品部 少杰

Agenda 简介 Hive QL Hive 扩展 SQL vs HQL

简介 分布式计算 MapReduce 编程模型 Hadoop Hive

简介 Hive 系统结构

简介 数据流 (in taobao) – 数据源: weblog/db/… – 数据同步: jdbcdump – 报表计算 / 预处理 /ETL : Hive – 数据入库: dbloader

Hive QL 数据类型 – Primitive int / bigint / smallint / tinyint boolean double / float string – Array – Map – Struct – No precision / length config – No date / datetime type

Hive QL DDL – create table – CREATE [EXTERNAL] TABLE [IF NOT EXISTS] table_name [(col_name data_type,...)] [PARTITIONED BY (col_name data_type,...)] [ [ROW FORMAT row_format] [STORED AS file_format] | [ WITH SERDEPROPERTIES (...) ] ] [LOCATION hdfs_path]

Hive QL DDL – create table example CREATE TABLE page_view( viewTime INT, userid BIGINT, page_url STRING, referrer_url STRING, ip STRING COMMENT 'IP Address of the User‘ ) COMMENT 'This is the page view table' PARTITIONED BY(dt STRING, country STRING) ROW FORMAT DELIMITED FIELDS TERMINATED BY '\001' STORED AS SEQUENCEFILE;

Hive QL DML – load data – LOAD DATA [LOCAL] INPATH 'filepath' [OVERWRITE] INTO TABLE tablename [PARTITION (partcol1=val1, partcol2=val2...)]

Hive QL DML – insert – INSERT OVERWRITE TABLE tablename1 [PARTITION (partcol1=val1, partcol2=val2...)] select_statement1 FROM from_statement – FROM from_statement INSERT OVERWRITE TABLE tablename1 [PARTITION (partcol1=val1, partcol2=val2...)] select_statement1 [INSERT OVERWRITE TABLE tablename2 [PARTITION...] select_statement2]... – INSERT OVERWRITE TABLE tablename PARTITION (partcol1[=val1], partcol2[=val2]...) select_statement FROM from_statement – (HDFS) 不支持 UPDATE !

Hive QL DML/DDL – add partition – ALTER TABLE table_name ADD PARTITION (partcol1=val1, partcol2=val2...) [LOCATION 'filepath' ]

Hive QL Query - select – SELECT [ALL | DISTINCT] select_expr, select_expr,... FROM table_reference [WHERE where_condition] [GROUP BY col_list] [ CLUSTER BY col_list | [DISTRIBUTE BY col_list] [SORT BY col_list] ] [LIMIT number] – 不支持 exist in 子查询

Hive QL Query - join – join_table: table_reference JOIN table_factor [join_condition] | table_reference {LEFT|RIGHT|FULL} [OUTER] JOIN table_reference join_condition – table_reference: table_factor | join_table – table_factor: tbl_name [alias] | table_subquery alias | ( table_references ) – join_condition: ON equality_expression ( AND equality_expression )* equality_expression: expression = expression – 等值 Join – 合并 Join 的原则 – NULL 值处理

Hive QL Query - subqueries – SELECT... FROM (subquery) name... – select_statement UNION ALL select_statement UNION ALL select_statement...

Hive 扩展 UDFs – 类别 UDF - 1:1 UDAF – N:1 (UDTF) – Implement UDF extends UDF / GenericUDF implement evaluate() function – Implement UDAF extends UDAF / GenericUDAF implement – iterate – merge – terminatePartial – terminate

Hive 扩展 Transform – FROM ( FROM src MAP expression (',' expression)* USING 'my_map_script' ( AS colName (',' colName)* )? ( clusterBy? | distributeBy? sortBy? ) src_alias ) REDUCE expression (',' expression)* USING 'my_reduce_script' ( AS colName (',' colName)* )?

Hive vs SQL 语义 – 无关系约束(第一范式?) – 不支持 exist in 子查询 – 只支持等值 Join 数据类型

Hive 优化器 Partition Pruning (ppr) 分区裁减 where(pt=‘’) Predicate Push down (ppd) Column Pruning (cp) Mapjoin transformer

Hive 优化 数据偏斜 – MapJoin 缺点: 1 内存 2 小表数 *MAP 数是否太大 – Group by (distinct) skew 内存优化 – 驱动表 : 优化内存,将大表作为驱动表即 a join b b 为驱动表 I/O 优化 – Map aggregation MR 任务合并 – multi-insert 节省两次 m/r 的扫描 – multi-groupby – multi-distinct