A Novel Approach for Approximate Aggregations Over Arrays SSDBM 2015 June 29 th, San Diego, California 1 Yi Wang, Yu Su, Gagan Agrawal The Ohio State University.

Slides:

Advertisements

Similar presentations

Raghavendra Madala. Introduction Icicles Icicle Maintenance Icicle-Based Estimators Quality Guarantee Performance Evaluation Conclusion 2 ICICLES: Self-tuning.

Advertisements

Dynamic Sample Selection for Approximate Query Processing Brian Babcock Stanford University Surajit Chaudhuri Microsoft Research Gautam Das Microsoft Research.

Overcoming Limitations of Sampling for Agrregation Queries Surajit ChaudhuriMicrosoft Research Gautam DasMicrosoft Research Mayur DatarStanford University.

Fast Algorithms For Hierarchical Range Histogram Constructions

Danzhou Liu Ee-Peng Lim Wee-Keong Ng

Towards Estimating the Number of Distinct Value Combinations for a Set of Attributes Xiaohui Yu 1, Calisto Zuzarte 2, Ken Sevcik 1 1 University of Toronto.

Introduction to Histograms Presented By: Laukik Chitnis

STHoles: A Multidimensional Workload-Aware Histogram Nicolas Bruno* Columbia University Luis Gravano* Columbia University Surajit Chaudhuri Microsoft Research.

Fast Incremental Maintenance of Approximate histograms : Phillip B. Gibbons (Intel Research Pittsburgh) Yossi Matias (Tel Aviv University) Viswanath Poosala.

Brian Babcock Surajit Chaudhuri Gautam Das at the 2003 ACM SIGMOD International Conference By Shashank Kamble Gnanoba.

Optimal Workload-Based Weighted Wavelet Synopsis

A Novel Scheme for Video Similarity Detection Chu-Hong Hoi, Steven March 5, 2003.

Graph-Based Synopses for Relational Selectivity Estimation Joshua Spiegel and Neoklis Polyzotis University of California, Santa Cruz.

Approximate Computation of Multidimensional Aggregates of Sparse Data Using Wavelets Based on the work of Jeffrey Scott Vitter and Min Wang.

Presented by Ozgur D. Sahin. Outline Introduction Neighborhood Functions ANF Algorithm Modifications Experimental Results Data Mining using ANF Conclusions.

An Incremental Refining Spatial Join Algorithm for Estimating Query Results in GIS Wan D. Bae, Shayma Alkobaisi, Scott T. Leutenegger Department of Computer.

Advanced Querying OLAP Part 2. Context OLAP systems for supporting decision making. Components: –Dimensions with hierarchies, –Measures, –Aggregation.

Dependency-Based Histogram Synopses for High-dimensional Data Amol Deshpande, UC Berkeley Minos Garofalakis, Bell Labs Rajeev Rastogi, Bell Labs.

1 Wavelet synopses with Error Guarantees Minos Garofalakis Phillip B. Gibbons Information Sciences Research Center Bell Labs, Lucent Technologies Murray.

1 Query Optimization Vishy Poosala Bell Labs. 2 Outline Introduction Necessary Details –Cost Estimation –Result Size Estimation Standard approach for.

Data and Data Collection Quantitative – Numbers, tests, counting, measuring Fundamentally--2 types of data Qualitative – Words, images, observations, conversations,

1 Data Mining over the Deep Web Tantan Liu, Gagan Agrawal Ohio State University April 12, 2011.

CONGRESSIONAL SAMPLES FOR APPROXIMATE ANSWERING OF GROUP-BY QUERIES Swarup Acharya Phillip Gibbons Viswanath Poosala ( Information Sciences Research Center,

1 SciCSM: Novel Contrast Set Mining over Scientific Datasets Using Bitmap Indices Gangyi Zhu, Yi Wang, Gagan Agrawal The Ohio State University.

1 A Bayesian Method for Guessing the Extreme Values in a Data Set Mingxi Wu, Chris Jermaine University of Florida September 2007.

Approximate Encoding for Direct Access and Query Processing over Compressed Bitmaps Tan Apaydin – The Ohio State University Guadalupe Canahuate – The Ohio.

HPDC 2014 Supporting Correlation Analysis on Scientific Datasets in Parallel and Distributed Settings Yu Su*, Gagan Agrawal*, Jonathan Woodring # Ayan.

Join Synopses for Approximate Query Answering Swarup Achrya Philip B. Gibbons Viswanath Poosala Sridhar Ramaswamy Presented by Bhushan Pachpande.

Oral Exam 2013 An Virtualization based Data Management Framework for Big Data Applications Yu Su Advisor: Dr. Gagan Agrawal, The Ohio State University.

Swarup Acharya Phillip B. Gibbons Viswanath Poosala Sridhar Ramaswamy Presented By Vinay Hoskere.

Science Problem: Cognitive capacity (human/scientist understanding), storage and I/O have not kept up with our capacity to generate massive amounts physics-based.

Constructing Optimal Wavelet Synopses Dimitris Sacharidis Timos Sellis

Light-Weight Data Management Solutions for Scientific Datasets Gagan Agrawal, Yu Su Ohio State Jonathan Woodring, LANL.

ICPP 2012 Indexing and Parallel Query Processing Support for Visualizing Climate Datasets Yu Su*, Gagan Agrawal*, Jonathan Woodring † *The Ohio State University.

DAQ: A New Paradigm for Approximate Query Processing Navneet Potti Jignesh Patel VLDB 2015.

Fateme Shirazi Spring Statistical structures for Internet-scale data management Authors: Nikos Ntarmos, Peter Triantafillou, G. Weikum.

End-biased Samples for Join Cardinality Estimation Cristian Estan, Jeffrey F. Naughton Computer Sciences Department University of Wisconsin-Madison.

1 Removing Sequential Bottlenecks in Analysis of Next-Generation Sequencing Data Yi Wang, Gagan Agrawal, Gulcin Ozer and Kun Huang The Ohio State University.

HPDC 2013 Taming Massive Distributed Datasets: Data Sampling Using Bitmap Indices Yu Su*, Gagan Agrawal*, Jonathan Woodring # Kary Myers #, Joanne Wendelberger.

Histograms for Selectivity Estimation

New Sampling-Based Estimators for OLAP Queries Ruoming Jin, Kent State University Leo Glimcher, The Ohio State University Chris Jermaine, University of.

SAGA: Array Storage as a DB with Support for Structural Aggregations SSDBM 2014 June 30 th, Aalborg, Denmark 1 Yi Wang, Arnab Nandi, Gagan Agrawal The.

SUPPORTING SQL QUERIES FOR SUBSETTING LARGE- SCALE DATASETS IN PARAVIEW SC’11 UltraVis Workshop, November 13, 2011 Yu Su*, Gagan Agrawal*, Jon Woodring†

Advisor: Gagan Agrawal

Joseph M. Hellerstein Peter J. Haas Helen J. Wang Presented by: Calvin R Noronha ( ) Deepak Anand ( ) By:

Robust Estimation With Sampling and Approximate Pre-Aggregation Author: Christopher Jermaine Presented by: Bill Eberle.

ApproxHadoop Bringing Approximations to MapReduce Frameworks

CONGRESSIONAL SAMPLES FOR APPROXIMATE ANSWERING OF GROUP BY QUERIES Swaroop Acharya,Philip B Gibbons, VishwanathPoosala By Agasthya Padisala Anusha Reddy.

By: Gang Zhou Computer Science Department University of Virginia 1 Medians and Beyond: New Aggregation Techniques for Sensor Networks CS851 Seminar Presentation.

HASE: A Hybrid Approach to Selectivity Estimation for Conjunctive Queries Xiaohui Yu University of Toronto Joint work with Nick Koudas.

Histograms for Selectivity Estimation, Part II Speaker: Ho Wai Shing Global Optimization of Histograms.

XCluster Synopses for Structured XML Content Alkis Polyzotis (UC Santa Cruz) Minos Garofalakis (Intel Research, Berkeley)

Indexing OLAP Data Sunita Sarawagi Monowar Hossain York University.

Yang, et al. Differentially Private Data Publication and Analysis. Tutorial at SIGMOD’12 Part 4: Data Dependent Query Processing Methods Yin “David” Yang.

By: Peter J. Haas and Joseph M. Hellerstein published in June 1999 : Presented By: Sthuti Kripanidhi 9/28/20101 CSE Data Exploration.

University of Texas at Arlington Presented By Srikanth Vadada Fall CSE rd Sep 2010 Dynamic Sample Selection for Approximate Query Processing.

병렬분산컴퓨팅연구실 1 Cubing Algorithms, Storage Estimation, and Storage and Processing Alternatives for OLAP 병렬 분산 컴퓨팅 연구실 석사 1 학기 이 은 정

Written By: Presented By: Swarup Acharya,Amr Elkhatib Phillip B. Gibbons, Viswanath Poosala, Sridhar Ramaswamy Join Synopses for Approximate Query Answering.

AQAX: Approximate Query Answering for XML Josh Spiegel, M. Pontikakis, S. Budalakoti, N. Polyzotis Univ. of California Santa Cruz.

Storage Estimation for Multidimensional Aggregates in the Presence of Hierarchies 병렬 분산 컴퓨팅 연구실 석사 1 학기 김남희.

Dense-Region Based Compact Data Cube

Data Transformation: Normalization

Updating SF-Tree Speaker: Ho Wai Shing.

A paper on Join Synopses for Approximate Query Answering

Bolin Ding Silu Huang* Surajit Chaudhuri Kaushik Chakrabarti Chi Wang

Sameh Shohdy, Yu Su, and Gagan Agrawal

Spatial Online Sampling and Aggregation

Yu Su, Yi Wang, Gagan Agrawal The Ohio State University

Data and Data Collection

Supporting Online Analytics with User-Defined Estimation and Early Termination in a MapReduce-Like Framework Yi Wang, Linchuan Chen, Gagan Agrawal The.

Presentation transcript:

A Novel Approach for Approximate Aggregations Over Arrays SSDBM 2015 June 29 th, San Diego, California 1 Yi Wang, Yu Su, Gagan Agrawal The Ohio State University

Outline Introduction Aggregation Method V-Optimized Binning Experimental Results Conclusion 2

Motivation Aggregation is a Key Functionality Approximate Aggregation – 100% accuracy may be unnecessary E.g., decision making – Based on a summary structure/data synopsis Sample, histogram, wavelet, etc. – Well studied on relational data but not array data Each array element has not only a value but also a position (subscript) 3

Challenges in Approximate Aggregations over Array Data Flexible Aggregation Over Any Subset – Dim-based predicate: depth < 5 – Val-based predicate: temp < 4 – Combined predicate: depth < 5 AND temp < 4 Aggregation Accuracy – Value distribution – Spatial distribution (not in relational data) Aggregation without Data Reorganization – Should avoid extra processing and storage costs 4

Existing Techniques and Limitations All Problematic for Array Data – Sample-Based Unable to capture both distributions – Histogram-Based No spatial distribution – Wavelet-Based No value distribution (by mapping a data cube to an array) Restricted to SUM, COUNT, and AVG Need for Another Data Synopsis – We choose bitmap indices 5

Outline Introduction Aggregation Method V-Optimized Binning Experimental Results Conclusion 6

Bitmap Indexing and Pre-Aggregation Bitmap Indices Pre-Aggregation Statistics 7

Key Insight Bitvectors – Preserve spatial info for a bin Any subarea can be represented as a bitvector – Support Fast bitwise operations on its compressed format AND, OR, COUNT, etc. Pre-Aggregation Statistics – Preserve value info for each bin Equivalent to a histogram – Cheap No extra data scan: generated during bitmap indexing 8

Approximate Aggregation Workflow 9

Running Example Bitmap Indices Pre-Aggregation Statistics 10 SELECT SUM(Array) WHERE Value > 3 AND ID < 4; Predicate Bitvector: i 1 ’: i 2 ’: Count1: 1 Count2: 2 Estimated Sum: 7 × 1/ × 2/3 = Precise Sum: 14

Outline Introduction Aggregation Method V-Optimized Binning Experimental Results Conclusion 11

Accuracy Concern Conventional Bitmap Indices – Mainly designed for accelerating selection, not aggregation – 100% accuracy relies on the extra validation on the raw data – Now the raw data is unavailable Need for Accurate Approximation – Similar problems can be found in histogram literature 12

A Novel Binning Strategy Conventional Binning Strategies – Equi-width/equi-depth binning – Not necessarily a good approximation V-Optimized Binning Strategy – Inspired by v-optimal histogram – Goal: approximately minimizes Sum Squared Error (SSE) – Unbiased v-optimized binning: data is randomly queried – Weighted v-optimized binning: certain subareas are frequently queried 13

Unbiased V-Optimized Binning 3 Steps: 1)Initial Binning: uses equi-depth binning 2)Iterative Refinement: adjusts bin boundaries 3)Bitvector Generation: marks spatial positions 14

Weighted V-Optimized Binning Difference: minimizes WSSE instead of SSE Similar binning algorithm Major Modification – Representative value of each bin is weighted by querying probabilities 15

Outline Introduction Aggregation Method V-Optimized Binning Experimental Results Conclusion 16

Experimental Setup Data Skew 1)Dense Range: less than 5% space but over 90% data 2)Sparse Range: less than 95% space but over 10% data 5 Types of Queries 1)DB: with dimension-based predicates 2)VBD: with value-based predicates over dense range 3)VBS : with value-based predicates over sparse range 4)CD: with combined predicates over dense range 5)CS : with combined predicates over sparse range Ratio of Querying Possibilities – 10 : 1 – 50% synthetic data is frequently queried – 25% real-world data is frequently queried 17

SUM Aggregation Accuracy of Different Methods 18 Sampling_2% Sampling_20% (Equi-Depth) Hist1 (200*18k*200) (Equi-Depth) Hist2 (200*72k*800) Unbiased V-Optimized Weighted V-Optimized

Indexing Creation Times 19

Space Requirements of Indexing 20

Outline Introduction Aggregation Method V-Optimized Binning Experimental Results Conclusion 21

Conclusion Bitmap Indices Good for Approximate Aggregation over Array Data – Allow dim-based and/or val-based predicates – Preserve both value and spatial distribution – Cheap creation and no data reorganization Novel Binning Strategy for High Accuracy – Unbiased v-optimized binning – Weighted v-optimized binning 22