Amin Mesmoudi & Mohand-Saïd Hacid Traitement parallèle et déclaratif de requêtes sur des masses de données issues d'observations astronomiques.

Slides:



Advertisements
Similar presentations
1 Le C.C.F. en Baccalauréat Professionnel T.I.S.E.C. T.I.S.E.C. T.M.S.E.C T.M.S.E.C T.F.C.A T.F.C.A.
Advertisements

Cours 9 Les protocoles de niveau trame. La trame LAP-B Le protocole LAP-B (Link Access Protocol - channel B) est une trame qui a été normalisée pour transporter.
TICE 2 ième Semestre Fonctions « logiques ». Février 2006TICE 2ième Semestre - Les fonctions logiques2 Petits rappels… Une formule est toujours de la.
Clic. Après chaque vol, les pilotes établissent un formulaire dans lequel ils informent les mécaniciens au sol des problèmes qu‘ils ont rencontrés pendant.
Colloque AQIFGA Hissons les voiles! Mélanie Bergeron, chargée de projets Jean-Simon Labrecque, directeur de production Marcelle Parr, conseillère.
Histoire et dynamique des espaces anglophones: du réel au virtuel (Equipe d’accueil 4086)
Gestion de patrimoine professionnelle Le Compte-conseil Pour tous vos besoins de placement Le Compte-conseil est un compte non discrétionnaire fondé sur.
1 LES FORMATIONS DE LA FILIERE POLICE MUNICIPALE.
Activités mathématiques autour du jeu de bridge Séance 1 1.
INSTITUT NATIONAL DE LA STATISTIQUE DU CAMEROUN COMMISSION ECONOMIQUES DES NATIONS UNIES POUR L’AFRIQUE Port Louis juillet 2010.
 Assistant d’équipe  Assistant de groupe de projet  Assistant Ressources Humaines  Assistant commercial  Assistant de direction  Assistant en.
Michel Pellicioli Les métiers d’accompagnement de la recherche Situation de l’IPHC.
Conception d’Applications Réparties (Programmation répartie) Plan du cours: -Introductions aux applications réparties -Application client serveur -Introduction.
Leçon 8: Corps ronds Géométries et communication graphique Edouard Rivière-Lorphèvre 1.
Lauréat 2012 Catégorie: Inventaire des postes à risques.
Beicu Vlad-Daniel-Cristian G ă lbenu George Alexandru Ion Silviu Andrei Oprea Ionu Alin Pris ă caru Ana-Maria Les nouvelles technologies De quelle manière.
1 Cours UBO 2007 UE – BASES DE DONNEES OCEANOGRAPHIQUES Le portail NAUTILUS accès en ligne aux données et site WEB du SISMER Michèle FICHAUT.
CTF3 : Etat des lieux et projets Jean-Marc Nappa, Jean Tassan, Sébastien Vilalte.
ESPACE NUMERIQUE PERSONNEL (ex-coffre fort numérique) 1 PRESENTATION.
MIGRATION VERS ATRIUM Présentation Etapes Attentes / Objectifs.
L’action à conduire en responsabilité Un élément déterminant de l’année de stage Quelques éléments de présentation.
Acquisition de la professionnalité Séminaire du 25/11/2014, ENC Bessière, Paris.
TEST QUIZ Grammaire Conjugaisons & Les groupes des verbes À quel groupe appartient le verbe: aimer ? Premier groupe Premier groupeaimer Deuxième groupe.
Découverte des notions fondamentales de l’économie et de la gestion, en partant du comportement concret d’acteurs économiques comme les entreprises, les.
IFT 703 Informatique cognitive Les processus subsymboliques de ACT-R André Mayers Automne
Améliorer la prévention et la prise en charge des chutes et des blessures liées au chutes Présentation du diagnostic et du plan d’actions Etablissement.
« M é thodologie de collecte des donn é es en FOS » Témoignage a posteriori R. Bouchard (Pr. Emérite Lyon 2)
Les nouvelles initiatives en faveur des milieux d’accueil d’enfants Période Par le Fonds social Milieu d’Accueil d’Enfants.
Réunion d’échange CSTL 2014 Soutien psychosocial Southern Sun O.R. Tambo - Johannesburg, Afrique du Sud novembre 2014.
Un bon cœur vaut plus que toutes les têtes du monde.
Le volet juridique des projets  Généralités  Contrat d’ingénierie industrielle  Contrat informatiques.
Pour plus de modèles : Modèles Powerpoint PPT gratuitsModèles Powerpoint PPT gratuits Page 1 Définition d’une tâche complexe.
Titre: L’analyse des facteurs influents la production de coton en Afrique de l’Ouest 1. Les contraintes de la filière 2. La Dimension économétrique de.
Protocole: Méthodologie schéma d’étude J Ateudjieu.
Réalisé par : Sébastien Lachance MATHS 3 E SECONDAIRE Les figures SEMBLABLES.
Mathématiques CST MODULE 6 L’optimisation de GRAPHES.
26/09/2007 La participation des enfants de 10 à 18 ans 1 Introduction La participation: un des quatre principes fondamentaux de la CIDE Les enfants sont-ils.
Fonctionnement de notre nouvelle Q-PCR
Accélérateur de projets. PONT SALOMON Notre stratégie Deville Rectification est le leader sur le marché de la plaque usinée en acier et en aluminium.
Le lion De Candice 1. L’identité du lion : Le mâle s’appelle le lion, la femelle la lionne et le petit le lionceau. Le lion pèse 150 kg à 220 kg. Il mesure.
Février 2014 GPU / Xeon Phi Calcul de fonction de corrélation à 2 points sur un grand nombre de galaxies Image : collaboration SDSS Problème : pour effectuer.
Présente ….. Accédez ici à votre compte une fois inscrit(e) Nouvel utilisateur? Créez votre compte
M ODÉLISATION UML.  Introduction  Modélisation Objet  Types de relation  Héritage  Association  Contenance  Diagrammes UML  Diagramme d’objets.
LA ROUTE DU MEUBLE. Type d’information Informations Type d’activité commerciale Aménagement intérieur et extérieur : meubles, cuisines, salons, cheminées,
1 Administration et paramétrage de K-d’école Module 8 1.Gestion de l’annuaire 2.Autres outils d’administration de l’annuaire 3.Gestion des services internes.
La tuberculose anale: à propos de 4 cas F. Emouhafid, Y. Lbrahmi,M
Début Illustration dans le plan complexe du repliement spectral lors de l’échantillonnage d’un mouvement régulier de rotation dont on modifie la fréquence.
Macrophytes en cours d’eau Evaluation DCE – Bioindication. Paris avril 2011 Christian Chauvin, Fany Roussel, Alain Dutartre, Vincent Bertrin CARMA.
AMPERES Enseigner de façon dynamique le produit scalaire en 1re S ?
1 TRAAM 2011 Domaine d’application Confort et domotique Domaine d’application Confort et domotique Présenté Par Grégory ANGUENOT.
Association canadienne des optométristes Myopie. La myopie est un problème visuel qui fait que l’œil peut voir clairement les objets proches, mais ne.
Développement Durable et Renforcement des Capacités du Gouvernement Prof. Dr. Árpád Kovács Pr é sident du Bureau d’Audit d’Etat de la Hongrie Pr é sident.
Enseignement d’exploration Littérature et société Jeudi 14 octobre 2010 LPO Coeffin Formation académique Académie de la Guadeloupe.
Pour quel type d’élèves? Elle propose une formation pratique et concrète s’adressant aux jeunes qui aiment les sciences qui ont un esprit curieux,
HCG Gis Sol, Paris, 19 février 2015 © Claudy Jolivet (INRA Orléans) Etat d’avancement du programme RMQS MAYOTTE Claudy Jolivet INRA, US 1106 InfoSol,
Changement de sonorité Utilisation de S.A., etc. Edition de multi-pads.
L’intégration de critères ESG dans la Politique d’Investissement 10 JUIN 2016.
Tâche 4 Quelques propositions méthodologiques pour suivre le(s) cycle(s) de vie d’une ressource Séminaire ReVEA, juillet 2015, Loriol Catherine Loisy et.
1 "Le Multimédia dans l'enseignement aux FUNDP : nouveaux plaisirs d'apprendre ?"
Impliquer les communautés et les familles dans la réponse au VIH/sida : stratégie de pérennisation des activités VIH en Côte d’Ivoire Lucile KONAN Chargée.
F. Le Bras ENSAM, Jeudi 26 mai 2011 INTRODUCTION Véhicules aériens autonomes Asservissement Visuel Contributions APPLICATIONS AVIONS Dynamique et contrôle.
Les résultats obtenus de l'enquête sur les médias sont exprimés avec porcentages pour faciliter son observation et analyse.
Qualité des services de santé Ontario Le conseiller provincial en qualité des soins de santé en Ontario Maillons santé : Extraits du rapport.
Nahela Robert & Lisa Goll. Qu'est ce que Twitter ? Twitter est un réseau social, permettant de suivre les actualités d’une personne, d’une association,
L’objectif est de connaitre l’anatomie de l’abdomen et d’en prendre en charge les pathologies. Traumatisme de l’abdomen.Objectifs  Introduction  Rappels.
Mémoire de Projet de Fin d'Études
Reconnaissance du visage dans une base de données
Densité et masse volumique. Imaginons que nous prenions deux cylindres, de même volume, constitués avec des métaux différents. En les pesant, nous trouvons.
ALLPGI Est une solution complète, En ligne, sécurisé et flexible pour gérer tous les domaines d'activités de votre entreprise.
P RÉSENTATION DU RAPPORT DE PROJET DE FIN D ’ ÉTUDE Suiveur solaire suivant deux axes avec un enregistrement de data.
Presentation transcript:

Amin Mesmoudi & Mohand-Saïd Hacid Traitement parallèle et déclaratif de requêtes sur des masses de données issues d'observations astronomiques

Contexte Prises d’image toutes les 15 s, 1 visite/ 3 jours 10 ans, 60 Peta-octets de données 2

Les données LSST TableTaille#enregistrements#attributs Object109 To38 B470 Moving Object5 Go6 M100 Source3.6 Po5 T125 Forced Source1.1 Po32 T7 Difference Image Source 71 To200 B65 CCD Exposure0.6 To17 B45 3

Accès aux données : les besoins LSST Accès Requêtes déclaratives (SQL) Possibilité de définir des fonctions ad hoc (UDF) areaspec_boxangSep < dist Exemple: areaspec_box, angSep < dist 500,000 requêtes/jour fluxToAbMag SELECT objectId, taiMidPoint, fluxToAbMag(psfMag) USINGJOINUSING FROM Source JOIN Object USING(objectId) JOIN Filter USING(filterId) ANDAND WHERE areaSpec_box(:raMin, :declMin, :raMax, :declMax) AND filterName = 'u' AND variability BETWEEN :varMin AND :varMax ASC ORDER BY objectId, taiMidPoint ASC fluxToAbMag SELECT objectId, taiMidPoint, fluxToAbMag(psfMag) USINGJOINUSING FROM Source JOIN Object USING(objectId) JOIN Filter USING(filterId) ANDAND WHERE areaSpec_box(:raMin, :declMin, :raMax, :declMax) AND filterName = 'u' AND variability BETWEEN :varMin AND :varMax ASC ORDER BY objectId, taiMidPoint ASC 4

Objectifs généraux Passage à l’échelle 10 PB Proposer une plateforme parallèle capable de stocker +10 PB de données Open Source Shared-Nothing Performances secondes jours Pouvoir évaluer aussi bien des requêtes simples (quelques secondes de calcul) que des requêtes complexes (des jours de calcul) 5

Nos travaux Evaluation des capacités des systèmes existants sur des échantillons de données LSST Campagne d’évaluation des systèmes MapReduce et supportant SQL F. Toumani En collaboration avec F. Toumani Proposition de nouvelles techniques Stockage Partitionnement Evaluation parallèle des requêtes F. ToumaniE. CoqueryM. Haddad En collaboration avec F. Toumani, E. Coquery et M. Haddad 6

Evaluation des systèmes existants Configurations différentes Indexation Données Indexées vs. non indexées 5 indexes Données 250 GO vs. 500 GO vs. 1 TO vs. 2 TO Partitionnement Partitionnement lié vs. non lié aux jeux de requêtes Clusters 25 vs. 50 vs. Hive vs. HadoopDB Requêtes: Q1-Q11 Temps de chargement Temps d’exécution 7

Synthèse – expérimentations (1/2) Requête Job 1 Map Reduce Job 2 Map Reduce Job n Map Reduce Application de la fonction Map Application de la fonction Reduce Transfert réseau Ecriture des données dans le HDFS Lecture des données a partir du HDFS Accès aux données Phase 1: pousser les traitements vers les données Phase 2: pousser les données vers les traitements 8

Synthèse – expérimentations (2/2) EtapeComparaisonExceptions Sans Indexes: HadoopDB * Effet de la compression et du buffer Temps d’accès avec JDBC domine le temps d’accès Avec Indexes: Hive * Indexation globale HadoopDB *Buffer et compression (Moins de données) Hive * Utilisation de plusieurs machines Partitionnement personnalisé Hive * Utilisation de plusieurs machines Partitionnement personnalisé Les sélections avec deux attributs Accès aux données Application de la fonction Map Transfert réseau Application de la fonction Reduce 9

Chargement de données Partitionnement personnalisé de données - nécessaire pour optimiser l'évaluation de certains types de requêtes Les outils existants ne répondent que partiellement aux exigences LSST d’accès aux données Plusieurs techniques d'optimisation (indexation, partitionnement, utilisation de tampons,...) devraient être revisitées SGBD doit être en mesure de s'adapter aux requêtes Enseignements tirés des expérimentations 10

Fonctionnalités requises L'accès aux données avec compression et indexation Techniques de partitionnement flexibles qui tiennent compte des caractéristiques des données Evaluation des requêtes Parallélisation Accès au réseau uniquement si nécessaire Tirer profit du partitionnement pour éviter certains transferts de données inutiles SGBD – adaptation aux jeux de requêtes en changeant l'emplacement des données 11

Stockage SPO et OPS B+Tree pour chaque combinaison– recherche de triplets: log(n) Hybride: ligne et colonne Plusieurs combinaisons peuvent être utilisées x1 l1 z1 n1 k1 a b c d e y1 z2 x2 y2 a b c x1ay1 x1bz1 x1cl1 x2ay2 x2bz2 x2cl1 y1dk1 y1en1 SPO k1dY1 l1cx1 l1cx2 n1ey1 ax1 y2ax2 z1bx1 z2bx2 OPS ?x k1 ?z a b 12

Trouver le meilleur plan Ensemble ordonné d’étoiles [SQ1, SQ2,…, SQn] forward et backward stars ‘’Forward stars’’ ?x, ?y, ?l ‘’Backward stars’’ ?y, ?z, C1, ?l, ?n, ?m, C2 ?x ?n ?z C2 ?m a b c d e ?y C1 ?l f k 13 Classe de complexité: NP-Hard preuve: ’’Vertex Cover’’

Partitionnement des données Graphe Partitionnement métiers Exemple: Découpage spatial (RA,Decl) Worker 2 P5 P6 P7 P8 Worker 1 P1 P2 P3 P4 Worker 4 P13 P14 P15 P16 Worker 3 P9 P10 P11 P12 Stratégies Fragmentation horizontale (spatiale, hachage,…) Fragmentation horizontale dérivée 14

Evaluation de requêtes avec BSP SQ1SQ2 SQ3 SQ4 SQ5 S1 S2 S3 S4 S5 Réseau Sync 15

Fonctionnalités requises L'accès aux données avec compression et indexation Techniques de partitionnement flexibles qui tiennent compte des caractéristiques des données Evaluation des requêtes Parallélisation Accès au réseau uniquement si nécessaire Tirer profit du partitionnement pour éviter certains transferts de données inutiles SGBD – adaptation aux jeux de requêtes en changeant l'emplacement des données 16

Réaffectation des partitions P1 P2 P3 P4 P5 P6 P7 P8 P9 P10 P11 P12 P13 P14 P15 P16 Analyser les coûts de transferts réseaux liés à un jeux de requêtes Affectation des partitions Modification de l'affectation de la partition sans modifier la structure physique de la partition P1 P2 P3 P4 P5 P6 P7 P8 P9 P10 P11 P12 P13 P14 P15 P16 17

Approches 18

Implémentation et résultats préliminaires (1/2) Implémentation MapReduce Partitionner: MapReduce - Hadoop 2.6 (5k lignes de code) Stockage: RDF-3X, C++ (3k lignes de code) Moteur d’évaluation : Java et JNI (20k lignes de code) Premières expérimentations Données: 250 GO Requêtes: 7 requêtes avec SELECTION, PROJECTION et JOINTURE Q1-Q4 et Q7-Q9 Plateforme de calcul : 25 machines Chaque machine: 350 GO d’espace disque et 8 GO de RAM 19

Implémentation et résultats préliminaires (2/2) Temps de chargement: ~24 heures vs. 9 heures (HadoopDB) vs. 3 heures (Hive) Partitionnement (80 %) et chargement de données (20 %) 20

Travaux en cours Optimisation du partitionnement 24 heures pour 250 GO et pour 1 PO ? YARN pourrait représenter les alternatives Intégrer les fonctions ad hoc (ex. jointure par distance) Campagne d’évaluation en comparant notre système avec Hive et HadoopDB sur d’autres jeux de données avec les systèmes de gestion de triplets Etudier expérimentalement les heuristiques proposées en utilisant d’autres jeux de données (ex. SDSS) 21

Merci 22

Conclusion Une campagne d’évaluation permettant d’analyser les capacités des systèmes SQL-on-MapReduce à gérer les données LSST Proposition de quelques techniques permettant d’accélérer l’évaluation des requêtes Stockage graphe Evaluation parallèle avec BSP Partitionnement guidé par le schéma performances satisfaisantes Les premiers résultats de performances de notre approche semblent très satisfaisantes en les comparant avec ceux obtenus pour les systèmes basés sur le modèle MapReduce. Etude de la complexité de deux problèmes d’optimisation 23