Abiadura handiko konputazioa IEB05 - UEU Abiadura handiko konputazioa Superkonputagailuak, Cluster-rak, The Grid. (laburpena) Agustin Arruabarrena EHU - KAT Abiadura handiko konputazioa
Abiadura handiko konputazioa 1 Sarrera 2 Konputagailuen eboluzioa Superkonputagailuak / Cluster-rak / Top500 Programazio-ereduak 3 The Grid Abiadura handiko konputazioa
Abiadura handiko konputazioa 1 Sarrera ARAZOA Konputagailuak gero eta azkarragoak dira. Baina kalkuluaren eta datuak prozesatzeko beharrak are azkarrago hazten dira. Abiadura handiko konputazioa
Abiadura handiko konputazioa 1 Sarrera ARAZOA Hainbat aplikazio zientifikotan (astronomia, biologia, energia altuak, ...) datu kopuru itzelak prozesatu behar dira: Petabyte → 1015 byte (106 GB) 102 eragiketa → 1017 flop (108 Gflop / 105 Tflop) 1 Gf/s → 108 s → 3 urte! Gainera, exekutatu behar diren atazen tamaina nahi adina luza daiteke. Abiadura handiko konputazioa
Abiadura handiko konputazioa 1 Sarrera IRTENBIDEA Prozesadore / konputagailu / sistema asko erabiltzea problema konplexu bati ekiteko. Paralelismoa: hainbat prozesu exekutatzen dira, batera, hainbat prozesadoretan. Egitura, prozesu- eta datu-banaketa, eta abar oso desberdinak izan daitezke. Abiadura handiko konputazioa
Abiadura handiko konputazioa 1 Sarrera Aplikazioak (kalkulua): 1. High Throughput prozesuak (ia) independenteak dira genetika, astronomia, irudi-bankuak... 2. High Performance prozesuen arteko komunikazioa behar da meteorologia... 3. Segurtasuna (errepikapena) Abiadura handiko konputazioa
Abiadura handiko konputazioa 1 Sarrera Paralelismoa: kalkulua + Komunikazioa prozesadore kop. T_guzt T_ex T_kom Abiadura handiko konputazioa
Konputagailuen eboluzioa 2 Konputagailuen eboluzioa Itanium / Pentium IBM 360, PDP-11, VAX multiprozesadoreak (servers) grid ASCI Red superkonputagailua cluster Abiadura handiko konputazioa
Abiadura handiko konputazioa 2 Superkonputagailuak Diseinu bereziko konputagailu paraleloak Teknologia aurreratuenak prozesadorea konexio-sarea (3D toroak / mezu-bideragailuak) sistema-softwarea (komunikazio-protokoloak) Oso azkarrak / oso garestiak ASCI Red, Earth Simulator, Blue Gene Abiadura handiko konputazioa
Abiadura handiko konputazioa 2 Earth Simulator Abiadura handiko konputazioa
Abiadura handiko konputazioa 2 Earth Simulator Abiadura handiko konputazioa
Abiadura handiko konputazioa 2 Cluster-rak Sistema paraleloa osatzeko, helburu orokorreko P makina lotzen dira, komunikazio-sare “estandar” bat erabiliz. prozesadorea (pentium / itanium) konexio-sarea (gigabit / myrinet) ”Eraginkortasuna / kostua” parametroa oso ona. Abiadura handiko konputazioa
Abiadura handiko konputazioa 2 Cluster-rak K1 “Beowulf” constellation Abiadura handiko konputazioa
Abiadura handiko konputazioa 2 Egoera gaur Argazkia: - superkonputagailu batzuk (USA, JAPONIA, Europa) - cluster motako milaka sistema paralelo - milioika ordenagailu pertsonal Sistema paraleloen top500 zerrenda Abiadura handiko konputazioa
Abiadura handiko konputazioa 2 NEC Earth simulator IBM ASCI white LLNL Intel ASCI red Sandia BlueGene x1,85 Abiadura handiko konputazioa
Installation site Country/year 2 top500 (2004ko abendua) Rank Computer N. Pr. Rmax Rpeak (Tflop/s) Nmax Nhalf (x1000) Installation site Country/year Type 1 mpp toro3D IBM BlueGene/L DD2 beta PowerPC 440 - 0,7 GHz 32.768 70,72 91,75 934 - IBM / DOE USA / 2004 Research 2 mpp cross/hip SGI Columbia SGI Altix, Voltaire Infiniband – 1.5 GHz 10.160 51,87 60,96 1290 - NASA USA / 2004 Research 3 vec / smp crossbar NEC Earth-Simulator SX6 vector pr. 5.120 35,86 40,96 1075 266 Earth Simulator Center Japan / 2002 Research 4 cluster IBM Mare Nostrum eServer BladeCenter 3520 PowerPC 970, 2 GHz – Myrinet 3.564 20,53 31,36 813 - Barcelona SC Center Spain / 2004 Academic 500 Superdome HP, 875 MHz Hyperplex 416 0,85 1,46 SBC service. USA / 2004 Telecomm. Abiadura handiko konputazioa
Abiadura handiko konputazioa 2 SGI Altix Abiadura handiko konputazioa
Abiadura handiko konputazioa 2 Mare Nostrum Abiadura handiko konputazioa
Abiadura handiko konputazioa 2 Abiadura handiko konputazioa
Abiadura handiko konputazioa 2 VP500 Y-MP C90 CM5 Paragon T3D SP2 T3E ASCI Red Sun HPC CM2 Earth Sim. Abiadura handiko konputazioa
Sistema paraleloen eredua 2 Sistema paraleloen eredua 1. Memoria komuna (shared memory): Prozesadore guztiek memoria-posizio guztiak erabil dizakete. Prozesuen arteko komunikazioa aldagai konpartituen bidez gauzatzen da. 2. Memoria banatua (distributed memory): Prozesadore bakoitzak memoria pribatua du. Prozesuen arteko komunikazioa mezu-ematearen bidez egiten da. Abiadura handiko konputazioa
Sistema paraleloen programazioa 2 Sistema paraleloen programazioa Memoria komuna: OpenMP (API Fortran / C) sasiaginduak konpiladorearentzat + biblioteka-funtzio batzuk (sinkronizazioa) #pragma omp parallel for shared(A,B,C) private(x) schedule(static) for (i = 1; i <= N; i++) { x = A[i] + B[i]; C[i] = C[i] + x*x; } Abiadura handiko konputazioa
Sistema paraleloen programazioa 2 Memoria banatua: MPI Komunikazio-funtzio multzo handi bat (Fortran / C). MPI_Send(...); MPI_Recv(...); MPI_Bcast(...); MPI_Barrier(...); if (pid==0) MPI_Send (VA,N,MPI_INT, 1, tag, MPI_COMM_WORLD); else MPI_Recv (VA,N,MPI_INT, 0, tag, MPI_COMM_WORLD,...); Abiadura handiko konputazioa
Abiadura handiko konputazioa 3 The Grid ARAZOA Hainbat aplikaziotan, ez da nahikoa makina batekin, superkonputagailu bat bada ere. Datu kopuru itzelak prozesatu behar dira. Merezi du toki batetik bestera mugitzea? Zergatik ez hartu sarean konektatutako (eta geografikoki banatutako) konputagailuak konputagailu birtual handitzat? Abiadura handiko konputazioa
Abiadura handiko konputazioa 3 The Grid Metafora: sare elektrikoa Batetik, produzkio-zentru batzuk daude, eta, bestetik, kontsumitzaileak. Zergatik ez izan “konputazio-zikloak” sortzen (eta saltzen) dituzten zentro bereziak? Makina propio bat izan beharrean, “makina birtual” bat “alokatu”. Abiadura handiko konputazioa
Abiadura handiko konputazioa 3 The Grid GRID: definizioa Protokolo eta interfaze estandarrak, irekiak eta helburu orokorrekoak erabiliz, hainbat baliabide banatuta kudeatzen duen sistema, balio erantsiko zerbitzuak sortzeko. Beraz, gegografikoki banatutako cluster heterogeneo handi bat da “The Grid”. Abiadura handiko konputazioa
Abiadura handiko konputazioa 3 The Grid Osagaiak - konputazio-guneak - datu-base handiak - urrutitik kontrolatutako sentsoreak - abiadura handiko komunikazio-sarea (internet2 - I2bask) - middleware gehitu sistemari - web zerbitzuak Abiadura handiko konputazioa
OGSA: Open Grid Services Architecture 3 The Grid 5 (6) ideia nagusiak: • Baliabideen konpartitzea (konfiantza) • Distantziarekiko independentzia • Baliabideen erabilera eraginkorra / Zerbitzuaren kalitatea • Atzipen seguruak • Estandarrak OGSA: Open Grid Services Architecture Abiadura handiko konputazioa
Grid arkitektura 3 middelware erabiltzaileen aplikazioak baliabide fisikoak (fabric) middelware zerbitzu kolektiboak konexio- eta baliabide-protokoloak Abiadura handiko konputazioa
baliabide fisikoak (fabric) 3 Grid arkitektura Konputazio-guneak Datuak metatzeko sistemak Sarea(k) Tresna fisikoak (sentsoreak) Kudeagarriak (introspection) Erreserba aurreratuak Lehentasunak baliabide fisikoak (fabric) Abiadura handiko konputazioa
baliabide-protokoloak 3 Grid arkitektura Konektibitatea → TCP/IP SEGURTASUNA - single sign-on - delegation - lankidetza segurtasun-sistema lokalekin - kautotzea, kriptografia... Baliabide-protokoloak - informazio-protokoloak egoera, karga, kostua... - kudeaketa-protokoloak zer egin nahi den, behar bereziak... (erabilera-arauak) Konexio- eta baliabide-protokoloak Abiadura handiko konputazioa
Abiadura handiko konputazioa 3 Grid arkitektura zerbitzu kolektiboak Direktorioko zerbitzuak erabiltzaileak jakin dezan zer duen eskura Co-allocation, scheduling... Monitorizazioa eta diagnosia Datu-kopiak Abiadura handiko konputazioa
erabiltzaileen aplikazioak 3 Grid arkitektura erabiltzaileen aplikazioak Erabiltzaileen aplikazioak “erakunde birtual” baten barruan Beheko mailen protokoloka eta zerbitzuak erabiliz: baliabideen bilaketa, datu-atzipenak, gailuen kudeaketa... Abiadura handiko konputazioa
Abiadura handiko konputazioa 3 Globus Toolkit2 Open Grid Forum → Open Grid Service Architecture Globus Toolkit2 Middelware: protokolo estandarrak eta irekiak grid sareak antolatzeko eta aplikazioak sortzeko. Abiadura handiko konputazioa
Abiadura handiko konputazioa 3 Globus Toolkit2 Aplikazioak • Kalkulua sare osoa: high throughput nodo batzuk: high performance • Datu-prozesamendua • Kontrol banatua • Erakunde birtualak • ... Abiadura handiko konputazioa
Abiadura handiko konputazioa 3 Adibideak Datu konpartituak: Peer-to-peer (P2P) aplikazioak (NAPSTER, GNUTELLA, KAZAA...) D P 1 2 1 3 4 Abiadura handiko konputazioa
Abiadura handiko konputazioa 3 Adibideak Konputazio banatua: SETI@home, Astrogrid (philantropic computing) Kasu partikularrak: egin behar den kalkulua hainbat zatitan bana daiteke, haien artean komunikaziorik ez dagoela. Baliabideen fidagarritasun baxua / komunikazio abiadura baxua / segurtasuna (?) / hutsegiteekiko tolerantzia / ... Abiadura handiko konputazioa
Abiadura handiko konputazioa 3 Adibideak CERN (European Center for Nuclear Research) Large Hadron Collider, particle experiments Abiadura handiko konputazioa
Abiadura handiko konputazioa EU-DataGrid (EGEE) + GEANT Abiadura handiko konputazioa
Abiadura handiko konputazioa 3 The Grid gaur Diseinu / garapen fasean dagoen proiektu erraldoia Neurri batean, utopikoa Kalkulu-sare osoa izan beharrean, azpisare bereziak (zientifiko/teknikoak, komertzialak) Etorkizunean... Abiadura handiko konputazioa
Abiadura handiko konputazioa Informazioa zabaltzeko: • The Grid 2: I. Foster, C. Kesselman • www.globus.org • gridcafe.web.cern.ch/gridcafe Abiadura handiko konputazioa