Download presentation
Presentation is loading. Please wait.
Published byBlanca Lozano Calderón Modified over 5 years ago
1
Vefsöfnun Tæknileg útfærsla og vefsafn.is Kristinn Sigurðsson
Landsbókasafn Íslands – Háskólabókasafn
2
Vefsafnarinn Heritrix Þróaður af Internet Archive Opin hugbúnaður
Með aðstoð Landsbókasafna Norðurlandanna Opin hugbúnaður LGPL “Snapshot crawler” Ræður við mikið magn ‘Archival quality’ Útgáfa 1.0 kom út í júní 2004 LBS hefur notað hann síðan Orðin ‘staðalbúnaður’ innan IIPC
3
Íslenskar safnanir Grunnurinn á íslenska vefsafninu eru stórar heildarsafnanir Öllu efni safnað sem er undir .is og ekki aðgengisvarið Auk þess völdu íslensku efni og efni um ísland á erlendum lénum Framkvæmt þrisvar á ári
4
Heildarsafnanir .is skipt í 3 hluta og safnað óháð
Keyrt nánast samtímis, sett af stað með dagsbili Söfnun tekur um 7-9 daga Langmest að gera fyrst um sinn Allt að 300 URL/sek.
5
Síðasta heildarsöfnun 2009-02
Framkvæmd ágúst Keyrð á þrem þjónum Fjöldi léna undir .is var Erlendar slóðir voru 557 (D) A B C D Alls Lén heimsótt: 64.370 39.769 URL heimsótt: Gögn sótt: 944 GB 1,4 TB 867 GB 164 GB 3,35 TB Gögn vistuð: 680 GB (72%) 959 GB (65,5%) 667 GB (76.9%) 110 GB (66,5%) 2,35 TB (70%) Gögn óbreytt frá fyrri söfnunum: 264 GB (28%) 505 GB (34,5%) 200 GB (23,1%) 55 GB (33,5%) 1 TB (30%) Þjöppuð gögn á diskum: 412 GB (60,6%*) 630 GB (65,4%*) 439 GB (65,8%*) 66 GB (60%*) 1,5 TB (63,8%*)
6
Vikulegar safnanir Vefir sem breytast oft og geyma mikilvægt efni er safnað vikulega að auki Byrjað í viku 24, 2006 Hver söfnun tekur sólarhring Efnisval endurskoðað reglulega Stór hluti skjala er óbreyttu milli vikna DeDuplication minnkar gagnamagn um ~90%
7
Áherslumunur safnanna
Stórar safnanir Tímaás Vikulegar safnanir Umfang vefsins
8
Atburðasafnanir Ganga út á að safna vefjum tengdum ákveðnum atburð í einhvern tíma Gert fyrir síðustu 3 kosningar # Dags Tilefni Fj.sa. URL Gögn á diskum 1 16/03/ /06/2006 Sveitarstjórnarkos. 2006 15 163 GB 2 19/02/ /05/2007 Alþingiskosningar 2007 235 GB 3 30/ /05/2009 Alþingiskosningar 2009 17 319 GB
9
Stærð vefsafnsins Um 850 milljón URL ‘heimsótt’ í öllum söfnun fram að þessu Um 250 milljón reyndust óbreytt DeDuplicated Alls um 14,1 TB
10
robots.txt Fylgdum þeim í upphafi
IA gerir það, jafnvel afturvirkt Danir gera það ekki Kom í ljós að þær eru mikið misnotaðar Hindra aðgang að myndum, stílsniðum o.þ.h. Höfum ekki virt þær á mbl.is frá 2006 Virðum þær ekki almennt lengur frá nóvember 2008
11
Vefstjórar Fáum lítið af kvörtunum
Helst vegna léna með mikið af sýndarundirlénum Tillitssemi miðast við lén (host) User-agent inniheldur upplýsingar um okkur þannig að vefstjórar geta séð hver ber ábyrgð
12
Vefsafn.is Open WaybackMachine
Upprunalega WbM notar ‘proprietary’ kóða frá Alexa Open WaybackMachine er þróuð af IA með stuðningi IIPC Open Source Útfærð í Java Gerir mögulegan aðgang eftir URLum Engin textaleit Fyrsta þjóð til að opna heilstætt vefsafn fyrir allan almenning
13
Aðlaganir LBS Við höfum aðlagað ‘ingest’ og ‘index’ ferlið til að mæta okkar þörfum betur Þarf að taka saman 850 milljón skjöl úr 130 þúsund ARC skrám á 4 diskaboxum í einn index Notum Lucene Við höfum einnig útbúið ‘tímalínu’ Gerir mun auðveldara að ferðast í gegnum tíma Gefur notandanum meiri upplýsingar um síðna sem hann er að skoða
17
Næstu skref hjá íslenska vefsafninu
Textaleitir Mun erfiðara er að byggja index yfir allan þann texta sem safnað hefur verið NutchWAX Höfum gert tilraunir með kosningasafnanir Leitarniðurstöður oft lélegar Langtímavarðveisla WARC Betri eftirlit Safnanir Daglegar/samfelldar Auðvelda ‘non-techies’ að framkvæma safnanir
18
Takk fyrir Spurningar? Tengdir tenglar: http://vefsafn.is
Similar presentations
© 2024 SlidePlayer.com. Inc.
All rights reserved.