Vefsöfnun Tæknileg útfærsla og vefsafn.is Kristinn Sigurðsson Landsbókasafn Íslands – Háskólabókasafn
Vefsafnarinn Heritrix Þróaður af Internet Archive Opin hugbúnaður Með aðstoð Landsbókasafna Norðurlandanna Opin hugbúnaður LGPL “Snapshot crawler” Ræður við mikið magn ‘Archival quality’ Útgáfa 1.0 kom út í júní 2004 LBS hefur notað hann síðan Orðin ‘staðalbúnaður’ innan IIPC
Íslenskar safnanir Grunnurinn á íslenska vefsafninu eru stórar heildarsafnanir Öllu efni safnað sem er undir .is og ekki aðgengisvarið Auk þess völdu íslensku efni og efni um ísland á erlendum lénum Framkvæmt þrisvar á ári
Heildarsafnanir .is skipt í 3 hluta og safnað óháð Keyrt nánast samtímis, sett af stað með dagsbili Söfnun tekur um 7-9 daga Langmest að gera fyrst um sinn Allt að 300 URL/sek.
Síðasta heildarsöfnun 2009-02 Framkvæmd 12-22. ágúst Keyrð á þrem þjónum Fjöldi léna undir .is var 25.127 Erlendar slóðir voru 557 (D) 2009-02-A 2009-02-B 2009-02-C 2009-02-D Alls Lén heimsótt: 177.239 64.370 204.204 39.769 485.582 URL heimsótt: 25.298.871 25.899.716 17.503.928 4.271.201 72.973.716 Gögn sótt: 944 GB 1,4 TB 867 GB 164 GB 3,35 TB Gögn vistuð: 680 GB (72%) 959 GB (65,5%) 667 GB (76.9%) 110 GB (66,5%) 2,35 TB (70%) Gögn óbreytt frá fyrri söfnunum: 264 GB (28%) 505 GB (34,5%) 200 GB (23,1%) 55 GB (33,5%) 1 TB (30%) Þjöppuð gögn á diskum: 412 GB (60,6%*) 630 GB (65,4%*) 439 GB (65,8%*) 66 GB (60%*) 1,5 TB (63,8%*)
Vikulegar safnanir Vefir sem breytast oft og geyma mikilvægt efni er safnað vikulega að auki Byrjað í viku 24, 2006 Hver söfnun tekur sólarhring Efnisval endurskoðað reglulega Stór hluti skjala er óbreyttu milli vikna DeDuplication minnkar gagnamagn um ~90%
Áherslumunur safnanna Stórar safnanir Tímaás Vikulegar safnanir Umfang vefsins
Atburðasafnanir Ganga út á að safna vefjum tengdum ákveðnum atburð í einhvern tíma Gert fyrir síðustu 3 kosningar # Dags Tilefni Fj.sa. URL Gögn á diskum 1 16/03/2006-09/06/2006 Sveitarstjórnarkos. 2006 15 19.282.365 163 GB 2 19/02/2007-31/05/2007 Alþingiskosningar 2007 25.870.995 235 GB 3 30/01-2009-12/05/2009 Alþingiskosningar 2009 17 36.658.353 319 GB
Stærð vefsafnsins Um 850 milljón URL ‘heimsótt’ í öllum söfnun fram að þessu Um 250 milljón reyndust óbreytt DeDuplicated Alls um 14,1 TB
robots.txt Fylgdum þeim í upphafi IA gerir það, jafnvel afturvirkt Danir gera það ekki Kom í ljós að þær eru mikið misnotaðar Hindra aðgang að myndum, stílsniðum o.þ.h. Höfum ekki virt þær á mbl.is frá 2006 Virðum þær ekki almennt lengur frá nóvember 2008
Vefstjórar Fáum lítið af kvörtunum Helst vegna léna með mikið af sýndarundirlénum Tillitssemi miðast við lén (host) User-agent inniheldur upplýsingar um okkur þannig að vefstjórar geta séð hver ber ábyrgð vefsofnun@bok.hi.is
Vefsafn.is Open WaybackMachine Upprunalega WbM notar ‘proprietary’ kóða frá Alexa Open WaybackMachine er þróuð af IA með stuðningi IIPC Open Source Útfærð í Java Gerir mögulegan aðgang eftir URLum Engin textaleit Fyrsta þjóð til að opna heilstætt vefsafn fyrir allan almenning
Aðlaganir LBS Við höfum aðlagað ‘ingest’ og ‘index’ ferlið til að mæta okkar þörfum betur Þarf að taka saman 850 milljón skjöl úr 130 þúsund ARC skrám á 4 diskaboxum í einn index Notum Lucene Við höfum einnig útbúið ‘tímalínu’ Gerir mun auðveldara að ferðast í gegnum tíma Gefur notandanum meiri upplýsingar um síðna sem hann er að skoða http://vefsafn.is
Næstu skref hjá íslenska vefsafninu Textaleitir Mun erfiðara er að byggja index yfir allan þann texta sem safnað hefur verið NutchWAX Höfum gert tilraunir með kosningasafnanir Leitarniðurstöður oft lélegar Langtímavarðveisla WARC Betri eftirlit Safnanir Daglegar/samfelldar Auðvelda ‘non-techies’ að framkvæma safnanir
Takk fyrir Spurningar? Tengdir tenglar: http://vefsafn.is http://crawler.archive.org http://deduplicator.sourceforge.net