Vefsöfnun Tæknileg útfærsla og vefsafn.is Kristinn Sigurðsson

Slides:



Advertisements
Similar presentations
verðbréfa- markaður lánamarkaður lífeyris- markaður vátrygginga-
Advertisements

Aðferðafræði II: Inngangur að tölfræði Haust 2013
Open Badges Rafrænar viðurkenningar
Um GeoGebra 4.0, 4.2 og 5.0. Samfélagið kringum GeoGebra
Leiðsagnarnám (formative assessment)
Stefnumótun BIS Vinnufundur
LiSA Vefleit.
Margrét Jóna Einarsdóttir 24.september 2008
Leið til bjartari framtíðar
Námsmatsstofnun 21. ágúst 2012 Almar Miðvík Halldórsson
Staðlar um samfélagslega ábyrgð og fleira áhugavert
Leadership Presentation
Vinnuhópar innan Lyfjastofnunar Evrópu
Faglegir þættir og markaðstengd sjónarmið
Geðheilsuþjónusta fyrir foreldra á meðgöngu og ungbarnafjölskyldur
Hæfnikröfur 21. aldar, áhrif á skólastarf og kennsluhætti
Undirbúningur námsferða
Lehninger Principles of Biochemistry
Sturge-Weber Syndrome
Tannheilsa fólks með Down heilkenni
Endurheimt vistkerfa á Norðurlöndum - Reno
Grímur Kjartansson, öryggisstjóri hjá Auðkenni.
Gamalt vín á nýjum belgjum eða gamlir belgir með nýtt vín...
Kynningarfundur á Höfn 21. september 2009
© Setrið í Sunnulækjarskóla 2009 Öryggi SÁTT Tónlistarhringur.
Úrræðin gera gæfumuninn Eigindleg rannsókn á upplifun foreldra af að eiga barn greint með ADHD Introduce myself!! I am going to share with you some preliminary.
Íslensk netverslun Alþjóðleg verslun í litlu landi
Markaðsfærsla þjónustu
Innleiðing Kanban við verkefnastjórnun í hugbúnaðarþjónustu
Flutningstilkynningar milli landa með aðstoð rafrænna skilríkja
Guðrún Guðmundsdóttir, hjúkrunarfræðingur MS Verkefnisstjóri Geðræktar
Notkun þjóðhagsvarúðartækja á Íslandi
Economuseum Northern Europe
Hagnýting rafrænnar tækni
Eftirspurn og stýring eftirspurnar
Sigríður H. Gunnarsdóttir 27. febrúar 2008
Úrtaka Kafli 18: Survey sampling methods
Web of Science (WoS) Astrid Margrét Magnúsdóttir forstöðumaður upplýsingasviðs.
Sustainable Heritage Areas: Partnerships for Ecotourism
Er íslenskt skólakerfi "dýrt"?
Starfsgleði! dr. Árelía Eydís Guðmundsdóttir Dósent, Viðskiptadeild HÍ
Göngudeild fyrir foreldra barna með svefnvandamál
Á Íslandi.
Forðafræði svæðisins Vordís Eiríksdóttir
Stofnstærðarfræði FIF1203 vorönn 2016
Hvernig kennari vil ég verða?
Almar Miðvík Halldórsson Verkefnisstjóri PISA
Inu sinni var... nemendahópur sem samanstóð af fjórum meðlimum sem hétu Allir, Hver sem er, Einhver og Enginn. Það stóð til að vinna mikilvægt verkefni.
Innleiðing á ISN2016 Þórarinn Sigurðsson
Innleiðing og þróun leiðsagnarmats í Framhaldsskólanum í Mosfellsbæ
SMALLEST Solutions for Microgeneration to ALLow
15:30 Kynning. Flettibækur með Bookr 16:00 Veggspjöld með Glogster
Eigindlegar rannsóknaraðferðir II
Alþjóðavæðing og hagvöxtur
Hvarfljómun í lífríkinu - Bioluminescence
Pýþagorasarreglan Ef eitt horn í þríhyrningi er rétt þá er hann sagður rétthyrndur. Þá gildir eftirfarandi samband um hliðar hans: a2 + b2 = c2 Þar sem.
Barnvæn sveitarfélög Akureyri
Leikir í frístunda- og skólastarfi
Áhættuhegðun barna og unglinga Fyrirlestur haldinn 3
Árangursrík stærðfræðikennsla byrjenda
Orðasöfn, gagnabankar og vefurinn
Skólapúlsinn ársuppgjör 08-09
Hvað er framundan í skattaframkvæmd á sviði Transfer Pricing ?
Sampling and Sampling Distributions Úrtak og úrtaksdreifingar
Er íslenskt skólakerfi "dýrt"?
Iðunn Kjartansdóttir Náms- og starfsráðgjafi
Þolmörk sem stjórntæki í uppbyggingu sjálfbærrar ferðamennsku
Þjóðarstolt eða samrunaþrá
Þóra Margrét Þorgeirsdóttir
Jónína Vala Kristinsdóttir
Presentation transcript:

Vefsöfnun Tæknileg útfærsla og vefsafn.is Kristinn Sigurðsson Landsbókasafn Íslands – Háskólabókasafn

Vefsafnarinn Heritrix Þróaður af Internet Archive Opin hugbúnaður Með aðstoð Landsbókasafna Norðurlandanna Opin hugbúnaður LGPL “Snapshot crawler” Ræður við mikið magn ‘Archival quality’ Útgáfa 1.0 kom út í júní 2004 LBS hefur notað hann síðan Orðin ‘staðalbúnaður’ innan IIPC

Íslenskar safnanir Grunnurinn á íslenska vefsafninu eru stórar heildarsafnanir Öllu efni safnað sem er undir .is og ekki aðgengisvarið Auk þess völdu íslensku efni og efni um ísland á erlendum lénum Framkvæmt þrisvar á ári

Heildarsafnanir .is skipt í 3 hluta og safnað óháð Keyrt nánast samtímis, sett af stað með dagsbili Söfnun tekur um 7-9 daga Langmest að gera fyrst um sinn Allt að 300 URL/sek.

Síðasta heildarsöfnun 2009-02 Framkvæmd 12-22. ágúst Keyrð á þrem þjónum Fjöldi léna undir .is var 25.127 Erlendar slóðir voru 557 (D) 2009-02-A 2009-02-B 2009-02-C 2009-02-D Alls Lén heimsótt: 177.239 64.370 204.204 39.769 485.582 URL heimsótt: 25.298.871 25.899.716 17.503.928 4.271.201 72.973.716 Gögn sótt: 944 GB 1,4 TB 867 GB 164 GB 3,35 TB Gögn vistuð: 680 GB (72%) 959 GB (65,5%) 667 GB (76.9%) 110 GB (66,5%) 2,35 TB (70%) Gögn óbreytt frá fyrri söfnunum: 264 GB (28%) 505 GB (34,5%) 200 GB (23,1%) 55 GB (33,5%) 1 TB (30%) Þjöppuð gögn á diskum: 412 GB (60,6%*) 630 GB (65,4%*) 439 GB (65,8%*) 66 GB (60%*) 1,5 TB (63,8%*)

Vikulegar safnanir Vefir sem breytast oft og geyma mikilvægt efni er safnað vikulega að auki Byrjað í viku 24, 2006 Hver söfnun tekur sólarhring Efnisval endurskoðað reglulega Stór hluti skjala er óbreyttu milli vikna DeDuplication minnkar gagnamagn um ~90%

Áherslumunur safnanna Stórar safnanir Tímaás Vikulegar safnanir Umfang vefsins

Atburðasafnanir Ganga út á að safna vefjum tengdum ákveðnum atburð í einhvern tíma Gert fyrir síðustu 3 kosningar # Dags Tilefni Fj.sa. URL Gögn á diskum 1 16/03/2006-09/06/2006 Sveitarstjórnarkos. 2006 15 19.282.365 163 GB 2 19/02/2007-31/05/2007 Alþingiskosningar 2007 25.870.995 235 GB 3 30/01-2009-12/05/2009 Alþingiskosningar 2009 17 36.658.353 319 GB

Stærð vefsafnsins Um 850 milljón URL ‘heimsótt’ í öllum söfnun fram að þessu Um 250 milljón reyndust óbreytt DeDuplicated Alls um 14,1 TB

robots.txt Fylgdum þeim í upphafi IA gerir það, jafnvel afturvirkt Danir gera það ekki Kom í ljós að þær eru mikið misnotaðar Hindra aðgang að myndum, stílsniðum o.þ.h. Höfum ekki virt þær á mbl.is frá 2006 Virðum þær ekki almennt lengur frá nóvember 2008

Vefstjórar Fáum lítið af kvörtunum Helst vegna léna með mikið af sýndarundirlénum Tillitssemi miðast við lén (host) User-agent inniheldur upplýsingar um okkur þannig að vefstjórar geta séð hver ber ábyrgð vefsofnun@bok.hi.is

Vefsafn.is Open WaybackMachine Upprunalega WbM notar ‘proprietary’ kóða frá Alexa Open WaybackMachine er þróuð af IA með stuðningi IIPC Open Source Útfærð í Java Gerir mögulegan aðgang eftir URLum Engin textaleit Fyrsta þjóð til að opna heilstætt vefsafn fyrir allan almenning

Aðlaganir LBS Við höfum aðlagað ‘ingest’ og ‘index’ ferlið til að mæta okkar þörfum betur Þarf að taka saman 850 milljón skjöl úr 130 þúsund ARC skrám á 4 diskaboxum í einn index Notum Lucene Við höfum einnig útbúið ‘tímalínu’ Gerir mun auðveldara að ferðast í gegnum tíma Gefur notandanum meiri upplýsingar um síðna sem hann er að skoða http://vefsafn.is

Næstu skref hjá íslenska vefsafninu Textaleitir Mun erfiðara er að byggja index yfir allan þann texta sem safnað hefur verið NutchWAX Höfum gert tilraunir með kosningasafnanir Leitarniðurstöður oft lélegar Langtímavarðveisla WARC Betri eftirlit Safnanir Daglegar/samfelldar Auðvelda ‘non-techies’ að framkvæma safnanir

Takk fyrir Spurningar? Tengdir tenglar: http://vefsafn.is http://crawler.archive.org http://deduplicator.sourceforge.net