DeIC Nationale Kulturarvscluster, Statsbiblioteket DeIC-Konferencen 6. Oktober 2015 Middelfart BJARNE ANDERSEN bja@statsbiblioteket Agenda • Baggrund – Digital kulturarv – Kompetencer – Udfordringer • Hvad er Kulturarvsclusteret – Teknik – Pilotprojekter – Fremtid BJARNE ANDERSEN bja@statsbiblioteket Baggrund Hvorfor Kulturarvscluster og hvorfor lige på Statsbiblioteket? BJARNE ANDERSEN bja@statsbiblioteket Digital kulturarv på Statsbiblioteket • Netarkivet – danske hjemmesider – 20+ milliarder ”dokumenter” – 600Tbytes data – Tilvækst ~120TB hvert år • Radio/TV – 2.3 millioner timers lyd/video – Over 2Pbytes data – Tilvækst ~400TB hvert år • Digitaliserede aviser – 32 millioner sider – JP2 + OCR – Ca. 400Tbytes når vi er ”færdige” i 2017 BJARNE ANDERSEN bja@statsbiblioteket Adgang til kulturarven BJARNE ANDERSEN bja@statsbiblioteket Adgang til kulturarven BJARNE ANDERSEN bja@statsbiblioteket Adgang til kulturarven BJARNE ANDERSEN bja@statsbiblioteket Kompetencer på Statsbiblioteket • De meget store datamængder kræver – Viden om distribueret databehandling – Viden om distribuerede arkitekturer – IT drift i stor skala • Statsbiblioteket deltog i 2011-2014 i EUprojektet SCAPE – Valg af hadoop-økosystemet som ”platform” – Udviklede værktøjer til at håndtere Big Data BJARNE ANDERSEN bja@statsbiblioteket Udfordringer • Juraen er en udfordring – Persondataloven – Klausulerede data – Ophavsret • Størrelsen på data – Det er svært og dyrt at flytte Pbytes data – CPU-kraft i nærheden af data • Flere og flere forskere efterspørger ”rå” adgang • Forskerne har ikke alle de rette kompetencer BJARNE ANDERSEN bja@statsbiblioteket Det samlede billede • • • • • • Store digitale samlinger Kompetencer inden for BigData Kompliceret Jura Efterspørgsel fra forskerne Forskerne mangler kompetencer DeIC har i opdrag at udbrede HPC til nye områder (ex. humaniora) • ”Hvorfor etablerer vi ikke et Kulturarvscluster?” BJARNE ANDERSEN bja@statsbiblioteket Hvad er Kulturarvsclusteret? Hvem, hvad og hvordan….. BJARNE ANDERSEN bja@statsbiblioteket Hardware arkitektur BJARNE ANDERSEN bja@statsbiblioteket Software arkitektur BJARNE ANDERSEN bja@statsbiblioteket Open Data Platform BJARNE ANDERSEN bja@statsbiblioteket Open Data Platform HCatalog BJARNE ANDERSEN bja@statsbiblioteket IBM specifikke komponenter • • • • • • BigSQL BigSheets BigR Text Analytics IBM Spectrum Scale … BJARNE ANDERSEN bja@statsbiblioteket Hardware fase 1 • 1 management node • 9 worker nodes á 2 CPU x 18 cores 256GB RAM 32TB HD 10Gbps Ethernet Samlet 324 CPU-cores. Ca 70Tb arbejdslager 3 x 10Gbit internt + 10Gbit til Pbytes-arkivet BJARNE ANDERSEN bja@statsbiblioteket Roadmap 1. August Hardware på plads 15. September 1. pilotprojekt starter 19. Oktober Åbning 👀 Ca. 1. November 2. pilotprojekt starter Q4 2015 Åbent projektkald efter pilotprojekter Q2 2016 Prismodel for forskningsprojekter 2016-2017 Åbne projektkald efter flere piloter BJARNE ANDERSEN bja@statsbiblioteket Pilotprojekter • Probing a Nations Web Domain – Niels Brügger (AU) – Netarkivets store, heterogene og ”grisede” data • Digital Footprints – Anja Bechmann (AU) – Facebook, Twitter, Instagram fotos – Udfordring: egne data • Dansk Sprognævn – Sabine Kirchmeier-Andersen – Netarkivets data – udfordring: eget software BJARNE ANDERSEN bja@statsbiblioteket Fremtiden • Yderligere pilotprojekter finansieret af DeIC eScience-kompetencecenter • Transparent betalingsmodel – Klar til forskere med egne penge medio 2016 – Kører sideløbende med pilotprojekter • Investering i fase-2 – Har budget til ca. 10 yderligere noder – Svarer til i alt godt 700 CPU-kerner BJARNE ANDERSEN bja@statsbiblioteket Spørgsmål & kommentarer BJARNE ANDERSEN bja@statsbiblioteket
© Copyright 2024