Se præsentation

DeIC Nationale
Kulturarvscluster,
Statsbiblioteket
DeIC-Konferencen
6. Oktober 2015
Middelfart
BJARNE ANDERSEN
bja@statsbiblioteket
Agenda
• Baggrund
– Digital kulturarv
– Kompetencer
– Udfordringer
• Hvad er Kulturarvsclusteret
– Teknik
– Pilotprojekter
– Fremtid
BJARNE ANDERSEN
bja@statsbiblioteket
Baggrund
Hvorfor Kulturarvscluster og hvorfor lige på Statsbiblioteket?
BJARNE ANDERSEN
bja@statsbiblioteket
Digital kulturarv på
Statsbiblioteket
• Netarkivet – danske hjemmesider
– 20+ milliarder ”dokumenter”
– 600Tbytes data
– Tilvækst ~120TB hvert år
• Radio/TV
– 2.3 millioner timers lyd/video
– Over 2Pbytes data
– Tilvækst ~400TB hvert år
• Digitaliserede aviser
– 32 millioner sider – JP2 + OCR
– Ca. 400Tbytes når vi er ”færdige” i 2017
BJARNE ANDERSEN
bja@statsbiblioteket
Adgang til kulturarven
BJARNE ANDERSEN
bja@statsbiblioteket
Adgang til kulturarven
BJARNE ANDERSEN
bja@statsbiblioteket
Adgang til kulturarven
BJARNE ANDERSEN
bja@statsbiblioteket
Kompetencer på
Statsbiblioteket
• De meget store datamængder kræver
– Viden om distribueret databehandling
– Viden om distribuerede arkitekturer
– IT drift i stor skala
• Statsbiblioteket deltog i 2011-2014 i EUprojektet SCAPE
– Valg af hadoop-økosystemet som ”platform”
– Udviklede værktøjer til at håndtere Big Data
BJARNE ANDERSEN
bja@statsbiblioteket
Udfordringer
• Juraen er en udfordring
– Persondataloven
– Klausulerede data
– Ophavsret
• Størrelsen på data
– Det er svært og dyrt at flytte Pbytes data
– CPU-kraft i nærheden af data
• Flere og flere forskere efterspørger ”rå” adgang
• Forskerne har ikke alle de rette kompetencer
BJARNE ANDERSEN
bja@statsbiblioteket
Det samlede billede
•
•
•
•
•
•
Store digitale samlinger
Kompetencer inden for BigData
Kompliceret Jura
Efterspørgsel fra forskerne
Forskerne mangler kompetencer
DeIC har i opdrag at udbrede HPC til nye
områder (ex. humaniora)
• ”Hvorfor etablerer vi ikke et Kulturarvscluster?”
BJARNE ANDERSEN
bja@statsbiblioteket
Hvad er
Kulturarvsclusteret?
Hvem, hvad og hvordan…..
BJARNE ANDERSEN
bja@statsbiblioteket
Hardware arkitektur
BJARNE ANDERSEN
bja@statsbiblioteket
Software arkitektur
BJARNE ANDERSEN
bja@statsbiblioteket
Open Data Platform
BJARNE ANDERSEN
bja@statsbiblioteket
Open Data Platform
HCatalog
BJARNE ANDERSEN
bja@statsbiblioteket
IBM specifikke komponenter
•
•
•
•
•
•
BigSQL
BigSheets
BigR
Text Analytics
IBM Spectrum Scale
…
BJARNE ANDERSEN
bja@statsbiblioteket
Hardware fase 1
• 1 management node
• 9 worker nodes á




2 CPU x 18 cores
256GB RAM
32TB HD
10Gbps Ethernet
 Samlet
 324 CPU-cores. Ca 70Tb arbejdslager
 3 x 10Gbit internt + 10Gbit til Pbytes-arkivet
BJARNE ANDERSEN
bja@statsbiblioteket
Roadmap
1. August
Hardware på plads
15. September
1. pilotprojekt starter
19. Oktober
Åbning 👀
Ca. 1. November 2. pilotprojekt starter
Q4 2015
Åbent projektkald efter pilotprojekter
Q2 2016
Prismodel for forskningsprojekter
2016-2017
Åbne projektkald efter flere piloter
BJARNE ANDERSEN
bja@statsbiblioteket
Pilotprojekter
• Probing a Nations Web Domain
– Niels Brügger (AU)
– Netarkivets store, heterogene og ”grisede” data
• Digital Footprints
– Anja Bechmann (AU)
– Facebook, Twitter, Instagram fotos
– Udfordring: egne data
• Dansk Sprognævn
– Sabine Kirchmeier-Andersen
– Netarkivets data – udfordring: eget software
BJARNE ANDERSEN
bja@statsbiblioteket
Fremtiden
• Yderligere pilotprojekter finansieret af
DeIC eScience-kompetencecenter
• Transparent betalingsmodel
– Klar til forskere med egne penge medio 2016
– Kører sideløbende med pilotprojekter
• Investering i fase-2
– Har budget til ca. 10 yderligere noder
– Svarer til i alt godt 700 CPU-kerner
BJARNE ANDERSEN
bja@statsbiblioteket
Spørgsmål & kommentarer
BJARNE ANDERSEN
bja@statsbiblioteket