IDBS - Abteilung Datenbanken Leipzig

Implementierung von
Datenbanksystemen
(IDBS1 + IDBS2)
IDBS
Sommersemester 2015
Prof. Dr. Erhard Rahm
Universität Leipzig
Institut für Informatik
http://dbs.uni-leipzig.de
SS15, © Prof. Dr. E. Rahm
0-1
IDBS
DBS-Module

Master-Studium Informatik
–
–
–
–
–

Bachelor-Studium Informatik
–
–
–
–
–

10-202-2215 – Moderne Datenbanktechnologien (Kleines Modul))
10-202-2216 – Moderne Datenbanktechnologien (Großes Modul))
10-202-2213 – Anwendungsbezogene Datenbankkonzepte (Kleines Modul)
10-202-2214 – Anwendungsbezogene Datenbankkonzepte (Großes Modul)
10-202-2011 – Masterseminar Informatik / Seminarmodul
10-201-2211 – Datenbanksysteme 1
10-201-2212 – Datenbanksysteme 2
10-201-2210 – Datenbankpraktikum
10-201-2224 – Realisierung von Informationssystemen
10-201-2010 – Bachelorseminar Informatik / Seminarmodul
Anrechenbarkeit für Bachelor/Master Wirtschaftsinformatik und
Master Bioinformatik
SS15, © Prof. Dr. E. Rahm
0-2
IDBS
Masterstudium DBS-Profil
Moderne DBT
(5 LP)
Kernmodul 1
(5 LP)
Masterseminar
(5 LP)
Vertiefungsmodul
(10 LP)
Seminarmodul
(5 LP)
Kernmodul 2
(5 LP)
Legende:
Moderne
DBTechnologien
(10 LP)
Anwendungsspezifische
DB-Konzepte
(10 LP)
DB-Modul
Vertiefungsmodul
(10 LP)
Kernmodul
Masterarbeit
(25 LP)
Vertiefungsmodul
Ergänzungsfach 1
(10 LP)
1. Semester
SS15, © Prof. Dr. E. Rahm
BACHELOR DBS-Profil
Schlüsselqualifikation
(10 LP)
Ergänzungsfach 2
(10 LP)
2. Semester
Schlüsselqualif.
Ergänzungsfach
3. Semester
4. Semester
IDBS
0-3
Algorithmen und
Datenstrukturen 1
(5 LP)
Algorithmen und
Datenstrukturen 2
(5 LP)
DBS 1
(5 LP)
DBS 2
(5 LP)
Realisierung
von IS
(5 LP)
Kernmodul 5
(5 LP)
Modellierung und
Programmierung 1
(5 LP)
Modellierung und
Programmierung 2
(5 LP)
Softwaretechnik
(5 LP)
Softwarepraktikum
(5 LP)
Seminarmodul
(5 LP)
Bachelorseminar
(5 LP)
Technische
Informatik 1
(5 LP)
Technische
Informatik 2 inkl.
Hardwarepraktikum
(5 LP)
Kommunikationssysteme
(5 LP)
Vertiefungsmodul
(10 LP)
Bachelorarbeit
(10 LP)
Ergänzungsfach
(10 LP)
Fakultätsübergreifende
Schlüsselqualifikation
(10 LP)
Logik
(5 LP)
Analysis 1
(10 LP)
1. Semester
Java-Praktikum
(5 LP)
Kernmodul (5 LP)
Automaten und
Sprachen
(5 LP)
Berechenbarkeit
(5 LP)
Diskrete Strukturen
(5 LP)
DB-Praktikum
(5 LP)
Lineare Algebra 1
(10 LP)
2. Semester
Wahrscheinlichkeitstheorie
(5 LP)
Ergänzungsfach
(5LP)
3. Semester
4. Semester
Legende:
DBS-Modul
SS15, © Prof. Dr. E. Rahm
0-4
5. Semester
6. Semester
Inf-Pflichtmodul
MI-Modul
Mathematikmodul
Schlüsselqualif.
Ergänzungsfach
IDBS
DBS-Lehrveranstaltungen
Logo
Name
Typ
SWS
Sem.
DBS1
Datenbanksysteme 1
Einführung
2+1
WS
Datenbanksysteme 2
Einführung
2+1
SS
Name
Typ
Sem.
Vertiefung
2
WS
DB-Praktikum
Praktikum
SS
Vertiefung
2
SS
Praktikum
WS
Mehrrechner-DBS
Vertiefung
2
WS
Data Warehousing
Vertiefung
2
SS
DataWarehousePraktikum
Problemseminar
Seminar
WS
Datenintegration
Vertiefung
2
SS
Seminar
Vertiefung
2
WS
Bachelorseminar
SS+
WS
Vertiefung
2
WS
Masterseminar
Seminar
SS+
WS
Vertiefung
2
SS
Vertiefung
2
WS
DBS2
IDBS1
IDBS2
Implementierung
von DBS 1
Implementierung
von DBS 2
Bio Data
Management
OntologieManagement
Cloud Data
Management
NoSQL-DB
LV im SS15
IDBS
SS15, © Prof. Dr. E. Rahm
Mapping: Module – Lehrveranstaltungen SS15

Master-Module “Anwendungsbezogene Datenbankkonzepte” (zwei bzw. drei
Veranstaltungen für kleines bzw. großes Modul):
– IDBS 1
– IDBS2
– Cloud Data Management
– ggf. DBS2

Bachelor-Modul “Realisierung von Informationssystemen”
– IDBS1
– IDBS2 oder Cloud Data Management

Bachelorseminar / Masterseminar
– Vortrag über laufende Bachelor/Masterarbeit
– externes Seminar Uni-Außenstelle Zingst (Mai 2015)
SS15, © Prof. Dr. E. Rahm
0-6
IDBS
Leistungsbewertung

Prüfungsklausur von 60 +60 Minuten (IDBS1, IDBS2)
– Juli 2015
– überprüft konzeptionelles Wissen + Anwendungsfälle

Klausurerfolg durch
– Vorlesungsteilnahme und –nachbearbeitung
– Online-Übungen
– Literatur
SS15, © Prof. Dr. E. Rahm
0-7
IDBS
Lernziele der Vorlesung IDBS


fundierte Kenntnisse der Funktionsweise von DBS
Implementierungstechniken u.a. zur
– Sicherstellung einer hohen Performanz
– Datensicherheit





IDBS1: Verfahren zur Externspeicher-Nutzung, Verwaltung von
Pufferspeichern, Indexstrukturen, Anfrageoptimierung ...
IDBS2: Verfahren zur Transaktionsverwaltung: Synchronisation
(Concurrency Control), Logging/Archivierung, Recovery
tiefergehende Kenntnisse wichtig für DB-Administration sowie
generell für anspruchsvolle DB-Nutzung
sachkundige Beurteilung von kommerziell verfügbaren DBS
Verfahren nicht nur für Datenbanksysteme relevant (-> Big Data,
Web-/ Applikations-Server, Datei-Management,...)
SS15, © Prof. Dr. E. Rahm
0-8
IDBS
Vorlesungsübersicht IDBS1
1. Einführung
- Architektur von DBS: Schichtenmodelle
- Tuning von DBS
2. E/A-Architekturen und Speicherhierarchien
- Speichertechnologien
- Disk-Arrays
- Nicht-flüchtige Halbleiterspeicher
3. DBS-Pufferverwaltung
- Ersetzungsverfahren
4. Satzverwaltung
- Zuordnung Sätze – Seiten, Clusterung, BLOBs
- Satzadressierung
- Column Stores
SS15, © Prof. Dr. E. Rahm
0-9
IDBS
Vorlesungsübersicht (2)
5. Indexstrukturen
–
–
–
–
–
Mehrweg-Bäume
externe Hash-Verfahren
Mehrdimensionale Zugriffspfade
Bitlisten-Indizes
Text-Indexierung
6. Algorithmen zur Implementierung relationaler Operationen
– Selektion
– Verbund / Join
– Sortierung
7. Anfrageoptimierung
– Übersetzung von DB-Anweisungen
– Optimierung
– EXPLAIN
SS15, © Prof. Dr. E. Rahm
0-10
IDBS
Vorlesungsübersicht (IDBS2)
1. Einführung: Transaktionsverwaltung,
Integritätskontrolle
2. Synchronisation: Grundlagen, Sperrverfahren
–
–
–
–
–
Mehrbenutzer-Anomalien
Serialisierbarkeit
Sperrverfahren: 2PL, Hierarchische Sperrverfahren
Konsistenzstufen
Deadlock-Behandlung
3. Synchronisation: Weitere Verfahren, Leistungsbewertung
–
–
–
–
Optimistische Verfahren
Zeitstempel- und Mehrversionen-Verfahren
Spezialverfahren für B*-Bäume und „High Traffic“-Elemente
Leistungsanalyse und Lastkontrolle
SS15, © Prof. Dr. E. Rahm
0-11
IDBS
Vorlesungsübersicht (2)
4. Logging und Recovery: Grundlagen
– Begriffe und Annahmen, Fehlermodell
– Logging-Verfahren
– Klassifikation von Recovery-Strategien
5. Crash- und Medien-Recovery
– Crash-Recovery
– Platten-Recovery
6. Transaktionskonzept: Weiterentwicklungen
– Geschachtelte Transaktionen
– Transaktionsketten (Sagas)
7. DBS- Benchmarks
SS15, © Prof. Dr. E. Rahm
0-12
IDBS
Literatur
Härder, T., Rahm, E.: Datenbanksysteme - Konzepte
und Techniken der Implementierung. Springer-Verlag,
2. Auflage 2001 (Kap. 1 und 13 online)
http://dbs.uni-leipzig.de/buecher/DBSI-Buch/inhalt.html
 Weitere Lehrbücher

– Garcia-Molina, H., Ullman, J.D., Widom, J.: Database System
Implementation. Prentice Hall, 2000
– Saake, Sattler, Heuer: Datenbanken: Implementierungstechniken,
MITP-Verlag, 2011

Forschungsergebnisse
– Tagungsbände: VLDB (jährliche Konferenz "Very Large Data Bases"),
SIGMOD (Konferenz der ACM Special Interest Group on Management
of Data), IEEE Data Engineering, EDBT, BTW ...
– Zeitschriften: VLDB Journal (Very Large Data Bases), ACM TODS (Transactions on Database
Systems), Datenbank-Spektrum ...
DBLP-Portal: http://dblp.uni-trier.de
(>1 Million Referenzen, viele Links auf Volltexte, Homepages etc.)
 Google Scholar http://scholar.google.com/ (Volltexte, Zitierungsangaben)

SS15, © Prof. Dr. E. Rahm
0-13
IDBS
Online-Übungen

LOTS (Leipzig Online Test System), http://lots.uni-leipzig.de
SS15, © Prof. Dr. E. Rahm
0-14
IDBS
LOTS: Online-Übungen
SS15, © Prof. Dr. E. Rahm
0-15
IDBS
Lehrstuhl Datenbanksysteme
seit 1994 am Institut für Informatik
 Umfangreiches Lehrangebot

– Vorlesungen, Praktika, Seminare
– Online-Übungssystem LOTS
– Eigene Lehrbücher: MRDBS, IDBS, …
SS15, © Prof. Dr. E. Rahm
0-16
IDBS
Forschung
SS15, © Prof. Dr. E. Rahm
0-17
IDBS
GERMAN CENTERS FOR BIG DATA
Two Centers of Excellence for Big Data in Germany
 ScaDS Dresden/Leipzig
 Berlin Big Data Center (BBDC)
ScaDS Dresden/Leipzig (Competence Center for
Scalable Data Services and Solutions Dresden/Leipzig)




scientific coordinators: Nagel (TUD), Rahm (UL)
start: Oct. 2014
duration: 4 years (option for 3 more years)
initial funding: ca. 5.6 Mio. Euro
18
STRUCTURE OF THE CENTER
Life sciences
Service
center
Material and Engineering sciences
Environmental / Geo sciences
Digital Humanities
Business Data
Big Data Life Cycle Management and Workflows
Data Quality /
Data Integration
Knowledge
Extraktion
Visual
Analytics
Efficient Big Data Architectures
19
RESEARCH PARTNERS
 Data-intensive computing W.E. Nagel
 Data quality / Data integration E. Rahm
 Databases W. Lehner, E. Rahm
 Knowledge extraction/Data mining
C. Rother, P. Stadler, G. Heyer
 Visualization
S. Gumhold, G. Scheuermann
 Service Engineering, Infrastructure
K.-P. Fähnrich, W.E. Nagel, M. Bogdan
20
APPLICATION COORDINATORS
 Life sciences G. Myers
 Material / Engineering sciences M. Gude
 Environmental / Geo sciences J. Schanze
 Digital Humanities G. Heyer
 Business Data B. Franczyk
21
BIG DATA ANALYSIS PIPELINE
Interpretation
Privacy
Data
analysis and
visualization
Velocity
Veracity
Data
integration/
annotation
Variety
Data
extraction /
cleaning
Volume
Data
aquisition
22
BIG GRAPH DATA
Social science
Engineering
Facebook
Internet
ca. 1.3 Billion users
ca. 2.9 Billion Users
ca. 340 friends per user
Twitter
ca. 300 Million users
ca. 500 Million Tweets per day
Life science
Gene (human)
20,000-25,000
ca. 4 Million individuals
Patients
> 18 Millionen (Germany)
Illnesses
> 30.000
Information science
World Wide Web
ca. 1 Billion Websites
LOD-Cloud
ca. 31 Billion Triples
23
GRAPH ANALYTICS ON HADOOP
Comprehensive, scalable and generic framework for
management and analysis of diverse graph data
24
Graph Visualization
Visual Workflow Definition
Graph Operators
Pipeline Execution
Bulk
Load
Graph Repository
Backend Frontend
GRADOOP – HIGH LEVEL ARCHITECTURE
Control
Data
Bulk
Write
Distributed Storage
Shared Nothing Cluster
25