Hadoop 2 als universelle Data Processing Platform Zeitgemäße

Jobs im Wandel:
Mi
tD
VD
Was Big Data für
Informatiker bedeutet
2/2015
Auf der
Heft-DVD
Über 8 GByte Software
für Entwickler
Multimedia: 5 Videos zur
Hochleistungsdatenbank
EXASolution
Hadoop: Cloudera’s
Distribution Including
Hadoop (CDH)
IDEs: Eclipse,
IntelliJ IDEA, Juno
Tools, Datenbanken, Sprachen:
Enterprise-Search-Engines, Big-DataFrameworks, NoSQL-/NewSQLDatenbanken, Programmiersprachen
Literatur: MongoDB –
Der praktische Einstieg
(Auszüge), Visual
Business Analytics
(Auszüge)
Big Data
Mehr als nur MapReduce:
Was ist wichtig im
Hadoop-Ökosystem?
Hadoop 2 als universelle
Data Processing Platform
SQL, NoSQL, NewSQL, In-Memory:
Zeitgemäße
Datenbanktechniken
unter der Lupe
Enterprise Search
mit Apache Solr und
Elasticsearch
JavaScript, Python, R und Julia:
Die wichtigsten Programmiersprachen
zur Datenanalyse und Datenvisualisierung
Datengetriebene IT-Projekte:
Data Science – neue Königsdisziplin der Datenerhebung
Big Data und Datenschutz
EDITORIAL
Kein Ende der Fahnenstange
D
er Begriff „Big Data“ ist in den letzten zehn Jahren
sicherlich überstrapaziert worden. Begünstigt durch
zunehmend billiger werdenden Hauptspeicher und
Mechanismen paralleler Programmierung zur schnellen Datenverarbeitung haben sich Analysten, Marketingabteilungen unterschiedlichster Firmen sowie Konferenz- und Schulungsanbieter schnell auf die mit Big Data verbundenen Techniken und
Schlagwörter gestürzt. Die Folge war ein klassischer Hype mit
all seinen Sonnen- und Schattenseiten. So ist eine stark vom
Big-Data-Framework Apache Hadoop und seinem Ökosystem
getriebene technische Basis entstanden, die es allerdings erst
mal zu monetarisieren gilt.
Viele unserer Leser waren zu Recht erst mal skeptisch, selbst
noch 2012, als der Branchenverband BITKOM Big Data zum
Trend ausrief, und auch noch 2014, als die CeBIT Big Data
zum Leitthema kürte. So attraktiv die immer wieder zitierten
Anwendungsszenarien und so erschreckend bis faszinierend
die Datensammelwut beispielsweise einer NSA sind, fehlte es
vielen Unternehmen lange Zeit an der Idee oder Strategie, wie
sich aus ihren großen Datenmengen geschäftsrelevante Informationen mit Gewinn ziehen lassen. Das ändert sich nun so
langsam, wie ich in Gesprächen auf unser eigenen Big-DataKonferenz data2day erfahren durfte, die im November letzten
Jahres ihre Premiere hatte.
So wie insgesamt für das Thema Big Data, was eine Studie des
Jobportals Dice.com insofern bestätigt, dass sich unter den
Top 10 der bestbezahlten Skills sieben Schlagwörter aus dem
Big-Data-Umfeld befinden: Cassandra, MapReduce, Cloudera,
HBase, Pig, Flume und Hadoop. (Unter den Top 20 sind es
gar 14: Hier kommen Hive, NoSQL, ZooKeeper, Data Architect, Data Scientist, Solr und Big Data hinzu.) Die Nachfrage
treibt ganz eindeutig die Honorare in die Höhe.
Mag es auf Wirtschafts-, Job- und Projektseite signifikant
vorwärtsgehen, ist selbst bei Hadoop womöglich noch lange
nicht das Ende der Fahnenstange erreicht. So vermeldete der
bei Cloudera angestellte Hadoop-Schöpfer Doug Cutting Mitte
März 2015 immer noch eine jährliche Verdopplung der Hadoop-Anwender. Das bedeutet zugleich, dass über die Hälfte
der Nutzer Einsteiger in das Thema sind. Für sie mag das Sonderheft den größten Wert haben, aber auch für alle anderen
an Big-Data- und NoSQL-Themen Interessierten haben wir
Lesenswertes konfektioniert.
Wir wünschen Ihnen viel Spaß bei der Lektüre.
ALEXANDER NEUMANN
Und auch die Artikel in diesem Sonderheft deuten darauf hin,
dass Big Data mittlerweile mehr als nur ein skeptisch zu sehender Hype zu zugegebenermaßen reifen Techniken ist. Beispielsweise hat sich mit den Data Scientists eine eigene Berufsgruppe
herausgebildet, für nicht wenige die derzeit spannendste in der
IT. Für die damit verbundenen Fähigkeiten – Klaas Wilhelm
Bollhöfer skizziert sie im Heft als Mischung aus klassischem
Ingenieursstudium, programmatischen und mathematischen
Grundlagen sowie Business- und Design-Denken aus der Internet-Ära – sind Experten natürlich nicht so einfach zu finden.
iX Developer 2015 – Big Data
3
INHALT | IX DEVELOPER
Big Data
Big Data ist mittlerweile mehr als nur ein Hype.
Die Techniken und Konzepte dahinter sind branchenübergreifend angekommen, und Unternehmen haben
begonnen Big Data in ihre Prozesse und Kultur einzubinden.
ab Seite 7
Hadoop
Big Data ohne Apache Hadoop – irgendwie nicht vorstellbar. Und doch ist Big Data weit mehr als nur Hadoop.
Schließlich ist ein ganzer Zoo mit das Framework unterstützenden oder mit ihm konkurrierenden Projekten
entstanden. Selbst mit dem guten alten SQL lässt sich
hier schon einige Zeit arbeiten.
ab Seite 29
Big Data
Apache Spark
Hadoop-Konkurrent mit In-Memory-Technik
Trends
Aus Informationshalden
wertvolle Erkenntnisse filtern
Hadoop konkret
8
Klaas Wilhelm Bollhöfer
zum Status quo von Big Data im Gespräch
14
Datengetriebene IT-Projekte im Wandel
16
Recht
Big Data und (Datenschutz-)Recht
18
Security
Strategien zum Schutz der
Big-Data-Datenbestände und -Infrastruktur
Mapper- und Reducer-Scheduling in Hadoop
50
Geodaten mit Hadoop und Hive verarbeiten
54
NoSQL
Überblick
Traditionelle und moderne Datenbanktechnik
MapReduce/YARN
NoSQL-Datenbank MongoDB
60
Erste Gehversuche mit MongoDB
64
Hochverfügbare, performante und
skalierbare Webanwendungen mit Apache Cassandra
70
Graphendatenbanken
30
Ökosystem
Was ist an Neo4J und Konsorten besonders?
76
Abfragesprachen für Graphendatenbanken
83
Die wichtigsten Projekte der Hadoop-Community
36
Moderne Datenbanksysteme
Der Hadoop-Markt unter wirtschaftlichen Aspekten
44
Konzepte und Anwendungsfälle von In-Memory Computing
4
58
Dokumentenorientierte Datenbanken
24
Hadoop
Hadoop 2 als universelle Data Processing Platform
46
89
iX Developer 2015 – Big Data
NoSQL
Relationale Datenbanken haben seit geraumer
Zeit eine ernstzunehmende Konkurrenz bekommen.
Denn die unterschiedlichen NoSQL-Konzepte erfüllen
in vielen Fällen die heutigen Anforderungen an Datenbanken viel besser als die arrivierten relationalen
Vertreter. Wären da nicht schon wieder andere Trends
wie NewSQL & Konsorten …
ab Seite 57
Analyse und
Programmiersprachen
Data Science ist das Hype-Thema im Big-Data-Umfeld
schlechthin. Wie gut, dass die Data Scientists bei ihrer
Analyse schon auf bewährte Patterns, Werkzeuge und
Programmiersprachen zur Visualisierung ihrer Daten
zurückgreifen können.
ab Seite 115
SQL-Entwicklung für Process Mining auf SAP HANA
94
NewSQL-Datenbanken: SQL liebt NoSQL
98
Sprachen zur Datenanalyse
NoSQL-Vergleich
MongoDB, Elasticsearch, Riak – dreimal das Gleiche?
102
Enterprise Search
Wie Apache Solr und Big Data unter einen Hut passen
106
Elasticsearch erfolgreich skalieren
110
Python für Data Science und Big Data
142
R mit großen Daten: Tipps und Tricks
für effiziente R-Programme
146
Julia: Neue dynamische und trotzdem performante
Programmiersprache
150
Sonstiges
Analyse
Data Science
Neue Königsdisziplin der Datenerhebung
und -analyse
Programmiersprachen
116
Editorial
3
DVD-Inhalt
6
Inserentenverzeichnis
125
Impressum
125
Entwurfsmuster
Analytics Design Patterns
122
Einführung in die Datenvisualisierung
126
Datenvisualisierung mit der JavaScript-Bibliothek D3.js
132
Karl van den Bergh und Michael O’Connell
von Tibco im Gespräch
138
iX Developer 2015 – Big Data
Artikel mit Verweisen ins Web
enthalten am Ende einen Hinweis
darauf, dass diese Webadressen auf dem Server der iX abrufbar sind.
Dazu gibt man den iX-Link in der URL-Zeile des Browsers ein. Dann
kann man auch die längsten Links bequem mit einem Klick ansteuern.
Alternativ steht oben rechts auf der iX-Homepage ein Eingabefeld
zur Verfügung.
Alle Links: www.ix.de/ix1514SSS
Data Visualization
5
SERVICE | DVD-INHALT
Auf der Heft-DVD
Sponsored Content
EXASolution
Die Hochleistungsdatenbank EXASolution hält ihre Daten spaltenorientiert verteilt über die Knoten eines Clusters im Hauptspeicher
und soll sich dadurch vor allem für schnelle Auswertungen in
Data Warehouses eignen. Sie entstand aus Forschungsprojekten
der Universitäten Jena und Erlangen und führt mehrere TPC-HBenchmarks für Data Warehouses unterschiedlicher Datengröße
an. Auf der DVD gibt es das technische Whitepaper „A Peek
under the Hood“ zu EXASolution sowie die folgenden Videos:
Integration von Geodaten ermöglicht räumliche Analysen:
ein Beispiel, wie die Analyse von Geodaten über EXASolution
aussehen kann.
EXASolution versus Natural Language Processing: ein Praxisbeispiel, wie benutzerdefinierte Funktionen (User-Defined Functions; UDFs) in EXASolution zu integrieren sind, um Sprachverarbeitung direkt in der Datenbank zu ermöglichen.
Big-Data-Analysen mit Skyline: Skyline ist ein neues AnalyseWerkzeug in EXASolution, das unter Berücksichtigung unterschiedlicher Bewertungskriterien eine Vorauswahl aus großen
Datenmengen über mehrere Dimensionen hinweg trifft.
Skyline – ein praktisches Beispiel: Das multidimensionale Optimierungstool „Skyline“ erspart das mühevolle Sortieren, Filtern und
die subjektive Bewertung unüberschaubar großer Datenmengen.
Performance und Geschwindigkeit statt Schneckentempo und
Frustration: allgemeiner Überblick über die Möglichkeiten des InMemory Computing mit der Hochleistungsdatenbank EXASolution.
Hadoop
Cloudera’s Distribution Including Hadoop (CDH) 5.3.0
Die Open-Source-Sammlung umfasst die Kernkomponenten von
Hadoop zur verteilten und ausfallsicheren Speicherung und Verarbeitung großer Datenmengen. Darüber hinaus sind Werkzeuge
für Sicherheit, Hochverfügbarkeit und Integration in bestehende
Datenlandschaften enthalten. CDH ist unter der Apache-Lizenz
verfügbar und eine der verbreitetsten Hadoop-Distributionen und
wird für Tests, Entwicklung und den Betrieb großer Cluster verwendet. Auf der DVD befindet sich ein VMware-Image, das insbesondere Einsteigern helfen kann, sich schnell einen Überblick
zu verschaffen.
Freie IDEs
Eclipse 4.4.2: das zweite Service Release der Entwicklungsumgebung in der Luna-Distributionen für Java-Entwickler.
IntelliJ IDEA 14.0.3: die Community Edition der polyglotten
Java-Entwicklungsumgebung.
Literatur
Auszüge aus den dpunkt-Büchern:
MongoDB – Der praktische Einstieg:
Kompakt und anhand zahlreicher Beispiele
führt das MongoDB-Buch von Tobias
Trelle in die Nutzung von MongoDB ein.
Auf der Heft-DVD finden Leser auf 56 Seiten Leseauszüge zur Einführung in dokumentenorientierte NoSQL-Datenbanken
und insbesondere MongoDB. Außerdem
werden Hilfen zur Installation gegeben und
die Konzepte hinter MongoDB erklärt.
Visual Business Analytics – Effektiver
Zugang zu Daten und Informationen:
Das Buch von Jörn Kohlhammer, Dirk U.
Proff und Andreas Wiener zeigt Wege auf,
wie aus Daten mittels Visualisierung entscheidungsrelevante Informationen für
den Empfänger werden. Auf rund 70ˇSeiten
als Leseauszüge geben die Autoren einen
grundsätzlichen Einblicke in die Visualisierung von Daten und Informationen
sowie des Weiteren in das Zusammenspiel von Big Data
und Visual Analytics.
Listings und Lizenzen
Die Listings zu den Heftartikeln und die Lizenzen zu den Softwarepaketen auf der Heft-DVD.
Juno: eine freie IDE für die Programmiersprache Julia.
Tools, Datenbanken, Sprachen
Enterprise Search: Apache Solr, Elasticsearch
Big-Data-Frameworks: Apache Drill, Apache Giraph,
Apache Hadoop, Apache Hive, Apache Spark, Apache Storm
NoSQL-Datenbanken: Apache Cassandra,
Apache CouchDB, MongoDB, Neo4J, Redis, Riak
NewSQL-Datenbanken: Apache Phoenix, Apache Tajo,
Kylin, PostgresXC, Presto
Hinweis für Käufer
• PDF- und iPad-Version: In der iX-App finden Sie einen
Button zum Download des DVD-Images.
• PDF-E-Book: Folgen Sie im Browser der unter
„Alle Links“ angegebenen URL.
Alle Links: www.ix.de/ix1514006
x
Programmiersprachen: Julia, Python, R
6
iX Developer 2015 – Big Data
Grundlagen
Big Data ist mittlerweile mehr als nur ein Hype, den Tool-Hersteller sowie
Konferenz- und Schulungsorganisatoren auszuschlachten wünschen. Die hinter
Big Data, NoSQL & Co. gesehenen Techniken und Konzepte sind vielmehr
branchenübergreifend angekommen – bis hin zu der Tatsache, dass Unternehmen Big Data in ihre Prozesse und Kultur einbinden.
Big Data: Aus Informationshalden wertvolle Erkenntnisse finden
8
Klaas Wilhelm Bollhöfer zum Status quo von Big Data im Gespräch
14
Datengetriebene IT-Projekte im Wandel
16
Big Data und (Datenschutz-)Recht
18
Strategien zum Schutz der Big-Data-Datenbestände und -Infrastruktur
24
iX Developer 2015 – Big Data
7
GRUNDLAGEN | BIG DATA
Aus Informationshalden wertvolle Erkenntnisse filtern
Raffinierte Daten
Achim Born
Die rasant anwachsenden Informationsmengen gelten als Rohöl des digitalen
Zeitalters. Wird der Rohstoff zum Treibstoff
„Wissen“ veredelt, sprechen Wirtschaftsanalysten gerne von „Big Data“ und
verneigen sich in Ehrfurcht. Anbieter
von Analyse- und Datenmanagementwerkzeugen jedenfalls wittern
lukrative Geschäfte.
I
st es noch Politik oder schlichtweg geschicktes datenbasiertes
Kampagnenmanagement? US-Präsident Barack Obama genügten jedenfalls nur zwei Prozent der Wählerstimmen, um
sich gegen seinen republikanischen Herausforderer Mitt Romney durchzusetzen. Sein Wahlkampfteam schöpfte gezielt die
Eigenart des US-Wahlrechts aus, nach der in den Bundesstaaten
der jeweilige Kandidat mit relativer Mehrheit sämtliche Stimmen der Wahlmänner erhält. Entscheidend für die Wiederwahl
war deshalb der Wahlausgang in den neun sogenannten Swing
States. Wer hier die Mehrheit der Wechselwähler auf seine Seite
ziehen kann, hat schon so gut wie gewonnen.
Selbstverständlich ist diese Erkenntnis nicht neu. Ungewöhnlich ist jedoch, mit welcher Konsequenz Obamas Wahlkampf-Team moderne Analyseverfahren und umfangreiche Datensammlungen einsetzte, um seinen Aktivitäten maximale
Treffsicherheit zu verleihen. Beispielsweise führte man Informationen über Konsumenten, Wahlverhalten, Sponsoren, Wahlhelfer et cetera aus allen zugänglichen Datenquellen zusammen
und erhielt so statistisch untermauerte Profile der typischen
Wechselwähler und deren Wahlverhalten. Mit diesen Modellen
spielte das Team Aktionsalternativen mit dem Ziel durch, für
unterschiedliche Personen(kreise) stets die richtige Strategie sowie die sinnvollste Ansprache parat zu haben und die Werbemittel passgenau zu verteilen. Kontinuierlich fütterte man das
System mit den konkreten Erfahrungen der Wahlhelfer – also
mit der Reaktion der Wähler auf die Aktionen – und konnte es
so immer weiter optimieren.
Der Kopf hinter den Projekten mit den wohlklingenden Titeln
Narwhal (Echtzeit-Zusammenführung der Daten) und Dreamcatcher (Textanalyse) ist der Wissenschaftler Rayid Ghani. Er
hatte bereits Analyseprogramme geschrieben, mit deren Hilfe
8
sich die Effizienz von Werbemaßnahmen für Supermärkte verbessern lässt. Seine Kenntnisse ließ Ghani in die Programmierung der Wahlkampf-Algorithmen einfließen, mit deren Hilfe
unter anderem die Demokraten-affine Softwareschmiede NGP
VAN ein entsprechendes Kampagnenmanagement via Facebook
& Co. auf die Beine stellte.
US-Wahlkampf zeigt das Potenzial
Wie hoch ihr Anteil an der Wiederwahl tatsächlich war, lässt
sich trefflich diskutieren. In jedem Fall bestätigt das Beispiel
einmal mehr das (Vor-)Urteil, dass Politik in erster Linie „Verkaufen“ heißt. Überspitzt formuliert: Der datengefütterte Politikbetrieb wird in den USA zur neuen Normalität. Mit Stolz
wirbt NGP VAN damit, dass ihr auch durch Zukäufe stetig
wachsendes Tool-Angebot die Plattform nahezu jeder größeren
Kampagne der Demokraten bildet. Das Kampagnenmanagement
in der US-Politik ist zugleich ein wunderbarer Beleg für den
Nutzen einschließlich aller kritikwürdigen Begleiterscheinungen, der in der intelligenten Kombination und der ausgefeilten
Analyse umfangreicher Datenmengen vermutet wird.
Wirtschaftsanalysten und Softwarestrategen nutzen in diesem Kontext gerne und häufig Kunstwörter wie Big Data und
Smart Data, ziehen vermehrt aber auch eher technisch anmutende Termini wie Predictive Analytics hinzu. Die Begriffe einten die Vorstellung, dass die Auswertung extrem großer Datenvolumina unterschiedlicher Herkunft und Zusammensetzung zu
Erkenntnissen führen, die bares Geld bedeuten. Allein für die
Behördenlandschaft in der EU ermittelte das McKinsey Global
Institute (MGI) in einem vor knapp vier Jahren veröffentlichten
iX Developer 2015 – Big Data
Report das Einsparpotenzial auf 250 Mrd. Dollar jährlich. Den
Fertigungsunternehmen stellten die Berater eine siebenprozentige Verbesserung ihrer Liquidität in Aussicht. Fünf Aufgabenkomplexe sollen vom geschickten Umgang mit den Daten profitieren. Dazu zählen das Schaffen von Transparenz etwa in der
Betrugserkennung, Simulationen zu den Wirkungen potenzieller Maßnahmen, feingliedrige Markt- und Kundengruppensegmentierung sowie die datengestützte Entscheidungsfindung im
operativen Betrieb, indem etwa der Materialeinsatz in der Produktion automatisiert mit der Wetterprognose abgestimmt wird.
Selbst gänzlich neue Geschäftsprozesse sind nach Ansicht der
Autoren denkbar, wenn etwa Standortdaten und Klickstatistiken
zu orts- und zeitabhängigen Preisberechnungen und Aktionsangeboten führen.
Die allgemein gehaltenen Vorschläge bergen wenig Überraschendes. Das gilt gleichfalls für die mehr als 40 „erprobten
Praxis-Beispiele“ aus Wirtschaft und Verwaltung, die der Branchenverband BITKOM für seinen jüngsten Leitfaden zusammentrugˇ[1]. Denn die angeführten Zielsetzungen haben – wenn
auch unter anderem Schlagwort – interessierte Kreise schon seit
längerem diskutiert. Die Logistikbranche bewegt beispielsweise
seit Jahren die Vorstellung, durch eine Verknüpfung der Daten
zu Verkehrsfluss und Warentransportkette die Verkehrsströme
entzerren und die Güterströme optimieren zu können. Ebenso
wird in der Fertigung eine feingliederige, automatisierte Steuerung des Materialflusses mit (RFID-)Sensorik diskutiert. Dass
sich aus den Kauftransaktionen und dem Kaufverhalten Rückschlüsse für Produktzusammenstellungen oder die Shop-Gestaltung ergeben, ist nicht erst mit dem Auftauchen von Amazon
für viele Handelskonzerne lange gelebte Praxis.
Die Vermessung der Welt
Quelle: [1]
Doch was steckt hinter dem Wandel, der Big Data bedeutet. Daten aus sozialen Medien, Nachrichten- und Video-Feeds, Maschinen- und Sensordaten, geographische Bezüge, Click-Streams,
Server-Logs – an vielen Stellen fallen heute Datenströme zum
Teil in hoher Frequenz an, die alles und jeden vermessen. Allein
für 2012 veranschlagte IDC das erzeugte Datenvolumen auf
2,8ˇZettabyte (ein Zettabyte entspricht 1021ˇByte). 2020 soll es
40ˇZettabyte betragen. Kurzum: Daten, einer der wichtigsten
Rohstoffe der Wirtschaftswelt stehen nicht nur im Übermaß zur
Verfügung, das „Rohöl heutiger Tage“ sprudelt aus diversen
Quellen kräftig weiter. Aus diesen Rohdaten gilt es nun, guten
Treibstoff für die tägliche Arbeit in Form aussagekräftiger Informationen und Wissensinhalte zu raffinieren.
„Wenn dieser Rohstoff veredelt werden soll, berührt das die
gesamte Prozesskette – von der Akquisition und Integration der
Daten bis hin zur Auswertung und Präsentation für den Anwender“, meint Carsten Bange, Geschäftsführer des Forschungsunternehmens Barc. „Bei Big Data dreht es sich folglich nicht nur
um große Datenvolumina. Es handelt sich immer auch um Verfahren und Methoden für das skalierbare Sammeln und Analysieren von Informationen, die in verschiedenen, häufig nicht
vorhersagbaren Strukturen vorliegen.“ Aus technischer Warte
gilt es, die vielschichtigen Informationen im geeigneten Kontext
schnell auszuwerten und nutzbar zu machen. Dazu müssen die
zugehörigen Werkzeuge und Techniken die vier wesentlichen
Facetten von Big Data bedienen: Volume (Datenmenge), Variety
(Quellen- und Formatvielfalt) und Velocity (schnelles Datengenerieren sowie Analytics (Erkennen von Zusammenhängen).
Letzteres wird auch gerne durch ein viertes V-Wort – Value –
ersetzt, um den Wertschöpfungsaspekt der Daten zu betonen.
Die vier Vs von Big Data
Jedes dieser vier Vs (über-)fordert allein schon die Möglichkeiten der in Unternehmen verfügbaren IT. Vor diesem Hintergrund
kann man die Einschätzung von Berater Wolfgang Martin folgen, dass die traditionellen Business-Intelligence-Techniken
zum Analysieren von Daten nicht mehr ausreichen und in Teilen
sogar obsolet werden. Es sind vornehmlich die in der betrieblichen Transaktionsverarbeitung groß gewordenen SQL-Datenbanksysteme, die auf die anstehenden Aufgaben denkbar
schlecht vorbereitet sind. Ihr Datenmodell ist konsequent auf semantische Integrität und Datenkonsistenz angelegt. Angesichts
der strukturierten und gut dokumentierten Daten, die von der
gewöhnlichen Unternehmens-IT in überschaubarer Menge angeliefert wird, lässt sich die formale Strenge dieser ACIDEigenschaften (Atomicity, Consistency, Isolation und Durability) weithin durchhalten. Bei extremen Datenmengen mit
unterschiedlichsten Formaten und Strukturen funktioniert das
Konzept jedoch nicht mehr. „Im Big Data verliert die relationale Datenmodellierung ihren Alleinstellungsanspruch: Sie
wird durch alternative Modellierungsmethoden ergänzt, die auf
schnelles und hochperformantes Suchen und Lesen ausgelegt
sind“, benennt Martin eine der grundlegenden Veränderungen
in diesem Zusammenhang. Das Management der Daten in re-
Datenmenge (Volume)
Datenvielfalt (Variety)
Anzahl von Datensätzen und Files
Fremddaten (Web etc.)
Yottabytes
Firmendaten
Zettabytes
Exabytes
unstrukturierte, semistrukturierte,
strukturierte Daten
Petabytes
Präsentationen | Texte | Video | Bilder | Tweets | Blogs
Terabytes
Kommunikation zwischen Maschinen
Big Data
Datengenerierung in hoher
Geschwindigkeit
Übertragung der konstant erzeugten Daten
Echtzeit
Millisekunden
Big Data umfasst
im Wesentlichen vier
Facettenˇ(Abb. 1).
iX Developer 2015 – Big Data
Sekunden | Minuten | Stunden
Geschwindigkeit (Velocity)
Erkennen von Zusammenhängen,
Bedeutungen, Mustern
Vorhersagemodelle
Data Mining
Text Mining
Bildanalytik | Visualisierung | Realtime
Analytics
9
GRUNDLAGEN | BIG DATA
lationalen Datenbanksystemen (RDBMS) mit der Sprache SQL
war und ist für die betriebswirtschaftliche Transaktionsverarbeitung etwa bei der Verwaltung von Aufträgen fraglos eine
gute Sache. Schon für die analytischen Aufgaben musste man
jedoch den Umweg über Aggregation und Vorverdichtung ausgewählter Datenperspektiven zu mehrdimensionalen Informationswürfeln gehen, um die konzeptionellen Schranken der
RDBMS zu überwinden.
Anstoß aus dem Web
Quelle: S.A.R.L. Martin
Es waren die großen Web-2.0-Plattformen, allen voran Amazon,
Facebook, Google und Twitter, die nach Alternativen im Datenmanagement suchten beziehungsweise – genauer formuliert –
suchen mussten. Denn beim Betrieb eines Online-Shops, eines
sozialen Netzes oder Vergleichbarem sind extrem schnelle Auswertungen und Antwortzeiten entscheidend – unabhängig davon,
wie viele Nutzer gerade aktiv und wie viele Daten aktuell zu bearbeiten sind. Eine serverfokussierte Infrastruktur mit einem zentralen relationalen Datenbanksystem stellt in diesem Punkt
zwangsläufig einen Flaschenhals dar. Aus diesem Grund wurde
eine Reihe von Projekten initiiert, neue Datenbank-Techniken
zur Überwindung des Engpasses zu entwickeln. Die zum Teil
recht unterschiedlichen Ansätze, die unter dem Begriff NoSQL
(Not only SQL) subsumiert sind, eint aus technischer Perspektive, dass sie die Design-Prinzipien Skalierbarkeit und Flexibilität
vor einengende formale Strenge à la SQL/RDMS stellen.
Die Idee dahinter heißt in der Regel, dass letztlich der einzige
bezahlbare Weg zu mehr Geschwindigkeit und beliebiger Skalierbarkeit nur über das geschickte Verteilen von Arbeit und Daten auf mehrere Server bedeutet. Techniken zum Fragmentieren
und Partitionieren (Sharding) sollen den gewünschten Leistungsschub durch parallele Abarbeitung bewirken. Selbst redundante Datenhaltung – ein Unding nach dem Normalform-Gebot
der relationalen Theorie – unterstützen viele NoSQL-Ansätze.
Dafür nimmt man sogar für eine gewisse Zeit Inkonsistenzen in
Kauf und verzichtet gänzlich auf Sperren. Mit BASE (Basically
Available, Soft State, Eventually Consistent) wurde auch flugs
ein hübsches, wenn auch nicht ganz korrektes Gegenakronym
zu ACID erfunden. Die Integrität verantwortet bei NoSQL in
erster Linie der Programmablauf und nicht wie bei den RDBMS
das Datenmodell. Mitunter greifen Vertreter beziehungsweise
Projekte (CouchDB, HBase etc.) zur Koordination konkurrierender Zugriffe auch schon einmal auf das Konzept Multi-Version Concurrency Control (MVCC) zurück, das bei traditionellen relationalen Systemen wie PostgreSQL oder SQL Server
Verwendung findet.
Meist kommt in den NoSQL-Systemen das vergleichsweise
unkomplizierte Key-Value-Modell zum Einsatz, das den flachen Dateisystemen eines Betriebssystems ähnelt. Ein Zeiger
(Schlüssel) verweist auf einen Datensatz beliebigen Formats.
Komplexe Operationen sind hiermit nicht möglich und werden
im Umgang mit den unstrukturierten Daten etwa für Warenkörbe auch nicht benötigt. Die gleichfalls in die NoSQL-Kategorie
fallenden Graphen- oder dokumentenorientierten Datenbanken
(InfiniteGraph, Neo4j bzw. CouchDB, MongoDB) bieten geeignetere Datenmodelle. Ihr Name lässt den Einsatzschwerpunkt erkennen. Mit Graphen-Techniken bilden beispielsweise
Facebook, Google & Co. Beziehungen ab, statt diese aufwendig über komplexe Abfragen mit JOINS oder Ähnlichem zu ermitteln. Stehen komplexere Analysen und Simulationen im Fokus, ziehen NoSQL-Vertreter häufig das Designprinzip einer
spaltenorientierten Anordnung (Amazon SimpleDB, Hadoop,
SAP HANA) heran.
Abhängig vom Marktauftritt und Einsatzschwerpunkt unterscheiden sich die Angebote zum Teil deutlich. Erste, brauchbare
Orientierungshilfe liefert hier das CAP-Theorem (Consistency,
Availability und Partition Tolerance). Es beruht auf dem simplen
Umstand, dass sich in verteilten Systemen immer nur zwei Eigenschaften kombinieren lassen. Entsprechend muss ein Interessent nur prüfen, welche Stärken sein System besitzen muss.
Nathan Hurst hat hierzu bereits vor einiger Zeit ein Dreieck mit
C, A und P als Eckpunkte vorgeschlagen und eine Zuordnung
vorgenommen, die auch heute noch im Groben gelten kann.
Das verbreitetste NoSQL-Projekt stellt fraglos Hadoop dar.
Das Open-Source-Framework entwickelt sich zu einer Art Lingua franca für das Durchführen von Rechenprozessen mit großen Datenmengen auf Rechner-Clustern beeindruckender Größenordnungen. Rund um Hadoop ist in der Zwischenzeit ein
klangvolles Ökosystem aus Distributionen, Produkten und Mitspielern (siehe
Kasten) entstanden, dessen (Markt-)Bedeutung nicht der hohen Präsenz in der
öffentlichen Wahrnehmung entspricht.
Social
Media
Lokalisierrungsdaten
Data Discovery
RFID
Location Intelligence
Ereignisse,
Sensoren
operative
Daten
Big Data
Call Data
Records
Quellenidentifikation
Quellenextraktion
Textanalytik
Data/Text Mining
Search
Files, XML,
Spreadsheets
Anreicherung
Data
Warehouse
Maschinendaten
Big-Data-Management
Big-Data-Analytik
analytische und NoSQL-Datenhaltungssysteme
Big Data bedeutet nicht nur Datenflut aus unterschiedlichsten Quellen. Es umfasst auch
Daten-Management und Analyse-Konzepteˇ(Abb.ˇ2).
10
Hadoop – alle mischen
irgendwie mit
Die Wertschätzung, die Hadoop erfährt,
lässt sich auch an der breiten Unterstützung seitens der Business-IntelligenceAnbieter ablesen. Spezialisten wie Jaspersoft, Tableau, Pentaho, Qlik, aber auch
Schwergewichte wie Oracle, Microsoft,
SAP und SAS zählen zu den Supportern.
Die Aufnahme beziehungsweise Einbindung von Hadoop in die traditionelle Welt
der Analysewerkzeuge und Data Warehouses ergibt durchaus Sinn. Denn im
Allgemeinen eignen sich Hadoop-Anwendungen mit MapReduce-Analyse aufgrund ihrer Größe und Latenzzeit nur beiX Developer 2015 – Big Data
dingt für interaktive Aufgaben, denn sie arbeiten vornehmlich im
Batch-Betrieb. In anderen Worten: Für die dritte V-Dimension
(Velocity) findet sich im Kern-Hadoop-Projekt (noch) keine befriedigende Antwort.
An diversen Stellen hat die Web-2.0- und Hadoop-Gemeinde
jedoch eine Reihe interessanter Vorhaben gestartet, die mehr
Tempo und Interaktivität versprechen. Cloudera (Impala) und
IBM (BigSQL/InfoSphere BigInsights) veröffentlichten beispielsweise SQL-Engines, die direkt das Datenformat für Hadoop lesen konnten und dazu die Batch-orientierte Verarbeitung mit
MapReduce umschifften. Die großen Softwarekonzerne Microsoft (Analytics Platform System, vormals Parallel Data Warehouse) oder Oracle (Big Data SQL) unterstützen die Möglichkeit, mit einer Abfrage Daten aus den relationalen Datenbanken
und Hadoop zusammenzuführen. In dem mittlerweile als TopLevel-Projekt geführten Apache Drill werkelt zudem die OpenSource-Gemeinde auf Grundlage von Googles Dremel an einer
Möglichkeit, per SQL ad hoc auf das Hadoop-Dateisystem und
andere Hadoop-Datenquellen zuzugreifen.
Kurzum: Die (Zugangs-)Welt zu den in Hadoop verwalteten
Daten gewinnt an Facetten. Spätestens mit der initialen Veröffentlichung des Release 2.x vor eineinhalb Jahren zeichnet sich
ab, dass die Tage als vornehmliche MapReduce-Ablaufumgebung endgültig gezählt sind. Denn die konsequente Trennung
der Datenverarbeitung von der Ressourcenverwaltung durch die
YARN-Komponente (Yet Another Resource Negotiator) vereinfacht den Weg erheblich, weitere spezialisierte Programmbibliotheken einzuführen. Insbesondere das gleichfalls von Apache
koordinierte Projekt Spark, ein interaktives In-Memory-Framework, entwickelt sich allen Anschein nach als ein eigenes Framework-Ökosystem innerhalb des Hadoop-Stacks.
In der Regel übernehmen die NoSQL-Systeme, vor allem Hadoop, im Rahmen größerer Big-Data-Infrastrukturen grundlegende Auswertearbeiten aus Massendaten im Hintergrund. Die
Ergebnisse dienen dann als Input für die Analysesysteme der BISpezialisten, um tiefergehende Einblicke zu gewinnen. Für diese
Aufgaben haben die einschlägigen Anbieter in jüngerer Zeit vermehrt In-Memory-Techniken in Stellung gebracht. Der Grund
ist recht simpel: Wenn Daten von Systemen wie SAP HANA zur
Bearbeitung vollständig im Hauptspeicher gehalten und nicht
mehr auf Festplatten zwischengelagert werden, führt das zum
enormen Geschwindigkeitsschub. Das eröffnet die Chance, beliebige Auswertungen ad hoc und in Echtzeit auszuführen. Die
Verbindung zwischen den Analyse- und Big-Data-Systemen
funktioniert im Übrigen immer besser bidirektional. SAS erlaubt
nicht nur, Daten aus Hadoop parallelisiert im eigenen In-Memory-Server abzulegen, zu bearbeiten und zurückzuschreiben. Der
BI-Spezialist unterstützt im Rahmen des In-Database-ProcessingKonzepts ebenso die direkte Ausführung seiner Analyse-Bibliotheken auf dem Hadoop-Cluster.
Auf welche Weise Big Data à la Hadoop und In-Memory zueinander finden, lässt sich an der xData-Plattform des Re-Targeting-Spezialisten xplosion interactive begutachten. Sie soll
Werbetreibenden und E-Commerce-Anbietern helfen, ihre Reklame kosteneffektiver einzusetzen. Kern der Anwendung ist
das Hadoop-Framework, das als eine Art zentrales Datenlager
(Single Point of Truth) alle angeschlossenen dispositiven Systeme verwaltet und steuert. Zu diesen zählt ein Data Warehouse
auf Grundlage der spaltenorientierten Datenbank EXASolution
von Exasol, das sämtliche Informationen aus Web-Logdaten
speichert und untersucht. Apaches Messaging-System Kafka
speichert die Daten im HDFS in ihrer ursprünglichen Form. Via
Hive werden die ursprünglich unstrukturierten Daten in Zwischenschritten letztlich in eine strukturierte Form gebracht, die
iX Developer 2015 – Big Data
BMWi unterstützt
Big-Data-Projekte
Unter dem Titel „Smart Data – Innovationen aus Daten“ fördert das
Bundesministerium für Wirtschaft und Energie (BMWi) insgesamt 13
Projekte mit einer Laufzeit von bis zu drei Jahren (2014 – 2017), um
den „Wachstumsmarkt Big Data für die deutsche Wirtschaft besser
zu erschließen“. Neben den technischen Arbeiten sollen im Programm
insbesondere auch rechtliche und gesellschaftliche Herausforderungen wie Fragen des Datenschutzes und der Akzeptanz untersucht
werden. Rund 30ˇMio. Euro an Fördermitteln wurden hierzu reserviert,
wobei das Programm durch Eigenmittel der Projektpartner insgesamt
rund 55ˇMio. Euro umfasst. Folgende Projektvorschläge wurden für
die Förderung ausgewählt (Konsortialführer jeweils in Klammern):
Industrie:
PRO-OPT: Big-Data-Produktionsoptimierung in Smart Ecosystems
(DSA Daten- und Systemtechnik)
SAKE: Semantische Analyse komplexer Ereignisse (USU Software)
SIDAP: Skalierbares Integrationskonzept zur Datenaggregation, -analyse, -aufbereitung großer Datenmengen in der Prozessindustrie (Bayer Technology Services)
Smart Data Web: Datenwertschöpfungsketten für industrielle Anwendungen (Deutsches Forschungszentrum für Künstliche Intelligenz (DFKI))
Mobilität:
ExCELL: Echtzeitanalyse und Crowdsourcing für eine selbstorganisierte City-Logistik (FELD M)
iTESA: Intelligent Traveller Early Situation Awareness (travel-BA.Sys)
sd-kama: Smart-Data-Katastrophenmanagement (geomer)
SD4M: Smart Data for Mobility (]init[ AG für digitale Kommunikation)
Energie:
SmartEnergyHub: Smart-Data-Plattform für das prognose- und
marktbasierte Energiemanagement von Infrastrukturbetreibern und
Energieverbünden auf Basis von Sensordaten (Fichtner IT Consulting)
SmartRegio: SmartRegionalStrategy – strategische Analyse heterogener Massendaten im urbanen Umfeld (YellowMap)
Gesundheit:
InnOPlan: Innovative, datengetriebene Effizienz OP-übergreifender
Prozesslandschaften (Karl Storz GmbH & Co. KG)
KDI: Klinische Datenintelligenz (Siemens)
SAHRA: Smart Analysis – Health Research Access (AOK Nordost)
Analysen in Echtzeit ermöglicht. Während sich der Besucher in
einem Webshop umsieht, ermittelt die Anwendung aus seinem
Kauf- und Suchverhalten ein Profil, das sie für personalisierte
Produktvorschläge auswertet.
Wert schaffen mit Big Data
Die Anwendung ist ein weiterer Beleg dafür, dass Big Data erst
im Zusammenspiel mit Analyse Nutzen stiftet. Das hat die Politik erkannt (siehe Kasten „BMWi unterstützt Big-Data-Projekte“). Darauf pochen in der Zwischenzeit auch einschlägige
Marktforschungsfirmen, die zuvor kräftig das Werbefeuer für
11
GRUNDLAGEN | BIG DATA
Big Data entfachten. Vor dem Hintergrund der rasant wachsenden Datenvolumina aus sozialen Medien, Sensoren und Maschinen (Internet der Dinge) sowie großer Datenpools innerhalb und
außerhalb von Firmen forderte Gartner-Mann David Cearley
beispielsweise nachdrücklich, die Analyse in den Mittelpunkt
zu rücken. Schließlich haben nur die Resultate einer Analyse einen Wert und nicht die Daten. Als marketinggestählter Berater
nutzte Cearley hier mit Blick auf den Big-Data-Begriff ein
Wortspiel aus Big Questions und Big Answers.
Big Data Analytics basiert zum Teil auf härtesten mathematisch-statistischen Methoden und Verfahren. Da fallen in schneller Folge Begriffe wie Assoziationsanalyse, Clustermethode,
Machine Learning, Regressionsanalyse, Data Mining etc. Um
Methoden und Verfahren dieser Art in Algorithmen zu gießen,
steht den Anwendern ein breites Tool-Angebot zur Wahl, das
mit und ohne große Datenmengen funktioniert. Textanalytik auf
unstrukturierten Daten kombiniert beispielsweise linguistische
Verfahren mit Suchmaschinen, Text Mining, Data Mining sowie
Algorithmen des maschinellen Lernens. Es wird unter anderem
zur sogenannten Sentiment-Analyse herangezogen, um automatisiert Stimmungen und Einstellungen zu ermitteln. Wie mayato-Geschäftsführer Marcus Dill erklärt, lässt sich das Sentiment
gegenüber den eigenen und Konkurrenzprodukten als ein Frühwarnsystem heranziehen, das Umsatzrückgänge oder das Abwandern größerer Kundengruppen ankündigt. Insbesondere im
Konsumentengeschäft tätige Firmen können so relativ einfach
Hinweise sammeln, wie ihre Marketingmaßnahmen und Produkte „draußen“ ankommen.
Textanalytik klingt in Ohren allerdings deutlich einfacher, als
es sich mitunter in der Realität entpuppt. Reine Wortmusterprüfungen sind nicht ausreichend, will man den in sozialen Netzen gepflegten Zynismus und Sarkasmus maschinell korrekt entschlüsseln. Ohne zusätzliche Auswertungen des Kontexts sind
Fehlinterpretationen Tür und Tor geöffnet. Aus dem Tweet „Ich
liebe Salt!“ folgerte die Analyse-Umgebung der WalmartLabs
angesichts des persönlichen „social gnome“ der Nutzerin messerscharf, dass der Actionthriller mit Angelina Jolie und nicht das
Speisegewürz gemeint war. Da zudem der Geburtstag der Nutzerin anstand, versorgte das Programm im konkreten Fall die
Freunde mit entsprechenden Hinweisen auf die Filmvorliebe.
Ein Rat, den Berater allerorten wohlfeil Unternehmen anbieten, lautet, sich zuvor Gedanken über den Wert der Daten und
der Realitätsnähe der Analysemodelle machen sollten. Denn
trotz der unstrittigen Potenziale von Big Data führen mehr
Daten nicht zwangsläufig zu besseren Informationen und Entscheidungen. Selbst Tom Davenport, der Dozent an der Harvard
Business School und im Herzen ein starker Verfechter der BigData-Idee, mahnt nachdrücklich, anstelle eine wilden Sammelwut erst einmal die richtigen Fragen zu stellen, beispielsweise
wie eine Anforderung definiert ist, welche Daten benötigt werden und woher diese stammen?
Insbesondere die Ergebnisse aus Prognoseverfahren verleiten
da schnell zu peinlichen Fehlschlüssen, wie Nate Silver im Zuge
der letztjährigen Fußballweltmeisterschaft erleben musste. Der
US-Amerikaner, dem der Ruf eines Statistikpapstes vorauseilt
und dessen Prognosemodell bei den Präsidentschaftswahlen 2012
den Sieger in allen Bundesstaaten korrekt bestimmte, hatte sich
im Vorfeld mit einer Wahrscheinlichkeit von 45,1ˇProzent auf
Brasilien als Sieger festgelegt – vor Argentinien (13ˇProzent) und
Deutschland (11ˇProzent).
Zur Ehrenrettung von Silver sei der Hinweis erlaubt, dass
Prognosen immer auf Wahrscheinlichkeiten beruhen. Seine Berechnungen basierten auf dem Soccer Power Index (SPI), einem
Algorithmus, den er gemeinsam mit Sportsender ESPN entwi12
ckelt hatte. In diesen fließen mit unterschiedlichen statistischen
Gewichten die Ergebnisse aller Länderspiele sowie die Offensivund Defensivstärken der Spieler ein. Zudem hatte Brasilien in den
vergangenen Jahren kein Heimspiel verloren und eine WM in
Südamerika noch nie eine europäische Mannschaft als Sieger hervorgebracht. Die Vorhersagen nährten sich folglich aus buchhalterischen Werten der Vergangenheit. Da sie aber auf Wahrscheinlichkeiten basieren, ist das Eintreten eher unwahrscheinlicher,
zufälliger Ereignisse immer möglich und widerspricht keinesfalls
der Modelllogik. Selbst der kleinste Wert steht für ein real mögliches Ereignis und kann – wie im Fall der WM – das Ende einer
als unumstößlich geltenden Fußballweisheit bedeuten.
Wer unter Big Data nur „more Data“ versteht, wird aber
noch aus einem anderen Grund scheitern. Die persönliche Ausleuchtung und Ausmessung der eigenen Person ist nicht frei
von „Nebenwirkungen“ – für Anwender und Unternehmen.
Diese Erfahrung machten auch die Kreditauskunftsdatei Schufa
und das HPI (Hasso-Plattner-Institut) vor drei Jahren, als sie
das Forschungsprojekt „Facebook Creditscore“ vorstellten. Ziel
war es, die persönlichen Daten in den sozialen Netzen zur direkten Bonitätsbewertung bei der Kreditvergabe von Banken
heranzuziehen. Angesichts des aufbrausenden Shit- oder besser
Kritik-Sturms sah sich selbst der BITKOM bemüßigt, Stellung
zu beziehen. „Nicht alles, was technisch möglich ist, sollte in
die Praxis umgesetzt werden“, ließ sich Dieter Kempf zitieren.
Der Verbandspräsident empfahl, alles zu unterlassen, „was das
Vertrauen in das Internet beschädigt“. Kurz: Die Protagonisten
mussten ihr Vorhaben nach nur zwei Tagen beerdigen.
Fazit
Internationale Firmen (z.ˇB. Walmart) hegen in diesem Punkt
jedoch weniger Skrupel. Das geht selbst manchem Star der
Werbebranche zu weit. Zu den Kritikern zählt beispielsweise
John Hegarty. Der Brite den die Queen wegen seiner Verdienste
in den Ritterstand erhob , teilte laut dem Magazin „Advertising
Age“ kräftig gegen die Datensammelwut der eigenen Zunft aus.
Selbst das unfeine F-Wort soll in diesem Zusammenhang gefallen sein. Sir Johns Credo: Unternehmen sollten sich lieber
um das eigene Geschäft kümmern, als immer mehr Informationen zu horten, um andere zu verstehen. Zurecht wies er darauf hin, dass die riesigen Datenmengen, die Supermarktketten schon heute in den Händen halten, schließlich nicht den
Pferdefleischskandal verhindert hätten. Hegarty mag jedenfalls
nicht, dass andere wissen, was er morgens und abends trinke.
Er möchte gar nicht von dritten verstanden werden; er verstünde sich ja manchmal selbst nicht. Dem ist eigentlich nichts mehr
hinzuzufügen.
(ane)
Literatur
[1]ˇBITKOM: Big Data und Geschäftsmodell – Innovationen
in der Praxis: 40+ Beispiele (2015) (www.bitkom.org/
files/documents/BITKOM-Leitfaden_Big_Data_und_
GM-Innovationen_06Febr2015.pdf)
Achim Born
ist freier Journalist und Korrespondent
der iX im Kölner Raum.
Alle Links: www.ix.de/ix1514008
x
iX Developer 2015 – Big Data
GRUNDLAGEN | INTERVIEW
Klaas Wilhelm Bollhöfer zum Status quo von Big Data im Gespräch
„Big Data bleibt.“
Wie sieht es mit dem Potenzial von Big Data aus?
Was sind hier die jüngsten Trends? Antworten gibt der in der
Big-Data-Szene umtriebige Klaas Wilhelm Bollhöfer.
iX Developer: Herr Bollhöfer, Sie sind schon länger im BigData-Umfeld unterwegs. Ist Big Data vor allem ein Hype, auf
den sich Tool-Hersteller und Marketing-Experten stürzen,
oder sehen Sie eine langfristige Chance?
Klaas Wilhelm Bollhöfer: Ich bin jetzt wirklich schon einige
Zeit dabei. Als vor gut fünf Jahren auch in Deutschland der Begriff „Big Data“ allmählich auf fruchtbaren Boden fiel, erste
innovative Unternehmen begannen, hatte ich meine ersten Berührungspunkte. Ursprünglich aus dem Bereich der digitalen
Medien und der Online-Agenturwelt kommend, geerdet im
klassischen Ingenieursstudium, hatte ich begonnen, meine programmatischen und mathematischen Grundlagen mit dem Business- und vor allem Design-Denken aus der Internet-Ära zu
kombinieren. Dass sich diese Mischung von Skills irgendwann
Data Science nennen würde, war – mir zumindest – zu dem
Zeitpunkt nicht klar.
Seitdem ist einiges passiert. Nach dem großen Hype, den wir
nach meiner Einschätzung in Deutschland vor 12 bis 18 Monaten erlebt haben, und den großen Erwartungen an neue datenbetriebene Geschäftsmodelle, neuartige Datenlösungen und disruptive Marktverschiebungen ist aber erstaunlicherweise keine
Ernüchterung eingetreten. Im Gegenteil – seit circa einem Jahr
kommt nun wirklich Bewegung in den Markt hierzulande. Die
Budgets scheinen allokiert, Fördertöpfe von EU und Bund ausgeschüttet, die Use- und/oder Business Cases eruiert, der Blick
auf die nächsten ein bis zwei Jahre ist vorausgeworfen, ein guter
Teil der doch recht steilen Lernkurve wurde beschritten. Big Data
ist da. Und was viel wichtiger ist: Big Data bleibt.
iX Developer: Obgleich Big Data also auch hierzulande angekommen ist, erscheint es trotzdem so, dass vor allem USamerikanische Start-ups das Thema allein für sich besetzt
hätten …
Bollhöfer: Aktuell zeichnet sich in Europa ein weiterer, sehr spannender Entwicklungsschritt ab – Industrieˇ4.0. Vor kurzem noch
müde belächelt, zumindest in der eingefleischten Big-DataCommunity, wird Industrieˇ4.0 als „das europäische Big-DataVehikel“ genutzt, um nicht zuletzt auch als trojanisches Pferd
der Markt- und Technologiemacht der Amerikaner bei Big Data
einen Gutteil abzutrotzen.
Was jedoch viel entscheidender ist: Die letzten Jahre wurden
intensiv genutzt, um das eigene Know-how und einen ersten unternehmensrelevanten und vor allem -spezifischen Erfahrungsschatz aufzubauen. Es ist nicht so, dass die Unternehmen jahre14
lang untätig waren, sich auf Konferenzen haben berieseln lassen
und mehrheitlich das Thema Big Data als Modeerscheinung abgetan hätten. Big Data wurde und wird sehr ernst genommen.
iX Developer: Was fehlt der deutschen IT-Szene dann noch?
Bollhöfer: Neben all der Planung und „Ernsthaftigkeit“ kommt
der Spaß zu kurz. Es ist ungemein notwendig, dass jeder, der
sich heute (aber vor allem morgen) mit Daten beschäftigen soll,
wird oder muss, mehr über Daten und Big Data in all seinen Facetten lernt. Und das idealerweise selbstmotiviert, spielerisch
und ergebnisoffen ohne den etablierten „Druck“ üblicher Ablauf- und Aufbauorganisationen. Big Data ist eine Art „infinite
game“, das uns jeden zu jedem Zeitpunkt auffordert, zu lernen,
zu denken, Entscheidungen zu fällen und (egal wie) voranzuschreiten. Deshalb ist für mich Big Data auch letztlich ein organisatorisches, wenn nicht gar ein Design-Thema.
iX Developer: Im Zusammenhang mit Big Data fallen häufig
die Stichworte NoSQL und Hadoop. Ist damit schon alles gesagt?
Bollhöfer: Auf keinen Fall! Big Data ist weit mehr als Technologie, und Big Data ist auch mehr als drei, vier oder siebzehn Vs
Klaas Wilhelm Bollhöfer …
… ist Chief Data Scientist bei The unbelievable Machine Company
(*um), einem Dienstleister für Cloud Computing und Big Data aus
Berlin.
iX Developer 2015 – Big Data
[Gartner hat ursprünglich einmal Big Data mit den 3 Vs definiert:
Volume, Velocity, Variety, Red.]. Hadoop oder NoSQL oder was
auch immer für „latest hot shit technologies“: Es geht um Prozesse und Verfahren, Techniken, Menschen und nicht zuletzt Design – ohne Gewichtung in der Reihenfolge. Es geht um die
ganzheitliche und nachhaltige Wertschöpfungskette rund um Daten in aller Vielfalt. Aus diesem Grund gehe ich stark davon aus,
dass der Begriff Big Data in der Form verschwinden wird und
wir in Zukunft nur noch von „Data“ sprechen, bitte nicht von
Smart Data, Intelligent Data, Ambient Data oder Quokka Data.
iX Developer: Was sind für Sie die derzeitigen Trends? Wohin
geht also die Reise?
Bollhöfer: Neben den neuen großen Themen Industrie 4.0,
Smart (Eco-)Systems oder Internet of Things (IoT), die alle ihre
Daseinsberechtigung haben und de facto Big Data weiter ausdifferenzieren, sehe ich derzeit drei große Entwicklungen am
Markt.
Erstens Algorithmen. Nachdem verstanden ist, dass sich mit
Big Data grundsätzlich beliebige Daten speichern, verarbeiten
und perspektivisch nutzen lassen, geht es nun immer stärker in
Richtung Mathematik. Machine Learning, Natural Language
Processing, Predictive Analytics, neuronale Netze, Cognitive
Computing oder Deep Learning sind nur einige der Begriffe,
die zunehmend in den allgemeinen (Business-)Sprachgebrauch
diffundieren. Sie erlauben es, Muster, Trends, Relationen oder
semantische Entitäten in Daten zu identifizieren und den nächsten Phasen im Data Lifecycle zuzuführen. Verpackt in neuartige
Produkte ermöglichen es uns diese Verfahren, mehr und mehr
Analysetätigkeiten an „Maschinen“ zu übergeben.
Zweitens Data Interfaces. Die Interfaces in Richtung von Big
Data werden immer vielfältiger, komfortabler und Businesstauglicher. Als Beispiele seien hier zahlreiche SQL-Interfaces
für Hadoop, Visual-Analytics-Produkte wie Tableau, IPython
Notebooks oder IBM Watson genannt. Ihnen ist gemein, dass
sie die Daten visualisieren, in den Zugriff stellen und dem Anwender das Arbeiten und „Spielen“ mit Daten so einfach wie
möglich machen beziehungsweise bekannte und gelernte Interfaces adoptieren. Das ergibt in mehrfacher Hinsicht Sinn. Zum
einen ist es für Unternehmen sinnvoll, gar zwingend, dem Business-Anwender in Entscheidungsprozessen direkt den Zugang
zu Daten und Analyse- beziehungsweise Visualisierungswerkzeugen in einer für ihn verdaulichen und sinnhaften Art und
Weise zur Verfügung zu stellen. Zum anderen ermöglicht es Unternehmen, dem Fachkräftemangel, der massiv im Bereich Big
Data Engineering und Data Science spürbar wird, ein Stück weit
entgegenzuwirken.
Drittens Plattformen. Die oft größte Herausforderung sind
derzeit aber häufig weder Algorithmen noch Interfaces zu den
Daten. Die erste Hürde liegt auf Seiten des Datenimports, dem
Data Ingestion. Reden wir von der Digitalisierung von Fertigungsstraßen, Optimierungsprozessen in der Logistik oder ganzheitlichen Mobilitätskonzepten, liegt die primäre Aufgabe darin,
all die Daten im ersten Schritt eins zu eins abzugreifen und zu
speichern. Das ist alles andere als trivial. Das ist höchste Ingenieurskunst. Der Trend ist – sofern man von Trend sprechen
kann –, dass Konzerne mehr und mehr auf heterogene Datenlandschaften setzen, eine Vielzahl neuer Technologiebausteine
mit etablierten, erprobten Lösungen zusammenstecken, um für
die datenbetriebene Unternehmenszukunft gewappnet zu sein.
Initial geht es um Import und Speicherung. In naher Zukunft
werden mehr und mehr Analytics- und Business-Applikationen
auf dieser neuen Plattform entwickelt und integriert werden.
Technisch reden wir häufig von sogenannten Lambda-ArchitekiX Developer 2015 – Big Data
turen mit je nach Anforderung ausgewählten Komponenten für
die einzelnen Schichten Ingest Layer, Speed Layer, Batch Layer,
Storage Layer und Serving Layer.
iX Developer: Was ergeben sich auf dem Job-Markt durch
Big Data für Möglichkeiten? Oder anders gefragt: Sind überhaupt genug Fachkräfte da, das Potenzial datengetriebener
IT-Projekte auszuschöpfen?
Bollhöfer: Big Data verlangt nach neuen Skills, Ressourcen,
aber vor allem nach Expertise. Wie man sich vorstellen kann,
liegt in letzterem der größte Knackpunkt. Derzeit haben wir deswegen sicherlich einen leichten Ressourcen-Engpass. So riesig
wie die Kluft aus Angebot und Nachfrage im Bereich Big Data
und Data Science häufig beschrieben sowie wieder und wieder
zitiert wird, ist sie aber meines Erachtens momentan noch nicht.
Aber sie wird größer. Nach meiner Schätzung von vor circa einem Jahr waren in Deutschland etwa 500ˇData Scientists tätig,
die Nachfrage war weitgehend gedeckt. Heute gehe ich von gefühlt gut 1000ˇData Scientists aus bei einer zunehmend wachsenden Nachfrage, die deutlich über dieser Annahme liegen
wird. Big Data ist in Deutschland angekommen, und es geht an
allen Ecken und Enden los. Diesen Schub kann der Personalmarkt zurzeit sicherlich schwer bedienen. Es ist unwahrscheinlich bis unmöglich, heute in Deutschland jemanden zu finden
und für sich zu gewinnen, der schon mehr als fünf Jahre DataEngineering- oder Data-Science-Expertise besitzt, sich in einer
Vielzahl an Techniken und Methoden bestens auskennt und
gleichzeitig noch das viel zitierte und wirklich relevante Domänenwissen mitbringt. Davon abgesehen, dass man diesen Jemand höchstwahrscheinlich weder bezahlen will noch kann.
Aber natürlich passiert gerade so einiges – zahlreiche Weiterbildungsangebote aus Wissenschaft und Wirtschaft, erste Studiengänge, Start-up-Initiativen wie das Data Science Retreat aus
Berlin, ein kompaktes 3-Monats-Hands-on mit namhaften internationalen Chief Data Scientists und die hochkarätigen Angebote von Plattformen wie Coursera, Udacity und Co. geben
Starthilfe und Zusatzqualifikation. Auf den Punkt gebracht,
könnte man sagen: Neben Raum braucht es auch Zeit, um Big
Data für sich urbar zu machen.
iX Developer: Was kennzeichnet für Sie einen guten Data
Scientist aus?
Bollhöfer: Das ist nicht so einfach zu beantworten und würde
höchstwahrscheinlich jeder Chief Data Scientist oder Teamlead
anders beantworten. Ursprünglich, ich meine von Hilary Mason
(seinerzeit Chief Data Scientist bei bit.ly) auf den Punkt gebracht, wurden Data Scientists als „awesome nerds“ bezeichnet.
Damit meinte sie die Skills-Schnittmenge aus Engineering, Mathematik, Computer Sciences und Hacking. Das trifft es in meinen Augen nicht zu 100ˇProzent. Ich finde die zuletzt von, so
meine ich, O'Reilly vorgestellten T-shaped Profiles passend, die
beschreiben, dass es „den“ Data Scientist nicht gibt, sondern das
Data Science de facto immer Teamsport ist. Ein Team von Data
Scientists, das sich mit seinen Schwerpunkten in etwa Statistik
oder Programmierung oder Business-Kommunikation (die „Ts“
in T-shaped) gut ergänzt, ist das Erfolg versprechendste. Mir persönlich geht es daher immer mehr um Teamplay und Motivation
als um die Zahl der Titel und Papers in Lebensläufen. Sicherlich
ein Grund, warum ich mir diese vor Einstellungsgesprächen fast
nie durchlese.
iX Developer: Vielen Dank für das Gespräch.
Die Fragen stellte iX-Redakteur Alexander Neumann. (ane) 15
GRUNDLAGEN | PROJEKTMANAGEMENT
Datengetriebene IT-Projekte im Wandel
Seen statt Silos
Thomas Franz
Der Nutzen von Daten und Informationen
hört nicht an Abteilungsgrenzen auf.
Im Gegenteil – beide entfalten erst dann
ihr ganzes Potenzial, wenn es Unternehmen
gelingt, genau diese Grenzen zu überwinden.
Deswegen muss im Big-Data-Umfeld
ein Umdenken einsetzen.
E
rst der berühmte „ganzheitliche Blick“ auf Prozesse, Kunden, Produkte sowie Services und deren Lebenszyklus, inklusive der Interaktionen zwischen Nutzer und Dienstleister oder Hersteller, erlaubt es den Verantwortlichen, die
bestmögliche Entscheidung zu treffen. Fehlt dieser Einblick,
müssen sie ihre Entscheidungen auf Intuition oder abgeleitete
Informationen stützen. Wie aber sollen Unternehmen den Überblick behalten, wenn sie Hunderte – bei größeren Unternehmen
oft auch Tausende – Anwendungen nutzen? Wie sollen sie die
Informationen, die in Datenbanken, Logfiles, Tabellenkalkulationen, Chats oder Dokumenten gespeichert sind, zusammenbringen?
Big Data bedeutet eine methodisch und technisch neue Form
der Datenverarbeitung, die Antworten auf solche Fragen gibt.
Big Data fordert aber auch ein Umdenken ein. Das betrifft die
technische Seite des Themas, aber auch damit einhergehende
methodische, organisatorische und fachliche Aspekte. Nur wenn
sämtliche dieser Fragestellungen berücksichtigt und ernst genommen werden, kann die Transition zu durch Daten optimierten Geschäfts- und Produktionsprozessen gelingen. Allzu oft
aber konzentrieren sich die Experten zu früh auf die Techniken.
„Technology last“ statt „Technology first“
Techniken sind die eine Seite der Medaille. Immer noch stellen
verteilte Systeme – also welche, die für die Ausführung auf physisch getrennter Hardware konzipiert sind – oder die Integration
von Cloud-Produkten in die IT-Infrastruktur die Experten vor
Herausforderungen. Dazu gehören auch die Verfahren und Abläufe, die bei solchen verteilten Systemen zum Zuge kommen:
MapReduce beispielsweise, um Datenverarbeitungsprozesse auf
verteilten Systemen auszuführen, oder In-Memory-Netzwerke –
verteilte Systeme, die hauptspeicherresidente Techniken nutzen –
sind die Konzepte der Stunde. Diese müssen die Fachleute erlernen und beherrschen.
16
Darüber hinaus kommen vor dem Hintergrund heutiger Informationslandschaften etablierte Umgangsformen mit Daten an
ihre Grenzen. Bisher galt die Regel: „Daten kommen in die Datenbank.“ Gemeint sind damit häufig relationale Datenbanken.
Die Arbeit mit dieser Art von Datenbank folgt typischerweise
folgendem Muster:
1. Daten modellieren (in Form von Relationen, Konsistenz- und
Integritätsbedingungen);
2. Daten erfassen, beispielsweise eingeben oder importieren beziehungsweise laden;
3. Daten per standardisierter Sprache anfragen, beispielsweise
SQL.
Ein Ansatz, der gut funktioniert, solange das „Datenumfeld“, in
dem das Unternehmen agiert, stabil ist. Ändern sich aber die Geschäftsprozesse, sollen Datenströme verarbeitet werden oder
lässt sich das Datenvolumen nur schwer oder gar nicht prognostizieren, dann wird dieses Muster zu einem Korsett, das die
Weiterentwicklung von Datenverarbeitungsprozessen verzögern
kann.
Einen anderen Ansatz implementieren viele Big-Data-Techniken, die (horizontale) Skalierbarkeit und insbesondere dynamische Schemata anbieten. Sie ermöglichen es, Daten „as is“ zu
sammeln, also ohne vorab ein Schema zu modellieren, aber auch
im Fall von Änderungen zu speichernder Daten ohne manuelle
Schritte geänderte Daten sofort aufnehmen zu können. Diese
Flexibilität ermöglicht zum Beispiel die Umsetzung eines Datensees, der als Senke für unterschiedlich strukturierte Informationen fungiert. (Die Idee des Data Lake geht auf James Dixon,
Mitgründer und CTO von Pentaho, zurück.) Die Daten im See
dürfen sich dabei verändern und lassen sich zunächst wirtschaftlich sammeln. Ein Datensee ist gleichzeitig die Basis für vielfältige Verwertungsansätze. Er setzt, im Vergleich zu beispielsweise Data-Warehouse-Ansätzen, auf eine andere Art der Arbeit
mit den Daten. Darüber hinaus unterscheidet sich die verwendete Datenbanktechnik durch ihre größere Flexibilität. Diese beschleunigt den Prozess der Informationssammlung. Das gilt vor
iX Developer 2015 – Big Data