Hadoop, les clés du succès - Didier Kirszenberg

Hadoop, les clés du succès
Didier Kirszenberg,
Responsable des architectures Massive Data, HP France
© Copyright 2015 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.
Par où commencer ?
La direction demande un projet Big Data « générique »
– Identification des sujets
HP Big Data Discovery Workshop
Echanges métiers
– Mise en place d’une stratégie Datalab
– Mise en place d’une stratégie DataLake
– Mise en place d’une stratégie DataViz
Un métier a une demande précise
– Phase de qualification : SLA, Stratégie de restitution
– Privilégier les approches itératives
– « Pizza Team »
L’IT veut se faire la main en attendant les demandes métier
– Partir de besoins Big Data de l’IT (Gestion des logs, Sécurité…)
L’IT veut monter une offre Hadoop as a service
– Expertise et références HP
© Copyright 2012 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.
Changement de paradigme pour les DBA
Type de données
On traite du structuré mais aussi du non structuré
– Evolution de la notion de qualité des données (Moins de synchronisation, plus d’échantillons, time stamp)
–
Recherche de performance
–
–
–
–
–
–
–
–
Passage systématique à des schémas ‘dénormalisés’ (réplication pour éviter les jointures)
Plus d’effet de seuil (mode Batch, traitement long mais pas bloqué)
Peu ou pas d’indexes
Possibilité de définir les « formats » a postériori -> Datalake
Plus de partitionnement des données (data sharding, rotation)
Peu ou pas de triggers et de procédures stockées (mais modules CEP disponibles)
Architecture MPP : Matériel faible cout, le volume peut améliorer la performance
Possibilité de solutions spécialisés (Base en colonne, Base document, base Graphe…)
Procédure d’opération
Pas de Backup Restore sur plusieurs Peta
– Multi-site restreint
– Sécurité spécifique
–
3
© Copyright 2012 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.
Intégration aux stratégies de développements
Direct Hadoop Connections
Hadoop
Data
SQL
Scalable MPP SQL Database with Hadoop Connector
Hadoop
integration
tools
Traditional Database
ie : PostgreSQL
Extract / format data
In Hadoop (ETL)
Key/Value Store
Developped with Hadoop tools
Storm
4
Clojure
© Copyright 2012 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.
Monde Hadoop
BI traditionnel
BI
Tools
Math.
Language
5
Hive
Pig
Mahout
HCatalog
Batch Processing
MapReduce
Impala,
Stinger, Drill
Low latency Processing
TEZ, Spark
Cascading
Resource management & Coordination
YARN
MESOS
Zookeeper
Distributed Storage
HDFS2
OS
Server
OS
Server
OS
Server
OS
Server
OS
Server
HP ProLiant Gen8 server with DAS
© Copyright 2012 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.
…
OS
Server
Data Integration Services
HBase, Cassandra, Spark
Non-Relational Database
Oozie
Workflow & Scheduling
Ambari, Cloudera Mger, Hue
CMU
Management & Monitoring
Sentry , Knox, Kerberos, OpenLDAP
Security
Hadoop Virtualization Extensions on VMware
vSphere® 5 (HVE)
Cloud Enablement
Data Processing
Flume, Sqoop, Storm, Kafka, WebHDFS
Selectionner ses modules dans l’ecosystème Hadoop
Hadoop les aspects réseau
Les principes de base
Hadoop est sensible à la bande passante
Un réseau 10Gbit Ethernet est une option, cette architecture n’est pas obligatoire
– L’usage de plusieurs ports 1Gbit Ethernet en agrégation de liens (LACP) est une architecture alternative
–
Hadoop n’était pas sensible à la latence mais cela évolue
Il n’est donc pas nécessaire de considérer un réseau Infiniband ou 40Gbit Ethernet
– Avec l’introduction des requêtes interactives cet aspect va évoluer
–
Hadoop génère un trafic inter-nœuds important (en particulier la phase Shuffle)
L’utilisation de commutateurs « Deep Buffer Caching » est un atout pour les performances
– Il faut éviter les architectures réseaux « Nord-Sud » qui remontent les flux dans un back-bone et prendre des top-of-racks qui
« isolent » le cluster
–
Hadoop n’est pas « routable » (niveau 3)
6
© Copyright 2012 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.
Gestion des architectures parallèles (MPP)
Nouvelles procédures et nouveaux utilitaire (HPInsight CMU)
Gestion de systèmes standards
•
•
•
•
L’objectif est de déployer de nombreux services sur une machine
Tous les OS peuvent être différents
Les opérations sont par défaut basées sur l’Hyperviseur
La performance s’analyse au niveau d’un système unitaire
-> le coût d’opération est lié au nombre d’OS
Massivelly Parallel systems management
•
•
•
•
L’objectif est de déployer un unique service sur de nombreuses machines
Tous les OS doivent être similaires au firmware près
Pas d’hyperviseur (les services utilisent 100% des systèmes)
La performance s’analyse au niveau global
-> le coût d’opération doit être lié au nombre de services
Hadoop (comme Mongo DB, Couchbase, Vertica, SAS VA, Moonshot…) induit la gestion de systèmes
massivement parallèles
7
© Copyright 2012 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.
HP CMU
Gestion des fermes de calcul
- Aide au tuning du développement
- Opérer 10, 100, 1000 systèmes comme
un seul
- Adresse Vertica et Hadoop, SAS HPA et
SAS Visual Analytics
8
8© Copyright 2012 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.
Merci
[email protected]
© Copyright 2015 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.
10 © Copyright 2012 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.