Il y a 4 ans -
Temps de lecture 1 minute
La Data dans l’ère post-Hadoop
Soyons francs, l’écosystème Hadoop a vécu, et le traitement de la Data s’ouvre aujourd’hui plus que jamais sur le Cloud que ce soit avec Kubernetes ou bien avec des services managés. Le déploiement, comme le run de clusters Hadoop ne doit plus être un sujet et de nouvelles voies doivent s’ouvrir.
Le Cloud apporte de très nombreuses possibilités et facilités, que ce soit via les services managés de GCP ou ceux d’AWS. Il évoluent aussi rapidement que régulièrement, et abstraient toujours plus de choses. Restent donc des challenges tels que “Comment déployer ses propres modèles et algorithmes dans ces outils ?”, “Comment peut-on s’en servir proprement ?”, ou encore “Comment déployer et relier tous ces services les uns avec les autres en respectant les bonnes pratiques, et ce, automatiquement ?”.
De plus, la Data devient également un point d’entrée vers Kubernetes, ce qui, au final, a beaucoup de sens au vu du caractère distribué et scalable des traitements effectués. Que ce soient Kafka, Spark ou Kubeflow sur Kubernetes, les moyens de concevoir des architectures post-Hadoop sont disponibles, à nous d’en tirer parti !
Keywords
- Data dans le Cloud
- Kubeflow
- Spark on K8s
- Kafka Operator
- AWS Glue
- Data Catalog
- Dataflow
- Pub/Sub
- Kinesis
- Object Storage
Notre partage sur le sujet
Articles de blog
- Deux Data Lovers au Spark+AI Summit Europe 2018
- Data : Spark Structured Streaming avec Kafka Schema Registry
- Focus sur la Data sur GCP chez Early Birds avec Jonathan Norblin
- Spark : comprendre et corriger l’exception Task not serializable
- Tester du code Spark – 2 – La pratique
- Tester du code Spark – 1 – La théorie
Vidéos
- Mois du cloud
- Xebicon’ 18
- DataXDay
Commentaire