Résultats
Il y a 1 an
Découvrir le cloud avec AWS en développant un data pipeline – Partie 5
Nous arrivons à la dernière partie de ce tutoriel. Nous avons commencé par définir ce qu’est le cloud computing et ce qu’il peut apporter d’intéressant à nos projets. Nous avons ensuite découvert plusieurs services comme Amazon S3, AWS IAM ou AWS Glue autour de la mise en place d’un data pipeline. Ces services sont généralement...
Il y a 2 ans
Découvrir le cloud avec AWS en développant un data pipeline – Partie 4
Dans la précédente partie de ce tutoriel, nous avons développé ce qui constitue le cœur de notre data pipeline, le job de transformation et d’ingestion de données. Nous avons également découvert une fonctionnalité intéressante d’AWS Glue qui nous permet d’analyser nos fichiers de données afin d’en générer des tables, exposées via un catalogue de données....
Il y a 2 ans
Découvrir le cloud avec AWS en développant un data pipeline – Partie 3
Dans la précédente partie de ce tutoriel, nous avons construit la première étape de notre data pipeline : son déclenchement à l’arrivée des fichiers de données, ainsi qu’un prétraitement des données. Cette étape a été l’occasion pour nous de découvrir AWS Lambda qui nous permet d’exécuter notre code sans se soucier de l’infrastructure à déployer...
Il y a 2 ans
Découvrir le cloud avec AWS en développant un data pipeline – Partie 2
Dans la première partie de ce tutoriel, nous avons présenté brièvement les principes d’un service de cloud computing comme AWS et certains de ses avantages puis avons fait nos premiers pas dans la console. Nous avons ensuite découvert l’un des services les plus emblématiques d’AWS, Amazon S3, service de stockage orienté objet, à travers la...
Il y a 2 ans
Découvrir le cloud avec AWS en développant un data pipeline – Partie 1
Vous souhaitez découvrir le cloud mais ne savez pas par où commencer : les concepts et façons de travailler diffèrent de ceux dont vous avez l’habitude; les sites d’AWS (Amazon Web Services), GCP (Google Cloud Platform) ou encore Microsoft Azure présentent une longue liste de produits aux noms pas toujours parlants; vous craignez que votre...
Il y a 4 ans
Data Lovers, les vidéos des conférences du DataXDay sont en ligne
La deuxième édition du DataXDay s’est tenue le 27 juin dernier, et autant le dire, c’était une édition haute en couleurs ! Les 250 Data Lovers présents ont pu assister à une vingtaine de conférences techniques. Data Science, Data Engineering et Data Architecture toutes les briques de la Data se sont empilées pour proposer un...
Il y a 4 ans
Data Lovers, découvrez le programme du DataXDay !
DataXDay, LA conférence technique Data organisée par Xebia et Publicis Sapient, est dans un mois ! Data Lovers, nous sommes impatients de vous y retrouver. Si vous n’avez pas encore votre place, il est encore temps de profiter du tarif Early Bird à 70 euros seulement. Venez, donc durant la journée, assembler les différents blocs...
Il y a 5 ans
Exploration de données en Scala
Aujourd’hui, c’est la première journée où Henri va faire de la data. Henri est développeur back Scala à la base, et aimerait contribuer à la partie data de son projet. Or, la plupart des outils sont en Python. On peut certes trouver rapidement des How-To sur Internet traitant de la data en Python, mais Henri, lui,...
Il y a 5 ans
Xebia lance DataXDay, conférence technique dédiée à la Data.
Cette année, Xebia organise une conférence unique dédiée à la Data en France : DataXDay. DataXDay est une conférence pour les passionnés et les professionnels gravitant dans l’écosystème de la Data, souhaitant trouver des réponses à leurs problématiques du quotidien. La conférence se déroulera le 17 mai prochain au Pan Piper. Pourquoi une conférence dédiée à la Data ? Vous...
Il y a 6 ans
Spark : comprendre et corriger l’exception Task not serializable
Dans tous les langages, le debugging peut parfois s’avérer une tâche fastidieuse. C’est d’autant plus le cas lorsque l’on utilise un framework distribué avec beaucoup de concepts complexes sous-jacents, comme Spark. Cet article propose de revenir sur l’une des erreurs les plus souvent rencontrées lors du développement d’applications avec Spark, et qui n’est pas toujours...
Il y a 6 ans
Tester du code Spark – 2 – La pratique
Que de la théorie. Les tests du code Spark semblent abonnés à cette réalité : tout reste théorique. À croire qu’en réaliser est impossible. Il est grand temps de remédier à ce problème et démontrer que le sujet est abordable par tous. Quitter la théorie, c’est débuter par les bonnes pratiques. Des réflexes sur la spécification...
Il y a 6 ans
Tester du code Spark : 1- La théorie
Spark est plus puissant et plus simple à utiliser que MapReduce, mais comment tester du code Spark ? Voici notre vision ! Spark est un framework de calcul distribué créé à Berkeley en 2010. Il connait une adoption impressionnante. Plusieurs raisons à cela : des performances de très loin supérieures à MapReduce et un framework à...
Il y a 7 ans
PySpark sur votre IDE – Comment faire ?
Spark est maintenant un framework incontournable pour le traitement massif de données. Il est aussi de plus en plus utilisé dans les équipes de développement de projets Data, surtout via son API principale en Scala. Qu’en est-il de Python ? Si cette API est elle aussi massivement utilisée, force est de constater qu’on la retrouve...
Il y a 8 ans
From scikit-learn to Spark ML
Dans un récent billet de blog de Databricks et Olivier Girardot, From Pandas to Apache Spark’s DataFrame, les auteurs nous montraient comment transposer le traitement et l’analyse de données faites avec la librairie Python pandas en DataFrames PySpark. L’article prouvait que, bien que quelques différences techniques existent dues au fait que les objets traités ne...
Il y a 8 ans
Découvrez SparkR, la nouvelle API de Spark
Le 11 juin dernier la version 1.4.0 de Apache Spark a été publiée. Parmi toutes les nouveautés annoncées la plus importante était la venue d’une nouvelle API venant s’ajouter aux trois déjà existantes (Scala, Java et Python) : R. R est un langage d’analyse statistique particulièrement apprécié chez les statisticiens. Nous vous présentions sur ce blog...
Il y a 8 ans
Les outils de la Data Science : Spark MLlib, mise en pratique (2/2)
Dans le précédent article, nous vous présentions les différents concepts liés à MLlib : les types de RDD à fournir, la structure des algorithmes et la démarche à adopter pour construire une chaîne de traitement de Machine Learning. Nous allons maintenant mettre en pratique ces concepts à travers plusieurs exemples basés sur les différents algorithmes...
Il y a 8 ans
Les outils de la Data Science : Spark MLlib, théorie et concepts (1/2)
Dans deux précédents articles nous vous présentions R et Python et comment ils sont utilisés en Data Science. La limite de ces langages est cependant rapidement atteinte lorsque l’on a affaire à de gros jeux de données qui ne tiennent plus en mémoire. Dans ce cas là, la solution à envisager est de distribuer les...