Résultats

Publié par Eren Gundag

Il y a 1 an

Découvrir le cloud avec AWS en développant un data pipeline – Partie 5

Nous arrivons à la dernière partie de ce tutoriel. Nous avons commencé par définir ce qu’est le cloud computing et ce qu’il peut apporter d’intéressant à nos projets. Nous avons ensuite découvert plusieurs services comme Amazon S3, AWS IAM ou AWS Glue autour de la mise en place d’un data pipeline. Ces services sont généralement...

Publié par Eren Gundag

Il y a 2 ans

Découvrir le cloud avec AWS en développant un data pipeline – Partie 4

Dans la précédente partie de ce tutoriel, nous avons développé ce qui constitue le cœur de notre data pipeline, le job de transformation et d’ingestion de données. Nous avons également découvert une fonctionnalité intéressante d’AWS Glue qui nous permet d’analyser nos fichiers de données afin d’en générer des tables, exposées via un catalogue de données....

Publié par Eren Gundag

Il y a 2 ans

Découvrir le cloud avec AWS en développant un data pipeline – Partie 3

Dans la précédente partie de ce tutoriel, nous avons construit la première étape de notre data pipeline : son déclenchement à l’arrivée des fichiers de données, ainsi qu’un prétraitement des données. Cette étape a été l’occasion pour nous de découvrir AWS Lambda qui nous permet d’exécuter notre code sans se soucier de l’infrastructure à déployer...

Publié par Eren Gundag

Il y a 2 ans

Découvrir le cloud avec AWS en développant un data pipeline – Partie 2

Dans la première partie de ce tutoriel, nous avons présenté brièvement les principes d’un service de cloud computing comme AWS et certains de ses avantages puis avons fait nos premiers pas dans la console. Nous avons ensuite découvert l’un des services les plus emblématiques d’AWS, Amazon S3, service de stockage orienté objet, à travers la...

Publié par Eren Gundag

Il y a 2 ans

Découvrir le cloud avec AWS en développant un data pipeline – Partie 1

Vous souhaitez découvrir le cloud mais ne savez pas par où commencer : les concepts et façons de travailler diffèrent de ceux dont vous avez l’habitude; les sites d’AWS (Amazon Web Services), GCP (Google Cloud Platform) ou encore Microsoft Azure présentent une longue liste de produits aux noms pas toujours parlants; vous craignez que votre...

Il y a 4 ans

Data Lovers, les vidéos des conférences du DataXDay sont en ligne

La deuxième édition du DataXDay s’est tenue le 27 juin dernier, et autant le dire, c’était une édition haute en couleurs ! Les 250 Data Lovers présents ont pu assister à une vingtaine de conférences techniques. Data Science, Data Engineering et Data Architecture toutes les briques de la Data se sont empilées pour proposer un...

Il y a 4 ans

Data Lovers, découvrez le programme du DataXDay !

DataXDay, LA conférence technique Data organisée par Xebia et Publicis Sapient, est dans un mois ! Data Lovers, nous sommes impatients de vous y retrouver. Si vous n’avez pas encore votre place, il est encore temps de profiter du tarif Early Bird à 70 euros seulement. Venez, donc durant la journée, assembler les différents blocs...

Il y a 5 ans

Exploration de données en Scala

Aujourd’hui, c’est la première journée où Henri va faire de la data. Henri est développeur back Scala à la base, et aimerait contribuer à la partie data de son projet. Or, la plupart des outils sont en Python. On peut certes trouver rapidement des How-To sur Internet traitant de la data en Python, mais Henri, lui,...

Il y a 5 ans

Xebia lance DataXDay, conférence technique dédiée à la Data.

Cette année, Xebia organise une conférence unique dédiée à la Data en France : DataXDay.  DataXDay est une conférence pour les passionnés et les professionnels gravitant dans l’écosystème de la Data, souhaitant trouver des réponses à leurs problématiques du quotidien. La conférence se déroulera le 17 mai prochain au Pan Piper. Pourquoi une conférence dédiée à la Data ? Vous...

Publié par Jonathan Norblin

Il y a 6 ans

Spark : comprendre et corriger l’exception Task not serializable

Dans tous les langages, le debugging peut parfois s’avérer une tâche fastidieuse. C’est d’autant plus le cas lorsque l’on utilise un framework distribué avec beaucoup de concepts complexes sous-jacents, comme Spark. Cet article propose de revenir sur l’une des erreurs les plus souvent rencontrées lors du développement d’applications avec Spark, et qui n’est pas toujours...

Publié par Sylvain Lequeux

Il y a 6 ans

Tester du code Spark – 2 – La pratique

Que de la théorie. Les tests du code Spark semblent abonnés à cette réalité : tout reste théorique. À croire qu’en réaliser est impossible. Il est grand temps de remédier à ce problème et démontrer que le sujet est abordable par tous. Quitter la théorie, c’est débuter par les bonnes pratiques. Des réflexes sur la spécification...

Publié par Sylvain Lequeux

Il y a 6 ans

Tester du code Spark : 1- La théorie

Spark est plus puissant et plus simple à utiliser que MapReduce, mais comment tester du code Spark ? Voici notre vision ! Spark est un framework de calcul distribué créé à Berkeley en 2010. Il connait une adoption impressionnante. Plusieurs raisons à cela : des performances de très loin supérieures à MapReduce et un framework à...

Publié par Yoann Benoit

Il y a 7 ans

PySpark sur votre IDE – Comment faire ?

Spark est maintenant un framework incontournable pour le traitement massif de données. Il est aussi de plus en plus utilisé dans les équipes de développement de projets Data, surtout via son API principale en Scala. Qu’en est-il de Python ? Si cette API est elle aussi massivement utilisée, force est de constater qu’on la retrouve...

Publié par Yoann Benoit

Il y a 8 ans

From scikit-learn to Spark ML

Dans un récent billet de blog de Databricks et Olivier Girardot, From Pandas to Apache Spark’s DataFrame, les auteurs nous montraient comment transposer le traitement et l’analyse de données faites avec la librairie Python pandas en DataFrames PySpark. L’article prouvait que, bien que quelques différences techniques existent dues au fait que les objets traités ne...

Publié par Alban Phelip

Il y a 8 ans

Découvrez SparkR, la nouvelle API de Spark

Le 11 juin dernier la version 1.4.0 de Apache Spark a été publiée. Parmi toutes les nouveautés annoncées la plus importante était la venue d’une nouvelle API venant s’ajouter aux trois déjà existantes (Scala, Java et Python) : R. R est un langage d’analyse statistique particulièrement apprécié chez les statisticiens. Nous vous présentions sur ce blog...

Publié par Yoann Benoit, Alban Phelip

Il y a 8 ans

Les outils de la Data Science : Spark MLlib, mise en pratique (2/2)

  Dans le précédent article, nous vous présentions les différents concepts liés à MLlib : les types de RDD à fournir, la structure des algorithmes et la démarche à adopter pour construire une chaîne de traitement de Machine Learning. Nous allons maintenant mettre en pratique ces concepts à travers plusieurs exemples basés sur les différents algorithmes...

Publié par Yoann Benoit, Alban Phelip

Il y a 8 ans

Les outils de la Data Science : Spark MLlib, théorie et concepts (1/2)

Dans deux précédents articles nous vous présentions R et Python et comment ils sont utilisés en Data Science. La limite de ces langages est cependant rapidement atteinte lorsque l’on a affaire à de gros jeux de données qui ne tiennent plus en mémoire. Dans ce cas là, la solution à envisager est de distribuer les...

Nous recrutons

Être un Sapient, c'est faire partie d'un groupe de passionnés ; C'est l'opportunité de travailler et de partager avec des pairs parmi les plus talentueux.