L'auteur
Description de l'auteur
Articles
Il y a 2 ans
Evitez le remote state Terraform entre modules
Dans tout projet non trivial utilisant Terraform, il va être nécessaire de créer des modules et d’être capable de relier ces modules ensemble. Assez rapidement, une data source de type remote state va sans doute être utilisée. Mais bien que simple d’utilisation, cela a des implications sur la sécurité. C’est ce que nous allons voir...
Il y a 3 ans
Découvrons KubeFlow… Pipelines
Vous avez installé KubeFlow, par exemple avec GCP car c’est trivial. Et maintenant, vous êtes perdus dans l’interface. Pas de panique, nous allons parcourir tout cela ensemble. Durant le précédent article, vous êtes arrivés à créer une instance KubeFlow. Nous allons maintenant voir la suite, une fois que vous avez cliqué sur “ouvrir le tableau...
Il y a 3 ans
Installer KubeFlow avec GCP ? Trivial !
Apprendre un modèle prédictif est en général une étape bien maîtrisée. La majorité des problèmes se situe plus sur la définition du besoin et sur la capacité de valider des hypothèses grâce à une industrialisation suffisante. En effet, ces deux étapes sont nécessaires afin d’itérer sur votre produit data. Nous allons ici faire un focus...
Il y a 9 ans
Article Programmez « Développer un job Map/Reduce pour Hadoop »
Hadoop Map/Reduce est un framework de calcul distribué inspiré du paradigme fonctionnel. Dans cet article, nous allons voir dans un premier temps la théorie, ce qu’est ce paradigme, puis la pratique, en écrivant en job complet pour Hadoop. Un précédent article expliquait comment installer un cluster Hadoop.
Il y a 9 ans
Explorer vos données avec le Notebook d’IPython
Un algorithme de machine learning peut à terme sortir des résultats paraissant magiques. Mais la première étape sera toujours d’explorer les données. Sinon, on risque de tomber dans l’approche inverse : "garbage in, garbage out". Pour faciliter cette exploration, on souhaite posséder un outil qui permette de projeter, agréger, visualiser les données mais également de...
Il y a 10 ans
[Livre] « Storm Real-time Processing Cookbook »
Storm permet de faire du traitement à la volée (stream processing) de façon distribuée et tolérante à la panne. D’une certaine façon, c’est la contrepartie à Hadoop MapReduce qui ne gère que du batch. Ce projet fut rendu open source fin 2011 et un écosystème commence à se former autour de celui-ci. Packt a publié...
Il y a 10 ans
5ième Open Source Developers Conference France
La cinquième édition de l’Open Source Developers Conference France (OSDC.fr) aura lieu cette semaine, les 4 et 5 octobre, au Beffroi de Montrouge, à Paris. Cette conférence est organisée par les Mongueurs de Perl, l’AFPy (Association France Python), Ruby France, l’European Smalltalk User Group et l’Association Française des Utilisateurs de PHP. Il est ainsi tout...
Il y a 10 ans
[Livre] « Entreprise Data Workflows with Cascading »
A la mi-juillet, le livre « Entreprise Data Workflows with Cascading » fut publié chez O’Reilly. Son auteur Paco Nathan est le « data science director » de « Concurrent, Inc », l‘entreprise ayant rendu Cascading open source et encore principal moteur de son évolution. Par ce blog, nous vous avions déjà présenté Cascading , ainsi que Cascalog et relayé...
Il y a 10 ans
Voldemort, depuis Hadoop (3/3)
Précédemment, nous avons vu ensemble l’intérêt de Voldemort pour stocker vos recommandations quotidiennes (article) et comment installer Voldemort en lecture seule (article). Mais celui-ci, sans données, ne présente pas beaucoup d’intérêt. Il est désormais temps de terminer le tutoriel pas à pas, avec la génération des fichiers (données et index) depuis Hadoop, puis leur import.
Il y a 10 ans
Voldemort, en lecture seule (2/3)
Précédemment, nous avons vu l’intérêt de Voldemort pour stocker vos recommandations quotidiennes. Il est maintenant temps de mettre les mains dans le cambouis en commençant par installer Voldemort en lecture seule.
Il y a 10 ans
Voldemort, le gardien de vos recommandations quotidiennes (1/3)
Hadoop permet d’optimiser le temps d’exécution de traitements distribués quand ils sont limités par la bande passante vers les données. Mais, pour cette même raison, son système de fichiers (HDFS) n’est pas conçu pour les accès aléatoires. Si vous recalculez les recommandations pour vos utilisateurs chaque nuit, comment exposer alors à chaque utilisateur les données...
Il y a 10 ans
Hadoop Summit 2013 à Amsterdam, le rattrapage
Le premier Hadoop Summit en Europe est fini. Mais si vous n’avez pu y participer, il est toujours temps de se rattraper en consultant les slides et les vidéos des présentations renseignées sur le planning. Bien sûr, cela ne vous permettra pas de participer aux échanges ‘de couloirs’. Mais il ne faut pas non plus...
Il y a 10 ans
Hadoop Summit commence Mercredi
Mercredi prochain, le 20 mars, commencera la première conférence Hadoop Summit en Europe, à Amsterdam! Cette conférence de deux jours est une occasion unique pour partager ses expériences autour de l’écosystème Hadoop. Certainement tout le monde connait le buzz word BigData mais en dehors du ‘simple’ volume cela implique aussi énormément de diversité dans l’utilisation...
Il y a 10 ans
Hadoop User Group, ce soir : après Drill, voici Impala
Hadoop User Group, ce soir : après Drill, voici Impala Drill et Impala sont les dernières stars de l’écosystème Hadoop puisqu’ils promettent tous les deux une analyse interactive ("temps réel", si on aime le buzz word) des données contenues dans HDFS. Ted Dunning a présenté Drill lors du dernier meetup, le 4 décembre. C’est maintenant au tour d’Impala, qui vous...
Il y a 10 ans
IBM Streams par Jérome Chailloux au Hadoop User Group
Jérome Chailloux présente IBM Streams au Hadoop User Group France qui s’est déroulé chez Xebia le 7 novembre 2012.
Il y a 10 ans
Agile Analytics Applications par Russell Jurney au Hadoop User Group
Russell Jurney (@rjurney), évangéliste Hadoop chez HortonWorks et auteur d’Agile Data, présente Agile Analytics Applications au Hadoop User Group France, qui s’est déroulé chez Xebia le 7 novembre 2012.
Il y a 11 ans
4ième Open Source Developers Conference France
La quatrième édition de l’Open Source Developers Conference France (OSDC.fr) aura lieu cette semaine, le 12 et 13 octobre, à l’Eurosites George V. Cette conférence est organisée par les Mongueurs de Perl, l’AFPy (Association France Python), Ruby France, l’European Smalltalk User Group et l’Association Française des Utilisateurs de PHP. Il est ainsi tout naturel de...
Il y a 11 ans
Les dessous de Cascalog, Cascading
On peut critiquer la verbosité de l’API MapReduce, mais cette problématique n’est pas tant liée à la syntaxe du langage hôte qu’au manque d’abstraction. Dans un précédent article, vous avez pu voir Cascalog au travers d’une approche hands-on et remarquer qu’il est possible d’exprimer succinctement des traitements de données complexes. Si vous avez creusé un peu plus,...
Nous recrutons
Être un Sapient, c'est faire partie d'un groupe de passionnés ; C'est l'opportunité de travailler et de partager avec des pairs parmi les plus talentueux.