Il y a 4 ans -
Temps de lecture 3 minutes
La Data Science, de l’idée à la production
Pour qu’un projet de Data Science puisse aller au-delà de la simple étape du PoC, il est nécessaire de penser au plus tôt à sa mise en production, c’est à dire penser au cycle de vie complet du développement : Exploration ↔ Industrialisation ↔ Mise en Production. Nous parlons ici bien de cycle, pas uniquement d’un workflow unique.
Il ne faut notamment pas tomber dans le piège d’une phase exploratoire interminable, sans aucun objectif préalable de mise en production. De trop nombreux projets s’enferment dans un tunnel de plusieurs mois d’exploration pour trouver le modèle le plus performant qui soit, et, lorsque (ou plutôt si) l’équipe est satisfaite, décident de le mettre en production, pour finalement se rendre compte que cette étape est impossible ou trop coûteuse en termes de bibliothèques à disposition ou de temps de calcul.
Penser à une mise en production au plus tôt, c’est s’assurer qu’une chaîne de traitement complète est mise en place dès les premières étapes d’un projet, afin de valider sa faisabilité et l’automatisation de nombreuses parties. C’est aussi s’assurer que tout ce qui est fait en phase exploratoire se fasse avec des contraintes qui permettent une industrialisation à coûts maîtrisés. C’est enfin mener des analyses d’erreurs et des boucles de feedback efficaces afin de repartir sur une phase exploratoire contrôlée qui se focalise sur ce qui permettra d’améliorer au mieux les performances. L’industrialisation est souvent vécue comme un frein à l’innovation en Data Science, alors qu’elle devrait en être un accélérateur.
La Data Science en production, ce sont des bonnes pratiques issues du Software Craftsmanship et du développement agile, adaptées aux problématiques spécifiques à ce type de projet. C’est aussi une organisation d’équipe mêlant plusieurs profils différents, ainsi qu’une vision produit claire dès les premières étapes d’un projet pour s’assurer de sa bonne utilisation par la suite.
Keywords
- Packaging
- Model Repository
- Knowledge Repository
- Data Science Design Sprint
- Model Serving
- Monitoring
- Du notebook au code propre
- MLFlow
- KubeFlow
- Machine Learning Platforms
- Scheduling / Gestion de workflow
- Design Thinking
- Vision Produit
- Data Science Agile
- Ré-entraînement automatique de modèles
Notre partage sur le sujet
Articles de blog
- Export et Serving de modèles et pipelines de machine learning
- DATA : Exploration de données textuelles en Scala
- Exploration de données en Scala
- Data/Agile : Data Scientists et Data Engineers, ensemble sinon rien
- Data : Outil d’exploration de données
- Tester du code Spark – 2 – La pratique
- Tester du code Spark – 1 – La théorie
Vidéos
- XebiCon’18 – Des notebook pour le monitoring avec Zeppelin
- XebiCon’18 – MLFlow and the Machine Learning Lifecycle
- XebiCon’18 – Utilisateurs finaux et équipiers, la coopération nécessaire pour nos produits !
- XebiCon’18 – OUI.sncf : Optimisation des enchères sur Google Adwords avec le Deep Learning
- XebiCon’18 – Data Science Done Wrong
- XebiCon’18 – Comment fausser l’interprétation de vos résultats avec des dataviz
- DataXDay – A Data Scientist journey to industrialization of Machine Learning
- Tech4Exec – Pourquoi faut-il gérer votre projet (Big) Data comme une startup gère son produit ?
- Tech4Exec – [Air France] Comment la maintenant prédictive a permis à Air France d’anticiper les pannes de ses Airbus A380 ?
- XebiCon’17 – Déploiement continu de modèle de Machine Learning
- Mois de la Data ’17 – Du notebook au code propre : L’histoire d’amour entre Data Science et Software Craftsmanship peut commencer
- Mois de la Data ’17 – Luigi, le Machine Learning lui dit merci
Livre blanc
- Le livre blanc « TechTrends Produits Data Science – Data Science, de l’idée à la production » est disponible en téléchargement ici.
Commentaire