La Data Science, de l’idée à la production

Pour qu’un projet de Data Science puisse aller au-delà de la simple étape du PoC, il est nécessaire de penser au plus tôt à sa mise en production, c’est à dire penser au cycle de vie complet du développement : Exploration ↔ Industrialisation ↔ Mise en Production. Nous parlons ici bien de cycle, pas uniquement d’un workflow unique.

Il ne faut notamment pas tomber dans le piège d’une phase exploratoire interminable, sans aucun objectif préalable de mise en production. De trop nombreux projets s’enferment dans un tunnel de plusieurs mois d’exploration pour trouver le modèle le plus performant qui soit, et, lorsque (ou plutôt si) l’équipe est satisfaite, décident de le mettre en production, pour finalement se rendre compte que cette étape est impossible ou trop coûteuse en termes de bibliothèques à disposition ou de temps de calcul.

Penser à une mise en production au plus tôt, c’est s’assurer qu’une chaîne de traitement complète est mise en place dès les premières étapes d’un projet, afin de valider sa faisabilité et l’automatisation de nombreuses parties. C’est aussi s’assurer que tout ce qui est fait en phase exploratoire se fasse avec des contraintes qui permettent une industrialisation à coûts maîtrisés. C’est enfin mener des analyses d’erreurs et des boucles de feedback efficaces afin de repartir sur une phase exploratoire contrôlée qui se focalise sur ce qui permettra d’améliorer au mieux les performances. L’industrialisation est souvent vécue comme un frein à l’innovation en Data Science, alors qu’elle devrait en être un accélérateur.

La Data Science en production, ce sont des bonnes pratiques issues du Software Craftsmanship et du développement agile, adaptées aux problématiques spécifiques à ce type de projet. C’est aussi une organisation d’équipe mêlant plusieurs profils différents, ainsi qu’une vision produit claire dès les premières étapes d’un projet pour s’assurer de sa bonne utilisation par la suite.

Keywords

  • Packaging
  • Model Repository
  • Knowledge Repository
  • Data Science Design Sprint
  • Model Serving
  • Monitoring
  • Du notebook au code propre
  • MLFlow
  • KubeFlow
  • Machine Learning Platforms
  • Scheduling / Gestion de workflow
  • Design Thinking
  • Vision Produit
  • Data Science Agile
  • Ré-entraînement automatique de modèles

Notre partage sur le sujet

Articles de blog

Vidéos

 

Livre blanc

  • Le livre blanc « TechTrends Produits Data Science – Data Science, de l’idée à la production » est disponible en téléchargement ici.

 

Published by

Publié par Yoann Benoit

Yoann est Data Scientist et Technical Officer chez Xebia. Il travaille sur la création de produits Data Science, de leur exploration à la mise en production. Il intervient sur de nombreux sujets autour de la Data Science, de l'Intelligence Artificielle et du Big Data.

Commentaire

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *

Nous recrutons

Être un Sapient, c'est faire partie d'un groupe de passionnés ; C'est l'opportunité de travailler et de partager avec des pairs parmi les plus talentueux.