Les méthodologies de gestion de projet en science des données

Temps de lecture : 6 minutes

Pour le moment, en science des données, il n’y a pas de méthodologie de gestion ou de livraison de projets qui fait l’unanimité. Dans ce contexte, il est important pour les équipes en science des données de savoir quelle méthodologie créée le plus d’efficacité dans la qualité des livrables et la cohésion des équipes.

Avant tout, ce qui existe aujourd’hui en gestion de projet en science des données comme méthodologie de gestion de projet est issu de domaines connexes à la science des données (tel que le « data mining » ou encore le développement de logiciel).

À quoi ressemble une méthodologie optimale en science des données?

S’il fallait citer trois caractéristiques que doit avoir une bonne méthodologie en science des données, ce serait :

  1. Être accès sur les données;
  2. Avoir des processus itératifs;
  3. Être accès sur les tâches (« task-focused »).

Mais d’autres critères sont à prendre en considération, comme l’industrie ou le domaine sous-jacent (l’industrie de l’assurance, le monde de l’ingénierie, l’industrie du jeu vidéo, l’industrie bancaire, etc.). La dynamique d’équipe est tout aussi importante, car une équipe de science des données qui est principalement attachée ou sous la coupole des T.I. et des équipes de développement aura tendance à se pencher vers une livraison en mode « développement de logiciel », une équipe de scientifique de données issues du monde de l’actuariat aura tendance à suivre les cadres de travail et méthodologies du monde de la statistique ou de l’actuariat et ainsi de suite.

Tout cela pour dire que le choix méthodologique dépend avant tout du contexte et de l’environnement et que celui-ci qui doit être cohérent avec l’approche sélectionnée.

Les méthodologies les plus répandues en science des données (toute industrie confondue) :

CRISP-DM:

Description :

« Cross Industry Standard Process for Data Mining » a été créé dans l’objectif de servir des projets de « data mining ». Considérée comme la plus utilisée, cette méthodologie permet de livrer des projets en mode « itératif », et cela autant que nécessaire. Divisée en 5 grandes étapes (Compréhension des besoins d’affaires, compréhension des données, préparation des données, modélisation, évaluation et déploiement).

CRISP-DM gestion de projet en science des données

Avantages :

  • Mets l’emphase sur la compréhension des besoins d’affaires avant tout.
  • Le mode itératif permet une intégration continue du projet.

Désavantages :

  • La méthodologie n’est plus mise à jour par la communauté CRISP-DM.
  • Les étapes de déploiement sont très peu adaptées au contexte actuel.
  • Les étapes de préparation des données et de modélisation ne sont pas adaptées aux concepts de données de masses (« Big Data ») et aux concepts d’apprentissage profond (« Deep Learning »).
  • N’inclus pas de dimension gestion des priorités.
  • N’inclus pas de dimension travail d’équipe ou à plusieurs personnes dans le même projet.

Liens utiles :

Agile Kanban:

Description :

Cette méthodologie adaptée à la science des données reprend les grandes étapes de la méthode CRISP-DM pour le transformer en flux de travail (« pipeline ») principalement accès sur la représentation visuelle du travail et la gestion des priorités bas niveau/haut niveau.

agile kanban - gestion de projet en science des données

Avantages :

  • Offre de la flexibilité sur le niveau de détail du flux de travail par projet. (De très granulaire à haut niveau)
  • Permets une meilleure répartition des tâches par membre de l’équipe.
  • Permets une meilleure gestion des priorités.

Désavantages :

  • Ne permets pas de dériver facilement des processus d’itérations.
  • La méthodologie ne va pas toujours prendre en considération les contraintes inhérentes au monde de la science des données.

Liens utiles :

Agile Scrum :

Description :

Cette méthodologie est axée sur la durée et l’intensité des efforts avant tout. Adaptée au monde de la science des données, elle permet un retour rapide avec des résultats « viables » et prêts pour être mis en production. Le focus est avant tout un focus produit.

agile scrum - gestion de projet en science des données

Avantages :

  • Les nouvelles versions de la méthode Agile Scrum incluent la formation en continu, durant le projet, afin de découvrir de nouvelles approches et techniques. Cela est adapté au monde très vaste et changeant de la science des données.
  • Permets d’obtenir des premiers résultats très rapidement.

Désavantages :

  • Le fardeau est avant tout mis sur le propriétaire du produit (ou product owner).
  • Il faut d’avance définir la durée d’un sprint, ce qui en science des données peut être un exercice difficile.
  • Généralement les sprints sont perçus comme des phases de développement intenses sans prendre le temps de mettre en perspective les besoins d’affaires définis. Cela peut entraîner le rajout d’autres sprints pour permettre de réajuster le travail en fonction des besoins redéfinis.

Liens utiles :

Les manufacturiers logiciels et leurs méthodologies :

  • Certains grands manufacturiers logiciels ont développé des méthodologies de gestion de projet, basées sur leurs années d’expertises. Certaines de ces méthodologies sont éprouvées dans le monde de la science des données.

SEMMA:

Description :

  • SEMMA étant l’acronyme de « Sample, Explore, Modify, Model, and Assess » a été développé par l’institut SAS.
SEMMA gestion de projet en science des données

Avantages :

  • Est axée sur la suite de produits SAS Enterprise Miner. Idéal lorsque le développement se fait sur les solutions SAS.

Liens utiles :

IBM Cloud Garage Method :

Description :

  • L’approche IBM Garage qui se focalise sur 6 grandes étapes. Issue du monde logiciel avant tout, l’approche cherche à inclure d’autres nécessités et prérequis à la fois au niveau Infrastructure et TI.  
IBM Garage - gestion de projet en science des données

Avantages :

  • Focaliser sur les besoins d’affaires avec une approche produits grâce au concept de Design Thinking qui fait partie de la méthodologie.
  • Prends en considération les besoins et enjeux TI.

Liens utiles :

Microsoft TDSP :

Description :

TDSP étant l’acronyme pour « Team Data Science Process ». Microsoft a tenté de créer une approche englobante, qui permet de gérer toute sorte de projets en science des données (depuis l’analyse de données ad hoc, jusqu’au développement de solution d’apprentissage profond)

Microsoft - gestion de projet en science des données

Avantages :

  • Offre une forte flexibilité dans la mise en place de la méthodologie.
  • Offre une gestion de cycle de vie complet. Avec à la fin de chaque cycle l’étape « customer acceptance ». Cette étape consiste à valider le post-déploiement et savoir si la solution a été adoptée par les usagers/clients.

Liens utiles :

D’autres alternatifs ou variantes subsistes :

Le KDD : « Knowledge Discovery and Data Mining »

kdd - gestion de projet en science des données

Le ASUM-DM : « Analytics Solutions Unified Method »

ASUM - gestion de projet en science des données

Avec toutes les options possibles, que faut-il choisir?

La réponse est… ça dépend!

Il faut avant tout comprendre le contexte d’entreprise, la dynamique des équipes de science des données, le type de livrable. Ce qui est difficile est de se développer un standard de gestion de projet en science des données qui soit applicable en toutes circonstances, quelle que soit la nature du projet en science des données.

Si vous vous cherchez un cadre pour débuter vos projets en science des données. L’idéale est de commencer par des cadres standards tels que CRISP, ASUM, KDDS, TDSP pour par la suite pouvoir développer sa propre version interne basée sur l’expérience cumulée.

Pour ce qui est de la performance réelle de chaque méthodologie. Voici une étude menée par des chercheurs de l’université de Syracuse intitulée : « Comparing Data Science Project Management Methodologies via a Controlled Experiment », 2017. Cette étude m’a d’ailleurs inspiré cet article. Elle a pour objectif de comparer l’efficacité réelle de trois méthodologies en science des données auprès d’étudiants et de chercheurs.

Aussi, si vous cherchez à mieux comprendre comment débroussailler les terminologies en science des données : voici un article complémentaire https://www.datapro.quebec/intelligence-artificielle-vs-science-des-donnees/